Главная
Аппаратные решения
Технология crossfirex как использовать. SLI и CrossFire: micro-stuttering и масштабирование

Технология crossfirex как использовать. SLI и CrossFire: micro-stuttering и масштабирование

27.09.2018

Асимметричный ответ ATI: новая технология CrossFire

24 мая, в Москве, в самый разгар жаркой весны, сотрудники фирмы ATI провели конференцию, посвященную описанной в этой статье технологии, подробностям новой игровой приставки Xbox 360 и другим не менее полезным вещам. Было здорово, спасибо Николаю Радовскому и другим представителям компании за полезную информацию и очень компетентные ответы на вопросы!
Не было слишком много для визуальных эффектов за пределами конкретных зданий, больших стен бункера и предполагаемого бесконечного распространения пустыни. Как и в случае с остальной частью Черного Меса, мы взяли исходные уровни и использовали их в качестве базы, заполняя в наших собственных деталях. В некоторых случаях мы расширили существующие истории, рассказанные этими уровнями. В других случаях мы создали свои собственные истории, уникальные для всего мира.

Когда мы делаем наши уровни многопользовательской игры, мы пытаемся несколько разных вещей визуализировать карту. Здесь есть особые «ощущения» и истории, которые мы хотим рассказать с помощью карты, но мы не уверены, какой лучший фон должен вызывать эти чувства или рассказывать об этом. Много раз мы будем проходить три, четыре, иногда пять разных тематических баз, прежде чем мы примем решение по тому, что нам нравится. Были некоторые случаи, но это были выдающиеся события. Участок с близкими кварталами, где все оружие и где игроки появляются.
А теперь, не мешкая, перейдем к сути статьи:

ATI CrossFire — так официально называется канадский ответ на NVIDIA SLI, о котором шептались и «подозревали» технологические форумы сети еще полгода назад. Есть ли отличия? Да, несомненно. Есть ли преимущества? Судя по всему, да, и весьма значительные. Через некоторое время мы опубликуем тесты и практические исследования аспектов качества, а пока исследуем теоретические и архитектурные стороны и попробуем спрогнозировать тенденции и результаты.

Это та область, где вы увидите большую часть действий, когда игроки взбираются, чтобы получить оружие. Вы можете увидеть большой заградительный барьер между двумя зонами. Ниже приведены некоторые изображения того, что перекрестный огонь выглядит сейчас. С тех пор у нас гораздо меньше этой серой блокады, нет? Сообщите нам, что вы думаете! Что пытается сдерживаться?

Перевод Господь, смывай грязь! Во имя Бога исцелите раненное! У нас есть третий на своем пути, а четвертый - это то, над чем мы будем работать. Это займет больше времени для обзора, так как мне придется потратить время на физическую игру в игры, но в конечном итоге это будет стоить того. Что касается подробных спецификаций, это то, что мы запускаем. Иногда нишевой термин считается само собой разумеющимся. Это было так долго, что выродки воспринимают это как должное. Конечно, за исключением, возможно, для людей, которые не следили за оборудованием за последние десять лет.

Общая архитектура CrossFire

Основная цель технологии — организация совместной работы двух графических ускорителей над построением изображения. Причем, архитектура должна быть не только эффективной (высокий КПД, низкая стоимость дополнительных схем, доступность для простых частных покупателей и энтузиастов), но и удобной в использовании (совместимость с уже существующими программами и даже с уже существующими аппаратными решениями, прозрачность, простота и надежность). Требований очень много, и, забегая вперед, похвалим ATI за качественный и очень продуманный подход при решении этих задач. Итак, нам предложена вот такая архитектура:

Это не просто для нескольких видеокарты

Теперь ваш шанс наверстать упущенное. Эта схема стала более распространенной с течением времени. Это по-прежнему в целом. Есть исключения, но их мало и вообще не стоит проблем. Тем не менее, все карты будут работать с тактовой частотой самой медленной карты.

Чип интегрирован на некоторые высококачественные материнские платы.

Это не просто для нескольких видеокарты

Несколько ускорителей (в варианте для пользователей их два) формируют собственную часть изображения, и выводят её через TMDS трансмиттеры в общепринятом цифровом стандарте DVI. Затем информация попадает в «черный» (на схеме — красный) ящик под названием Composing Engine, устройство, которое собственно и осуществляет совмещение результатов работы ускорителей для получения финального изображения. На выходе из этого красного ящика — вновь стандартный цифровой DVI сигнал, но на этот раз — уже финального кадра, собранного из двух порций данных, рассчитанных обоими VPU. Для устранения проблем с синхронизацией, Composing Engine содержит собственную буферную память, что позволяет этому устройству накапливать данные асинхронно, и, затем, по мере готовности обоих ускорителей, формировать и выдавать результирующий кадр. Таким образом, четкая синхронизация работы VPU не требуется, достаточно двух фактов — каждый VPU должен знать, какую часть данных ему надо рассчитать, и каждый VPU должен закончить передачу рассчитанных данных в этот «красный ящик», Composing Engine. После этого будет осуществлена передача кадра на устройство вывода, в формате DVI или (если нам нужен аналоговый сигнал) на внешний графический DAC, преобразующий цифровой DVI поток в стандартный аналоговый VGA сигнал.

Теперь самый актуальный вопрос как VPU будут делить между собой рассчитываемые данные? Небольшая теоретическая часть на эту тему:

Основные алгоритмы взаимодействия ускорителей

Можно легко выделить три основных алгоритма, применяемых в наше время для этой цели в различных потребительских и профессиональных решениях:

Разделение экрана на несколько непересекающихся зон (Scissor, также известно как Slicing). Это решение используется в современной технологии NVIDIA SLI, и во многих специальных решениях, таких как симуляторы для обучения пилотов (несколько окон тренировочной установки, модели самолета), большие информационные мультиэкраны и т.д.
Для двух VPU будет происходить вертикальное разделение финального кадра на две зоны. Интересно, что граница зон не обязательно должна проходить по середине кадра и может выбираться динамически, исходя из сложности той или иной части изображения — грубо говоря, в верхней половине может оказаться меньше объектов, чем внизу (небо) и тогда один из ускорителей будет простаивать, что может быть скомпенсировано увеличением его зоны ответственности. Задача подобной динамической балансировки нетривиальна, и требует анализа сцены, что не всегда удобно. Этот метод хорош для сбалансированных по критерию геометрических вычислений / закраска приложений, так как в идеале (при правильном адаптивном делении кадра на зоны ответственности), позволит им поровну распределить и геометрическую и пиксельную нагрузку по двум ускорителям.
Построчное или шахматное или иное чередование рассчитываемых пикселей (Tiling)  самый удобный и прозрачный, с точки зрения организации, метод, когда ускорители рассчитывают соседние строчки (SLI от 3dfx, где чередовались четные и нечетные строки) или пиксели в шахматном порядке (фактически почти тоже самое) или соседние отсчеты для AA в рамках одного результирующего пикселя. Таким образом, нагрузка по закраске делится строго поровну, вне зависимости от конкретной сцены, а вот геометрическую нагрузку VPU приходится дублировать — оба ускорителя рассчитывают одни и те же геометрические данные. Получается, что в случае приложений, не упирающихся в геометрическую производительность ускорителя (а в наше время это практически все игровые приложения), этот метод может обеспечить серьезный прирост скорости закраски, вплоть до двукратного (если запас простаивающей геометрической производительности двукратный). Таким образом, мы распараллеливаем пиксельную работу поровну, имея близкий к 100% КПД, без каких-либо видимых проблем совместимости или сложностей в организации балансировки и разделения потока данных. Метод требует минимальных вмешательств в драйверы, прозрачен для приложений и выглядит наиболее оптимальным, сейчас, для игрового пользовательского рынка. Особенно, учитывая все большее число приложений с тяжелой пиксельной нагрузкой и шейдерными спецэффектами. Более того, по ходу дела, этот метод может быть использован для эффективного FSAA, основанного на усреднении отсчетов, рассчитанных разными ускорителями. Что в дополнение к MSAA, реализованному в каждом VPU, даст нам еще и суперсэмплинг (SSAA), способный решить некоторые проблемы не достаточно эффективно устраняемые MSAA.
Чередование рассчитываемых кадров (Alternate Frame Rendering) методика знакомая нам еще по самому первому многочиповому решению ATI в пользовательской нише — RAGE Fury MAXX. Хороша для приложений, упирающихся в геометрическую производительность ускорителя и не критичных к плавности смены кадров, что, надо отметить, редкость в наше время в игровых приложениях, но может иметь место в DCC/CAD/CAM/CAE применениях (например, при интерактивном редактировании моделей в приложениях для создания реалистичной графики).

Итак, суммируем плюсы и минусы вышеописанных подходов:


Scissor (Slicing)	Делит и геометрическую и пиксельную нагрузку Высокая степень асинхронности работы VPU Ускоритель полностью владеет своей подотчетной зоной изображения результата	Требует балансировки на лету зон для равномерного распределения нагрузки Могут быть проблемы с AA на стыке зон Требует заметного вмешательства в драйвер и потому высока вероятность неожиданной и неверной работы некоторых приложений
Tiling +SuperAA	Делит пиксельную нагрузку ровно поровну Очень точная балансировка нагрузки между VPU Можно использовать для новых методик AA (SSAA) Прозрачен для приложений и почти не требует модификации драйверов, мала вероятность неверной работы приложений	Не делит геометрическую нагрузку и потому требует существенного запаса в геометрической производительности Требует достаточно синхронной работы ускорителей и соответственно отсутствия различия их скоростных и прочих характеристик
Alternate Frame Rendering	Делит и пиксельную и геометрическую нагрузку, причем геометрия не дублируется по шине разные ускорители получают разные наборы данных Ускоритель полностью отвечает за свой кадр, никаких следов стыковки, даже в случае сложного постпроцессинга, никаких ограничений на метод построения кадра.	Неровное чередование кадров и распределение нагрузки КПД сильно зависит от CPU и системы, а также от характера сцены и падает с ростом FPS Проблема со значительной задержкой между кадром, который нам демонстрируется и кадром, который в данный момент строится.

Какой из них избрали специалисты ATI? Оставайтесь с нами, об этом чуть позже. А пока перейдем к конкретике реализации CrossFire в «железе». Как же вышеописанный метод «красного ящика», объединяющего изображения, был исполнен ATI на практике? Вот так:

Конкретика CrossFire

Итак, у нас есть две карты, установленные в одной системе (требуется материнская плата CrossFire Edition), с двумя графическими PCI-Express слотами форм-фактора x16. Обычная карта ATI и специальная карта ATI с технологией CrossFire:

Вот почему статья называется «Асимметричный ответ» ;-) Оказывается, инженеры ATI решили поместить описанный выше «красный ящик» (С Engine на схеме) на одну карту, «главную», и передавать на него данные со второй карты через обычный внешний DVI разъем. Тем самым, создав решение, совместимое с уже существующими картами, выпущенными до появления CrossFire! Разве это не здорово — если у вас уже есть PCI-Express карта ATI с DVI выходом, то вам достаточно докупить специальную CrossFire карту, соединить DVI выход старой карты с новой при помощи специального провода, который идет в комплекте. И ваша суперсистема готова. На выходе новой карты вы получите уже собранное Composing Engine, по результатам работы обоих ускорителей изображение, в DVI или аналоговом VGA формате.

На карте с технологией CrossFire установлен специальный разъем, напоминающий DVI, но имеющий большее число контактов, на схеме он обозначен как DMS. Через этот разъем в карту попадает DVI сигнал с первой карты, через него же из карты выходят сигналы DVI и аналогового VGА результирующего изображения, собранного красным ящиком. Кроме того, на исходной карте остается незадействованным второй выход (DVI+VGA или только VGA), а также TV-Out, а на карте CrossFire — тоже есть второй DVI+VGA. Все эти выходы, не участвующие в совместном построении изображения, разумеется, могут быть использованы для дополнительных мониторов и других стандартных применений в «мирное», не игровое время, но на них естественно нельзя выводить совместное изображение, рассчитанное обоими ускорителями в режиме CrossFire — оно поступает только на выходы разъема DMS.

А теперь самый интересный вопрос. Внимание, знатоки. Какой алгоритм разбиения изображения был выбран ATI для реализации в своем «красном ящике»?

Правильный ответ любой из трех описанных выше!

Физически, на CrossFire карте «красный ящик» представляет собою не специальный чип с жестко запрограммированным в него алгоритмом работы, а небольшой универсальный чип с программируемым массивом логических вентилей. Этот небольшой чип содержит в себе гибко настраиваемую схему логических элементов и буферную память для хранения промежуточных результатов, а алгоритм его работы задается драйверами, загружающими в него соответствующую схему связей. На данный момент ATI реализовали все три выше описанные методики, но это не значит, что в будущем не появятся новые, улучшенные или гибридные решения по разделению нагрузки на два ускорителя. Все, что будет необходимо — просто обновить драйверы. Не удержусь и второй раз похвалю инженеров ATI за элегантное решение — мало того, что такой подход существенно снизил стоимость разработки и внедрения CrossFire, он позволил выбирать для каждого конкретного применения режим, оптимальный с точки зрения КПД (из доступных) и, тем самым, во многом застраховал наши инвестиции в мультичиповое решение от капризов конкретных игр и приложений.

Итак, задействуя CrossFire:

Мы можем использовать старую карту, уже установленную в нашей системе * , надо купить вторую CrossFire карту и системную плату с двумя графическими слотами PCI-Express (если такой еще нет).
Мы можем выбирать для каждого конкретного приложения оптимальный метод взаимодействия ускорителей при построении изображения. Причем, мы можем предоставить этот выбор драйверу, и тогда он будет сверяться со списком заранее проверенных ATI приложений, для которых уже подобрана оптимальная установка, или установит самый надежный с точки зрения прозрачности для приложения Tiling метод, если приложение ему не известно. А можем выбрать метод самостоятельно, поэкспериментировав с результатами в конкретном приложении, заботясь о КПД или о максимальном качестве изображения.
Мы можем получить, в будущем, новые режимы и методы взаимодействия.
Мы можем на лету, не перезагружая систему, включать и выключать CrossFire, а также менять режимы его работы.
У нас появляются новые методы AA — когда к 2, 4 или 6 семпловому MSAA в каждом чипе, добавляется еще и 2хSSAA — усреднение результатов в Composing Engine. В итоге получается уже знакомая нам по продуктам NVIDIA гибридная формула. В случае ATI, доступны два новых режима (пока) — SS2х(MS4x) SS2х(MS6х), которые почему-то названы ATI «10хAA» и «14хАА», что не совсем точно;-) скорее, надо было назвать их «2*4хAA» и «2*6xAA». Разумеется, в таких режимах устанавливается различное расположение отсчетов MSAA для первого и второго ускорителя, только тогда это сглаживание будет иметь смысл. Но, как мы знаем, у чипов ATI паттерн отсчетов гибко задается на сетке 4х4, и таким образом мы можем разместить там два набора по 6 отсчетов так, чтобы они не пересекались.
Мы можем использовать совместно карты разных производителей (например, ASUS и Sapphire в одной упряжке)!

* При условии, что у вас есть системная плата CrossFire Edition

Какие конкретные ограничения есть у этой технологии на данный момент:

Технология будет доступна (вначале) только для карт серии X800 и X850. Причем для обычных карт серии X800 необходима X800 карта с технологией CrossFire, а для карты X850 соответствующая CrossFire карта серии X850.
Любые карты семейства можно сочетать (любая X800 с X800 CrossFire и любая X850 с X850 CrossFire), но число конвейеров будет ограничено до минимального общего — то есть, если одна из карт 12 конвейерная, то и вторая, даже будучи 16 конвейерной, будет работать в режиме CrossFire как 12 конвейерная. Это сделано для балансировки производительности.
Технология совместного рендеринга работает только на один монитор.
Пока что объявлена гарантированная (!) совместимость только материнскими платами на чипсетах ATI серии Xpress 200 с приставкой CrossFire Edition для процессоров Intel и AMD, однако по мере тестирования и обкатки будут анонсироваться и совместимые платы на чипсетах других производителей никаких принципиальных проблем в такой совместной работе нет, но могут возникать конкретные несовместимости.

Какие перспективы есть у этой технологии на будущее:

Ее очень легко адаптировать к другим существующим (X700 и иже) и будущим решениям ATI. Фактически, любая новая флагманская карта ATI может выходить сразу и в исполнении с этой технологией
Будут проверены и признаны совместимыми новые системные платы с двумя графическими слотами, в том числе на чипсетах Intel и, возможно, даже на чипсетах NVIDIA.
Позже эта технология может быть масштабирована дальше, не секрет, что по аналогии с процессорами через пару лет могут появиться многоядерные или многочиповые ускорители в одном корпусе, и тогда станут возможными схемы 2*2 (две карты с двумя ускорителями на каждой).

Цены, даты, прогнозы

Теперь немного совсем приземленной конкретики. Для начала цены и доступность:

Причем, на прилавках магазинов CrossFire карты будут уже в конце июня, начале июля.

Вот такие данные по производительности решений с двумя картами, CrossFire X850 XT в сравнении с NVIDIA SLI 6800 Ultra приводит ATI (внимание: в обоих случаях задействованы две карты):

Для разрешения 1600х1200 (4xAA 8xAF)

Воздержимся от комментариев до получения собственных результатов скорости и качества работы этой технологии, а пока же отметим, что SLI работает лишь с ограниченным (причем сильно ограниченным) числом игр, в чем очень заметно проигрывает CrossFire, и, требует покупки двух новых карт, что также не может считаться большим плюсом по сравнению с CrossFire. Которая (потенциально) применима к практически миллиону уже существующих владельцев продуктов на базе всех карт семейства X800 и X850, без необходимости продавать свою старую карту.

Два самых актуальных вопроса: удастся ли ATI удержать это технологическое первенство? Ведь следующее поколение продуктов NVIDIA может взять на вооружение лучшие находки канадских специалистов в том или ином виде. И почему технология называется CrossFire — не имелась ли в виду одноименная машина фирмы Chrysler ? ;-)

Разумеется, реально очень многое будет зависеть от соотношения цена / производительность в конкретных играх. А также от наличия проблем с качеством изображения и совместимостью. Все эти аспекты мы исследуем в ближайшее время, а пока же подведем промежуточный итог:

Инженеры ATI создали очень выгодную, гибкую и удобную архитектуру многочипового рендеринга, нацеленную на конечных пользователей и игровые приложения. На бумаге перспективы CrossFire выглядят более заманчиво, чем NVIDIA SLI, а архитектурное решение можно (и нужно) признать более изящным и продуманным. В активе и совместимость с уже существующими картами и работа со всеми приложениями, и гибкий выбор метода совместной работы ускорителей. Разумеется, подобная технология нацелена на достаточно узкую нишу энтузиастов, и не принесет компании особенной сверхприбыли, но не следует забывать, что лидерство в абсолютном зачете, которое может обеспечить CrossFire, несомненно, скажется на продажах mainstream продукции ATI в лучшую сторону, а технологическое лидерство в такой области — не менее осязаемый и ценный вклад в имидж компании.

Это технология от компании AMD, которая позволяет объединить несколько видеокарт в единое виртуальное целое. Такое объединение дает огромную графическую производительность в играх и других программах, которые работают со сложной 3D графикой.

По заявлению специалистов компании AMD, по сравнению с SLI их технология работает стабильней и обладает большими преимуществами. Но AMD и Nvidia сделали невероятно интересные гибридные графические решения, и спорить «Что лучше Crossfire или SLI? » - это неправильно, потому что эта гонка технологий, чуть ли не каждый день, меняет лидера.

Принципы работы Crossfire

Изображение делиться на несколько частей и каждая видеокарта обрабатывает свою часть отдельно.
Каждая видеокарта обрабатывает свой кадр, т.е. если у нас 4 видеокарты, соединенные crossfire-ом (а 4 - это максимум), то 1-я видеокарта обрабатывает первый кадр, вторая - второй и т.д.
Все видеокарты работают слаженно, каждое изображение накладывается друг на друга, сглаживается и выводится на экран. Эта технология задумана только для повышения качества изображения.

Для чего нужен Crossfire?

Для организации системы Кроссфаир необходимо:

мощный процессор
видеокарты (одного класса) с поддержкой технологии Crossfire
мощный блок питания (производитель рекомендует минимально 700 ватт)
материнская плата с 2-мя или более слотами PCI Express
мост, для соединения видеокарт (по сути это просто шлейф).

Использовать можно разные видеокарты, например, с HD 7970 можно использовать HD 7950. Приведем таблицу для упрощения выбора.

Совместимые видеокарты для Crossfire

Существует еще и программный способ подключения технологии (без моста), но этот метод накладывает потерю производительности, около 15%. Отрицательной стороной будет тот факт, что старые игры, которые не поддерживают гибридные графические технологии, будут использовать лишь одну видеокарту. Хотя для старых игр и одной видеокарты будет вполне достаточно.

Кросфаир от компании AMD, призвано помочь достигнуть впечатляющих графических результатов. Конечно, организация данной системы не каждому по карману, но те, кто может себе это позволить, забудут о тормозах, низком fps и слайдшоу в играх.