Удар по ядрам: обзор видеокарты AMD Radeon HD 7970

Архитектура графических микропроцессоров AMD (ATI) не подвергалась значимым изменениям со времен серии Radeon HD 2000: прямо до HD 6000 в GPU употреблялся VLIW-дизайн. Что же все-таки это такое? Поначалу вспомним, как работает центральный микропроцессор в наших персоналках. Современные CPU – суперскалярные, другими словами их вычислительные блоки могут делать несколько инструкций из 1-го потока сразу. Но аннотации при всем этом должны быть независящими друг от друга, потому микропроцессор безпрерывно инспектирует, когда можно делать параллельные операции, а когда необходимо подождать разрешения очередной зависимости. Не считая того, CPU занимается пророчеством ветвлений и может делать часть работы заблаговременно (out-of-order). Оптимизация этих функций – непростая техно задачка, а схемы, на которых они построены, занимают добрую часть кристалла CPU.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Но есть другой путь: задать порядок выполнения инструкций на шаге компиляции кода. Компилятор сам находит аннотации, которые можно делать сразу, и сформировывает из их длинноватые составные конструкции. Отсюда и термин VLIW – very long instruction word. VLIW в общем случае указывает высшую эффективность, когда код содержит не достаточно зависимостей, а ход программки предсказуем. Компилятор «знает» код от начала до конца и может задать выполнение определенных фрагментов с огромным припасом по времени. Но планирование выходит жестким, и в случае когда ход программки находится в зависимости от наружных данных, хитроумная компиляция уже не достаточно помогает, исполнительные блоки простаивают и производительность идет вниз.

Но рендеринг 3D-графики – прогнозируемая задачка и отлично распараллеливается. Потому ставка на VLIW, которую сделала тогда еще независящая канадская компания, себя вполне оправдала. Переложив функции планировщика на компилятор, ATI могла делать относительно малогабаритные чипы с обезумевшими сотками исполнительных частей снутри, и видеоплаты в итоге вышли относительно дешевыми. Звездный час VLIW в выполнении AMD пришелся на время Radeon HD пятитысячной серии, когда дебют архитектуры Fermi от NVIDIA (GeForce 400) мало забуксовал. И логично, ведь «зеленым» приходится делать большие чипы, прямо до 3-х млрд транзисторов. И даже на данный момент, когда в адаптерах GeForce 500 архитектура Fermi уже работает на полную мощность, а лучшие ускорители NVIDIA одолевают в бенчмарках продукцию AMD, шеститысячные Radeon все еще обеспечивают лучшую производительность в играх.

В таком случае, для чего AMD отважилась на настолько резкий поворот? Казалось бы, довольно малость отполировать дизайн GPU, нарастить вычислительных блоков здесь и там, ввести более узкий технологический процесс — и VLIW будет жить длительно и счастливо. Для чего растрачивать время и средства на разработку совсем новейшей архитектуры? Но дело не только лишь и не столько в играх. GPU медлительно преобразуются из устройств, предназначенных только для 3D-рендеринга, в микропроцессоры общего предназначения (GPGPU – general purpose GPU), которые можно использовать для всех массированных параллельных вычислений. Но на сегодня вышло так, что если мы говорим GPGPU, то подразумеваем CUDA. Ни родной для «красных» API под заглавием ATI Stream, ни Open CL не имеют таковой популярности, как CUDA от NVIDIA. Меж тем AMD очень желает откусить кусочек от этого рынка, но чтоб это стало вероятным, со старенькой хорошей архитектурой VLIW придется расстаться. Для неграфических вычислений она не подходит, ибо они наименее прогнозируемы, чем 3D-рендеринг, и GPU просто не в состоянии работать в полную силу.

Архитектура Graphics Core Next

Возьмем последнего представителя VLIW-архитектуры от AMD, микропроцессор Cayman, который лежит в базе адаптеров Radeon HD 6950/6970/6990. Главным компонентом шейдерного домена у него является SIMD Engine – блок из шестнадцати потоковых микропроцессоров. Они все сразу исполняют одну VLIW-инструкцию, но применительно к различным данным (поэтому и SIMD – single instruction, multiple data). В свою очередь, в одной VLIW-инструкции может быть упаковано прямо до 4 скалярных операций, что соответствует четырем ALU снутри 1-го потокового микропроцессора.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Строительный блок ядра Graphics Cores Next (GCN) именуется Compute Unit, и он устроен совсем по-другому. В нем тоже 64 ALU, но они разбиты на четыре отдельных векторных SIMD-модуля по 16 штук плюс блок планировщика. Проще говоря, ранее параллелизм был реализован за счет нескольких операций в одной аннотации, а сейчас за счет нескольких отдельных SIMD-блоков. И если производительность старенькой архитектуры находится в зависимости от того, сколько скалярных операций компилятор может закодировать в одной VLIW-инструкции, то Compute Unit в ядре GCN может динамически распределять нагрузку меж SIMD-блоками.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970

Нагрузка для параллельного выполнения в SIMD-блок поступает в виде массива (wavefront) из 64 инструкций, который производится за четыре цикла. И хотя сразу в работе могут быть только четыре массива, еще 28 находятся у Compute Unit в прямом доступе, за счет чего планировщик и получает место для маневра. В ситуации, когда зависимость в коде мешает комбинированному SIMD-блоку VLIW-процессора работать на полную мощность, отдельные SIMD-блоки чипа GCN просто переключатся на другие массивы из той же задачки или совсем на другие задачки.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Изюминка GCN – отдельный скалярный модуль в каждом Compute Unit. Он предназначен для разовых операций, не укладывающихся в wavefront (что освободит SIMD-модули от неэффективного использования), а еще – для контроля выполнения программки: условных ветвлений, переходов и иных событий, которые Cayman переваривал с трудом. Скалярный модуль делает одну операцию за цикл.

Кеш-память

Новенькая конструкция исполнительных модулей просит более резвой и большой кеш-памяти по сопоставлению c VLIW-дизайном. У каждого CU есть отдельный кеш L1 объемом 16 Кбайт плюс хранилище для инструкций и данных на 16 и 32 Кбайт, общее для 4 CU, – буфер для разделения данных меж массивами. Есть еще вполне когерентный кеш L2, поделенный на порции по 64 Кбайт меж двухканальными контроллерами памяти. В нем хранятся копии вышеупомянутых буферов

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Шины кешей L1 и L2 имеют разрядность 64 б. AMD докладывает, что пропускная способность L1 добивается практически 2 Тбайт/с, а L2 – 700 Гбайт/с, и, судя по всему, тут имеется в виду суммарное значение для микропроцессора с 32 CU.

Для сопоставления: у Cayman каждый SIMD-модуль имеет кеш L1 объемом 8 Кбайт с шиной 16 Б.

Обработка геометрии, растеризация

О фактически графических компонентах чипа в презентациях AMD, провождающих релиз, сказано мало. Судя по блок-схеме, их внутреннее устройство не поменялась, только «Тесселятор» прокачался до девятой версии и обеспечивает огромный прирост быстродействия в соответственных задачках.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Меж тем, если веровать инфы из сторонних источников и слайдам самой AMD с июньского Fusion Development Summit, то изнутри Geometry Engine и Tesselator смотрятся совершенно по-другому. Как и Cayman, ядро GCN содержит два Graphics Engine, но если ранее они состояли из отдельных блоков для растеризации, тесселяции и т.д., то сейчас в каждом GE может быть случайное количество конвейеров для обработки пикселей и геометрических примитивов.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Возможно, таковой дизайн поможет производителю просто увеличивать графическую мощь или выпускать экономные GPU, урезанные по этой части. Стремительная работа с геометрией придется в современных играх как нельзя кстати.

PCI-E 3.0

Заголовок гласит за себя: AMD ввела шину PCI-E последнего поколения со в два раза большей пропускной способностью. Неясно, нужна ли она сейчас для 3D-рендеринга, но для неграфических расчетов наверное понадобится. AMD занесла в архитектуру GCN массу инноваций с дальним прицелом на такое применение и специальную функцию графики, которая тоже отлично смешивается с новым интерфейсом.

Новые функции GCN

В GCN есть два дополнительных блока рассредотачивания команд под заглавием Asynchronous Compute Engine, которые работают совсем независимо друг от друга и графического командного микропроцессора. AMD планирует открыть доступ к ACE через Open CL, тогда и в распоряжении программистов окажутся три отдельных устройства, каждое со собственной очередью команд. Не считая того, по инфы из третьих рук, ACE обеспечивает внеочередное выполнение на уровне отдельных задач. Сами CU хоть и поумнели по сопоставлению с SIMD-модулями VLIW-архитектуры, но могут обрабатывать свои wavefront’ы строго в прямом порядке.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Ядро GCN и центральный микропроцессор компьютера могут иметь общее адресное место. В таком случае все аннотации, которые попадают на выполнение в GPU, указывают на адреса в пространстве x86-64, а он уже без помощи других перекодирует их в адреса локальной видеопамяти с помощью специального модуля. В итоге GPU получает прямой доступ к системной памяти. Не считая того, ядро GCN наделили рядом функций для поддержки языков высочайшего уровня: виртуальными функциями, указателями, рекурсией и т.д.. Это позволит программерам писать универсальный код, применимый для выполнения на CPU либо на GPU.

Новые GPU вполне совместимы с API OpenCL 1.2, DirectCompute 11.1 (и DirectX 11.1 как такой) и C++ AMP. Появились особые аннотации, полезные для производства мультимедийного контента. Не считая того, чипы на базе архитектуры GCN стали первыми GPU со интегрированным кодировщиком видео эталона H.264, который можно будет использовать, как AMD выпустит нужную библиотеку софта.

В свою очередь, декодер заполучил поддержку нескольких дополнительных форматов: MVC, MPEG-4/DivX и Dual Stream HD + HD. Вообщем, видеоплаты Radeon были сильны по части проигрывания видео еще во времена ATI. У семитысячной серии есть масса «улучшайзеров» рисунки, к примеру метод Steady Video, устраняющий дрожание камеры.

Partially Resident Textures – очередной трюк с виртуальной памятью, который предназначен уже для 3D-рендеринга: приложение либо шейдер работают с адресным местом, превосходящим объем набортной памяти адаптера, а она сама выступает только в качестве резвого кеша. Таким макаром можно использовать текстуры объемом до 32 Тбайт, порции которых GPU будет динамически подкачивать ближе к для себя. Поддержка со стороны ОС в этом не требуется.

Тормоза, которые безизбежно возникнут при загрузке текстур из системной памяти, AMD частично компенсирует внедрением MIP mapping’a. Огромная текстура наверное будет храниться в нескольких вариантах с разным разрешением (mipmaps). Любой из их разбит на куски объемом 64 Кбайт. Когда адаптеру требуется определенный кусок, и он уже есть в локальной видеопамяти, то нет заморочек. Если же куска не оказалось, то программка может немедля потянуть его из системной памяти, а может отложить чтение и взять для текущего кадра подобающую копию куска с низким разрешением (если он уже есть в видеопамяти).

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Маленькое дополнение к вопросу о тесселяции. В GCN реализован метод Ptex (Per-face texture mapping). В общем случае в 3D-моделировании текстура накладывается на модель полностью и верхушки нужно аккуратненько кооперировать с подходящими участками двухмерного полотна. Несложно представить, как аппаратная тесселяция, плодящая дополнительные верхушки, усложняет задачку дизайнера. При использовании Ptex на каждый полигон накладывается отдельная текстура, в итоге – никаких видимых соединений. Не считая того, Ptex позволяет упаковывать в один файл текстуры с разным разрешением.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

В конце концов, AMD мало поработала над анизотропной фильтрацией с целью убрать чуть приметное мигание на текстурах высочайшего разрешения. Изменение метода не должно сказаться на быстродействии.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Контроль энергопотребления

AMD отмечает, что производители GPU и графических адаптеров всегда перестраховываются на счет энергопотребления и устанавливают тактовые частоты с учетом пиковой нагрузки, которая вероятна только в самых скупых приложениях либо даже в стресс-тестах (FurMark. OCCT). А в обыденных играх графический микропроцессор мог бы работать на более высочайшей частоте. Для того чтоб всегда выжимать из GPU максимум, предназначена разработка PowerTune – калькулятор, который в реальном времени с интервалами в единицы миллисекунд рассчитывает энергопотребление карты на базе анализа выполняемой задачки (без всяких аналоговых детекторов). И если есть возможность, тактовая частота GPU возрастает. Заметьте, это не сброс частоты относительно номинала при достижении порога мощности, а напротив – точно сверенный динамический разгон.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

А еще ядро GCN умеет стопроцентно отключаться, когда на дисплее длительно ничего нет, и останавливать кулер (разработка ZeroCore). В конфигурации CrossFire микропроцессоры на дополнительных картах (и на одной – тоже) и совсем не работают без 3D-нагрузки.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Eyefinity 2.0

Вкупе с Radeon HD 7000 дебютирует 2-ая версия технологии Eyefinity, которая принесла массу инноваций. Многие выставленные «фичи» не нуждаются в комментах, потому перечислим их коротко:

Официально поддерживаются конфигурации с пятью мониторами в ряд в альбомной либо портретной ориентации.
Центральный монитор в ряду сейчас может быть больше других по вертикали.
Одновременная работа Eyefinity, AMD HD3D и CrossFire.
Наибольшее разрешение комбинированного экрана – 15х15 тыщ пикселей.
Произвольные разрешения.
Перемещение панели задач Windows на хоть какой экран.
Вывод отдельных аудиопотоков на несколько мониторов.

Новые Radeon поддерживают DisplayPort 1.2, а означает – технологию Multi-Stream. С ее помощью можно подключать к одному выходу три монитора по цепочке либо через особый хаб. При этом на выходе хаба может быть не только лишь DisplayPort, да и интерфейсы HDMI, DVI и VGA. AMD обещает, что хабы появятся в продаже летом 2012 года.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

HDMI-выход соответствует эталону 1.4а, потому может передавать двойной сигнал на 3D-телевизор с частотой 24 кадра на каждый канал. А специально для игр есть поддержка 3 GHz HDMI с частотой 60 Гц на канал.

Не считая того, эталоны DisplayPort 1.2 HBR 2 и 3 GHz HDMI понадобятся для подключения будущих мониторов с разрешением 4096×2160.

Radeon HD 7970

Технические свойства

HD 7970 – одночиповый флагман линейки, представляющий архитектуру GCN во всей мощи. Его GPU именуется Tahiti и содержит 32 CU (Compute Units), устройство которых тщательно описано выше. Если перечесть это на количество отдельных ALU, как AMD делала до сего времени, то получится 2048 штук – в полтора раза больше, чем в ядре Cayman! И блоков TMU (texture mapping units) в Tahiti тоже 128 против 96. Шина памяти – 384-битная заместо 256-битной. Если учитывать, сколько дополнительной логики добавили в архитектуру, то совсем не умопомрачительно, что Tahiti состоит из 4,31 млрд транзисторов. Просто для сопоставления: в Cayman – 2,64 млрд, а в GF110 от NVIDIA – три. Работает все хозяйство на частоте 925 МГц.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Но чипы с архитектурой GCN печатают по техпроцессу 28 нм, так что по электронной мощности новинка удержалась в рамках HD 6970 – те же 250 Вт, ну и сам кристалл не смотрится зловеще.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Карта оснащается видеопамятью GDDR5 объемом 3 Гбайт. Массив набран микросхемами Hynix H5GQ2H24MFR со штатной частотой 1500 МГц (действенная частота – 6 ГГц), но тут они работают на частоте 1375 (5500) МГц.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Рекомендованная стоимость HD 7970 составляет 549 баксов, что делает его самым дорогим одночиповым адаптером Radeon за всю их историю.

Внешний облик, конструкция

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

В оформлении семитысячной серии AMD отступила от агрессивных форм Radeon HD 6000 и избрала видный дизайн с плавными линиями и глянцевой поверхностью кожуха. Возвратился известный красноватый текстолит, в сей раз – с малиновым цветом. По габаритам Radeon HD 7970 не отличается от предыдущих одночиповых флагманов AMD/ATI.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Продукция кирпичного завода AMD

Карта томная. Берешь в руку – и ощущается мощь. Все дело в охлаждающей системе с большой испарительной камерой, приделанной к толстой раме. Со времен Radeon HD 6970 конструкция не перетерпела огромных конфигураций, разве что вентилятор-турбинка стал обширнее.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Для наилучшего остывания с заглушки убрали один порт DVI, чтоб полностью занять разъем выхлопной решеткой.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

С задней стороны, по-прежнему, есть прижимающая крестовина. От сплошной крышки решили отрешиться.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

На печатной плате, как и у HD 6970, есть тумблер меж главным и запасным BIOS. А еще по задней поверхности разбросано несколько маленьких сдвоенных тумблеров неведомого предназначения, которые мы, от греха подальше, решили не трогать. Может быть, что пред нами только инженерный эталон HD 7970 и на серийных платах этих странноватых частей уже не будет.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

В хвосте платы размещены семь катушек индуктивности и восьмифазный контроллер напряжения CHiL CHL8228G, чему, вне сомнения, будут рады оверклокеры, ведь он уже употреблялся на картах Radeon HD 6970, . Вероятнее всего, и схема питания карты организована по-старому: 6 фаз приходятся на GPU и одна отдана для питания внутренних цепей микросхем GDDR5. В обратном углу платы находится двухфазный чип uP1509P от uP Semiconductor со собственной катушкой, который, по аналогии с HD 6970, должен держать под контролем напряжение на буферах ввода-вывода видеопамяти.

Удар по ядрам: обзор видеоплаты AMD Radeon HD 7970
Прирастить

Аналогичный товар: Комментирование на данный момент запрещено, но Вы можете оставить ссылку на Ваш сайт.

Комментарии закрыты.