GeForce GTX 680: Чемпион на стероидах

Наконец он вышел! Прямо скажем, заждались. AMD успела представить флагманский графический адаптер серии Southern Islands еще в декабре прошедшего года, а сейчас уже выпустила полную линейку Radeon HD 7000. И всякий раз, тестируя еще одну новинку от AMD, мы задавали вопрос: когда же выйдет Kepler? Но предполагаемая дата релиза не один раз переносилась. Поначалу NVIDIA официально заявила, что Kepler не выйдет в 2011 году, позже пропали надежды на выход в январе. И вот в конце концов…

За все это время Kepler оброс самыми неописуемыми слухами. Каждый новый «слив» внутренних презентаций NVIDIA либо диаграммы непонятного происхождения усиливали неурядицу и ажиотаж. Позволим для себя напомнить главные этапы интриги, чтоб позже все торжественно опровергнуть.

Для начала вот этот нашумевший слайд. Судя по тому, что тут написано, сначала 2012 года мы должны были узреть экономный GPU GK107 со 128-битной шиной памяти и PCI-E 2.0, потом более мощнейший чип GK106 (шина памяти 256 бит, PCI-E 3.0) и GK104, схожий на GF110 собственной 384-битной шиной. Ну а в конце 2012 — начале 2013 года нас типо ожидает двухпроцессорная карта на базе GK104 и однопроцессорный монстр GK112 с 512-битной шиной памяти.

GeForce GTX 680: Фаворит на стероидах

В последующих новостях монстр засветился под именованием GK100, и стали известны подробности о его архитектуре: 1024 ядра CUDA, 128 текстурных модулей и 64 ROP. GK104 приписали 640 или 768 ядер, 80 либо 90 TMU и 48 ROP.

Потом появился очень непонятный слайд, в каком уже бытует не то что GeForce GTX 600-серии, а GTX 780, в два раза превосходящий действующий флагман NVIDIA тогда — GTX 580. Смотря на такие результаты, просто провести параллели меж GTX 780 и тем микропроцессором GK100 с 512-битной шиной памяти. Слайд зародил сомнения: если информация соответствует реальным планам NVIDIA, релиз GK100 будет далековато не скоро.

GeForce GTX 680: Фаворит на стероидах
Прирастить

Потом расчудесным образом появились полные (но очень непонятные) данные обо всей линейке GTX 600, из которых следует, что в GK100 войдет аж 6,4 миллиардов. транзисторов. Но акцент уже сместился в направлении младших чипов. Выплыли подробные спецификации GK104, и некие источники уже утверждали, что конкретно этот кристалл ляжет в базу флагманской модели GeForce GTX 680. Сейчас представления об архитектуре GK104 слились: 1536 ядер CUDA, 128 текстурных блоков, 32 ROP и 256-битная шина памяти. Похоже, что в NVIDIA до последнего момента сомневались, под каким модельным номером этот адаптер выйдет на рынок. Может быть, все-же GTX 670 Ti?

Но, вы понимаете, так оно в конце концов и вышло. Забудьте о монстре с 512-битной шиной памяти. GeForce GTX 680 основан на GPU GK104.

Архитектура GK104

Спецификации

Последние «сливы» оказались незапятанной правдой. GK104 вправду содержит 1536 ядер CUDA, что в три раза больше, чем у GF110 (GeForce GTX 580), 128 текстурных блоков (больше вдвое) и 32 ROP (а вот это шаг вспять, у GF110 их 48). Ширина шины памяти — 256 бит, но работает она на действенной частоте 6008 МГц. «Шея стала тоньше, но зато длинней». Объем памяти — 2 Гбайт. Поддерживается интерфейс PCI-E 3.0

GPU имеет базисную тактовую частоту 1006 МГц (что означает «базовая частота», мы объясним ниже), а частота ядер CUDA больше не удвоена по отношению к остальным компонентам. Это изготовлено для экономии электроэнергии. И вправду, карта уложилась в TDP 195 Вт. Достаточно умеренный показатель для флагманского продукта (у GeForce GTX 580 — 244 Вт, а у Radeon HD 7970 — 250 Вт), в особенности в свете прошлых «достижений» NVIDIA в этой области.

GPU делается по техпроцессу 28 нм и включает 3,54 миллиардов транзисторов — «всего лишь» на 0,54 миллиардов больше, чем в GF110. Для сопоставления: в чипе Tahiti (Radeon HD 7970) 4,38 миллиардов транзисторов.

Рекомендованная розничная стоимость — $499, в Рф — 17 999 р. Для сопоставления: рекомендованная стоимость Radeon HD 7970 на момент релиза — $549.

GeForce GTX 680: Фаворит на стероидах
Прирастить

Вот что кратко можно сказать о GeForce GTX 680. Нетерпеливые читатели уже могут перейти к разделу «Тестирование», а гиков приглашаем поделить с нами особенное наслаждение — подробный разбор архитектуры Kepler.

Общая схема

Как и микропроцессоры Fermi, Kepler имеет просто масштабируемый модульный дизайн. Все вычислительные составляющие распределены меж 4-мя «графическими кластерами» (Graphics Processing Cluster, GPC). Вне кластеров находится только общий кеш L2, контроллеры памяти, ROP (на схеме — голубые блоки рядом с кешем) и блок GigaThread Engine, распределяющий нагрузку меж GPC.

GeForce GTX 680: Фаворит на стероидах

Блок-схема GK104 (кликабельно)

В GK104 только четыре контроллера памяти по сопоставлению с шестью у GF110. GPC, как и у GF110, те же четыре штуки. Каждый GPC состоит из блока растеризации (Raster Engine) и потокового мультипроцессора (SMX).

Raster Engine представляет собой сборочный поток из 3-х стадий, на которых происходит вычисление граней геометрических примитивов, проекция пикселей на поверхности и отсечение невидимых пикселей соответственно. Тщательно о каких-то конфигурациях в Raster Engine NVIDIA не докладывает, но, судя по официальному слайду, сейчас их производительность один к одному согласуется с пропускной способностью ROP. Ну да, если каждый Raster Engine за такт обрабатывает 8 пикселов, как в Fermi, то четыре «движка» обрабатывают 32 пиксела, что соответствует 32 ROP.

GeForce GTX 680: Фаворит на стероидах
Прирастить

Потоковые мультипроцессоры

Потоковые мультипроцессоры были очень переработаны. Непопросту к их аббревиатуре для большей крутости прибавили буковку X (SMX). Для начала — общая информация о том, как работает мультипроцессор в архитектуре Kepler. Как и в Fermi, мультипроцессор соединяет воединыжды главные вычислительные мощности GPU: текстурные блоки, геометрический движок PolyMorph Engine и массив ядер CUDA.

Каждое ядро CUDA представляет собой стопроцентно конвейеризированный микропроцессор с одним целочисленным ALU и блоком вычислений с плавающей точкой. При помощи сотен таких ядер GPU делает шейдерные программки и вычисления для неграфических приложений с API OpenCL, DirectCompute, PhysX и, фактически, CUDA API.

Снутри SM ядра CUDA употребляются вместе с другими вычислительными компонентами: блоками Load/Store (LD/ST), текстурными блоками, блоками интерполяции (нету на диаграмме NVIDIA), блоками вычисления особых функций (Special Function Units, SFU) — тригонометрических, к примеру. Все эти составляющие получают аннотации для выполнения от одних и тех же диспетчеров.

GeForce GTX 680: Фаворит на стероидах

GF100/110 — потоковый мультипроцессор и ядро CUDA

Весь пафос вычислений на GPU, будь то шейдеры либо массированные неграфические расчеты, в последующем: программка порождает огромное количество потоков инструкций (threads), и выполнение можно организовать таким макаром, что в один миг времени большая часть потоков делает одну и ту же операцию, только с различными данными. Рабочая нагрузка для ядер CUDA снутри мультипроцессора поступает в виде пучков из 32 потоков (warp). В каждом ряду warp могут быть только одни и те же аннотации. Если это нереально, то места в ряду пустуют.

Каждый такт диспетчер выбирает подходящий warp из 32 активных на мультипроцессоре, берет 32 аннотации (по одной «крайней» аннотации из каждого потока) и посылает их на выполнение группе из 16 ядер CUDA (в то же время заместо 16 ядер CUDA диспетчер может загрузить все блоки LD/ST, или все блоки интерполяции, или все текстурные блоки). Стоп, как 16 ядер могут выполнить за один такт 32 аннотации? Вот здесь вступают в дело двойные частоты Fermi. Ядра CUDA, блоки LD/ST и SFU работают вдвое резвее и за один такт диспетчера срабатывают дважды.

GeForce GTX 680: Фаворит на стероидах
Прирастить

Какие же конфигурации принес Kepler? Во-1-х, все блоки SMX сейчас работают на одной частоте, зато их стало больше. Конфигурация мультипроцессора GF100/110: 32 ядра CUDA, 16 блоков интерполяции, 16 блоков LD/ST, 4 SFU, 4 текстурных блока. GK104: 192 ядра CUDA и 16 текстурников, 32 SFU и 32 LD/ST.

Принципиальное дополнение: в состав SMX заходит очередной блок из восьми ядер CUDA, который укрыт на диаграмме. Это особые ядра, способные делать вычисления двойной точности (FP64). 32 инструкций из 1-го warp производятся им за четыре такта, но любая аннотация – на всей скорости. В целом GK104 делает расчеты FP64 со скоростью 1/24 от FP32. (Прим.: в мультипроцессорах чипа GF114 один из 3-х блоков по 16 ядер CUDA тоже мог делать операции двойной точности, но лишь на скорости 1/4.) Меж тем архитектура GCN от AMD на хардверном уровне поддержвает расчеты FP64 со скоростью 1/2.

GeForce GTX 680: Фаворит на стероидах Потоковый мультипроцессор GK104 (кликабельно) GeForce GTX 680: Фаворит на стероидах
Прирастить

Конфигурация потоковых мультипроцессоров в GK104 и GF100/110

Во-2-х, планировщиков тоже стало вдвое больше. И с каждым планировщиком сейчас связано два диспетчера. Они могут сразу отправлять на выполнение сходу два «ряда» инструкций из 1-го warp, если какой-то из них не находится в зависимости от выполнения другого. Таким макаром, потоковый мультипроцессор приобретает функцию внеочередного выполнения, что роднит его с CPU. (Прим.: опять-таки двойные диспетчеры NVIDIA уже использовала в GF104 и следующих GPU среднего и исходного уровня, исключительно в GF110 они так и не появились.)

В-3-х, логика планировщика подверглась упрощению. В Fermi планировщик определял зависимости операций в шейдерном коде и переупорядочивал выполнение разных warp. Сейчас задачка разрешения зависимостей возложена на компилятор. В самой аннотации сообщается, на каком шаге в дальнейшем она может быть выслана на выполнение, и пока этот момент не настал, планировщик выбирает для выполнения другие warp. Мотивация NVIDIA понятна: сложные планировщики с разрешением зависимостей нагружают энергетический бюджет. Но эффективность неграфических вычислений без их безизбежно пострадает. Непопросту AMD перебежала к динамическому планированию в архитектуре Graphics Core Next (вся смена архитектуры, на самом деле, была завернута вокруг этого). А вот NVIDIA, напротив, жертвует производительностью в пользу энергетической эффективности. Вобщем, разработчики наверное взвесили все за и против. Может быть, в неграфических расчетах этот шаг повысил производительность на ватт. А может, это свойство не самого продвинутого потребительского GPU и в более массивных версиях Kepler возвратится динамическое планирование.

GeForce GTX 680: Фаворит на стероидах
Прирастить

Обработка геометрии

В архитектуре Fermi нет отдельного геометрического блока, как в Graphics Core Next от AMD. Заместо этого в каждом потоковом мультипроцессоре есть свой PolyMorph Engine, и они соединены особым интерфейсом. Конкретно благодаря геометрической мощи адаптеры GeForce доминировали в задачках с тесселяцией прямо до выхода карт Radeon серии HD 7000, которые серьезно проапгрейдили по этой части. В GK104, направьте внимание, блоков PolyMorph Engine стало меньше по сопоставлению с GF110, потому что меньше потоковых мультипроцессоров. Но NVIDIA убеждает: PolyMorph Engine версии 2.0 стал практически в два раза более действенным, что с лихвой компенсирует сокращение.

GeForce GTX 680: Фаворит на стероидах
Прирастить

По данным внутреннего тестирования, GeForce GTX 680 приметно превосходит GTX 580 при высочайшем Expansion Factor (глубочайшая тесселяция). На том же графике приведен Radeon HD 7970, но его производительность почему-либо совершенно не колеблется, что вызывает огромные сомнения в результатах.

GeForce GTX 680: Фаворит на стероидах
Прирастить

Кеш-память

Как и у GF100/110, в каждом потоковом мультипроцессоре GK104 есть кеш L1 объемом 64 Кбайт. А вот общий кеш L2 уменьшился: с 768 до 512 Кбайт. Но пропускная способность кеша возросла на 73%. Выросла скорость атомарных операций (чтение + запись).

GeForce GTX 680: Фаворит на стероидах
Прирастить

Новые функции GPU и драйвера

GPU Boost

Эта функция — аналог PowerTune в последних видеоплатах Radeon. Практически она представляет собой динамический разгон GPU в те моменты, когда это позволяет энергопотребление. NVIDIA указывает, что в большинстве игр карта не добирает мощности до заявленного TDP (195 Вт), а поэтому частоту микропроцессора можно значительно прирастить.

В спецификациях карты сейчас указывается раздельно Base Clock — фактически, малая частота GPU в 3D-режиме и Boost Clock — средняя частота, которая достигается в всераспространенных приложениях (в этом случае — 1058 МГц). Для контроля мощности адаптера употребляется как аналоговый датчик в системе питания (достаточно инерционный), так и цифровые датчики загрузки GPU и памяти (более проницательные). Дополнительно на автоматический разгон оказывает влияние температура GPU.

GeForce GTX 680: Фаворит на стероидах
Прирастить

Невзирая на общее сходство, GPU Boost в работе смотрится не так, как PowerTune от AMD. Присутствие последней практически неприметно, и изменение частоты не регится утилитами мониторинга. Частота GPU нового GeForce изменяется на очах. В наших тестах она вправду колебалась вокруг заявленного уровня 1058 МГц. И напряжение питания изменяется тоже.

Как сейчас реализован разгон вручную — отдельная тема. Всякая надбавка к базисной частоте линейно отражается на частоте Boost Clock, и она преобразуется из 1058 МГц в, допустим, 1158 МГц, если не упрется в ограничение мощности. Чтоб поднять потолок Boost Clock, необходимо прирастить допустимую мощность. Пока это умеет делать только особая версия утилиты EVGA Precision X. О результатах наших тестов с разгоном GTX 680 вы сможете прочесть в соответственном разделе.

Adaptive VSync

Для чего нам нужна вертикальная синхронизация? Чтоб убрать разрывы изображения при смене кадров, которые в особенности нередко появляются в случае, если FPS превосходит частоту вертикальной развертки монитора.

GeForce GTX 680: Фаворит на стероидах
Прирастить

Так смотрятся разрывы кадра в отсутствии VSync

А почему вертикальную синхронизацию так изредка употребляют? Так как если FPS меньше частоты развертки, VSync приводит его к половине либо четверти частоты, к примеру 30 и 15 FPS. Появляются тормоза. Чтоб убрать этот недочет, NVIDIA предложила обычное решение: если FPS больше частоты развертки, то VSync работает, а когда падает меньше, VSync отключается. Эта функция совместима и с картами GeForce предшествующего поколения.

GeForce GTX 680: Фаворит на стероидах
Прирастить

FXAA и TXAA

Многие игры прошедшего года использовали новый способ полноэкранного сглаживания — FXAA. Оказалось, что для современных движков с отложенным рендерингом (Deferred Rendering) обычный способ MSAA представляет огромную делему. Его тяжело воплотить, и падение производительности выходит куда огромным, чем у движков прямого рендеринга (Forward Rendering), всераспространенных во времена DirectX 8-9.

FXAA практически представляет собой фильтр пост обработки, который обнаруживает и размывает границы полигонов. Он конструктивно резвее, чем MSAA, но изображение смотрится не настолько резким, как при использовании MSAA либо вообщем без сглаживания. Мы это наглядно проявили на примере Skyrim.

GeForce GTX 680: Фаворит на стероидах GeForce GTX 680: Фаворит на стероидах

С выходом GeForce GTX 680 NVIDIA снова заинтересовала к FXAA, продемонстрировав известную демку Samaritan в реальном времени. На прошлогодней выставке GDC 2011 Samaritan со сглаживанием MSAA запускали на 3-х GeForce GTX 580 в режиме SLI. С FXAA довольно и 1-го GTX 680, хотя производительность одиночной карты, естественно, тоже выросла.

Но понятно, что FXAA — это временное решение, которое по качеству никогда не сравнится с MSAA. Потому NVIDIA предлагает новый способ — TXAA. Он представляет собой некоторую комбинацию мультисемплинга и постобработки (более глубочайших подробностей у нас пока нет). В варианте TXAA 1 заявлено более высококачественное сглаживание краев полигонов, чем при MSAA 8x, с потерей производительности на уровне MSAA 2x. TXAA 2 обеспечивает еще более высочайшее качество, чем MSAA 8x с затратами на уровне MSAA 4x.

TXAA будет предоставляться разработчикам игр в виде библиотек и будет работать на любом современном железе, не только лишь на GeForce 600. В текущем году уже ожидаются 1-ые игры с поддержкой TXAA.

GeForce GTX 680: Фаворит на стероидах GeForce GTX 680: Фаворит на стероидах

Bindless Textures

А вот еще одна функция, эксклюзивная для Kepler. В Fermi шейдерная программка могла обращаться только к 128 текстурам, обозначенным в специальной таблице. Сейчас текстуры в памяти доступны шейдеру впрямую, более миллиона текстур сразу. Потенциально эта функция наращивает достояние игровых сцен, но API DirectX 11 все равно ограничивает шейдер 128 текстурами, потому Bindless Textures пока можно использовать исключительно в OpenGL либо конкретно при помощи NVAPI.

GeForce GTX 680: Фаворит на стероидах
Прирастить

Новые видеоинтерфейсы, мультимониторные конфигурации

GeForce GTX 680 в референсной конфигурации поддерживает интерфейсы DisplayPort 1.2 и HDMI 1.4a, совместимые с разрешением 3840×2160, также два Dual-Link DVI. К одной карте сейчас можно подключить сходу четыре монитора.

GeForce GTX 680: Фаворит на стероидах
Прирастить

В режиме Surround появилось несколько дополнительных функций.

Панель задач Windows отображается лишь на центральном экране.
Появилась возможность задать случайное разрешение.
Жгучая кнопка для включения/выключения «компенсации» мониторных рамок прямо в игре.

Новый видеокодировщик

В Kepler включен новый кодировщик эталона H.264 — NVENC. По сю пору видео на картах NVIDIA кодировалось на ядрах CUDA, но, по утверждению производителя, NVENC работает вчетверо резвее, потребляя при всем этом существенно меньше электроэнергии. NVENC совместим с разрешениями прямо до 4096х4096, а Full HD может кодировать на скорости в 8 раз резвее проигрывания. Поддерживает стереоскопическое видео.

На данный момент функции NVENC доступны через особый API, и разработчикам предоставляется SDK. Позднее появится возможность сразу с кодировкой использовать ядра CUDA для дополнительной обработки видео либо использовать для шифровки совместные мощности кодировщика и ядер.

Новые функции PhysX

В API высочайшего уровня APEX (а означает — для всех графических адаптеров с PhysX) скоро войдут функции динамического разрушения объектов и отображения меха. В особенности любопытно 1-ое. На данный момент разрушение игровых объектов определяется заблаговременно, но, благодаря новейшей функции, GPU будет создавать осколки автоматом, всякий раз заного.

GeForce GTX 680: Фаворит на стероидах
Прирастить

DirectX 11.1

NVIDIA нигде не утверждает о полной поддержке спецификации DirectX 11.1, но, по сути, поддерживаются все функции нового эталона, относящиеся к 3D-рендерингу:

Partial constant buffer updates
Logic operations in the Output Merger
16bpp rendering
UAV-only rendering
Partial clears
Large constant buffers

Не реализованы только некие неигровые функции:

Target-Independent Rasterization (2D rendering only).
16xMSAA Rasterization (2D rendering only).
Orthogonal Line Rendering Mode.
UAV in non-pixel-shader stages.

Конструкция

На вид карта не очень отличается от GTX 580. Для остывания как и раньше употребляется мощный кулер-турбина.

GeForce GTX 680: Фаворит на стероидах GeForce GTX 680: Фаворит на стероидах

GeForce GTX 680

GeForce GTX 580

Питание подается по двум шестиконтактным разъемам (для GTX 580 требовался шестиконтактный плюс восьмиконтактный), при этом размещены они один над другим — для экономии места на плате.

GeForce GTX 680: Фаворит на стероидах
Прирастить

GeForce GTX 680: Фаворит на стероидах
Прирастить

Охлаждающая система в общих чертах осталась таковой же. Есть мощная дюралевая рама, к которой через термопрокладки прижаты микросхемы памяти и составляющие системы питания, и есть отдельный радиатор с термический трубкой для GPU. Испарительная камера, судя по всему, пропала. Ребра радиатора поближе к хвосту карты скошены, что должно облегчить прохождение воздуха через уменьшенную решетку. Турбинка изготовлена из звукопоглощающего материала. И вправду, даже на наибольших оборотах (поточнее, на 85%: драйвер не дает выставить больше) кулера шум не так велик, как можно было ждать. Radeon HD 7970 на 85% шумит еще посильнее.

GeForce GTX 680: Фаворит на стероидах
Прирастить

GeForce GTX 680: Фаворит на стероидах GeForce GTX 680: Фаворит на стероидах

GeForce GTX 680

GeForce GTX 580

GeForce GTX 680: Фаворит на стероидах
Прирастить

Размещение портов на заглушке платы поменялось. Отлично, что HDMI и DisplayPort выводятся через полноразмерные разъемы, ­– нет нужды в переходниках.

GeForce GTX 680: Фаворит на стероидах GeForce GTX 680: Фаворит на стероидах

GeForce GTX 680

GeForce GTX 580

Плата

По трудности платы GeForce GTX 680 соответствует 580-й модели. Только микросхем памяти меньше. Это чипы Hynix H5GQ2H24MFR R0C, 6 ГГц для их – штатная действенная частота. Да, направьте внимание на посадочную площадку для еще 1-го разъема питания. Это следы старенького дизайна с традиционными «одноэтажными» разъемами? Не собиралась же NVIDIA выпустить карту с 3-мя коннекторами…

GeForce GTX 680: Фаворит на стероидах GeForce GTX 680: Фаворит на стероидах

GeForce GTX 680

GeForce GTX 580

GeForce GTX 680: Фаворит на стероидах GeForce GTX 680: Фаворит на стероидах

GeForce GTX 680

GeForce GTX 580

В системе питания как и раньше употребляются 6 фаз: четыре для GPU и две для памяти. Питанием GPU управляет контроллер Richtek RT8802A на смешной дочерней плашке.

GeForce GTX 680: Фаворит на стероидах
Прирастить

Графический микропроцессор в первый раз со времен GeForce 7800 обходится без крышки-теплораспределителя. Видимо, он довольно малогабаритный, чтоб не было угрозы сколов при установке кулера.

GeForce GTX 680: Фаворит на стероидах
Прирастить

Аналогичный товар: Комментирование на данный момент запрещено, но Вы можете оставить ссылку на Ваш сайт.

Комментарии закрыты.