Пoслeдний рaз AMD грoмкo зaявилa o сeбe нa рынкe дискрeтныx GPU oсeнью 2013 гoдa, кoгдa былa прeдстaвлeнa линeйкa видeoaдaптeрoв Radeon R9 290/290X нa бaзe грaфичeскoгo прoцeссoрa Hawaii. Чрeзвычaйнo прoизвoдитeльный и крупный для свoeгo врeмeни GPU пoзвoлил AMD устaнoвить пaритeт с NVIDIA в кaтeгoрии High-End.
С тoй пoры AMD нe былa стoль жe прoдуктивнa, кaк NVIDIA, выпускaвшaя oднo зa другим рeшeния нa oснoвe нoвoй микрoaрxитeктуры Maxwell. Eдинствeнный пo-нaстoящeму нoвый ASIC oт «крaсныx», кoтoрый мы увидeли в прoмeжуткe мeжду Hawaii и Fiji (прeдмeтoм сeгoдняшнeгo oбзoрa) – этo Tonga, кoтoрый лeг в oснoву Radeon R9 285, a с нeдaвниx пoр – R9 380. Свeжeпрeдстaвлeннaя сeрия Radeon 300, кoтoрую мы ужe oписaли вкрaтцe и в ближaйшee врeмя изучим нa примeрe рeaльныx видeoaдaптeрoв, фaктичeски, сoстoит из пeрeимeнoвaнныx и в чeм-тo улучшeнныx прeдстaвитeлeй 200-линeйки, в кoтoрыx прoдoлжaют нeсти службу ужe знaкoмыe GPU, включaя дaжe Pitcairn, принaдлeжaщий к пeрвoму пoкoлeнию aрxитeктуры GCN. Впрoчeм, для видeoaдaптeрoв срeднeй и срeднe-высoкoй цeнoвoй кaтeгoрии услoвнo устaрeвшaя aрxитeктурa GPU – нeвeликaя прoблeмa. Дa, кoнкурирующиe прoдукты NVIDIA нa бaзe Maxwell дeмoнстрируют впeчaтляющee прeимущeствo пo TDP в сooтвeтствующиx клaссax прoизвoдитeльнoсти, нo кoль скoрo AMD пoддeрживaeт привлeкaтeльныe цeны, энeргoпoтрeблeниe нe являeтся рeшaющим фaктoрoм для видeoкaрты в нaстoльнoм ПК.
Сoвсeм другoe дeлo – дискрeтныe GPU тoпoвoгo клaссa. Нa примере Radeon R9 290/290X уже хорошо заметно, что архитектура Graphics Core Next в по-настоящему крупных ASIC (чип Hawaii включает 6,2 млрд транзисторов), работающих на частотах в районе 1 ГГц, встретила препятствие по энергопотреблению и предъявляет повышенные требования к эффективности теплоотвода. Фактический TDP видеокарт на Hawaii можно оценить в районе 300 Вт, что сильно выше отметки 250 Вт, характерной для флагманских адаптеров в предыдущие годы.
В этой ситуации на GPU нового поколения, которым, как нам теперь известно, стал Fiji, возлагались большие надежды. Для того чтобы нарастить вычислительную мощность и одновременно по меньшей мере остаться в рамках TDP, заданных Hawaii, требовались радикальные средства. Лучшим решением для AMD был бы переход с техпроцесса 28 нм на 20 или 16 нм, но TSMC, выступающая бессменным подрядчиком для производителей крупных дискретных GPU, все еще не может предоставить такую возможность в связи с то ли загруженностью линий производством мобильных SoC, то ли неудовлетворительным процентом выхода годных кристаллов для циклопических размеров ASIC, которые проектируют AMD и NVIDIA.
В результате для производства Fiji AMD снова использует фотолитографический процесс TSMC с нормой 28 нм. Но это не помешало достигнуть обеих указанных целей – повысить производительность и оптимизировать энергопотребление видеоадаптера. Fiji по сравнению с Hawaii раздвинул границы транзисторного бюджета на 47%, достигнув отметки 8,9 млрд транзисторов. Это больше, чем даже в ядре GM200 от NVIDIA, которое недавно пробило планку 8 млрд.
Fiji приобрел статус самой крупной ASIC, выпущенной AMD. Площадь кристалла составляет 596 мм2, что на 36% превышает площадь Hawaii (438 мм2) и и почти равняется площади NVIDIA GM200 (601 мм2). Взяв в качестве точки отсчета характеристики чипа Tahiti (4,31 млрд транзисторов, 365 мм2) мы видим, что AMD неуклонно повышает и плотность микросхем в рамках техпроцесса 28 нм.
Такие характеристики выглядят довольно опасно в контексте энергопотребления Radeon R9 290X, которое официально составляет 250, а на практике – все 300 Вт. Рост кристалла на 44% по числу транзисторов непредставим без всесторонней работы по оптимизации мощности. Известно, что в Fiji применяется более агрессивный power gating – отключение от питания простаивающих в текущий момент блоков GPU чем в предшествующих ASIC архитектуры GCN. Второй важный фактор – более экономичная память HBM, о которой подробно сказано ниже. И наконец, водяное охлаждение, которым AMD наделила референсный образец Radeon R9 Fury X, поддерживает температуры существенно ниже привычного для дискретных GPU диапазона около 90°, благодаря чему сокращаются утечки тока в кристалле. Все эти меры в совокупности позволили оценить TDP Radeon R9 Fury X в 275 Вт. И судя по тестам, на этот раз AMD не приукрашивает картину.
⇡#Архитектура AMD Fiji
AMD не сообщает о каких-либо преобразованиях архитектуры Fiji по сравнению с предыдущими итерациями Graphics Core Next. AMD никогда не публиковала внутренних наименований промежуточных версий GCN, но по совокупности характеристик Fiji относится к категории, неофициально называемой GCN 1.2. Вкратце напомним историю версий этой архитектуры.
GCN, впервые представленная в графическом процессоре Tahiti (Radeon HD 7970), имеет двойное назначение: рендеринг 3D-графики и — в неменьшей степени — вычисления общего назначения (GP-GPU). Последней функцией обусловлено наличие в ядре аппаратных планировщиков, а также потенциальная способность всех ASIC на базе GCN выполнять операции двойной точности (FP64) на скорости 1/2 от FP32. Обе особенности поглощают значительную долю транзисторного бюджета процессоров, в связи с чем весьма впечатляет тот факт, что AMD сумела нарастить объем чипов вплоть до 8,9 млрд транзисторов, не отступив от принципов, заложенных на заре GCN. Производительность FP64 в потребительских продуктах на базе Fiji ограничена 1/16 от FP32, но AMD наверняка еще выпустит ускорители FirePro, полностью раскрывающие возможности новой ASIC.
От продуктов GCN 1.1 Fiji унаследовал гибкое управление частотой и напряжением питания GPU, блок XDMA, обеспечивающий синхронизацию нескольких GPU в CrossFre по шине PCIe, и звуковой DSP TrueAudio.
Версия 1.2 принесла в GCN оптимизации производительности геометрических процессоров, а также новый формат loseless-компрессии цвета, что позволяет экономить пропускную способность шины памяти. Кроме того, появилась возможность кодировать и декодировать видео в формате H.264 с разрешением Ultra HD.
По конфигурации вычислительных блоков Fiji проще всего описать как удвоенный Tahiti. Fiji с Hawaii находятся в соотношении 16:11 (прирост ~45%) по числу шейдерных ALU (потоковых процессоров) и текстурных блоков.
Такое необычное соотношение в конфигурации шейдерных ALU и текстурников в Hawaii и Fiji выглядит подозрительно. И неспроста. По блок-схемe Fiji видно, что число наиболее крупных строительных блоков GPU – Shader Engine – по-прежнему равняется четырем, но объем каждого увеличился. Таким образом, front-end чипа, выполняющий растеризацию треугольников, становится его узким местом. Особенно невыгодно Fiji, способный обрабатывать всего четыре примитива за такт, смотрится на фоне NVIDIA GM200, геометрическая производительность которого достигает 24 примитивов за такт.
Fiji не помешало бы и побольше ROP, ведь их здесь по-прежнему 64 штуки, как и в Hawaii, а пресловутый GM200 обладает 96 ROP. Как ни странно, главным препятствием к росту в этих направлениях для AMD стал не размер и даже не энергопотребление ASIC, а размер фотомаски, применяемой на конвейере TSMC для производства микросхем по норме 28 нм, равно как и габариты кремниевой подложки, на которой Fiji смонтирован вместе с чипами памяти HBM. Вероятно, при таком ограничении по размерам было разумно пустить большую часть новых транзисторов на шейдерные Compute Units, которые допускают наиболее плотную упаковку в схеме по сравнению с другими вычислительными блоками архитектуры.
⇡#HBM – новый тип памяти для GPU
Беспрецедентные для AMD габариты чипа – это еще не главное, чем замечателен Fiji. Главная инновация заключается в высокопроизводительной памяти HBM (High Bandwidth Memory).
Оперативная память – крупная статья в раскладке энергопотребления дискретных видеоадаптеров. AMD сообщает, что 10-20% официального TDP Radeon R9 290X (250 Вт) приходится на чипы GDDR5, несмотря на то, что там используется широкая 512-битная шина, позволившая ограничиться довольно низкой тактовой частотой 5 ГГц. Дальнейшее увеличение пропускной способности GDDR5 SDRAM возможно только ценой еще более высокого энергопотребления. К примеру, существует концепция памяти, аналогичной GDDR5, только с дифференциальным подключением, подобно интерфейсам PCIe и USB, потенциально способная обеспечить скорость до 14 Гбит/с на одну линию (вдвое выше, чем у лучших современных чипов, устанавливаемых на видеоадаптеры, – 7 Гбит/с).
Более перспективной с точки зрения энергопотребления выглядит архитектура с чрезвычайно широкой шиной, работающей на относительно низкой частоте. Однако широкие шины несут для разработчиков трудности другого рода. 512-битная шина использует большое число контактов GPU и требует сложной прокладки сигнальных линий в печатной плате. Не случайно только два GPU в истории до сих пор когда-либо оснащались такой памятью (собственно, Hawaii и ранее AMD R600), а о более широких шинах с текущей технологией монтажа микросхем и разводки плат не может быть и речи.
HBM – совместный проект AMD и SK Hynix, который должен решить обе проблемы за счет двух технологий: а) упаковки чипов RAM в трехмерный «стек»; б) соединения с GPU посредством кремниевой подложки (interposer).
Что касается многослойной упаковки микросхем, то здесь проводники, позволяющие соединять два кремниевых чипа, расположенные один над другим, уже не являются чем-то удивительным. Инновация Hynix заключается в проводниках, проходящих насквозь через несколько слоев кремния, – TSVs (Through-silicon vias).
Кремниевый interposer, как ни странно, является менее изощренной технологией. Эта «прокладка» изготавливается на стандартном фотолитографическом оборудовании, только для этого не требуется передовых технологий – достаточно нормы 65 нм. Собственно кремний здесь выполняет лишь роль субстрата, в котором прокладываются медные соединения. Затем на микроскопические шарики металла (microbumps), сформированные в местах выхода соединений на поверхность, устанавливают многослойные чипы HBM и ASIC Fiji.
Реализация HBM для продуктов на базе Fiji включает четыре «стека» объемом 1 Гбайт каждый, соединенные с GPU 4096-битной шиной. Чипы работают на частоте 500 МГц с технологией DDR (1 Гбит/с на линию). Таким образом, результирующая пропускная способность интерфейса достигает 512 Гбит/с. Сравните с достижениями Radeon R9 290X и GeForce GTX TITAN X – 320 Гбит/с и 336 Гбит/с соответственно. Впрочем, не стоит рассчитывать на пропорциональный прирост результирующего быстродействия видеоадаптера, поскольку шина памяти все же не в каждый момент времени является бутылочным горлышком GPU, и к тому же в архитектуре GCN 1.2 на примере чипа Tonga прекрасно себя проявил новый алгоритм компрессии цвета.
Что не менее важно для ускорителей на архитектуре GCN, память HBM сократит общее энергопотребление устройств. Если взять за основу собственные оценки AMD, согласно которым HBM втрое более экономична при равной с GDDR5 пропускной способности (35 против 10,66 Гбайт/с соответственно), но учесть то, что пропускная способность шины памяти Fiji возросла в 1,6 раза по сравнению с Hawaii, то можно оценивать энергопотребление HBM в составе Fiji в 12,2—24,4 Вт, что вдвое меньше 25 —50 Вт, расходуемых памятью GDDR5 на плате Radeon R9 290/290X.
Несмотря на перечисленные достоинства, реализация HBM в Fiji имеет очевидный недостаток: объем RAM составляет лишь 4 Гбайт. В принципе, до недавнего времени это была вполне достаточная характеристика для топового GPU, и сейчас большинство игр вполне довольствуются таким объемом. Но прецедент GTA V показывает, что ускорители с 4 Гбайт RAM, способные вытянуть качественную графику за счет ресурсов GPU, уже лишились задела на будущее даже при разрешении Full-HD и WQHD, не говоря уже об Ultra-HD, которое как раз считается приоритетным для топовых GPU.
⇡#Поддержка DirectX 12
Совместимость того или иного GPU с новой версией API от Microsoft – подчас довольно запутанный вопрос. Необходимо напомнить, что поддержка DX12 складывается из двух компонентов. Все железо, в свое время выпущенное под DirectX 11, потенциально совместимо с новой runtime-библиотекой Direct3D, которая приносит ряд важных оптимизаций. В первую очередь это более эффективное использование ресурсов многоядерных CPU, когда не только игровой код, но и драйвер GPU, и код API распределяются между потоками. Также DX12 сокращает время отработки draw calls, которое в играх под DirectX 11 мешает одновременно выводить на экран большое количество отдельных объектов. Об этих и других особенностях DirectX 12 мы уже когда-то писали в нашем предварительном обзоре. Что ранее было неизвестно, так это функция Explicit Multiadapter, позволяющая разработчику вручную указывать, какие ресурсы хранятся в памяти отдельного из нескольких GPU, работающих в связке SLI/CrossFire. Потенциально это позволит реализовать альтернативные сценарии работы, помимо заданных в DirectX 11 AFR (Alternate Frame Rendering) и SFR (Split Frame Rendering). В частности, можно отрешиться от необходимости дублировать содержимое RAM, что особенно актуально для Fiji с его 4 Гбайт HBM.
В то же время DirectX 12 определил два новых feature levels, к которым относятся некоторые функции рендеринга, которые требуется специально реализовать в кремнии GPU. Архитектура GCN версий 1.1 и 1.2. поддерживает уровень 12_0, в то время как графические процессоры NVIDIA Maxwell второго поколения поддерживают уровень 12_1, что позволяет NVIDIA называть Maxwell единственной архитектурой с полной поддержкой DX12. Не будем сейчас задерживаться на каждой из функций, входящих в тот или иной уровень. Такое описание было дано в обзоре GeForce GTX 980 Ti. Добавим лишь, что внутри некоторых функций есть более тонкие градации. В частности, Resource Binding Tier 3 реализована только в GCN 1.1/1.2. Кроме того, только в GCN поддерживается Asynchronous Shaders – функция, лежащая вне feature levels, которая дает возможность одновременно производить графические и GP-вычисления на одном GPU.
⇡#AMD Radeon R9 Fury X: технические характеристики, цена
Сегодня мы встречаем первый продукт на основе графического процессора Fiji – Radeon R9 Fury X. Вопреки ожиданиям, Fiji не нашлось места в «номерной» линейке Radeon R9, и карта была выпущена под собственным именем, вызывающим ассоциации с древними ускорителями ATI Rage.
Fury X комплектуется полностью функциональным чипом Fiji, спецификации которого описаны выше, и обладает официальным TDP 275 Вт. Верхний предел тактовой частоты GPU составляет 1050 МГц. Видеокарта оценена в $649 (рекомендованная розничная цена для США без налогов) – то есть ровно в такую же сумму, как GeForce GTX 980 Ti. Российские цены ожидаются на уровне 43 450 руб.
Fiji в сравнении с GM200 имеет перекос в сторону шейдерной производительности, и при сопоставимых частотах в районе 1 ГГц даже TITAN X не может составить конкуренции Fury X по пиковой производительности в расчетах FP32 (8,6 TFLOPS против 6,144 TFLOPS), к которым относится и графика, и большинство задач GP-GPU. Поскольку архитектура GCN способна выполнять вычисления двойной точности на скорости 1/2 от FP32, от грядущих продуктов FirePro на базе Fiji (а AMD вряд ли упустит такую возможность) можно ожидать результата в 4,3 TFLOPS, который не снился даже ускорителям NVIDIA с процессорами GK110/GK210 (1,707 TFLOPS у GTX TITAN Black), не говоря уже о TITAN X с его смешными 0,192 TFLOPS. И Даже Radeon R9 Fury X, ограниченный соотношением 1/16 между FP64 и FP32, способен выдать более внушительные 0,538 TFLOPS.
МодельГрафический процессорВидеопамятьTDP, ВтЦена в США (без налогов), $
Кодовое наз-вание
Число транзис-торов, млн
Тех-процесс, нм
Тактовая частота, МГц: High State / Boost State
Число пото-ковых процес-соров
Число текстур-ных блоков
Число ROP
Разряд-ность шины, бит
Тип микро-схем
Тактовая частота: реальная (эфф-я), МГц
Объем, Мбайт
Radeon R9 280X
Tahiti XT2 / Tahiti XTL
4313
28
850/1000
2048
128
32
384
GDDR5 SDRAM
1500 (6000)
3072
250
259
Radeon R9 290X
Hawaii XT
6020
28
–/1000
2816
176
64
512
GDDR5 SDRAM
1250 (5000)
4096
250
350
Radeon R9 295X2
Vesuvius (2 x Hawaii XT)
2 × 6020
28
–/1018
2 × 2816
2 × 176
2 × 64
2 × 512
GDDR5 SDRAM
1250 (5000)
2 × 4096
500
699
Radeon R9 Fury X
Fiji XT
8900
28
–/1050
4096
256
64
4096
HBM
500 (1000)
4096
275
649
Вслед за Fury X появится видеокарта Radeon R9 Nano, также построенная на базе GPU Fiji, но в тепловом пакете 175 Вт. Известно, что, в отличие от Fury X, это устройство будет охлаждаться компактным воздушным кулером и довольствоваться единственным восьмиконтактным разъемом питания. Полные спецификации и розничная цена R9 Nano пока не разглашаются.
AMD Radeon R9 Fury X: конструкция
Поскольку чипы памяти HBM установлены на общей подложке с GPU, все, что находится на печатной плате снаружи, – это система питания и порты ввода-вывода. Поэтому у Radeon R9 Fury X удивительно скромные габариты для видеокарты такого класса, еще более скромные оттого, что AMD вместо воздушного кулера использовала компактную систему водяного охлаждения. В принципе, 275 Вт мощности вполне по силам и качественному воздушному кулеру, но в случае с Fiji СВО уместна еще и потому, что поток тепла от GPU и чипов памяти локализован в одном месте.
Несмотря на скромные размеры, СВО готова к нагрузке вплоть до 500 Вт. Вентилятор в стандартном режиме очень тихий. Единственная претензия: на открытом тестовом стенде заметен легкий свист помпы, но вряд ли он проникает за пределы стандартного компьютерного корпуса.
Тестовый образец Radeon R9 Fury X – это то, в каком виде видеокарта поступит в продажу. Первое время не будет вариантов с оригинальной платой и системой охлаждения, хотя впоследствии производители наверняка представят варианты Fury X с воздушным охлаждением.
AMD серьезно отнеслась к дизайну ускорителя. Плата заключена в металлический кожух со вставками из пластика с эффектом soft touch. Логотип Radeon на торце подсвечен красными светодиодами. Другой блок светодиодов рядом с разъемами питания сигнализирует об уровне загрузки GPU. Имеется рычажок для переключения между двумя микросхемами BIOS.
Вопреки ожиданиям, Fiji лишен теплорассеивателя, и основание водоблока СВО со встроенной помпой непосредственно прилегает к микросхемам. Нас убедительно просили не снимать помпу с платы, поскольку при такой площади кремния есть риск обколоть чипы. Так что стандартных фотографий GPU с монеткой и снимков платы с обеих сторон на этот раз, к сожалению, не будет. Впрочем, известно, что карта несет шестифазную систему питания. Ток поступает по двум восьмиконтактным разъемам дополнительного питания PCIe.
Набор видеовыходов включает три разъема DisplayPort 1.2 и один HDMI – к сожалению, версии 1.4a, а не 2.0, что ограничивает частоту обновления на 4К-дисплеях значением 30 Гц.
Следующая страница →