USD 63.71 ЕВРО 70.52

Битва гигантов на рынке серверных графических адаптеров и сопроцессоров

Аналитика

Битва гигантов на рынке серверных графических адаптеров и сопроцессоров

Компании Intel, AMD и NVIDIA практически одновременно представили новые серверные сопроцессоры, призванные повысить производительность при выполнении параллельных операций

Главными новостями этой недели на выставке и конференции Supercomputing 2012
стало повышение уровня конкуренции в области ускорителей и сопроцессоров.
Компании Intel, AMD и NVIDIA практически одновременно представили новые
процессоры, призванные повысить производительность при выполнении параллельных
операций путем внедрения большего количества специализированных ядер. Как и
раньше NVIDIA и AMD придерживаются политики применения процессоров изначально
ориентированных на обработку графики (GPU), в то время как Intel использует
множество небольших x86-ядер на основе уже давно обещанной  архитектуры
Many Integrated Core (MIC).

Достаточно много информации об этих устройствах было известно до их
появления на рынке, однако некоторые детали открылись только сейчас.

Intel Xeon Phi

Компания Intel наконец-то объявила об официальном начале поставок процессора
Xeon Phi, позиционируемом как средство для улучшения параллелизации вычислений.
Для этих же целей служат и новинки от AMD и NVIDIA.

Intel анонсировала две основные версии процессора: Xeon Phi 5110P уже
доступный в ограниченных партиях, а также серию Xeon 3100, которая будет
запущена в первом квартале 2013 года. Обе версии производятся по
22-нанометровому процессу (по слухам они содержат по 5 миллиардов транзисторов,
хотя эта информация, как и размер кристалла, пока не была подтверждена
официально) и основаны на архитектуре MIC.

Версия 5110P содержит 60 ядер (по четыре потока каждый), работающих с
тактовой частотой 1,05 ГГц, 30 Мбайт L2-кэша и поддерживает до 8 Гбайт памяти
формата GDDR5 с пиковой пропускной способностью 320 Гбайт/с. При этих
показателях производительность процессора на вычислениях с плавающей запятой
при двойной точности составляет 1,01 терафлопс. В число первых покупателей
входит Texas Austin Computing Сenter (TAAC), базирующийся в Техасском
университете в Остине. В их суперкомпьютере Stampede используется
модифицированная версия 5110P – SE10, которая отличается наличием одного
дополнительного ядра, слегка завышенной тактовой частотой и увеличенным объемом
L2-кэша.

Intel пока не опубликовала информацию о количестве ядер в серии 3100,
однако, скорее всего там будет меньше ядер при большей тактовой частоте, так
как ее мощность составляет 300 Ватт против 220 Ватт у 5100P (которая оснащается
пассивным охлаждением, в то время как у 3100 будут модели с обоими вариантами:
активным и пассивным).

NVIDIA Tesla K20

NVIDIA официально анонсировала два процессора на основе архитектуры Kepler,
производимые по 28-нанометровому техпроцессу: K20X и K20. До этого уже
была подтверждена информация о том, что K20X используются в суперкомпьютере
Titan, занимающем сейчас первую строчку в рейтинге 500 самых быстрых
суперкомпьютеров. В K20X используется 2688 GPU-ядер с тактовой частотой 732
Мгц. Его производительность на вычислениях с плавающей запятой при двойной
точности составляет 1,31 терафлопс, а при одинарной точности – 3,95 терафлопс.
По заявлениям NVIDIA по сравнению с предыдущим поколением процессоров
производительность вычислений с двойной точностью увеличилась вдвое, а с
одинарной – втрое. K20 оснащен 2496 GPU-ядрами с тактовой частотой 706 Мгц. Его
производительность на вычислениях с плавающей запятой при двойной точности
составляет 1,17 терафлопс, а при одинарной точности – 3,52 терафлопс. В любом
случае, это серьезный чип на основе семи миллиардов транзисторов.

Компанией было отмечено огромное количество применений, в которых эти
процессоры гораздо эффективней с точки зрения производительности, чем CPU.

AMD
FirePro S10000

Компания AMD представила свой графический укоритель FirePro S10000 на основе
двух GPU-чипов, производимых по 28-нанометровой технологии на основе
архитектуры Tahiti (Southern Islands).Ранее также была анонсирована модель
S9000 на основе одного GPU-чипа. В общей сложности S10000 содержит 3594
GPU-ядра (по 1792 на чип), работающих с тактовой частотой 825 Мгц. Его
производительность на вычислениях с плавающей запятой при двойной точности
составляет 1,48 терафлопс, а при одинарной точности – 5,91 терафлопс.
Одночиповая S9000 содержит вдвое меньше ядер, но работает с большей тактовой
частотой – 900 МГц.

AMD также начала внедрять свою архитектуру «Graphics Core Next» (GCN),
позволяющую двум чипам на одной плате одновременно выполнять вычислительные
задачи и обрабатывать графику/виртуализацию. Это предполагает вероятное
использование S10000 в рабочих станциях (у NVIDIA для этого есть отдельное
решение – Quadro). Пока w AMD было больше удачи на рынке решений для рабочих
станций, чем в суперкомпьютерах.

x86-сопроцессоры против GPU-ускорителей

Скорее всего, основная борьба в этой области развернется между
x86-сопроцессорами и GPU-ускорителями. Intel пытается разграничить эти понятия
при помощи того факта, что только Xeon Phi может запускать операционные
системы, графические ускорители на это не способны. И это действительно так, на
Xeon Phi могут запускаться Red Hat Enterprise Linux 6.x и SuSE Linux старше
версии 12. Однако насколько эта особенность важна пока не ясно, ведь такие
устройства используются в компьютерах, где уже есть CPU, и применяются скорее
для обработки приложений, а не ОС.

Более важные различия заключаются в том, насколько хорошо они работают,
каково у них соотношение производительности и потребляемой мощности, а также,
насколько сложно добиться от них максимальной производительности.

Intel часто рассуждает о том, что благодаря x86-архитектуре ядер в Xeon Phi,
при работе с ним можно использовать все те же языки, библиотеки и инструменты,
которые в большом количестве разработаны для обычных CPU и привычны
программистам. У Intel действительно есть крайне популярная библиотека для
параллелизации вычислений, используемая пока в основном с многоядерными
процессорами линеек Core и Xeon.

NVIDIA делает упор на расширения программно-аппаратной архитектуры CUDA,
способные взаимодействовать с языками программирования C/C++ и Fortran, а также
осуществлять поддержку OpenAAC-инструментов, призванных облегчать компиляторам
производство параллельного кода. Представители NVIDIA утверждают, что CUDA
крайне популярна в университетах, так как у многих студентов есть компьютеры на
базе видеокарт с поддержкой данной технологии (о распространенности Xeon Phi
говорить пока рано, однако можно с уверенностью говорить об универсальности
x86-ядер). AMD же возлагает надежды на технологию OpenCL.