Баннер
Баннер
Архив

На суперкомпьютерной конференции SC’2012 в Солт-Лейк-Сити (штат Юта), США, 12 ноября 2012 г. корпорация Intel представила сопроцессоры Intel Xeon Phi, которые обеспечат исключительную производительность для реализации инновационных проектов в области производства, энергетики, биологических наук и в других отраслях, где используются высокопроизводительные вычисления.

Возможность быстро провести компьютерные вычисления, смоделировать нужные условия и принять более взвешенное решение способствовала развитию высокопроизводительных вычислений и анализа. Это вызвано потребностью как корпоративных клиентов, так и научного сообщества в решениях для подготовки более точных прогнозов погоды, для создания более эффективных энергетических ресурсов, для разработки новых лекарств и много другого. За счет высоких показателей производительности на ватт потребляемой мощности и других выдающихся характеристик сопроцессоров Intel Xeon Phi современная наука и производство получат еще большую уверенность при поиске точных ответов на самые важные вопросы, смогут использовать высокопроизводительные системы за пределами научных лабораторий и университетов и достичь максимальной продуктивности работы.

Сопроцессоры Intel Xeon Phi, созданные на основе архитектуры Intel Many Integrated Core (Intel MIC), дополнят существующие семейства процессоров Intel Xeon E5-2600 и 4600 для обеспечения лидирующей производительности высокопараллельных приложений. Процессоры семейства Intel Xeon E5 представляют собой практичные высокопроизводительные решения, которые используются во многих системах из списка TOP500 с петафлопсной производительностью. Сопроцессоры Intel Xeon Phi помогут суперкомпьютерам найти ответы на вопросы в различных научных и технических областях, включая генетические исследования, разведку нефти и газа и моделирование климата, и Intel считает, что новые технологии помогут добиться экзафлопсной производительности, которая в тысячу раз превысит вычислительные возможности систем с петафлопсной производительностью.

Экономия времени и средств

Сопроцессоры Intel Xeon Phi используют преимущества привычных языков программирования (таких как C, C++, Fortran), моделей и библиотек параллельности приложений OpenMP, MPI, Pthreads, Cilk и пр.) и инструментов и методик разработки, поддерживаемых архитектурой Intel.

Это позволит гарантировать, что компании, занимающиеся разработкой программных продуктов, и IT-департаменты смогут более эффективно использовать параллельный код без необходимости изучения проприетарных и привязанных к определенному аппаратному обеспечению моделей программирования.

Intel предлагает все необходимые программные инструменты (включая Intel Parallel Studio XE и Intel Cluster Studio XE) для того, чтобы помочь ученым и инженерам оптимизировать их программный код и  использовать все преимущества сопроцессоров Intel Xeon Phi. Эти инструменты позволяют оптимизировать код и за счет использования одинаковых языков и моделей программирования для сопроцессоров Intel Xeon Phi и процессоров Intel Xeon E5 помогают приложениям воспользоваться как ресурсами десятков ядер сопроцессоров Intel Xeon Phi, так и преимуществами эффективного использования вычислительных потоков процессоров Intel Xeon.

Новые семейства сопроцессоров Intel Xeon Phi

Intel представляет два новых семейства сопроцессоров Intel Xeon Phi, созданных на базе самых современных 22-нанометровых трехмерных транзисторов Tri-Gate, которые обеспечивают оптимальную производительность и производительность на ватт потребляемой мощности для обработки высокопараллельных приложений.

Семейство сопроцессоров Intel Xeon Phi 3100 будет особенно эффективно при обработке задач с ограничениями по скорости вычислений, включая медико-биологические приложения и приложения для моделирования финансовых показателей. Семейство Intel Xeon Phi 3100 обеспечит производительность с удвоенной точностью свыше 1000 Гигафлопс (1 Терафлопс), поддержку до 6 ГБ системной памяти с пропускной способностью 240 ГБ/с и поддержку ряда функций для обеспечения исключительной надежности работы, включая коды коррекции ошибок. Значение тепловыделения Thermal Design Point (TDP) этих сопроцессоров составляет 300 Вт.

Сопроцессоры Intel Xeon Phi 5110P обеспечивают более высокую производительность при пониженном энергопотреблении. Они демонстрируют производительность с удвоенной точностью на уровне 1.011 Гигафлопс (1.01 Терафлопс) и поддерживают 8 ГБ памяти GDDR5 с пропускной способностью 320 ГБ/с. С показателем TDP на уровне 225 Вт сопроцессоры Intel Xeon Phi 5110P с пассивным охлаждением обеспечивают наилучшую энергоэффективность, которая оптимально подойдет для сред с высокой плотностью размещения вычислительного оборудования, и предназначены для рабочих задач с ограничениями по скорости вычислений, включая разработку цифрового контента и исследования в области энергетики. Эти процессоры используются в большинстве систем, вошедших в 40-е издание списка TOP500.

Для того чтобы предоставить доступ к новой технологии сопроцессоров Intel Xeon Phi отдельным клиентам, включая центр Texas Advanced Computing Center (TACC), Межведомственный суперкомпьютерный центр Российской академии наук (МСЦ РАН) и Южно-Уральский государственный университет (ЮУрГУ), Intel дополнительно разработала адаптированные модели процессоров: Intel Xeon Phi SE10X и Intel Xeon Phi SE10P. Они обеспечивают производительность с удвоенной точностью на уровне 1073 Гигафлопс и на 10% большую пропускную способность памяти сопроцессора: 352 ГБ/с, по сравнению с моделями Intel Xeon Phi 5110P.

Большинство суперкомпьютеров TOP500 «выбирает» процессоры Intel

Более 75% (379 систем) суперкомпьютеров в 40-м издании списка TOP500 используют процессоры Intel. Из систем, которые впервые вошли в список, на долю компьютеров на базе технологий Intel приходится более 91%. В ноябрьском выпуске списка самых мощных суперкомпьютеров присутствуют семь систем на базе сопроцессоров Intel Xeon Phi, включая Stampede центра TACC (2.66 Петафлопс, № 7 в списке); Discover центра климатического моделирования NASA (417 Терафлопс, № 53); Endeavour корпорации Intel (379 Терафлопс, № 58); суперкомпьютер МВС-10П МСЦ РАН (375 Терафлопс, № 59); систему Maia центра Ames Research Center NASA (212 Терафлопс, № 117); компьютер «РСК Торнадо» Южно-Уральского государственного университета (146 Терафлопс, № 170); суперкомпьютер Beacon Национального института вычислительных наук Университета Теннесси (110 Терафлопс, № 253).

Большая популярность сопроцессоров Intel Xeon Phi

В течение последних двух лет корпорация Intel работала совместно с ведущими производителями программного и аппаратного обеспечения для создания лидирующих технологических решений на базе сопроцессоров Intel Xeon Phi. В результате сегодня не только реализовано 7 систем, анонсированных в 40-м списке ТОР500, но и представлены инновационные аппаратные разработки и приложения, использующие эффективность сопроцессоров Intel Xeon Phi.

Профессор Стефан Хокинг (Stephen Hawking) и лаборатория Cosmos Lab в Кембриджском университете получили предварительный доступ к технологии Intel Xeon Phi для использования ее в их суперкомпьютере SGI. «Я очень рад, что в нашем суперкомпьютере COSMOS SGI используется новейшая многоядерная технология корпорации Intel – сопроцессоры Intel Xeon Phi, – сказал профессор Хокинг. – С помощью нашего мощного и гибкого решения SGI UV2000 мы сможем продолжить наши исследования с целью понять строение нашей вселенной».

Сопроцессоры Intel Xeon Phi: ключевые характеристики

Сопроцессоры Intel Xeon Phi – это инновационные решения, которые имеют несколько функциональных возможностей, способствующих развитию высокопроизводительных вычислений.

• Оптимальный объем памяти для высокопроизводительных систем:

Сопроцессоры Intel Xeon Phi поддерживают до 8 ГБ системной памяти (7.75 ГБ доступно при включении коррекции ошибок памяти ECC) с пиковой пропускной способностью 352 Гбит/с. Это позволяет гарантировать высокую скорость сбора и анализа данных.

• Большой объем кэш-памяти:

Благодаря поддержке до 30.5 МБ кэш-памяти второго уровня сопроцессоры Intel Xeon Phi способны предоставить нужный объем вычислительных ресурсов для надежной работы высокопараллельных рабочих нагрузок.

• Более широкий параллелизм данных за счет использования усовершенствованного 512-разрядного блока обработки.

• Поддержка многими разработчиками программных инструментов в рамках стандартных решений.

• Поддержка ОС Linux: Red Hat Enterprise Linux версии 6.x и SuSE Linux версии 12 и выше.

Производительность

Результаты оценки производительности, приведенные в этом документе, получены в результате экспериментов, в рамках которых сравнивались производительность оптимизированных версий приложений для процессоров с производительностью оптимизированных версий приложений для сопроцессоров. Это позволяет избежать переоценки сопроцессоров. Кроме того, два процессора используются для сравнения с одним сопроцессором для того, чтобы сравнение производилось при сравнимом энергопотреблении, и для того, чтобы избежать переоценки сопроцессора. Тесты проводились с использованием одного сопроцессора Intel Xeon Phi и одного двухпроцессорного сервера на базе процессора Intel Xeon E5-2670. Сравнивались только параллельные, потоковые и векторизированные версии тестов. Текущая версия библиотеки программ Intel Math Kernel Library (MKL) использовалась для тестов SGEMM, DGEMM и SMP Linpack. Для тестов  с использованием процессора Intel Xeon E5-2670 использовались следующие размеры матриц: SGEMM = 13824x13824, DGEMM 7936x7936, SMP Linpack 30720x30720. Для тестирования сопроцессоров Intel Xeon Phi SE10P (с кодом коррекции ошибок) с программным стеком Gold Release Candidate размеры матриц составляли: SGEMM = 15360x15360, DGEMM 7680x7680, SMP Linpack 26872x28672.

Полтора года назад в Гамбурге произошло запоминающееся событие: диалог-поединок Томаса Стерлинга и Дэвида Кирка на конференции ISC’2011. Он запомнился многим. Не то чтобы там было высказано нечто сенсационное, доселе неслыханное. Да и на поединок это было не так уж и похоже: два специалиста обсуждали технические вопросы, тихо и чинно, даже со всяческими реверансами. Без особой экспрессии, даже схваткой не назовешь. И все-таки запомнилось.

Наверное, потому, что обсуждали Путь, обозначили вопросы, которые не обойти, говоря о перспективах HPC, о препятствиях на дороге к таинственному экзаскейлу. Так ведь и пресловутый экзаскейл уже не кажется этаким абстрактным понятием, символом, а то и фетишем, каким казался еще год-два назад. Да, до него еще далеко, но к рекордам прибавился один нолик справа, а следующий нолик уже не в мечтах, а в планах, довольно конкретных.

Томас Стерлинг выступал в амплуа революционера: чтобы достичь цели, недостаточно эволюции, надо радикально менять подходы, думать о принципиально новой архитектуре. Но и Дэвида Кирка, представлявшего NVIDIA, ретроградом никак не назовешь. Гибридные архитектуры – чем не революция? Пусть не столько концептуально, сколько технологически, но NVIDIA революционизировала отрасль.

И вот в Москве, в начале зимы удается побеседовать с Томасом Стерлингом и со Стивом Скоттом из NVIDIA. А побеседовав, хочется понять, что же изменилось за эти полтора года в понимании Пути. Или есть просто два Пути, ведущие к цели?

Примерную архитектуру будущей экзафлопсной системы можно представить, используя широко известную технологию проектирования «сверху вниз».  Для начала – несколько слов о проблеме экзаскейла как таковой. По своей сути проблема состоит из трех основных частей. Это цель, которую мы хотим достигнуть, – 1018 операций с плавающей точкой в секунду, те тенденции в области микроэлектроники, которые мы наблюдаем, – развитие технологического процесса, архитектуры процессоров, технологий памяти, технологий оптических коммуникаций и других. И, наконец, ограничения, связанные с энергопотреблением системы. Безусловно, это не единственные проблемы, которые возникают при разработке экзафлопсной системы. Но мы не станем касаться ни вопросов надежности, ни вопросов масштабируемости программного обеспечения. Какова же будет общая архитектура подобной системы, насколько будет реально ее построить и ввести в эксплуатацию?

Отталкиваясь от существующих ограничений, попытаемся взглянуть на архитектуру системы в целом, затем спустимся на уровень отдельной стойки, отдельного вычислительного узла и далее до компонентов. После этого посмотрим, насколько то, что мы получили на компонентном уровне, соответствует тенденциям и требованиям, необходимым для экзаскейла (см. табл.).

Начнем с нескольких примеров уже существующих систем. В первую очередь рассмотрим японскую систему K Computer, которая первая преодолела рубеж 10-петафлопсной производительности.  Для этой системы было построено специальное 3-этажное здание общей площадью более 4000 м2. Помещение, где размещены 918 стоек суперкомпьютера, имеет размеры 50х60 метров. Хотим ли мы, чтобы наша экзаскейльная система была таким же монстром? Следующая система – это Blue Gene/Q, которая является сейчас номером 1 в списке ТОР500. Она выглядит гораздо более компактно – всего лишь 318 м2, 96 стоек. Это гораздо лучше, чем предыдущий пример. Резонный вопрос: зачем нужно увеличивать плотность и уменьшать площадь, занимаемую системой? Если мы не выходим за рамки требований по энергопотреблению, построить здание вычислительного центра, а в нем серверную комнату даже большой площади не так уж и сложно, и стоимость подобных работ будет мала по сравнению со стоимостью самой системы. Основной причиной, которая заставляет нас увеличивать плотность, является интерконнект. В системах большого масштаба возникает много проблем, связанных с интерконнектом. В первую очередь это проблемы, связанные с топологией и прокладкой кабелей. Вторая проблема связана с увеличением задержек, а третья – с энергопотреблением. Начнем с задержек. Простой расчет показывает, что один метр кабеля – это 3.3 наносекунды дополнительной задержки. В существующих системах это не так страшно, но давайте представим систему уровня K Computer. Максимальная длина коммуникаций между наиболее удаленными узлами в такой системе будет порядка 100 метров, а это означает, что мы получим 330 наносекунд дополнительной задержки. Если предположить, что задержка между двумя соседними по топологии узлами будет порядка 300–500 наносекунд (что является вполне реальными цифрами, Blue Gene/Q имеет задержку между соседними узлами 300 наносекунд),  то 100-метровый кабель добавляет от 67 до 100 процентов задержки. При этом даже в таких топологиях, как torus (тор), эта задержка существенна, если даже мы используем короткие кабели, то нам так или иначе придется пройти по кусочкам эти 100 метров, чтобы добраться от одного узла к другому, сильно удаленному. Однако наиболее критичной эта проблема является для топологий с низким диаметром, таких, например, как Dragonfly. В данном случае общая задержка в системе меньше, чем в системе, построенной на базе тороидальных топологий, и, соответственно, негативный эффект от увеличения размера системы и увеличения длины кабелей будет больше.  Следующая проблема связана с тем, как реализовать выбранную нами топологию при фиксированном расположении стоек с вычислительными узлами. Начнем с достаточно простого случая, это N-мерный тор. Преимуществом такой топологии является крайнее простая схема укладки кабелей – они имеют короткую длину. При этом если мы два измерения тора кладем на решетку из стоек в машинном зале, то прокладка кабеля становится простым делом, и мы имеем минимальные длины кабелей. Даже если мы используем больше чем два измерения между стойками, все кабели прокладываются только в двух измерениях – вдоль ряда стоек и между рядами стоек, а их прокладка не представляет большой сложности. О недостатках: как было упомянуто выше, только если мы имеем два измерения тора между стойками, мы получим большое преимущество от расположения стоек в виде прямоугольной решетки и максимально сократим длины кабелей. Также основным недостатком тороидальной топологии является ее диаметр сети, который больше по сравнению с другими. Как следствие, в данном случае мы получаем меньшую бисекционную пропускную способность. Следующий пример – многоуровневая топология Flattened Butterfly. Как и в случае тора, здесь кабели между стойками прокладываются только в двух направлениях – вдоль ряда и между рядами. Эта топология имеет гораздо меньший диаметр, чем тор, но требует гораздо больше портов на маршрутизаторе и поэтому использование ее в полном объеме является проблематичным.

Одна из наиболее перспективных топологий интерконнекта на текущий момент – это Dragonfly, отдельные группы узлов, связанные между собой по схеме «все со всеми». При этом внутри группы топология четко не определена и может быть достаточно произвольна.  Преимуществами подобной топологии являются маленький диаметр сети и высокая бисекционная пропускная способность. Но в случае стандартного расположения вычислительных стоек мы имеем серьезные проблемы с прокладкой кабелей и с большими длинами кабелей. Это происходит из-за того, что от каждой стойки мы должны протянуть как минимум один кабель к каждой другой стойке. Кабели идут при этом в обоих измерениях, как вдоль, так и между стойками. Соответственно, велика вероятность возникновения ошибки при прокладке, к тому же аккуратно проложить кабели подобным образом – большая проблема. И последняя проблема – это энергопотребление, поскольку, имея более короткие кабели, мы можем использовать трансиверы, потребляющие меньше электроэнергии. Это не означает, что в данном случае  пропорционально уменьшится потребляемая мощность, но некоторые преимущества в энергопотреблении возможны.

Однако уменьшать размер системы до бесконечности мы не можем, потому что ограничены снизу плотностью размещения компонентов и энергопотреблением отдельно взятой стойки. Если взять за основу вполне разумную цифру в 50 мВт для общего энергопотребления экзафлопсной системы, то конфигурация подобного суперкомпьютера может выглядеть следующим образом: 256 стоек, причем  каждая потребляет примерно 200 кВт питания. Уменьшать количество стоек означает пропорционально увеличивать энергопотребление стойки. Увеличить его больше 200 кВт представляется проблематичным. Двести пятьдесят шесть стоек прекрасно располагаются в виде решетки 16х16, и максимальное расстояние между стойками при этом (если брать расстояние не по прямой, а только идя вдоль ряда, а потом между рядами, – потому что иначе кабели проложить невозможно) составляет порядка 50–60 метров, что дает нам порядка 150–200 наносекунд задержки. Это достаточно большая цифра, но это меньше, чем у 1000 стоек. При этом производительность одной вычислительной стойки будет составлять чуть меньше 4 ПФлопс.

Перейдем к рассмотрению архитектуры вычислительной стойки. Прежде всего, нужно различать понятия вычислительного узла и узла топологии, то есть одного маршрутизатора, к которому могут быть подключены несколько вычислительных узлов. Мы уделим внимание модульности, а также топологии внутри стойки. Если взять для примера системы семейства Blue Gene, то мы видим 1024 узла в одной стойке, что уже очень плотный дизайн. Предположительно, после интегрирования памяти в одном пэкэдже с процессором в стойке смогут разместиться 2048 узлов. Размещение большого количества представляется весьма и весьма проблематичным. С точки зрения узлов топологии, если мы используем тороидальную топологию, весьма разумным представляется соотношение, когда один вычислительный узел является также узлом топологии. В этом случае, как и в Blue Gene, маршрутизатор интегрирован непосредственно в процессор. Для других топологий ограничивающим фактором является количество портов маршрутизатора: в случае тора оно не очень велико, в случае топологии типа Flattened Butterfly или Dragonfly количество узлов на маршрутизаторе должно быть гораздо больше. В данном случае представляется вполне естественным подключать от четырех до восьми узлов к одному маршрутизатору с большим числом портов, который выполнен в виде отдельной микросхемы. Если говорить о модульности и механическом дизайне, то больше, чем 256 модулей, которые могут быть извлечены и вставлены обратно, достаточно сложно механически разместить в одном шкафу. Также при энергопотреблении 200 кВт на стойку мы вынуждены использовать водяное охлаждение, что весьма перспективно с точки зрения увеличения энергоэффективности систем. Что касается топологий, используемых внутри стойки, то в случае тора здесь все достаточно просто, поскольку одна стойка является  частью этого тора. Если мы говорим про перспективные технологии, например такие как Dragonfly, то в данном случае весьма естественно считать, что одна стойка является группой в терминах Dragonfly. То есть стойки соединены между собой в полностью связанный граф. В данном случае топология внутри стойки не столь важна и она может быть разной, в частности это может быть Flattened Butterfly, гиперкуб или другая топология.

Посмотрим, что получается на уровне одного модуля, если считать, что в одной вычислительной стойке 256 модулей. Мы получаем требуемую производительность чуть выше 15 ТФлопс, один киловатт энергопотребления и до восьми вычислительных узлов в модуле. В момент построения экзафлопсной системы память и интерконнект, скорее всего, будут интегрированы если не на один кристалл, то по крайней мере в один пэкэдж, например многочиповый модуль.   Мы предполагаем, что узел может содержать некоторое количество постоянной памяти, которая расположена в отдельном чипе или чипах, и что эта постоянная память может использовать до 20% общего энергопотребления. Мы также предполагаем, что в этот момент скорость коммуникаций будет составлять порядка 40 Гб/с. Это выглядит достаточно реально: на данный момент для InfiniBand пропускная способность уже достигла 14 Гб/с, в районе 2014 года составит 25 Гб/с для QDR InfiniBand и 100GbE, а в районе 2016 года достигнет 40 Гб/с. Если учесть, что экзаскейльная система должна быть построена в районе 2018 года, то, скорее всего, она будет использовать те технологии, которые будут существовать в момент 2016 года, поскольку проектирование экзаскейльной системы займет достаточно большое время. Таким образом, мы придем к следующим вариантам архитектуры одного вычислительного модуля.

Вариант «А» предполагает максимальное количество: 2048 вычислительных узлов внутри стойки. В этом случае каждый узел будет иметь производительность порядка 2 ТФлопс и потреблять 100 Вт. Система будет иметь тороидальную топологию, маршрутизатор будет интегрирован в микросхему. При этом следует отметить, что такой вычислительный узел будет иметь производительность в 10 раз выше, чем производительность существующего вычислительного узла, например в Blue Gene/Q. В то же время Blue Gene/Q имеет пропускную способность каждого линка

2 ГБ/с. Если мы просто увеличим эту пропускную способность в 10 раз, мы получим, что для каждого линка нам требуется пропускная способность 20 ГБ/с (или 160 Гбит/с), что достигается использованием четырех 40-гигабитных соединений. Эти цифры весьма реальны, и в настоящее время мы не видим большой проблемы их достичь. В то же время количество узлов в такой системе будет несколько выше, чем в Blue Gene/Q, в котором 96 000 узлов, а в системе, которая получается в нашем рассмотрении, – 512 000 узлов. Но следует учесть, что 5-мерный тор, используемый в Blue Gene/Q, является ассиметричным и в одном из измерений имеет размерность 2. Поэтому в нашем случае мы можем легко увеличить размерность этого измерения или добавить еще одно измерение в торе.

Вариант «Б» предполагает использование вычислительных узлов с производительностью в диапазоне 2–4 ТФлопс, соответственно, количество вычислительных узлов на стойку может быть уменьшено до 1024, и в этом случае мы используем один многопортовый маршрутизатор на каждые четыре или восемь узлов. Следует ожидать, что энергопотребление подобного маршрутизатора будет в диапазоне от 100 до 200 Вт. Это вызвано тем, что понадобится высокая пропускная способность, а энергопотребление трансивера с переходом на новый технологический процесс уменьшается не так сильно. В качестве примера можно рассмотреть InfiniBand, когда энергопотребление одного 36-портового маршрутизатора для QDR InfiniBand составляло порядка 90 Вт, а с переходом на FDR InfiniBand  и новый технологический процесс оно уменьшилось и стало чуть меньше 80 Вт, но в любом случае энергопотребление уменьшилось лишь на единицы процентов. Для того чтобы реализовать необходимые топологии, нам потребуется примерно от 48 до 64 портов на маршрутизаторе. Увеличение количества портов на маршрутизаторе приводит к значительному усложнению корпусировки микросхемы, поскольку при этом сильно возрастает количество ножек и требуются специальные технологии корпусировки. В качестве топологии внутри стойки мы будем использовать Flattened Butterfly. В случае с 256 маршрутизаторами и восемью узлами на один маршрутизатор мы будем использовать двухуровневый Flattened Butterfly 16х16, в случае четырех узлов на маршрутизатор и 512 маршрутизаторов мы будем использовать трехуровневый Flattened Butterfly 8х8х8. Топология между стойками – Dragonfly, т. е. полная коннективность между стойками, когда каждая стойка соединена со всеми остальными.

Итак, мы рассмотрели высокоуровневые архитектуры потенциальных экзаскейльных систем. Выглядят ли подобные архитектуры реализуемыми? Да, если посмотреть на текущие роадмэпы развития гетерогенных процессоров, мы, вполне вероятно, сможем достичь необходимой производительности в рамках нашего бюджета по энергопотреблению. Так, ускорители от NVIDIA (Kepler) и Intel (Xeon Phi) имеют производительность более 1 ТФлопс. Соответственно, через два года можно ожидать удвоение производительности, и еще через два года – снова удвоение производительности. Ориентировочно  в районе 2016 года производительность подобных чипов достигнет примерно 6 ТФлопс, правда, при несколько большем энергопотреблении, чем нам требуется. Однако если мы снимем энергопотребление с 6 ТФлопс до 4, то вполне реально достичь требуемых 150 Вт на процессор, включая интегрированную память. Для того чтобы достичь такой плотности и низкого энергопотребления, нам потребуются продвинутые технологии изготовления памяти, такие как трехмерное стыкирование, будет требоваться интеграция памяти в один пэкэдж с процессором. Недавнее объявление компанией Micron технологии HMC показывает, что такая технология не только возможна, но и в принципе вполне готова к производству.  Интегрируя память в один пэкэдж с процессором, мы не только увеличиваем  плотность, но и уменьшаем энергопотребление, поскольку расстояние между процессором и памятью сокращается до нескольких миллиметров на одном пэкедже. Также мы можем несколько уменьшить энергопотребление трансиверов, которые используются для передачи сигналов между процессором и памятью.

Мы не рассмотрели проблемы, связанные с целостностью сигналов на уровне платы, связанные с интеграцией оптических трансиверов для соединения между собой вычислительных модулей и стоек. Мы также не упоминали различные продвинутые технологии, находящиеся сейчас в разработке, например такие, как кремниевая фотоника. У этих технологий большое будущее, но до их появления не только на рынке, а даже в продвинутых системах, таких как суперкомпьютер экзафлопсного диапазона, требуется достаточно большое время, и поэтому на эти технологии, на наш взгляд, пока не стоит делать ставку.

Он был и практиком, измерявшим современность с точностью до бита, и футурологом, предсказавшим нынешние достижения цифровых технологий. Его научные результаты в области теории  высокопроизводительных макроконвейерных вычислений были оценены международной организацией IEEE Computer Society и удостоены медали Computer Pioneer.

Царица всех наук

Виктор Михайлович Глушков (1923–1982) родился в городе Шахты Ростовской области в семье горного инженера. В школе, которую окончил с отличием, он самостоятельно овладел основами высшей математики и квантовой физики.

Однако планы поступления на физфак МГУ были нарушены начавшейся Великой Отечественной войной и оккупацией Украины. В начале 1943 года Донбасс был освобожден, и был объявлен прием студентов в Новочеркасский индустриальный институт.

Через четыре года появилась возможность перевестись на математический факультет Ростовского университета, которой Глушков не преминул воспользоваться. Он сдал экстерном всю четырехлетнюю университетскую программу и был зачислен сразу на пятый курс. Год в университете Глушков не столько учился, сколько работал над уникальным дипломным проектом, выполненным под руководством известного математика профессора Д. Д. Мордухай-Болтовского. В нем он развил методы вычисления несобственных интегралов, выявив погрешности в существовавших таблицах, выдержавших 12 переизданий.

После окончания университета в 1948 году Виктор Михайлович распределился в Свердловск, где читал лекции по высшей математике в Уральском лесотехническом институте. Там он познакомился с профессором Уральского университета Сергеем Николаевичем Черниковым, возглавлявшим кафедру математического анализа, впоследствии – членом-корреспондентом АН УССР. Черников предложил Глушкову поступить в университетскую аспирантуру и заняться исследованиями в области топологической алгебры.

Практическим результатом этих исследований стала кандидатская диссертация на тему «Теория локально-нильпотентных групп без кручения с условием обрыва некоторых цепей подгруппы», которую Глушков защитил под руководством Черникова в октябре 1951 года. «Остепененный» ученый получил должность заведующего кафедрой теоретической механики Уральского лесотехнического института.

А спустя четыре года Виктор Николаевич защитил докторскую диссертацию. Но уже не в Свердловске, а в Москве, в МГУ. Тема диссертации – «Топологические локально-нильпотентные группы» вызвала бурную реакцию мирового алгебраического сообщества. Глушков в своей работе решил пятую проблему Давида Гильберта. Каждое решение Гилбертовых проблем становится сенсацией в научном мире.

Пятая проблема, сформулированная как «Является ли группой Ли любая локально евклидова топологическая группа при подходящем выборе локальных координат?», до Глушкова была частично решена такими светилами математики, как Глиссон, Монтгомери, Циппин. Глушков за три года напряженной работы смог решить обобщенную пятую проблему, что вывело его в ряды ведущих алгебраистов мира.

Перед Виктором Михайловичем открылось блестящее математическое будущее. Однако он неожиданно кардинальным образом изменил свои научные интересы и сферу деятельности. Сам он объяснял этот резкий поворот знакомством с только что вышедшей тогда книгой Анатолия Ивановича Китова «Электронные цифровые машины».

В 1956 году Глушков переехал в Киев, где ни много ни мало занял пост перебравшегося в Москву «главного компьютерщика страны» Сергея Александровича Лебедева. После решения пятой проблемы Гильберта Глушков в математических кругах был столь же популярен, как, например, сейчас математик Григорий Перельман, и для украинского математического института он стал «прекрасным приобретением».

От искусства к науке

На новом месте Глушков в полной мере проявил свои «фирменные» черты: прекрасную способность усваивать новый материал, адаптироваться в новых научных областях, пристальность к деталям, умение выявлять главное, а также фантастическую работоспособность. Все работы лаборатории были продолжены и доведены до запланированных результатов. В частности, завершилась разработка ЭВМ «Киев» и отлажен ее опытный образец.

А год спустя Виктор Михайлович стал директором основанного в 1957 году Вычислительного центра АН УССР. Этот ВЦ на базе ЭВМ «Киев» начал обсчитывать задачи, поступающие из институтов украинской академии наук. Но Глушков считал –  и совершенно справедливо! – что исполнение одной лишь обслуживающей функции и для него, и для коллектива ВЦ явно недостаточно. Он начал реализовывать на практике постулаты кибернетики, используя ее методологию для формализации вычислительных процессов, работы узлов ЭВМ и оптимизации структуры и архитектуры. Такое расширение научной проблематики привело к тому, что в декабре 1962 года ВЦ был преобразован в Институт кибернетики УССР.

В этот период Виктор Михайлович получил убедительные результаты в области теории цифровых автоматов, которые заложили фундамент для дальнейших работ по автоматизации проектирования  ЭВМ. Развив теоретические разработки американских ученых, в первую очередь Клини и Мура, Глушков создал необходимый математический аппарат, при помощи которого стало возможно представлять компоненты ЭВМ, как схемы, так и программы, в виде алгебраических выражений.

«Вычислительные машины тогда проектировались на основе инженерной интуиции, – вспоминал Виктор Михайлович тот период. – Мне пришлось разбираться в принципах построения ЭВМ самому, у меня стало складываться собственное понимание работы ЭВМ. С тех пор теория вычислительных машин стала одной из моих специальностей. Я решил превратить проектирование машин из искусства в науку».

Вклад Глушкова в теорию цифровых автоматов вызвал огромный интерес в международном научном сообществе: его знаменитую монографию «Синтез цифровых автоматов» перевели на английский язык и издали в США и ряде других стран. В 1964 году за цикл работ по теории автоматов В. М. Глушков был удостоен Ленинской премии. В том же году он был избран действительным членом АН СССР по отделению математики.

Позже он воплотил свои теоретические находки в конкретных разработках – в системах автоматизированного проектирования: «ПРОЕКТ-1», «ПРОЕКТ-ЕС», «ПРОЕКТ-МИМ», «ПРОЕКТ-МВК». В 1970-е годы эти системы были переведены на ЕС ЭВМ и стали использоваться для автоматизации проектирования во многих организациях СССР.

За достижения в области автоматизации проектирования ЭВМ В. М. Глушков, В. П. Деркач и Ю. В. Капитонова в 1977 году были удостоены Государственной премии СССР.

Оппонент фон Неймана

Значителен вклад Глушкова и в создание новой вычислительной техники. Его «первой ласточкой» стала ЭВМ «Днепр-1», идею которой он предложил еще в 1958 году. Это была универсальная управляющая машина, предназначенная для управления производственными процессами и использования в информационно-измерительных системах. Главным конструктором «Днепра» был Борис Николаевич Малиновский, а научным руководителем проекта – Глушков.

Это был компьютер на полупроводниковой элементной базе средней производительности до 20 тыс. оп/с, имевший блочную память по 512 слов в каждом кубе, число которых достигало 8. Система команд была двухадресной, данные и команды имели длину в 26 разрядов. Главное достоинство машины и ее принципиальное отличие от универсальных ЭВМ заключалось в наличии универсальных каналов связи с управляемыми приборами, от которых принималась информация и на которые подавались управляющие воздействия. Каналы были снабжены цифро-аналоговыми и аналого-цифровыми преобразователями. Оригинальная система команд обеспечивала оптимальную связь с объектами и управление непрерывными технологическими процессами. «Днепр-1» был запущен в серийное производство в 1961 году, одновременно с появлением первого американского управляющего компьютера PDP-1, разработанного компанией DEC, производителем легендарного PDP-11.

ЭВМ «Днепр-1», обладавшая помимо прочего высокой надежностью и способностью работать в условиях производственных помещений, прекрасно себя зарекомендовала. Она выпускалась более 10 лет, причем в Киеве – Глушков добился решения Совета министров УССР построить в украинской столице завод по производству ЭВМ. Семейство «Днепр» в дальнейшем было дополнено следующими моделями.

Параллельно проводились работы по управлению сложными технологическими процессами на расстоянии (на базе ЭВМ «Киев»): выплавкой стали в бессемеровском конверторе на металлургическом заводе в Днепродзержинске и колонной карбонизации на содовом заводе в Славянске.

Глушкова можно считать отцом «советского персонального компьютера». В 1965 году под его руководством была разработана малая ЭВМ «МИР-1», предназначавшаяся для инженерных и научных расчетов и имевшая интерфейс, не предполагавший специальной подготовки оператора. Ее особенность состояла в том, что в ней алгоритмический язык, аналогичный Алголу, был выполнен на аппаратном уровне.

Коллектив разработчиков ЭВМ «МИР-1» во главе с В. М. Глушковым был отмечен Государственной премией СССР. Впоследствии семейство было расширено моделями «МИР-2» и «МИР-3».

В конце 1960-х годов Виктор Михайлович предложил проект машины с архитектурой, отличной от фонНеймановской. Проект был одобрен, и началась разработка ЭВМ «Украина». Однако работа завершена не была из-за отсутствия в стране необходимой элементной базы, а также из-за трудностей с финансированием. На основании этих, по сути, временных трудностей избранное направление было признано тупиковым. В действительности же эта идея просто опередила свое время.

Однако история имела продолжение, к сожалению, несколько отсроченное. В конце 1970-х годов Виктор Михайлович предложил принцип макроконвейерной архитектуры ЭВМ со многими потоками команд и данных (архитектура MIMD по современной классификации) как принцип реализации нефонНеймановской архитектуры и  получил авторское свидетельство на данное изобретение. Этот принцип осуществлялся в двух перспективных разработках Института кибернетики, реализовывавшихся под руководством В. М. Глушкова С. Б. Погребинским (главный конструктор), В. С. Михалевичем, А. А. Летичевским и И. Н. Молчановым в ЭВМ ЕС-2701 (в 1984 г.) и вычислительной системе ЕС-1766 (в 1987 г.).

Компьютером бюрократию не перешибешь

В 1965 году в журнале «Кибернетика» Глушков опубликовал результаты исследований в области теории программирования и систем алгоритмических алгебр, которые стали фундаментальным вкладом в алгебру регулярных событий. В этих работах была доказана фундаментальная теорема о регуляризации произвольного алгоритма и в какой-то мере были предвосхищены идеи структурного программирования, предложенного в 1968 году знаменитым нидерландским ученым Эдсгером Дейкстрой.

Предложенный Глушковым математический аппарат формализации функционирования произвольных кибернетических систем, названный «аппаратом систем алгоритмических алгебр» (САА), получил развитие и в области теоретического программирования. Он, в частности, был применен для формализации семантики адресного языка для ЭВМ «Днепр-2», модели двустороннего параллельного анализатора языка Кобол на ЕС ЭВМ, компонентов кросс-систем программного обеспечения специализированных мини- и микро-ЭВМ на ЕС ЭВМ.

В дальнейшем это направление получило развитие в виде созданного в Институте кибернетики под руководством Глушкова структурного синтезатора алгоритмов и программ «МУЛЬТИПРОЦЕССИСТ», реализованного в ДОС ЕС ЭВМ.

При этом Виктор Михайлович рассматривал проблему шире, считая создание алгебры языка для конкретной области знаний необходимым и неизбежным этапом ее математизации. Он утверждал, что развитие общих алгоритмических языков и их алгебры приведет к тому, что выражения в этих языках станут столь же привычными, как и аналитические выражения, исчезнут различия между аналитическими и общими алгоритмическими методами. И в результате мир компьютерных моделей станет основным источником развития новой современной математики, как это и происходит сейчас.

Также Глушков активно занимался проектированием и внедрением  отраслевых автоматизированных систем управления. Эта деятельность имела уже общегосударственный характер, в связи с чем Виктор Михайлович длительное время исполнял обязанности научного руководителя Совета директоров головных институтов оборонных отраслей по управлению, экономике и информатике.

Необходимо сказать, что направление АСУ питалось идеей создания на основе ЕГСВЦ (Единой государственной сети вычислительных центров) общегосудартственной системы управления всей национальной экономикой СССР. Как известно, первые предложения об этом руководству страны были сформулированы А. И. Китовым в 1959 году. Тогда они были резко отвергнуты. Через три года,

в 1962 году А. Н. Косыгин, работавший в то время заместителем председателя Совета министров СССР,  санкционировал Глушкову начать работы  по созданию различных АСУ. Глушковым замышлялся грандиозный проект, в самом начале 1980-х гг. получивший название ОГАС (Общегосударственная автоматизированная система). Он предполагал создание компьютерной сети из 100 вычислительных центров, расположенных в крупных городах и центрах экономических районов, объединенных широкополосными каналами связи с коммутацией сообщений и связанных с 20 тысячами ВЦ предприятий и организаций. Предусматривалось создание распределенного банка данных и разработка системы математических моделей управления экономикой. Однако инициатива Глушкова разбилась о непрошибаемую стену бюрократии, не желавшей работать под жестким и объективным контролем «всевидящего ока» ОГАС. Проект некоторое время «пылился» в ЦСУ СССР и в Госплане, а затем про него «категорически забыли».

Предсказавший iPad

Виктор Михайлович, являясь бессменным директором Института кибернетики, относился к этой науке отнюдь не формально, а творчески. Он трактовал ее широко – как науку об общих закономерностях, принципах и методах обработки информации и управления сложными системами. Вычислительная техника рассматривалась им как основное техническое средство кибернетики. Такое понимание нашло отражение в первой в мире «Энциклопедии кибернетики», подготовленной по инициативе Глушкова и изданной в 1974 году под его редакцией. В энциклопедии освещались теоретическая, экономическая, биологическая и техническая кибернетика, теория ЭВМ, прикладная и вычислительная математика. Высказываемые Глушковым идеи высоко оценивались не только в СССР, но и на родине кибернетики: его статьи публиковались в Американской технологической энциклопедии, а также в Британской энциклопедии.

Академик Глушков выступал с новыми идеями построения систем искусственного интеллекта типа «глаз–рука», «читающий автомат», «самоорганизующаяся система», систем автоматизации математических доказательств. Он работал над компьютерными системами имитационного моделирования таких процессов интеллектуальной деятельности, как принятие решений, отображение состояния и ситуаций в экономических, технических, биологических и медицинских системах.

Последняя работа, вышедшая в свет при жизни Виктора Михайловича –  «Основы безбумажной информатики», – стала поистине пророческой. В ней ученый выдвинул комплекс идей, опирающихся на математический аппарат, реализация которых приводит к информатизации всех сторон жизни.  Ученый предсказал основные свойства информационного общества и обосновал неизбежность его возникновения.

В частности, в его книге содержится следующее пророчество, которое совсем недавно стало обычным явлением нашей жизни:

«Уже недалек тот день, когда исчезнут обычные книги, газеты и журналы. Взамен каждый человек будет носить с собой «электронный» блокнот, представляющий собой комбинацию плоского дисплея с миниатюрным радиопередатчиком. Набирая на клавиатуре этого «блокнота» нужный код, можно будет (находясь в любом месте на нашей планете) вызвать из гигантских компьютерных баз данных, связанных в сети, любые тексты, изображения (в том числе и динамические), которые и заменят не только современные книги, журналы и газеты, но и современные телевизоры».

Компания «Т-Платформы» известна на российском рынке своими решениями в области высокопроизводительных вычислительных систем, ориентированных на крупные и средние суперкомпьютерные центры. Однако на ежегодной конференции ISC'2012, прошедшей в Гамбурге, компания продемонстрировала разработку с иной идеологией – персональный суперкомпьютер T-Mini P. Системы подобного класса, в частности Cray CX1, появились на рынке несколько лет назад. Однако динамичного развития данного сегмента не произошло. Причинами могут быть низкий уровень готовности организаций к использованию параллельных вычислений и ограниченность бюджетов при переходе от графических станций ценой 10–25 тысяч долларов к миникластерам за 50–110 тысяч долларов. Общее сочетание параметров стоимости вычислительного узла, производительности системы, ее операционного шума и энергопотребления заставляет часть заказчиков либо использовать классические кластерные инсталляции, либо концентрироваться на использовании стандартных графических станций. При этом на рынке наблюдается дефицит высокоинтегрированных «коробочных» решений для параллельных вычислений, позволяющих использовать технологии HPC без крупных инвестиций в обновление инфраструктуры и обучение персонала.
Сразу скажу – перспектив у аналоговых машин сейчас нет. Их тщательно уничтожали и успешно уничтожили.
И сейчас, похоже, никому из бизнесменов возрождение аналоговых компьютеров не нужно. Слишком уж там все хорошо получалось.
Начну издалека.
Что есть точность в реальном мире? Ответ прост – ее нет. Все, что мы можем увидеть вокруг, – очень и очень приблизительное. У двух клеток, на которые разделилась после оплодотворения яйцеклетка, примерно одинаковые, но все же разные ДНК. Мера килограмма в палате мер и весов весит на 50 микрограммов меньше килограмма. Для вычисления длины окружности Вселенной с точностью до диаметра атома водорода достаточно от 15 до 40 знаков после запятой числа пи (в зависимости от того, в какой из диаметров Вселенной вы верите). В квантовой физике вообще все запущено: принцип неопределенности разрешает нам точно знать только два из трех параметров элементарной частицы.
В цифровом мире науки революции случаются каждое десятилетие. Появление первых персональных компьютеров в 1970-х годах открыло новую цифровую эру. В 1980-х Macintosh породил революцию домашних компьютеров и популяризовал графический интерфейс пользователя. В 1990-х годах графические карты открыли новые чудеса цифрового творчества: компьютерная графика и компьютерное моделирование стали реальностью, и блокбастер «История игрушек» студии Pixar стал самым успешным в истории мультфильмом, полностью сделанным с помощью компьютеров.
Давний принцип: «Хороший специалист должен знать все о немногом и немного обо всем». Следовать ему становится все сложней и сложней, потому что это самое «все» разрастается до размеров, которые человеческому мозгу вместить не удастся. Но остается интуиция и базовые знания, которые могут подсказать, что под далекими областями знания спрятаны достаточно глубокие аналогии. Могут, но встречается это на практике не так уж часто. И причины тут не только в ограниченной вместимости человеческой памяти, но и организационные – ученые заняты в проектах, обычно международных, на расширение кругозора ради кругозора времени не хватает, одних отчетов килограммы. Биолог с астрофизиком встретятся разве что в отпуске или на какой-нибудь «междисциплинарной» конференции, которые многие тоже причисляют к разновидности отдыха.

PRO&CONTRA

На границе двух стихий – «газ» и «жидкость» – противостояние в некотором смысле принципиальное и непримиримое. Сравнение «газ vs. жидкость» – тема горячая, по ней тоже можно найти достаточно много статей и обзоров.

Спор сторонников «газа» и «жидкости» в суперкомпьютерной отрасли еще будет продолжаться. По крайней мере, еще некоторое время.

В данной статье мы сосредоточимся на обсуждении различных схем организации жидкостного охлаждения.

Существенным преимуществом всех жидкостных схем охлаждения является лучшая теплоемкость жидкостей по сравнению с воздухом (от 1500 до 4000 раз) и больший коэффициент теплоотдачи (увеличение до 100 раз). Для охлаждения одного современного процессора необходимо 1 м3 воздуха или 0,00025 м3 (250 мл) воды в минуту. На перекачивание 250 мл воды тратится намного меньше электроэнергии, чем для перекачивания 1 м3 воздуха.

Жидкостные системы охлаждения можно разделить на закрытые, где нет прямого контакта между жидкостью и электронными компонентами на печатных платах, и открытые (погружные), в которых жидкость непосредственно омывает электронные компоненты.

Краткий обзор технологий охлаждения ЦОД

Задачи охлаждения полупроводниковых компонентов стояли перед индустрией давно, но рядового пользователя они коснулись порядка 20 лет назад, после выхода на рынок процессора i80486, который потребовал специализированного охлаждения.

Новости

Календарь материалов

« Июня 2017 »
Пн Вт Ср Чт Пт Сб Вс
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30