Баннер
05.04.2012 15:56

Лед и пламень центра обработки данных

Автор  Алексей Солодовников, Владимир Тучков
Оценить
(1 vote)
ЦОД похож на слона из индийской притчи о том, как трое слепых мудрецов, сенсорным методом обследуя это могучее животное, разделились во мнении. Один идентифицировал слона как змею, другой – как дерево, третий – как веревку.

С ЦОД точно такая же история. Для арендующих машинное время важна лишь его производительность. Эксплуатационщики видят в нем только параметры надежности и ремонтопригодности. Ну, а коммерческих директоров волнует в основном стоимость содержания ЦОД и ее основной компонент – счет за электроэнергию. В этом они сходятся во взглядах с разработчиками инженерных систем.

Энергетические вампиры

Действительно, проблема энергопотребления является одной из самых главных головных болей разработки и эксплуатации суперкомпьютеров. Поскольку от его роста, с одной стороны, напрямую зависит объем выделяемого тепла со всеми вытекающими из этого обстоятельства техническими неприятностями. С другой стороны, электроэнергия стоит дорого, и беспрерывная круглосуточная работа вычислительных комплексов оборачивается громадными финансовыми расходами. Причем это общая проблема как для суперкомпьютерных кластеров, так и для обычных ЦОД, где проблемы быстродействия стоят не столь остро.

Поэтому у создателей инженерных сооружений ЦОД и суперкомпьютерных центров существует весьма оригинальная, с точки зрения компьютерного разработчика, система классификации, основанная не на терафлопсах и гигабайтах, а на ваттах. Точнее – на мегаваттах, поскольку сейчас ЦОД потребляют энергию уже в таких громадных объемах. И самые мощные из них уже начинают осваивать объемы потребления в сотни мегаватт.

Абсолютным рекордсменом тут является ЦОД американской компании Switch Communications, который по блочному принципу возводится в кампусе Лас-Вегаса с 2002 года. Этот грандиозный проект был проработан с высочайшей степенью скрупулезности. На этапе принятия решения о его запуске учитывалось буквально все, даже такие моменты, которые, казалось бы, предусмотреть невозможно. После изучения карты статистики США по природным катаклизмам и техногенным катастрофам пустыня Невада была признана самым подходящим местом для многомиллионных вложений. Здесь никогда не было ни землетрясений, ни наводнений, ни лесных пожаров (которые, например, регулярно пытаются уничтожить Лос-Аламос с его уникальными лабораториями), ни цунами, ни смерчей. Здесь не падали самолеты, не взрывались трубопроводы, не сталкивались поезда. И даже НЛО не приземлялись.

В 2002 году нашлось и прекрасное место, оборудованное мощной инфраструктурой как широкополосного информационного доступа, так и линиями энергопередачи: Switch Communications за бесценок выкупила у обанкротившейся энергетической компании Enron недостроенный объект. И в 2009 году году гигантский ЦОД, получивший название SuperNAP, был запущен. Семь тысяч его серверных стоек, размещенных на площади 38 тыс. м2, «пожирают» 84 МВт. Ну, а весь объект, включая разнообразные сопутствующие службы, потребляет до 250 МВт.

В рейтинге крупнейших в мире ЦОД SuperNAP занимает лишь десятую позицию по занимаемой площади. Однако невадский монстр уверенно лидирует по энергопотреблению, а также по плотности потребления энергии (и, соответственно, выделения) на единицу площади – 1,5 кВт/фут2. В обозримом будущем Switch Communications намеревается запустить следующую очередь центра. И тогда суммарные показатели будут такими: 31 тыс. серверных стоек, 230 МВт полезной нагрузки и 500 МВт общей.

При такой плотности энергетической нагрузки очень остро встает вопрос отвода тепла. Switch Communications разработала эффективный способ решения этой проблемы при помощи охлаждающей аппаратуры, которая может в зависимости от температурной ситуации работать по четырем различным схемам.

Электричество – это просто

Аналогичные проблемы стоят и перед мировым производителем систем электропитания и охлаждения – американской компанией American Power Conversion (APC), входящей в корпорацию Schneider Electric, которая занимается электроснабжением и охлаждением систем в широком диапазоне – от персональных компьютеров до суперкомпьютеров. Более того, зачастую эти проблемы стоят более остро, чем у Switch Communications, у которой максимальная мощность, потребляемая одной серверной стойкой, не превышает 25 кВт. APC же работает с мощностями до 60 кВт на стойку. Так, например, у СК «Ломоносов» этот показатель при пиковой нагрузке достигает
62 кВт.

Самое простое – подать мощность. В реализации каждого проекта, который выполняется в соответствии с ТЗ заказчика, эта работа не требует решения сложной головоломки. К стойкам подводятся розетки, и вся сеть питания снабжается раз и навсегда разработанной системой интеллекта. На каждую розетку устанавливается токовый трансформатор, сигнал с него переводится в цифру при помощи АЦП. И данные со всех розеток собираются и записываются в контрольный протокол. Такой мониторинг позволяет заблаговременно улавливать резкую перегрузку, которая приведет к срабатыванию защитного автомата. Если же изменение потребления тока происходит медленно и потребление выходит за установленные границы, то по таким отклонениям от номинала можно судить о том, что в блоке питания стойки происходят процессы деградации элементов.

Правда, если разрабатывается проект для какого-либо банковского ЦОД, где аварийный останов системы недопустим, поскольку может привести к потере реальных денег, система усложняется за счет необходимости использования аппаратуры бесперебойного питания. А это – блоки аккумуляторов большой емкости, мощные генераторы, танки с горючим, которые должны быть размещены таким образом, чтобы не создавалась угроза возникновения пожара.

В случае СК эта проблема снимается. Потому что при научных и технических расчетах, которые производятся на кластерах, сбой в питании не влечет за собой катастрофических последствий. В самом худшем случае после аварийного останова теряется несколько минут машинного времени, которые требуются для восстановления промежуточных данных. После чего СК продолжает нормальную работу.

Сражение за холодный разум

Куда с бо'льшими проблемами приходится сталкиваться при охлаждении стоек. И наиболее остро они возникают при реализации проектов инженерных систем для СК, где, во-первых, процессорные узлы в стойках скомпонованы с очень высокой плотностью, и, во-вторых, стойки расположены на минимальном расстоянии друг от друга, что необходимо для сведения к минимуму временны'х потерь при передаче информации между стойками.

Существует два принципа охлаждения. Первый из них – проекционный – использует систему кондиционирования, которая обслуживает весь машинный зал. У этого принципа есть существенный недостаток: в случае возникновения локального очага перегрева эта система неспособна на него отреагировать. И второй – рядный, при котором на каждые 2–3 стойки устанавливается персональный кондиционер. В этом случае термодатчики отслеживают температуру воздушной зоны, которую обслуживает тот или иной кондиционер, и в случае необходимости увеличивают или уменьшают производительность охлаждающих агрегатов.

К настоящему времени в инженерных системах водяные кондиционеры вытесняют фреоновые. Это связано прежде всего с тем, что производительность фреонового кондиционера регулируется в узком диапазоне относительно номинального значения – приблизительно от –20% до +20%. В связи с невозможностью плавно реагировать на изменение температуры в машинном зале фреоновый кондиционер часто работает в старт-стопном режиме, то есть то включается, то отключается. Это сопровождается раскачиванием сети пусковыми токами, возникает необходимость их демпфирования. Ко всему прочему такой режим быстрее изнашивает хладоагрегат.

А водяная машина лишена этих недостатков по той причине, что ее производительность масштабируется практически от 0 до 130%.

Вода, на которой работают кондиционеры, подготавливается за пределами машинного зала при помощи мощного чиллера, и затем поступает в зал. Где в зависимости от конструктива серверных стоек, используется либо для воздушного охлаждения при помощи рядных кондиционеров, либо для водяного. Существует и комбинированная схема, при которой тепло отводится и водой, и воздухом.

Конечно, наиболее эффективным должно быть водяное охлаждение. Потому что теплоемкость воды более чем в 4 раза превышает аналогичный параметр воздуха. У него есть и еще одно достоинство – энергоэффективность. При воздушном охлаждении энергия тратится на работу вентиляторов. А это значительные затраты, поскольку воздух приходится прогонять через фильтры, через узкие места в стойке, что увеличивает нагрузку.

При большой плотности выделения тепла возникает еще одна серьезная проблема. Сейчас максимальные объемы охлаждающего воздуха, подаваемого в секунду на стойку, – 3 м3. Если же с ростом мощности СК, который естественен и неизбежен, придется подавать для охлаждения 4, 5, 6 и более кубометров воздуха в секунду, то это может привести к вибрациям узлов, или и вовсе может возникнуть флаттер. По расчетам специалистов АРС, предел воздушного охлаждения, после которого могут возникать опасные механические явления, – около 80 кВт на стойку. И несколько лет назад представлялось, что в обозримом будущем проблема охлаждения «упрется» в величины порядка 120–150 кВт на стойку и станет труднорешаемой. Однако этот роковой рубеж отодвинулся благодаря появлению графических процессоров GPU, поскольку резко изменилось отношение Вт/флопс в сторону уменьшения.

Когда же для охлаждения используется вода, то резко снижаются энергозатраты на ее охлаждение и доставку к серверным узлам. При использовании для охлаждения компьютеров «горячей» воды (например, на входе +60°С, на выходе +65°С) можно вообще обойтись без компрессорного цикла – такая вода будет прекрасно остывать в воздушном теплообменнике даже в тропическом климате. При этом нет и никаких турбулентностей и вибраций.

Однако помимо прекрасной теории, прославляющей свойства воды, существует циничная практика, спускающая теоретиков на грешную землю.

К каждому серверу в стойке подходят 1–2 шнура электропитания и 1–2 кабеля передачи данных. Если же добавить 2–4 водяных трубки, то это существенно снизит эксплуатационные параметры системы и заставит системного администратора испытывать муки Лаокоона. Но это не самое страшное. Необходима сложная разводка трубок с водой, которые должны подходить к радиатору каждого чипа, установленного на каждом узле каждого сервера. И это вопрос не только трассировки. Это еще и задача трудоемкого физического эксперимента на уровне одной платы, при котором необходимо измерять, какие доли ватта уносит вода при различных начальных условиях. Не обойтись при этом и без моделирования на том же самом кластере, решая совокупность гидродинамических, термодинамических и электростатических задач.

Все это крайне затруднительно. О чем свидетельствует опыт компании IBM, которая уже давно и вполне успешно работает в этом направлении. Но даже она не может полностью снять водой тепло со своих серверов.

В связи с тревожными ожиданиями достижения порога энергетической плотности, после которого традиционные системы охлаждения окажутся малоэффективными, сейчас производятся поиски новых инновационных методов. К таковым, например, относится все более широкое использование разнообразных теплообменников, позволяющих отводить тепло из ЦОД без использования компрессоров
(в чиллерах, например) во все более широком диапазоне температур окружающей среды. Главным достоинством такой схемы является высокий КПД.

Однако применение инновационных схем охлаждения приводит к возникновению проблем иного рода. Общее свойство всех систем с теплообменниками – это их заметная громоздкость, если сравнивать их с традиционными чиллерными системами. Если взять соотношение площади машинного зала СК и площади, которую занимает инженерное оборудование, то получается, как правило, 1 к 2…3. При внедрении новой охлаждающей техники на «инженерку» придется выделять уже 4…5 площадей машинного зала.

Битва за отношение

Еще один метод борьбы с выделяемым теплом имеет под собой экономическую и экологическую основы. В 2006 году Джордж Буш направил Агентству по охране окружающей среды (Environmental Protection Agency — EPA) директивное письмо, в котором попросил «разобраться» с расходами электроэнергии на американские ЦОД.
2 августа 2007 года EPA представило в Конгресс США отчет, который произвел ошеломляющий эффект.

В 2006 году ЦОД израсходовали 61 млрд кВт/ч электроэнергии, что составило 1.5% от всей потребленной в США электроэнергии. Они заплатили за нее 4.5 млрд долл., что приблизительно равно затратам на электричество 5.8 млн среднестатистических семей. От общего энергопотребления ЦОД 10% пришлись на долю федеральных правительственных организаций.

В России такой статистики не существует. Однако сотрудники российского отделения АРC провели оценку потребления электроэнергии «открытыми» ЦОД, которые не являются корпоративными или ведомственными. В результате была получена цифра в 0.015%. С учетом «закрытых» центров она может быть увеличена до 0.02%. С точки зрения сбережения энергоресурсов это, конечно, отрадно. Однако такой показатель позволяет сделать грустные выводы о степени компьютеризации в стране.

По результатам доклада EPA было принято решение об исправлении этой чудовищной ситуации, которая разительно отличалась от таковой в индустрии персональных компьютеров. В ПК уже давно внедрены эффективные методы энергосбережения. В случае простоя последовательно отключаются узлы и устройства и компьютер переходит в спящий режим, потребляя порядка 1 Вт. В серверах же разница в потреблении в режиме с полной нагрузкой и на холостом ходу не превышала 10%. Было принято решение о том, чтобы в конечном итоге довести потребление «бездеятельного» сервера до 10% от максимума.

И производители компонентов – чипсетов, памяти (постоянной, оперативной и дисковой), мониторов, коммутаторов – устремились к этим вожделенным 10%. Значительные результаты достигнуты уже сейчас.

Так, например, компания Sun в конце «нулевых» годов начала выпускать серверы, снабженные элементами с изменяемыми параметрами энергопотребления, что позволило уменьшить интегральную потребляемую мощность вдвое. НР рапортует о трехкратном уменьшении. Есть значительные достижения в этом вопросе и у «голубого гиганта» – IBM. В общем, жаркая битва за уменьшение отношения Вт/флопс в самом разгаре.

Добавить комментарий


Защитный код
Обновить

Новости

Календарь материалов

« Мая 2013 »
Пн Вт Ср Чт Пт Сб Вс
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31