Connect with us

Три покоління охолодження дата-центрів — і чому більшість операторів будують інфраструктуру вчорашнього дня

Лідери думок

Три покоління охолодження дата-центрів — і чому більшість операторів будують інфраструктуру вчорашнього дня

mm

Три роки тому галузь дата-центрів обговорювала, чи буде потрібне охолодження рідиною. Два роки тому більшість операторів вважали, що однофазне охолодження водою буде рішенням. Сьогодні провідні об’єкти переходять на архітектури охолодження наступного покоління, тоді як багато нових об’єктів будуються з системами, які застаріють вже через кілька років.

Ця розбіжність викликана фізикою та дорожньою картою процесорів, яка вже видна до 2027 року. Разом вони створюють розкол між операторами, які розуміють, що охолодження вступає в нову архітектурну еру, і тими, хто може скоро виявити, що вклав сотні мільйонів доларів в інфраструктуру, яка не зможе підтримувати наступну хвилю процесорів штучного інтелекту.

Три покоління охолодження

Охолодження дата-центрів пройшло через три різні архітектурні епохи, кожна з яких визначається новим набором перешкод, які потрібно подолати, і щільністю стелажів, яка потребує економічної підтримки.

  • Покоління 1: Охолодження повітрям (2000–2023): досягло максимуму 10–15 кВт на стелаж. Економіка почала руйнуватися близько 2020 року, коли навантаження штучного інтелекту перевищили 20 кВт. До 2023 року охолодження повітрям майже вийшло з ладу для нових високошвидкісних розгортань.

  • Покоління 2: Однофазне охолодження рідиною (2020–2027): перша підхід до охолодження рідиною. Використовує воду або PG25 при високих швидкостях потоку для видалення тепла через зміну температури. Ефективне від 20 до 120 кВт на стелаж, але показує напруженість вище 150 кВт. Очікується, що до 2027 року воно досягне своїх практичних меж, коли процесори перевищать 2 000 Вт.

  • Покоління 3: Двофазне + розширена система видалення тепла (2024–2035+): використовує хладони, які поглинають тепло через фазову зміну, а не зміну температури. Масштабується від 150 кВт і вище на стелаж. Дозволяє нові стратегії видалення тепла від кристала до атмосфери. Вже розгортається провідними операторами і очікується, що до 2027–2028 років воно стане домінуючим.

Кожен перехід позначає точку розриву — коли фізика та економіка одночасно досягають свого ліміту.

Фізична проблема покоління 2

Перші розгортання покоління 2 починають показувати свої межі.

Системи на основі води потребують швидкостей потоку, рівні приблизно 1,5 літрам на хвилину на кіловат. Стелаж на 120 кВт потребує близько 180 літрів на хвилину; при 250 кВт це зростає до 375 літрів на хвилину через холодні пласти з отворами розміром у міліметри.

На конференції GTC цього року стелажі, підключені до трубок розміром з вогнегасники, зробили проблему видимою. Високі швидкості потоку створюють каскадні проблеми. Вода, змішана з гліколем, окиснює мікрофінні структури, а корозія посилюється швидкостями потоку, які роз’їдають ослаблені фіни. Вимоги до обслуговування стали несподіванкою для багатьох операторів: заміни фільтрів щомісяця замість квартальних або двічі на рік, постійний моніторинг хімічного складу та «капельниці» з гліколем, прикріплені до стелажів.

Ступінь виходу з ладу є не менш турботливим. Внутрішні польові дані свідчать про те, що близько 4% водоохолоджувальних GPU виходять з ладу протягом трьох років експлуатації через витоки. При вартості обладнання в стелажі 3–5 мільйонів доларів така втрата фундаментально порушує економіку покоління 2.

Аналіз 10-МВт об’єкта, проведений компанією Jacobs Engineering, підкреслює ще одну неефективність. Однофазні системи потребують нижчих температур води, ніж системи покоління 3. Нижчі температури води, необхідні для покоління 2, збільшують як потужність чилерів, так і споживання енергії.

Що відрізняє покоління 3

Покоління 3 представляє справжню архітектурну зміну. Двофазні хладони поглинають тепло через фазову зміну, знижуючи швидкості потоку у чотири- дев’ять разів. Зниження швидкості потоку значно знижує навантаження на інфраструктуру, мінімізує роз’їдання холодних пластин і ліквідує більшу частину обслуговування, яке турбує покоління 2.

Хладони також дозволяють нові конструкції видалення тепла — такі як системи «хладон — вуглекислий газ» і «хладон — хладон» — які оптимізують охолодження від кристала до атмосфери. Ці конструкції вже використовуються, демонструючи масштабованість і економічну ефективність покоління 3.

Коли компанія Jacobs Engineering — відповідальна за більш ніж 80% глобальних проектів дата-центрів — створила моделі порівняння об’єктів потужністю 10 МВт, вони усунули упередженість виробників з порівняння.

Висновки:

  • Капітальні витрати: 10,39 млн доларів однофазне проти 10,38 млн доларів двофазне

  • Річний операційний витрат: 1,04 млн доларів проти 679 тисяч доларів (зниження на 35%)

  • П’ятирічні операційні витрати: 15,6 млн доларів проти 13,8 млн доларів (економія 12%)

Паритет капітальних витрат став несподіванкою для тих, хто очікував премію за двофазні системи. Поточні двофазні системи потребують більше ЦОД, але однофазні конструкції потребують складних магістралей ряду, надійної системи виявлення витоків і фільтрації гармонік — складностей, яких немає у двофазних ЦОД. Наступні ЦОД, які з’являться у 2026 році, ще більше знизять витрати, зробивши покоління 3 ще більш економічним для розгортання.

Операційна вигода пояснюється термодинамікою. Двофазні системи підтримують однакові температури кристалів, використовуючи теплішу воду об’єкта — близько 8°C вище в середньому. Кожен збережений градус зменшує річне споживання енергії приблизно на 4%, що відповідає 35% операційній вигоді, яку компанія Jacobs задокументувала в різних кліматичних умовах, від Фінікса до Стокгольма.

Передові оператори йдуть ще далі, перетворюючи цей тепловий запас у близько 5% більше обчислювальної потужності в межах одного й того ж енергетичного пакету. У світі, де кожен GPU представляє дохід, а потужність обмежена, ця перевага стає конкурентним диференціатором.

Дорожня карта кремнію диктує рішення

Перехід до покоління 3 не диктується виробниками охолодження — його диктує конструкція процесорів.

Архітектури Rubin компанії NVIDIA, як очікується, перевищать 2 000 Вт на процесор. Архітектура MI450 компанії AMD рухається в подібному напрямку. Кожен великий виробник мікросхем упаковуємо більше потужності в менші корпуси, що призводить до різкого зростання теплової густини.

Ключовим викликом є тепловий потік — концентрація тепла, виміряна в ватах на квадратний сантиметр. Коли тепловий потік зростає, рішення покоління 2 досягають фізичних і економічних меж. Швидкості потоку стають руйнівними, температурні градієнти недопустимими, а витрати на систему стають нестійкими.

Покоління 3 було створено для цієї реальності. Передові оператори вже зараз замовляють стелажі потужністю 250 кВт з чіткими шляхами до 1 МВт+. Чекати, «чому переможе», може здатися консервативним підходом, але це найризикованіший підхід. Дорожня карта кремнію фіксована; фізика не буде гнутися. Єдине рішення, яке залишається, — це вирішити, коли діяти.

Ділема старих об’єктів

Більярди доларів зараз вкладаються в інфраструктуру покоління 2, яка буде обмежена вже через 36 місяців. Об’єкти, спроектовані сьогодні з однофазним охолодженням водою, будуть боротися за підтримку процесорів 2027 року. Переобладнання пізніше коштує набагато більше, ніж будівництво з поколінням 3 сьогодні.

Для існуючих об’єктів системи «хладон — повітря» можуть служити мостом, але вони не є довгостроковим рішенням. Напрямок галузі ясний: архітектури покоління 3 будуть основою наступного десятиліття нових об’єктів.

Вибір покоління

Кожен перехід охолодження здавався достатнім, поки наступне покоління не зробило його застарілим. Оператори, які прийняли охолодження рідиною на початку — у 2020–2021 роках, а не у 2023 році, — отримали майже дворічний перевагу у розгортанні.

Те ж саме відбувається знову. Фізика доведена. Економіка підтверджена незалежним аналізом. Дорожня карта процесорів робить перехід неминучим.

Питання не в тому, чи відбудеться зміна — а в тому, чи будете ви лідером цієї зміни, чи будете змушені до неї після того, як покоління 2 досягне своїх меж.

Дата-центри, спроектовані сьогодні, будуть працювати далеко в 2030-ті роки. Будівництво з архітектурами покоління 3 гарантує, що вони залишаться життєздатними в епоху штучного інтелекту, а не стануть обмеженими активами, ще до того, як вони навіть стабілізуються.

Майбутнє охолодження дата-центрів — це покоління перетворення — і покоління 3 вже тут.

Джош Кламан є генеральним директором Accelsius, виробника прямого охолодження чипів, двофазної технології охолодження. Захисник потужності трансформаційної технології протягом своєї 30-річної кар'єри, пан Кламан розширював і перепозиціонував бізнес у Dell, NCR і AT&T.