Connect with us

Ba Thế Hệ Làm Mát Trung Tâm Dữ Liệu – Và Tại Sao Hầu Hết Các Nhà Điều Hành Đang Xây Dựng Cơ Sở Hạ Tầng Của Ngày Hôm Qua

Lãnh đạo tư tưởng

Ba Thế Hệ Làm Mát Trung Tâm Dữ Liệu – Và Tại Sao Hầu Hết Các Nhà Điều Hành Đang Xây Dựng Cơ Sở Hạ Tầng Của Ngày Hôm Qua

mm

Ba năm trước, ngành công nghiệp trung tâm dữ liệu đã tranh luận về việc liệu làm mát bằng chất lỏng có cần thiết hay không. Hai năm trước, hầu hết các nhà vận hành tin rằng nước một pha sẽ là giải pháp. Ngày nay, các cơ sở hàng đầu đang chuyển sang kiến trúc làm mát thế hệ tiếp theo, trong khi nhiều cơ sở mới đang bị khóa vào các hệ thống sẽ trở nên lỗi thời trong vài năm.

Sự phân chia này đang được thúc đẩy bởi vật lý và bản đồ con đường bộ xử lý đã rõ ràng cho đến năm 2027. Cùng nhau, chúng tạo ra sự chia cắt giữa các nhà vận hành hiểu rằng làm mát đang bước vào một kỷ nguyên kiến trúc mới và những người có thể sớm phát hiện ra họ đã đầu tư hàng trăm triệu đô la vào cơ sở hạ tầng không thể hỗ trợ làn sóng tiếp theo của bộ xử lý AI.

Ba Thế Hệ Làm Mát

Làm mát trung tâm dữ liệu đã tiến bộ qua ba kỷ nguyên kiến trúc khác biệt, mỗi kỷ nguyên được định nghĩa bởi một tập hợp mới các chướng ngại vật cần vượt qua và bởi mật độ giá đỡ yêu cầu hỗ trợ kinh tế.

  • Thế Hệ 1: Làm Mát Bằng Không Khí (2000–2023): Đạt cực hạn tại 10–15kW mỗi giá đỡ. Kinh tế bắt đầu bị phá vỡ vào khoảng năm 2020 khi các khối lượng công việc AI vượt quá 20kW. Đến năm 2023, làm mát bằng không khí chủ yếu đã trở nên lỗi thời đối với các triển khai mật độ cao mới.

  • Thế Hệ 2: Chất Lỏng Một Pha (2020–2027): Phương pháp làm mát bằng chất lỏng ban đầu. Sử dụng nước hoặc PG25 với tốc độ dòng chảy cao để loại bỏ nhiệt thông qua sự thay đổi nhiệt độ. Có thể sử dụng được từ 20–120kW mỗi giá đỡ nhưng đang gặp khó khăn trên 150kW. Dự kiến sẽ đạt đến giới hạn thực tế vào năm 2027 khi các bộ xử lý vượt quá 2.000W.

  • Thế Hệ 3: Hai Pha + Từ Bỏ Nhiệt Tiên Tiến (2024–2035+): Sử dụng các chất làm mát hấp thụ nhiệt thông qua sự thay đổi pha chứ không phải sự thay đổi nhiệt độ. Có thể mở rộng từ 150kW và vượt quá mỗi giá đỡ. Cho phép các chiến lược từ bỏ nhiệt mới từ chip đến khí quyển. Hiện đã được các nhà vận hành hàng đầu triển khai và dự kiến sẽ chiếm ưu thế vào năm 2027–2028.

Mỗi chuyển đổi đánh dấu một điểm phá vỡ – khi vật lý và kinh tế đồng thời đạt đến trần.

Vấn Đề Vật Lý Của Thế Hệ 2

Các triển khai Thế Hệ 2 đầu tiên đang bắt đầu tiết lộ các giới hạn của làm mát một pha.

Các hệ thống dựa trên nước yêu cầu tốc độ dòng chảy bằng khoảng 1,5 lít mỗi phút mỗi kilowatt. Một giá đỡ 120kW cần khoảng 180 lít mỗi phút; ở 250kW, đó sẽ nhảy lên 375 lít mỗi phút qua các tấm lạnh với các lỗ nhỏ được đo bằng milimét.

Tại GTC năm nay, các giá đỡ được kết nối với các đường ống có kích thước như vòi nước cứu hỏa đã làm cho thách thức trở nên rõ ràng. Tốc độ dòng chảy cao tạo ra các vấn đề liên tiếp. Nước trộn với glycol oxy hóa các cấu trúc microfinned, và sự ăn mòn được hợp chất bởi tốc độ dòng chảy làm suy yếu các lá chắn. Các yêu cầu bảo trì đã làm nhiều nhà vận hành ngạc nhiên: thay bộ lọc hàng tháng thay vì hàng quý hoặc hai lần một năm, giám sát hóa học liên tục và các “túi dịch” glycol được gắn vào các giá đỡ.

Tỷ lệ thất bại cũng đáng lo ngại không kém. Dữ liệu thực địa nội bộ cho thấy khoảng 4% GPU làm mát bằng nước bị hỏng trong chu kỳ sống ba năm do rò rỉ. Với các giá đỡ chứa thiết bị trị giá 3-5 triệu đô la, tổn thất đó cơ bản phá vỡ kinh tế của Thế Hệ 2.

Một phân tích cơ sở 10MW của Jacobs Engineering nhấn mạnh một sự không hiệu quả khác. Các hệ thống một pha yêu cầu nhiệt độ nước lạnh hơn so với các hệ thống Thế Hệ 3. Nhiệt độ nước lạnh hơn được yêu cầu bởi Thế Hệ 2 tăng cả công suất máy làm lạnh và tiêu thụ năng lượng.

Điều Gì Làm Cho Thế Hệ 3 Đứng Ra

Thế Hệ 3 đại diện cho một sự thay đổi kiến trúc thực sự. Các chất làm mát hai pha hấp thụ nhiệt thông qua sự thay đổi pha, giảm tốc độ dòng chảy bằng một yếu tố từ bốn đến chín. Giảm tốc độ dòng chảy đáng kể làm giảm căng thẳng cơ sở hạ tầng, tối thiểu hóa sự ăn mòn của tấm lạnh và loại bỏ phần lớn gánh nặng bảo trì đang ảnh hưởng đến Thế Hệ 2.

Các chất làm mát cũng cho phép các thiết kế từ bỏ nhiệt mới – như hệ thống chất làm mát đến CO₂ và hệ thống chất làm mát đến chất làm mát – tối ưu hóa làm mát từ chip đến khí quyển. Những thiết kế này đã được sản xuất, chứng minh khả năng mở rộng và hiệu quả kinh tế của Thế Hệ 3.

Khi Jacobs Engineering – chịu trách nhiệm cho hơn 80% thiết kế MEP trung tâm dữ liệu toàn cầu – tạo ra các mô hình tham chiếu 10MW song song, họ đã loại bỏ sự thiên vị của nhà cung cấp khỏi so sánh.

Kết quả:

  • Vốn đầu tư ban đầu: 10,39 triệu đô la một pha so với 10,38 triệu đô la hai pha

  • Chi phí vận hành hàng năm: 1,04 triệu đô la so với 679.000 đô la (giảm 35%)

  • Chi phí sở hữu toàn bộ trong 5 năm: 15,6 triệu đô la so với 13,8 triệu đô la (tiết kiệm 12%)

Sự tương đương về vốn đầu tư ban đầu đã làm nhiều người ngạc nhiên khi họ dự đoán sẽ có một khoản phí cao cho hai pha. Các hệ thống hai pha hiện tại yêu cầu nhiều CDU hơn, nhưng các thiết kế một pha cần các ống phân phối hàng loạt phức tạp, phát hiện rò rỉ mạnh mẽ và lọc hài – các phức tạp được tránh với các CDU hai pha hiện tại. Các CDU thế hệ tiếp theo sẽ đến vào năm 2026 sẽ giảm chi phí thêm, khiến Thế Hệ 3 trở nên kinh tế hơn khi triển khai.

Ưu thế về chi phí vận hành hàng năm xuất phát từ nhiệt động lực học. Các hệ thống hai pha duy trì nhiệt độ chip giống nhau trong khi sử dụng nước cơ sở ấm hơn – khoảng 8°C cao hơn trung bình. Mỗi độ được tiết kiệm cắt giảm sử dụng năng lượng hàng năm bằng khoảng 4%, tương đương với mức giảm 35% chi phí vận hành mà Jacobs đã ghi nhận trên các khí hậu từ Phoenix đến Stockholm.

Các nhà vận hành có tầm nhìn xa đang đi thêm một bước, chuyển đổi biên độ nhiệt đó thành khoảng 5% công suất tính toán hơn trong cùng một giới hạn công suất. Trong một thế giới nơi mỗi GPU đại diện cho doanh thu và công suất bị giới hạn, lợi thế đó trở thành một yếu tố phân biệt cạnh tranh.

Bản Đồ Con Đường Bộ Xử Lý Đẩy Mạnh Vấn Đề

Sự chuyển đổi sang Thế Hệ 3 không được thúc đẩy bởi các nhà cung cấp làm mát – nó được quy định bởi thiết kế bộ xử lý.

Các kiến trúc Rubin của NVIDIA được dự kiến sẽ vượt quá 2.000W mỗi bộ xử lý. Bộ xử lý MI450 của AMD cũng đang trên một quỹ đạo tương tự. Mỗi nhà sản xuất chip lớn đều đóng gói nhiều hiệu suất hơn vào các chân đế nhỏ hơn, đẩy mật độ nhiệt lên mạnh mẽ.

Thử thách chính là dòng nhiệt – nồng độ nhiệt được đo bằng watt trên mỗi centimét vuông. Khi dòng nhiệt tăng, các giải pháp Thế Hệ 2 đạt đến giới hạn vật lý và kinh tế. Tốc độ dòng chảy trở nên phá hủy, độ lệch nhiệt độ không thể chấp nhận được và chi phí hệ thống không bền vững.

Thế Hệ 3 được xây dựng cho thực tế này. Các nhà vận hành hàng đầu đã chỉ định các giá đỡ 250kW với đường dẫn rõ ràng đến 1MW+. Việc chờ đợi để “xem ai thắng” có thể cảm thấy bảo thủ, nhưng đó là cách tiếp cận rủi ro nhất. Bản đồ con đường bộ xử lý đã cố định; vật lý sẽ không uốn cong. Quyết định duy nhất còn lại là khi nào hành động.

Nỗi Dilemma Của Cơ Sở Hạ Tầng Hiện Có

Hàng tỷ đô la đang được đầu tư ngay bây giờ vào cơ sở hạ tầng Thế Hệ 2 sẽ bị hạn chế trong 36 tháng. Các cơ sở được thiết kế ngày nay xung quanh nước một pha sẽ gặp khó khăn trong việc hỗ trợ các bộ xử lý lớp 2027. Việc cải tạo sau này sẽ tốn nhiều hơn so với việc xây dựng với Thế Hệ 3 ngày hôm nay.

Đối với các trang web hiện có, các hệ thống chất làm mát đến không khí có thể phục vụ như một cầu nối, nhưng chúng không phải là giải pháp lâu dài. Hướng của ngành là rõ ràng: các kiến trúc Thế Hệ 3 sẽ là nền tảng cho thập kỷ tới của các cơ sở mới.

Một Sự Lựa Chọn Thế Hệ

Mỗi chuyển đổi làm mát đã có vẻ đủ cho đến khi thế hệ tiếp theo làm cho nó trở nên lỗi thời. Các nhà vận hành đã áp dụng làm mát bằng chất lỏng sớm – áp dụng nó vào năm 2020-2021 thay vì 2023 – đã có được gần hai năm lợi thế triển khai.

Sự chuyển đổi tương tự đang diễn ra một lần nữa. Vật lý đã được chứng minh. Kinh tế đã được xác nhận bởi phân tích độc lập. Bản đồ con đường bộ xử lý làm cho sự chuyển đổi trở nên không thể tránh khỏi.

Câu hỏi không phải là liệu sự thay đổi sẽ xảy ra – mà liệu bạn sẽ dẫn đầu nó hay bị ép buộc vào nó một旦 Thế Hệ 2 đạt đến giới hạn của nó.

Các trung tâm dữ liệu được thiết kế ngày hôm nay sẽ hoạt động tốt trong những năm 2030. Xây dựng với các kiến trúc Thế Hệ 3 đảm bảo rằng chúng sẽ vẫn có thể sử dụng được trong kỷ nguyên AI thay vì trở thành tài sản bị hạn chế trước khi chúng thậm chí ổn định.

Tương lai của làm mát trung tâm dữ liệu là một sự chuyển đổi thế hệ – và Thế Hệ 3 đã ở đây.

Josh Claman là CEO của Accelsius, nhà sản xuất công nghệ làm mát trực tiếp đến chip, hai pha. Với tư cách là người đề xuất quyền lực của công nghệ chuyển đổi trong suốt sự nghiệp 30 năm của mình, ông Claman đã phát triển và tái định vị các doanh nghiệp tại Dell, NCR và AT&T.