Hợp tác
Công nghệ Infineon và d-Matrix Hợp tác về Cơ sở Hạ tầng Trí tuệ Nhân tạo Thấp độ Trễ
Công nghệ Infineon đã thông báo về việc hợp tác với d-Matrix để cải thiện hiệu suất và hiệu quả năng lượng của các hệ thống suy luận trí tuệ nhân tạo được sử dụng trong các trung tâm dữ liệu hiện đại. Hợp tác này tập trung vào nền tảng Corsair AI inference accelerator của d-Matrix và OptiMOS dual-phase power modules của Infineon, được thiết kế để hỗ trợ môi trường tính toán có mật độ cao cho các tác vụ trí tuệ nhân tạo tương tác.
Thông báo này nhấn mạnh sự thay đổi lớn trong ngành công nghiệp phần cứng trí tuệ nhân tạo. Trong khi phần lớn sự bùng nổ cơ sở hạ tầng trong những năm qua tập trung vào việc đào tạo các mô hình trí tuệ nhân tạo ngày càng lớn, thì ngành công nghiệp hiện đang nhanh chóng mở rộng sang suy luận – quá trình thực sự chạy các mô hình trong các ứng dụng thực tế như chatbot, hệ thống trí tuệ nhân tạo tương tác, copilot, tìm kiếm, phân tích tài chính và hỗ trợ quyết định y tế. Các tác vụ này đặt ra những yêu cầu khác nhau đối với phần cứng, đặc biệt là về độ trễ, phản hồi và tiêu thụ năng lượng.
Tại sao Suy luận Trí tuệ Nhân tạo Đang Trở thành Một Chiến trường Phần cứng Lớn
Suy luận trí tuệ nhân tạo đã xuất hiện như một trong những phân khúc phát triển nhanh nhất của thị trường cơ sở hạ tầng trí tuệ nhân tạo vì các hệ thống trí tuệ nhân tạo tương tác yêu cầu phản hồi trong vài mili giây chứ không phải vài giây. d-Matrix đã định vị Corsair đặc biệt cho các tác vụ này, nhấn mạnh vào độ trễ cực thấp và suy luận hiệu quả năng lượng cho các mô hình ngôn ngữ lớn và các tác nhân trí tuệ nhân tạo.
Theo d-Matrix, Corsair được thiết kế xung quanh kiến trúc tính toán trong bộ nhớ kỹ thuật số nhằm giảm thiểu các nút thắt bộ nhớ thường làm chậm suy luận trí tuệ nhân tạo. Công ty này tuyên bố rằng nền tảng này có thể giảm đáng kể độ trễ và cải thiện thông lượng so với các hệ thống suy luận truyền thống dựa trên GPU, đặc biệt là cho các ứng dụng tương tác.
Hợp tác với Infineon giải quyết một thách thức quan trọng khác: giao tiếp năng lượng.
Khi các máy chủ trí tuệ nhân tạo tiếp tục tăng mật độ, việc giao tiếp năng lượng hiệu quả cho các bộ tăng tốc đã trở thành một yếu tố hạn chế cho việc mở rộng cơ sở hạ tầng. Các mô-đun OptiMOS TDM2254xx của Infineon được thiết kế cho các kiến trúc giao tiếp năng lượng dọc giúp giảm thiểu các tổn thất điện và cải thiện mật độ năng lượng trong các hệ thống máy chủ compact.
Sự Chuyển đổi sang Hệ thống Trí tuệ Nhân tạo Thực thời gian
Các công ty đã định hình hợp tác này xung quanh sự xuất hiện của “trí tuệ nhân tạo tương tác”, nơi các hệ thống suy luận phải liên tục tạo ra đầu ra với độ trễ cực thấp. Điều này bao gồm trí tuệ nhân tạo đối thoại, các tác nhân trí tuệ nhân tạo, hệ thống suy luận thời gian thực và các ứng dụng yêu cầu tạo mã thông báo nhanh từ các mô hình ngôn ngữ lớn.
Người sáng lập và CEO của d-Matrix, Sid Sheth, cho biết kiến trúc đằng sau Corsair được xây dựng đặc biệt cho độ trễ mã thông báo dưới 2 mili giây, một chỉ số đã trở nên ngày càng quan trọng khi các doanh nghiệp chuyển các hệ thống trí tuệ nhân tạo từ thí nghiệm sang môi trường đối mặt với khách hàng.
Ngành công nghiệp trí tuệ nhân tạo rộng lớn hơn cũng bắt đầu nhận ra rằng cơ sở hạ tầng suy luận có thể phát triển khác biệt so với cơ sở hạ tầng đào tạo. Trong khi các cụm GPU thống trị giai đoạn đầu của sự mở rộng trí tuệ nhân tạo, thì suy luận ngày càng được hưởng lợi từ các kiến trúc được tối ưu hóa xung quanh băng thông bộ nhớ, độ trễ, mạng và hiệu quả năng lượng chứ không chỉ là khả năng tính toán thô.
Hiệu suất Năng lượng Đang Trở thành Trung tâm của Việc Mở rộng Trí tuệ Nhân tạo
Một trong những hạn chế lớn nhất đối với các nhà cung cấp dịch vụ điện toán đám mây và các nhà cung cấp trí tuệ nhân tạo là nhu cầu điện. Các tác vụ suy luận trí tuệ nhân tạo có thể chạy liên tục trên hàng triệu yêu cầu mỗi ngày, khiến hiệu quả hoạt động trở nên quan trọng cho chi phí triển khai.
Infineon đã mở rộng vị trí của mình trong cơ sở hạ tầng trí tuệ nhân tạo thông qua các công nghệ bán dẫn dựa trên silic, silic carbide (SiC) và nitride gallium (GaN). Công ty đã tập trung ngày càng nhiều vào việc cung cấp lớp giao tiếp năng lượng dưới các bộ tăng tốc trí tuệ nhân tạo và cơ sở hạ tầng máy chủ.
Hợp tác với d-Matrix phản ánh cách các công ty bán dẫn đang trở nên tích hợp chặt chẽ hơn với các công ty khởi nghiệp tăng tốc trí tuệ nhân tạo khi ngành công nghiệp tìm kiếm các giải pháp thay thế cho các kiến trúc truyền thống dựa trên GPU.
Cơ sở Hạ tầng Trí tuệ Nhân tạo Đang Mở rộng Ra ngoài GPU Truyền thống
Hợp tác này cũng đến trong một làn sóng thí nghiệm rộng lớn hơn trong lĩnh vực phần cứng trí tuệ nhân tạo. Một số lượng ngày càng tăng các công ty khởi nghiệp đang phát triển các bộ tăng tốc chuyên dụng tập trung đặc biệt vào suy luận, tính toán dựa trên bộ nhớ hoặc mạng trí tuệ nhân tạo.
d-Matrix đã phân biệt mình thông qua sự nhấn mạnh vào công nghệ tính toán trong bộ nhớ và các hệ thống suy luận độ trễ thấp được thiết kế cho trí tuệ nhân tạo tạo sinh. Công ty cũng đã mở rộng chiến lược cơ sở hạ tầng của mình ngoài các chip tăng tốc đơn thuần, gần đây nhấn mạnh vào mạng, cơ sở hạ tầng có thể cấu hình và tối ưu hóa hệ thống toàn diện cho các cụm suy luận.
Khi các ứng dụng trí tuệ nhân tạo trở nên tương tác và chủ động hơn, các nhà cung cấp cơ sở hạ tầng được kỳ vọng sẽ đặt nhiều trọng tâm hơn vào việc giảm độ trễ, giảm tiêu thụ năng lượng và cải thiện hiệu quả hệ thống trên toàn bộ ngăn xếp trung tâm dữ liệu thay vì chỉ tập trung vào sức mạnh xử lý thô.












