Connect with us

Bí Quyết Để Có AI Nhanh Hơn Không Phải Là Cài Thêm Nhiều GPU, Mà Là Mạng Lưới Thông Minh Hơn

Lãnh đạo tư tưởng

Bí Quyết Để Có AI Nhanh Hơn Không Phải Là Cài Thêm Nhiều GPU, Mà Là Mạng Lưới Thông Minh Hơn

mm

Trí tuệ nhân tạo (AI) đang thay đổi những gì có thể đạt được trong nhiều ngành công nghiệp, bao gồm chăm sóc sức khỏe, tài chính, sản xuất và bán lẻ. Nhưng cùng với tiềm năng hứa hẹn, nó cũng đặt ra những yêu cầu cơ sở hạ tầng khổng lồ.

Các tổ chức trên toàn thế giới đang đầu tư vào GPU với quy mô chưa từng có để tăng tốc đào tạo và suy luận AI. Dự kiến vào năm 2028, chi tiêu cho AI tạo ra của Gartner sẽ vượt qua 1 nghìn tỷ đô la. Hyperion Research dự đoán thị trường HPC sẽ vượt qua 100 tỷ đô la vào cùng thời điểm. Tuy nhiên, mặc dù đầu tư vào các bộ tăng tốc tiên tiến, nhiều CIO vẫn tiếp tục thấy GPU nhàn rỗi, với tỷ lệ sử dụng chỉ khoảng 35% hoặc thấp hơn. Điều này không chỉ dẫn đến hiệu suất thấp mà còn gây lãng phí năng lượng và tăng chi phí.

Mặc dù nhiều dự án AI bị chậm lại, nhưng không phải vì thiếu GPU hoặc sức mạnh tính toán, mà vì mạng lưới không thể theo kịp, đòi hỏi một cách tiếp cận mới để thiết kế cho AI trên quy mô lớn.

Chi Phí Ẩn Của Các Nút Thắt Mạng Lưới

Khi mạng lưới không thể cung cấp dữ liệu đủ nhanh để giữ cho GPU luôn bận, các tổ chức sẽ gặp phải một số tác động quan trọng:

  • GPU và CPU không được sử dụng hết do chuyển giao dữ liệu bị tắc nghẽn: GPU được thiết kế cho tính toán song song lớn, nhưng chúng chỉ có thể xử lý dữ liệu nhanh như nó được cung cấp. Nếu vải mạng lưới không thể theo kịp, GPU sẽ nhàn rỗi chờ dữ liệu thay vì thực hiện tính toán. CPU cũng có thể bị đình trệ vì chúng đang điều phối nhiệm vụ và di chuyển dữ liệu qua đường ống, dẫn đến sử dụng thấp mặc dù có sẵn phần cứng đắt tiền.
  • Hiệu suất suy luận không nhất quán từ mạng lưới không hiệu quả: Sự không hiệu quả của mạng lưới tạo ra dòng dữ liệu không đồng đều, khiến GPU dao động giữa trạng thái đầy và trạng thái nhàn rỗi. Điều này tạo ra hiệu suất suy luận không thể đoán trước được, có thể làm tê liệt các ứng dụng AI trong sản xuất.
  • Chu kỳ đào tạo dài hơn, trì hoãn thời gian đưa ra thị trường: Đào tạo mô hình AI đòi hỏi phải di chuyển lượng dữ liệu lớn qua máy chủ, GPU và lưu trữ. Các nút thắt mạng lưới sẽ làm chậm quá trình này, vì vậy GPU sẽ dành ít thời gian hơn để đào tạo và nhiều thời gian hơn để chờ đợi. Điều này trực tiếp làm chậm lịch trình phát triển và triển khai sản phẩm.
  • Chi phí điện và vận hành tăng cao: Ngay cả khi nhàn rỗi, GPU và cơ sở hạ tầng xung quanh vẫn tiêu thụ một lượng điện năng đáng kể. Nếu GPU không được sử dụng hết do sự không hiệu quả của mạng lưới, các tổ chức sẽ phải trả tiền cho việc sử dụng điện năng cao mà không nhận được hiệu suất tương ứng. Chi phí vận hành tăng cao vì cơ sở phải hỗ trợ tải điện và làm mát đỉnh, ngay cả khi thông lượng tính toán bị hạn chế một cách nhân tạo.

Các doanh nghiệp có thể tiếp tục đổ tiền vào nhiều GPU, nhưng nếu không có sự nâng cấp mạng lưới phù hợp, họ sẽ chỉ làm tăng thêm các nút thắt và sự không hiệu quả này.

Mạng Lưới Là Bộ Tăng Tốc: Một Sự Thay Đổi Căn Bản

Giải pháp đòi hỏi phải thay đổi hoàn toàn kiến trúc mạng lưới. Việc giới thiệu một mô hình sử dụng mạng lưới như một bộ tăng tốc sẽ thay đổi hoàn toàn cách nghĩ truyền thống về hiệu suất HPC và AI để mở khóa các khả năng mới.

Thay vì tập trung chủ yếu vào việc thêm nhiều tính toán thông qua GPU và CPU, cách tiếp cận “mạng lưới như một bộ tăng tốc” coi vải mạng lưới như một nhân tố hiệu suất. Kết quả là, mạng lưới có thể hỗ trợ tốt hơn mật độ tính toán cao và tăng tốc ROI bằng cách loại bỏ các nút thắt, mở rộng để đáp ứng nhu cầu tính toán và tối ưu hóa đầu tư phần cứng. Bằng cách cho phép tính toán lớn hơn mà không có sự chậm lại, các tổ chức có thể chạy các khối lượng công việc lớn hơn trong không gian nhỏ hơn, nhận được kết quả nhanh hơn và tránh lãng phí tiền vào phần cứng dư thừa.

Làm Thế Nào Mô Hình ‘Mạng Lưới Là Bộ Tăng Tốc’ Hoạt Động

Vậy, mô hình này hoạt động như thế nào để các tổ chức có thể chuyển đổi mạng lưới của họ từ một người di chuyển dữ liệu thụ động thành một người kích hoạt tính toán chủ động và bắt đầu nhận được lợi ích? Nó cung cấp bốn khả năng chính mà mạng lưới truyền thống không có:

  • Giao hàng được đảm bảo ở mức phần cứng: Mạng lưới truyền thống gây ra gánh nặng cho CPU và GPU với việc theo dõi gói, tái truyền và sắp xếp lại. Điều này tiêu thụ chu kỳ tính toán có thể được dành cho đào tạo hoặc suy luận. Với một vải mạng lưới đảm bảo giao hàng ở mức phần cứng, các nhiệm vụ này được chuyển ra khỏi các nút tính toán, dẫn đến giảm gánh nặng CPU và GPU, hiệu suất nhất quán và có thể dự đoán, cũng như khả năng mở rộng giúp đơn giản hóa lập trình và điều phối cụm.
  • Định tuyến động thông minh: Định tuyến truyền thống dựa trên các đường cố định hoặc không tối ưu, có thể để lại một số phần của mạng lưới không được sử dụng hoặc tạo ra các nút thắt nơi các lượng dữ liệu lớn chảy đồng thời. Định tuyến thông minh sử dụng tất cả các đường có sẵn để tối ưu hóa luồng giao thông. Nó cho phép thông lượng cao hơn với nhiều đường hoạt động cân bằng giao thông, độ trễ thấp hơn thông qua việc chọn đường tối ưu và độ tin cậy được cải thiện vì giao thông mạng tự động định tuyến lại xung quanh sự cố liên kết hoặc nút. Điều này giảm thời gian nhàn rỗi và giữ cho GPU luôn được cung cấp dữ liệu.
  • Tự động thử lại ở mức liên kết: Khi các gói bị mất hoặc bị hỏng, mạng lưới tiêu chuẩn phụ thuộc vào lớp tính toán để phát hiện và gửi lại, điều này gây ra độ trễ đáng kể và gián đoạn luồng tính toán. Một vải mạng lưới có khả năng tự động thử lại ở mức liên kết xử lý việc gửi lại bên trong mạng lưới itself. Điều này cho phép độ tin cậy gần như trong suốt vì mất gói trở nên vô hình với các nút tính toán trong khi giảm tác động độ trễ vì việc thử lại xảy ra ở địa phương tại liên kết, không phải trên toàn bộ ngăn xếp mạng. Nó cũng loại bỏ nhu cầu về xử lý lỗi ứng dụng phức tạp. Khả năng tự động thử lại đảm bảo tính toán phân tán không gián đoạn, điều quan trọng khi mở rộng trên hàng nghìn GPU.
  • Tính toán trong mạng lưới: Trong khi mạng lưới truyền thống chủ yếu di chuyển dữ liệu, tính toán trong mạng lưới cho phép mạng lưới trở thành một đồng bộ xử lý bằng cách thực hiện một số hoạt động trực tiếp trong vải mạng lưới. NVIDIA SHARP là một ví dụ chính – nó cho phép giảm xảy ra trên các công tắc mạng lưới chính nó. Điều này cho phép các hoạt động phân tán được tăng tốc, giảm độ trễ vì dữ liệu được tổng hợp khi nó đi qua mạng lưới, và tăng hiệu quả vì các nút tính toán được giải phóng khỏi việc thực hiện các nhiệm vụ tổng hợp, để lại nhiều chu kỳ hơn cho đào tạo và mô phỏng.

Tổng thể, những khả năng này là những gì làm cho “tính toán dẫn đầu bởi mạng lưới” trở thành nền tảng cho việc mở rộng môi trường AI và HPC thế hệ tiếp theo. Một cách tiếp cận tập trung vào mạng lưới mang lại lợi ích có thể đo lường được, bao gồm việc sử dụng GPU cao hơn, loại bỏ đói dữ liệu, thời gian đưa ra thị trường nhanh hơn, hiệu quả tài nguyên được cải thiện và chi phí sở hữu tổng thể thấp hơn.

Khám Phá Sức Mạnh Của Mạng Lưới Thật Sự

AI trên quy mô lớn không chỉ là một vấn đề tính toán – nó là một thách thức kỹ thuật cấp hệ thống, với mạng lưới ở trung tâm của nó. Việc coi mạng lưới như một bộ tăng tốc biến nó thành một nhân tố tăng tốc cho tính toán, cho phép trung tâm dữ liệu HPC và AI mở rộng về mật độ mà không hy sinh hiệu suất. Nó mang lại ROI có thể đo lường được nhanh hơn bằng cách trích xuất giá trị tối đa từ cơ sở hạ tầng hiện có trước khi đầu tư vào thêm silicon.

Bằng cách loại bỏ các nút thắt, tăng sử dụng, và cung cấp hiệu suất có thể dự đoán, mạng lưới thông minh cho phép các nhóm AI trở nên sản xuất hơn, ROI tốt hơn trên cơ sở hạ tầng GPU, và thời gian đưa ra thị trường, đổi mới, và lãnh đạo thị trường nhanh hơn. Nó cho phép các tổ chức khám phá những gì mạng lưới của họ có thể thực sự làm được và tận dụng sức mạnh của AI theo những cách mới.

Nishant Lodha là giám đốc cấp cao về mạng lưới trí tuệ nhân tạo tại Cornelis Networks. Trước khi gia nhập Cornelis, Nishant đã giữ các vị trí giám đốc tại Intel Corporation và Marvell. Ông có hơn 25 năm kinh nghiệm trong lĩnh vực mạng lưới trung tâm dữ liệu, lưu trữ và công nghệ tính toán trong các vai trò bao gồm tiếp thị sản phẩm, giải pháp và tiếp thị kỹ thuật, cũng như kỹ sư mạng. Ông đặt trụ sở tại Thung lũng Silicon.