Connect with us

Bí Quyết Để Có AI Nhanh Hơn Không Phải Là Nhiều GPU, Mà Là Mạng Lưới Thông Minh Hơn

Lãnh đạo tư tưởng

Bí Quyết Để Có AI Nhanh Hơn Không Phải Là Nhiều GPU, Mà Là Mạng Lưới Thông Minh Hơn

mm

Trí tuệ nhân tạo (AI) đang tái định nghĩa những gì có thể xảy ra trên nhiều ngành công nghiệp, bao gồm chăm sóc sức khỏe, tài chính, sản xuất và bán lẻ. Nhưng cùng với tiềm năng hứa hẹn, nó cũng mang lại nhu cầu cơ sở hạ tầng khổng lồ.

Các tổ chức trên toàn thế giới đang đầu tư vào GPU với quy mô chưa từng có để tăng tốc đào tạo và suy luận AI. Dự kiến vào năm 2028, Gartner dự báo chi tiêu cho AI sinh sẽ vượt quá 1 nghìn tỷ đô la. Hyperion Research dự đoán thị trường HPC tổng thể sẽ vượt quá 100 tỷ đô la vào cùng thời điểm. Tuy nhiên, mặc dù đầu tư vào các bộ tăng tốc tiên tiến, nhiều CIO vẫn tiếp tục thấy GPU nhàn rỗi, với mức sử dụng thấp hơn 35%. Điều này không chỉ dẫn đến hiệu suất thấp mà còn gây lãng phí năng lượng và tăng chi phí.

Trong khi nhiều dự án AI bị chậm lại, không phải vì họ thiếu GPU hoặc sức mạnh tính toán, mà vì mạng lưới không thể theo kịp, đòi hỏi một cách tiếp cận mới để thiết kế cho AI trên quy mô lớn.

Chi Phí Ẩn Của Các Bottleneck Mạng

Khi mạng lưới không thể cung cấp dữ liệu đủ nhanh để giữ cho GPU luôn bận rộn, các tổ chức sẽ gặp phải một số tác động quan trọng:

  • GPU và CPU dưới mức sử dụng tối ưu do chuyển giao dữ liệu bị tắc nghẽn: GPU được thiết kế cho tính toán song song lớn, nhưng chúng chỉ có thể xử lý dữ liệu nhanh như nó được cung cấp. Nếu vải mạng lưới không thể theo kịp, GPU sẽ ở trạng thái nhàn rỗi chờ dữ liệu thay vì thực hiện tính toán. CPU cũng có thể bị đình trệ vì chúng đang phối hợp nhiệm vụ và di chuyển dữ liệu qua đường ống, dẫn đến mức sử dụng thấp mặc dù có sẵn phần cứng đắt tiền.
  • Hiệu suất suy luận không nhất quán từ mạng lưới không hiệu quả: Hiệu quả mạng lưới không đồng đều tạo ra dòng dữ liệu không đều, khiến GPU dao động giữa trạng thái hoạt động đầy đủ và trạng thái nhàn rỗi. Điều này tạo ra hiệu suất suy luận không thể đoán trước mà có thể làm tê liệt các ứng dụng AI trong sản xuất.
  • Chu Kỳ Đào Tạo Dài Hơn, Chậm Trễ Thời Gian Ra Thị Trường: Đào tạo mô hình AI đòi hỏi phải di chuyển các tập dữ liệu lớn trên máy chủ, GPU và lưu trữ. Các bottleneck mạng lưới sẽ làm chậm quá trình này, vì vậy GPU sẽ dành ít thời gian hơn cho việc đào tạo và nhiều thời gian hơn để chờ đợi. Điều này trực tiếp làm chậm lịch trình phát triển và triển khai sản phẩm.
  • Chi Phí Điện Và Hoạt Động Tăng: Ngay cả khi nhàn rỗi, GPU và cơ sở hạ tầng xung quanh vẫn tiêu thụ một lượng điện năng đáng kể. Nếu GPU dưới mức sử dụng tối ưu do hiệu quả mạng lưới không đủ, các tổ chức sẽ phải trả tiền cho việc sử dụng điện năng cao mà không nhận được hiệu suất tương ứng. Chi phí hoạt động tăng lên vì cơ sở phải hỗ trợ tải điện và làm mát đỉnh, ngay cả khi thông lượng tính toán bị hạn chế một cách nhân tạo.

Các doanh nghiệp có thể tiếp tục đầu tư vào nhiều GPU, nhưng nếu không có sự cải tiến mạng lưới phù hợp, họ sẽ chỉ làm tăng các bottleneck và hiệu quả không đủ này.

Mạng Lưới Là Bộ Tăng Tốc: Một Sự Thay Đổi Căn Bản

Giải pháp đòi hỏi phải thay đổi hoàn toàn kiến trúc mạng lưới. Việc giới thiệu một mô hình sử dụng mạng lưới như một bộ tăng tốc sẽ thay đổi cách nghĩ truyền thống về hiệu suất HPC và AI để mở khóa các khả năng mới.

Thay vì tập trung chủ yếu vào việc thêm nhiều tính toán thông qua GPU và CPU, cách tiếp cận “mạng lưới là bộ tăng tốc” coi vải mạng lưới như một nhân tố hiệu suất. Kết quả là, mạng lưới có thể hỗ trợ tốt hơn tính toán với mật độ cao và tăng tốc ROI bằng cách loại bỏ các bottleneck, mở rộng để đáp ứng nhu cầu tính toán và tối ưu hóa đầu tư phần cứng. Bằng cách cho phép tính toán lớn hơn mà không có sự chậm lại, các tổ chức có thể chạy các công việc lớn hơn trong không gian nhỏ hơn, nhận được kết quả nhanh hơn và tránh lãng phí tiền vào phần cứng bổ sung.

Làm Thế Nào Mô Hình ‘Mạng Lưới Là Bộ Tăng Tốc’ Hoạt Động

Vậy, mô hình này hoạt động như thế nào để các tổ chức có thể biến mạng lưới của mình từ một người di chuyển dữ liệu thụ động thành một người kích hoạt tính toán chủ động và bắt đầu nhận được lợi ích? Nó cung cấp bốn khả năng chính mà mạng lưới truyền thống thiếu:

  • Giao Hàng Được Đảm Bảo Ở Mức Phần Cứng: Mạng lưới truyền thống gây ra gánh nặng cho CPU và GPU với việc theo dõi gói, truyền lại và sắp xếp lại overhead. Điều này tiêu thụ các chu kỳ tính toán có thể được dành cho đào tạo hoặc suy luận. Với một vải mạng lưới đảm bảo giao hàng ở mức phần cứng, các nhiệm vụ này được chuyển khỏi các nút tính toán, dẫn đến giảm overhead CPU và GPU, hiệu suất dự đoán và nhất quán, và khả năng mở rộng giúp đơn giản hóa lập trình và điều phối cụm.
  • Lưu Đường Thông Minh Động: Lưu đường thông thường dựa trên các đường cố định hoặc không tối ưu, điều này có thể để lại một số phần của mạng lưới dưới mức sử dụng hoặc tạo ra các bottleneck khi các lượng dữ liệu lớn chảy đồng thời. Lưu đường thông minh động tận dụng tất cả các đường có sẵn để tối ưu hóa lưu lượng giao thông. Nó cho phép thông lượng cao hơn với nhiều đường hoạt động cân bằng lưu lượng, độ trễ thấp hơn thông qua việc chọn đường tối ưu và độ bền cao hơn vì lưu lượng mạng lưới tự động chuyển hướng xung quanh sự cố liên kết hoặc nút.
  • Thử Lại Tự Động Ở Mức Liên Kết: Khi các gói bị mất hoặc bị hỏng, mạng lưới tiêu chuẩn phụ thuộc vào lớp tính toán để phát hiện và gửi lại, điều này giới thiệu độ trễ đáng kể và gián đoạn dòng tính toán. Một vải có khả năng thử lại tự động ở mức liên kết sẽ xử lý việc truyền lại bên trong mạng lưới itself. Nó cho phép độ tin cậy gần như trong suốt vì mất gói trở nên vô hình với các nút tính toán trong khi giảm tác động độ trễ vì thử lại xảy ra ở địa phương tại liên kết, không trên toàn bộ ngăn xếp mạng. Nó cũng loại bỏ nhu cầu về xử lý lỗi ứng dụng phức tạp. Khả năng thử lại tự động đảm bảo tính toán phân tán không gián đoạn và hiệu quả, điều này quan trọng khi mở rộng trên hàng nghìn GPU.
  • Tính Toán Trong Mạng: Khi mạng lưới truyền thống chủ yếu di chuyển dữ liệu, tính toán trong mạng lưới cho phép mạng lưới trở thành một bộ xử lý đồng bằng cách thực hiện một số hoạt động trực tiếp trong vải. NVIDIA SHARP là một ví dụ chính – nó cho phép giảm xảy ra trên các công tắc mạng lưới itself. Điều này cho phép các hoạt động phân tán tăng tốc, giảm độ trễ vì dữ liệu được tổng hợp khi nó đi qua mạng lưới và tăng hiệu quả vì các nút tính toán được giải phóng khỏi việc thực hiện các nhiệm vụ tổng hợp, để lại nhiều chu kỳ hơn cho đào tạo và mô phỏng.

Tổng thể, những khả năng này là những gì làm cho “tính toán dẫn đầu mạng” trở thành nền tảng cho việc mở rộng môi trường AI và HPC thế hệ tiếp theo. Một cách tiếp cận tập trung vào mạng lưới mang lại lợi ích có thể đo lường được, bao gồm mức sử dụng GPU cao hơn loại bỏ đói dữ liệu, thời gian đến thông tin nhanh hơn giảm chu kỳ đào tạo và ổn định hiệu suất suy luận, hiệu quả tài nguyên được cải thiện và chi phí sở hữu tổng thể thấp hơn.

Khám Phá Sức Mạnh Mạng Lưới Thật Sự

AI trên quy mô lớn không chỉ là một vấn đề tính toán – nó là một thách thức kỹ thuật cấp hệ thống, với mạng lưới ở trung tâm của nó. Việc coi mạng lưới như một bộ tăng tốc biến nó thành một nhân tố nhân cho tính toán, cho phép các trung tâm dữ liệu HPC và AI mở rộng về mật độ mà không hy sinh hiệu suất. Nó mang lại ROI có thể đo lường được nhanh hơn bằng cách trích xuất giá trị tối đa từ cơ sở hạ tầng hiện có trước khi đầu tư vào nhiều silicon hơn.

Bằng cách loại bỏ các bottleneck, tăng mức sử dụng và cung cấp hiệu suất dự đoán, mạng lưới thông minh cho phép các nhóm AI sản xuất hơn, ROI tốt hơn trên cơ sở hạ tầng GPU và thời gian đến thông tin, đổi mới và lãnh đạo thị trường nhanh hơn. Nó cho phép các tổ chức khám phá những gì mạng lưới của họ có thể thực sự làm được và tận dụng sức mạnh của AI theo những cách mới.

Nishant Lodha là giám đốc cấp cao về mạng lưới trí tuệ nhân tạo tại Cornelis Networks. Trước khi gia nhập Cornelis, Nishant đã giữ các vị trí giám đốc tại Intel Corporation và Marvell. Ông có hơn 25 năm kinh nghiệm trong lĩnh vực mạng lưới trung tâm dữ liệu, lưu trữ và công nghệ tính toán trong các vai trò bao gồm tiếp thị sản phẩm, giải pháp và tiếp thị kỹ thuật, cũng như kỹ sư mạng. Ông đặt trụ sở tại Thung lũng Silicon.