Lãnh đạo tư tưởng
Năm Bước Để Chuyển Bộ Nhớ Từ Rào Cản Lớn Nhất Của Trí Tuệ Nhân Tạo Thành Lợi Thế Cạnh Tranh

Trong vài năm qua, cơ sở hạ tầng trí tuệ nhân tạo đã tập trung vào tính toán trên tất cả các chỉ số khác. Nhiều hơn các bộ tăng tốc, các cụm lớn hơn và FLOPS cao hơn đã thúc đẩy cuộc trò chuyện để tận dụng tối đa GPU. Cách tiếp cận này có ý nghĩa khi tiến bộ của mô hình phụ thuộc chủ yếu vào quy mô đào tạo. Giờ đây, với việc triển khai sản xuất trí tuệ nhân tạo đang trở thành ưu tiên, có một ràng buộc mới cần tập trung vào: bộ nhớ.
Ngày nay, nhiều ràng buộc khó khăn nhất đối với trí tuệ nhân tạo xuất hiện trong khả năng bộ nhớ, băng thông, độ trễ và chi phí thời gian và năng lượng để di chuyển dữ liệu qua hệ thống. Cửa sổ ngữ cảnh tiếp tục mở rộng, với các công ty như Anthropic hiện đang cung cấp cửa sổ triệu token trong gói tiêu chuẩn của họ. Inference workload đang tăng trưởng. Sự phát triển của các hệ thống đa tác nhân có nghĩa là các hệ thống trí tuệ nhân tạo đang truyền lượng dữ liệu lớn hơn từ giai đoạn này sang giai đoạn khác. Các nhà điều hành có thể tiếp tục cố gắng thêm nhiều GPU, nhưng họ vẫn không đạt được hiệu suất mong đợi vì các hệ thống này thiếu RAM đủ để cung cấp bộ tăng tốc hiệu quả khi mỗi máy chủ hoạt động riêng lẻ, bị giới hạn trong RAM trong hệ thống.
Sự thay đổi này ảnh hưởng đến cả thông lượng và chi phí cho các nhà cung cấp dịch vụ hyperscale và trung tâm dữ liệu. Khi bộ nhớ trở thành yếu tố hạn chế, các tổ chức thường phản ứng bằng cách overprovisioning phần cứng đắt tiền, để lại khả năng GPU dưới mức sử dụng và hấp thụ chi phí điện và cơ sở hạ tầng cao hơn. Giai đoạn tiếp theo của quy mô trí tuệ nhân tạo sẽ phụ thuộc ít hơn vào việc thêm tính toán thô và nhiều hơn vào việc xây dựng kiến trúc bộ nhớ phù hợp với cách thực hiện trí tuệ nhân tạo thực tế.
Dưới đây là năm bước mà các nhà lãnh đạo cơ sở hạ tầng có thể thực hiện ngay bây giờ để chuẩn bị cho nhu cầu bộ nhớ ngày càng tăng.
1. Bắt đầu bằng cách đo lường nút thắt thực sự
Nhiều tổ chức vẫn đánh giá hiệu suất trí tuệ nhân tạo thông qua ống kính tính toán trước. Họ theo dõi việc sử dụng cụm, số lượng bộ tăng tốc và thông lượng hàng đầu, sau đó giả định rằng sự cải thiện sẽ đến từ việc thêm nhiều bộ tăng tốc GPU. Quan điểm đó thường bỏ lỡ vấn đề thực sự.
Áp lực bộ nhớ thường xuất hiện trong các bộ tăng tốc bị đình trệ, độ trễ trên mỗi token cao hơn và thông lượng không nhất quán dưới tải. Một GPU có thể trông dưới mức sử dụng nếu nó đang chờ dữ liệu đến từ một tầng bộ nhớ khác, một máy chủ khác hoặc một giai đoạn khác trong ứng dụng. Inference làm cho vấn đề đó trở nên rõ ràng hơn khi kích thước bộ nhớ đệm KV tăng và nhiều phiên đồng thời cạnh tranh cho băng thông.
Các nhà điều hành cần có tầm nhìn rõ hơn về việc sử dụng bộ nhớ hiệu quả, xem xét các byte di chuyển trên mỗi token, thời gian đình trệ bộ tăng tốc và mẫu truy cập bộ nhớ trên CPU, GPU và tầng bộ nhớ liền kề. Họ cũng cần theo dõi đường ống có thể tách biệt các độ trễ liên quan đến bộ nhớ khỏi các vấn đề mạng hoặc lưu trữ. Nếu không có tầm nhìn đó, các nhóm rủi ro sẽ chi tiêu nhiều hơn cho tính toán mà không giải quyết nguồn gốc thực sự của sự chậm lại.
2. Giảm di chuyển dữ liệu trước khi thêm nhiều khả năng
Trong các hệ thống trí tuệ nhân tạo lớn, di chuyển dữ liệu có thể tạo ra nhiều overhead như việc xử lý dữ liệu.
Điều này đặc biệt đúng trong trường hợp suy luận. Khi cửa sổ ngữ cảnh mở rộng, bộ nhớ đệm KV có thể trở thành một trong những người tiêu thụ bộ nhớ hệ thống lớn nhất trong ngăn xếp. Đa người thuê và các công việc đa tác nhân có thể thêm thậm chí nhiều hơn. Giai đoạn đầu tạo ra đầu ra, sau đó một giai đoạn khác tiêu thụ nó và cơ sở hạ tầng xử lý việc bàn giao này bằng cách sao chép các khối dữ liệu lớn giữa các GPU, trên các máy chủ hoặc thông qua cấp độ khuôn khổ.
Những bản sao đó mang lại chi phí thực. Chúng tiêu thụ băng thông, thêm độ trễ và để lại các tài nguyên tính toán đắt tiền chờ đợi cho việc chuyển giao tiếp theo để hoàn thành. Chúng cũng đẩy các nhà điều hành mua nhiều bộ nhớ hơn với chi phí cao hơn so với nhu cầu thực tế của workload.
Trước khi đầu tư vào nhiều bộ tăng tốc hơn, các nhóm nên xác định nơi trong hệ thống dữ liệu di chuyển nhiều hơn mức cần thiết. Chuyển GPU-to-GPU, sao chép máy chủ và di chuyển lặp lại trạng thái trung gian trên các đường ống tác nhân là những nơi tốt để bắt đầu. Trong nhiều môi trường, việc cắt giảm di chuyển không cần thiết mang lại hiệu suất có thể sử dụng nhiều hơn so với một máy chủ khác.
3. Xây dựng tầng bộ nhớ xung quanh hành vi workload
Cơ sở hạ tầng trí tuệ nhân tạo hoạt động tốt hơn khi các nhà điều hành ngừng đối xử với bộ nhớ như một nguồn duy nhất và bắt đầu đối xử với nó như một hệ thống phân cấp với các vai trò riêng biệt.
Dữ liệu nóng nhất nên ở gần bộ tăng tốc nhất. Điều đó bao gồm các tập hợp làm việc đòi hỏi độ trễ thấp nhất và băng thông cao nhất. Các bộ đệm hoạt động khác và các trạng thái được truy cập thường xuyên có thể nằm trong DRAM. Các cấu trúc lớn hơn cần quy mô hơn là tốc độ tuyệt đối có thể di chuyển vào bộ nhớ nhóm. Dữ liệu lạnh hơn và các mô hình ít hoạt động hơn thuộc về xa hơn trong ngăn xếp.
Cách tiếp cận này yêu cầu các nhóm phải hiểu dữ liệu nào thay đổi liên tục, dữ liệu nào nhiều quy trình chia sẻ và dữ liệu nào có thể chấp nhận sự đánh đổi độ trễ vừa phải mà không ảnh hưởng đến chất lượng dịch vụ. Quá nhiều triển khai vẫn mặc định đẩy mọi thứ vào tầng HBM nhanh nhất vì nó cảm thấy an toàn hơn. Cách tiếp cận đó làm tăng chi phí và thường để lại hiệu quả trên bàn.
Một chiến lược bộ nhớ phân cấp cung cấp cho các nhà điều hành nhiều kiểm soát hơn về cả hiệu suất và kinh tế. Trong trí tuệ nhân tạo sản xuất, sự cân bằng đó đang trở thành một yêu cầu thiết kế cốt lõi.
4. Xử lý bộ nhớ chia sẻ như một phần của kiến trúc cho trí tuệ nhân tạo tác nhân
Trí tuệ nhân tạo đa tác nhân đang làm tăng chi phí của thiết kế bộ nhớ phân mảnh.
Trong nhiều hệ thống tác nhân, một tác nhân tạo ra đầu ra mà một tác nhân khác sử dụng ngay lập tức. Một dịch vụ thứ ba có thể xếp hạng đầu ra đó, thêm ngữ cảnh hoặc định tuyến nó vào một mô hình khác. Nếu mỗi bước tạo một bản sao mới của cùng một trạng thái, lưu lượng truy cập tăng nhanh. Khi ngữ cảnh tăng, kích thước của dữ liệu sao chép đó cũng tăng theo. Hệ thống dành nhiều thời gian hơn để di chuyển thông tin hơn là xử lý dữ liệu.
Đây là nơi bộ nhớ chia sẻ trở nên ngày càng quan trọng, đặc biệt là đối với bộ nhớ đệm KV chia sẻ và các trạng thái khác mà nhiều tác nhân hoặc dịch vụ cần truy cập. Bộ nhớ chia sẻ có thể giảm các bản sao trùng lặp, giảm lưu lượng truy cập mạng và cải thiện sử dụng trên toàn bộ đường dẫn ứng dụng. Nó cũng có thể giúp các hệ thống tác nhân quy mô hiệu quả khi các nút hoặc tác nhân khác nhau có thể tái sử dụng bộ nhớ đệm KV với bộ nhớ chia sẻ.
Đối với các nhà cung cấp dịch vụ hyperscale, điều này không còn là một trường hợp ngoại lệ. Khi trí tuệ nhân tạo tác nhân trưởng thành, bộ nhớ chia sẻ đang trở thành một yêu cầu thực tế cho triển khai hiệu quả.
5. Chấp nhận CXL cho cơ sở hạ tầng sản xuất
Trong vài năm qua, ngành công nghiệp xem CXL như một tiêu chuẩn hứa hẹn cần thêm thời gian để trưởng thành, khi CXL nhanh chóng di chuyển từ phiên bản 1 đến 2. Giờ đây, với phần cứng 3.x sắp có sẵn, CXL đã đạt đến điểm trưởng thành, tương thích ngược và sẵn sàng xử lý các tải sản xuất.
CXL đã đạt đến mức độ trưởng thành mà các nhà cung cấp dịch vụ hyperscale và trung tâm dữ liệu nên coi nó là một lựa chọn thực tế cho việc mở rộng bộ nhớ sản xuất, nhóm bộ nhớ và kiến trúc bộ nhớ chia sẻ. Nó bây giờ thuộc về việc lập kế hoạch cơ sở hạ tầng nghiêm túc, đặc biệt là cho các môi trường cần mở rộng bộ nhớ linh hoạt hơn và kinh tế tốt hơn xung quanh suy luận.
Điều đó không có nghĩa là mọi workload nên chuyển sang bộ nhớ dựa trên CXL. Bộ nhớ cục bộ sẽ vẫn là thiết yếu cho dữ liệu nóng nhất và nhạy cảm nhất về độ trễ. Nhưng các nhà điều hành không cần phải chờ đợi một số phiên bản trong tương lai của tiêu chuẩn trước khi họ hành động. Câu hỏi hữu ích nhất là nơi CXL có thể giải quyết các vấn đề sản xuất thực tế ngày nay.
Cơ hội rõ ràng nhất là trong mở rộng bộ nhớ, nhóm bộ nhớ và thiết kế bộ nhớ chia sẻ giảm các bản sao không cần thiết trên các công việc trí tuệ nhân tạo. Những trường hợp sử dụng đó phù hợp trực tiếp với các điểm áp lực hiện tại: nhu cầu bộ nhớ đệm KV tăng, chuyển giao dữ liệu tác nhân đến tác nhân ngày càng tăng và nhu cầu cải thiện sử dụng GPU mà không đẩy chi phí sở hữu tổng thể lên cao hơn.
Các nhà điều hành vẫn cần phải thiết kế cẩn thận. Độ trễ, khả năng dự đoán và hỗ trợ phần mềm vẫn quan trọng. Các chính sách quản lý bộ nhớ cần đặt dữ liệu vào tầng đúng vào đúng thời điểm. Nhưng những điều đó là câu hỏi về triển khai, không phải lý do để hoãn việc lập kế hoạch.
Tại XCENA, chúng tôi xem bộ nhớ, di chuyển dữ liệu và sử dụng như các ràng buộc trung tâm trong cơ sở hạ tầng trí tuệ nhân tạo sản xuất. Đó là lý do tại sao chúng tôi tập trung vào bộ nhớ tính toán dựa trên CXL và kiến trúc giảm sao chép không cần thiết, hỗ trợ truy cập chia sẻ và giúp các nhà điều hành sử dụng tốt hơn các tài nguyên tính toán đắt tiền.
Ngành công nghiệp đã dành nhiều năm để đối xử với bộ nhớ như một tài nguyên hỗ trợ phía sau động cơ tiến bộ của trí tuệ nhân tạo. Quan điểm đó không còn phù hợp với thực tế triển khai sản xuất. Bộ nhớ bây giờ định hình sử dụng, hiệu quả và chi phí ở mọi cấp độ của ngăn xếp. Các nhà điều hành nhận ra sự thay đổi đó sớm sẽ có một lợi thế được đo lường không chỉ bằng hiệu suất, mà bằng cách họ mở rộng trí tuệ nhân tạo trong thế giới thực.












