Connect with us

Lãnh đạo tư tưởng

Năm Bước Biến Bộ Nhớ Từ Ràng Buộc Lớn Nhất Của AI Thành Lợi Thế Cạnh Tranh

mm

Trong vài năm qua, cơ sở hạ tầng AI đã tập trung vào khả năng tính toán hơn tất cả các chỉ số khác. Nhiều bộ gia tốc hơn, các cụm lớn hơn và FLOPS cao hơn đã thúc đẩy cuộc thảo luận để tận dụng tối đa GPU. Cách tiếp cận này có ý nghĩa khi tiến bộ của mô hình chủ yếu phụ thuộc vào quy mô đào tạo. Giờ đây, khi việc triển khai AI vào sản xuất được ưu tiên, có một ràng buộc mới cần tập trung: bộ nhớ.

Ngày nay, nhiều ràng buộc khó khăn nhất đối với AI xuất hiện ở dung lượng bộ nhớ, băng thông, độ trễ và chi phí thời gian cũng như năng lượng để di chuyển dữ liệu qua một hệ thống. Cửa sổ ngữ cảnh tiếp tục mở rộng, với các công ty như Anthropic hiện cung cấp cửa sổ triệu token trong dịch vụ được định giá tiêu chuẩn của họ. Khối lượng công việc suy luận đang tăng lên. Sự phát triển của các hệ thống đa tác nhân có nghĩa là các hệ thống AI đang truyền khối lượng dữ liệu lớn hơn từ giai đoạn này sang giai đoạn tiếp theo. Các nhà vận hành có thể tiếp tục cố gắng thêm nhiều GPU hơn, nhưng họ vẫn không đạt được hiệu suất mong đợi vì các hệ thống này thiếu hụt RAM đủ để cung cấp dữ liệu hiệu quả cho các bộ gia tốc khi mỗi máy chủ hoạt động độc lập, bị giới hạn trong RAM của hệ thống.

Sự thay đổi này ảnh hưởng đến cả thông lượng và chi phí cho các nhà cung cấp dịch vụ siêu lớn và nhà vận hành trung tâm dữ liệu. Khi bộ nhớ trở thành yếu tố hạn chế, các tổ chức thường phản ứng bằng cách cung cấp dư phần cứng đắt tiền, khiến công suất GPU bị sử dụng dưới mức và hấp thụ chi phí điện năng và cơ sở hạ tầng cao hơn. Giai đoạn tiếp theo của quy mô AI sẽ ít phụ thuộc vào việc bổ sung khả năng tính toán thô mà phụ thuộc nhiều hơn vào việc xây dựng các kiến trúc bộ nhớ phù hợp với cách thức AI sản xuất thực sự hoạt động.

Dưới đây là năm bước mà các nhà lãnh đạo cơ sở hạ tầng có thể thực hiện ngay để chuẩn bị cho nhu cầu bộ nhớ ngày càng tăng.

1. Bắt đầu bằng cách đo lường nút thắt cổ chai thực sự

Nhiều tổ chức vẫn đánh giá hiệu suất AI thông qua lăng kính ưu tiên tính toán. Họ theo dõi mức độ sử dụng cụm, số lượng bộ gia tốc và thông lượng tổng thể, sau đó cho rằng cải tiến sẽ đến từ việc bổ sung thêm các bộ gia tốc GPU. Quan điểm đó thường bỏ lỡ vấn đề thực sự.

Áp lực bộ nhớ thường thể hiện ở các bộ gia tốc bị đình trệ, độ trễ trên mỗi token cao hơn và thông lượng không ổn định dưới tải. Một GPU có thể trông như được sử dụng dưới mức nếu nó đang chờ dữ liệu đến từ một tầng bộ nhớ khác, một máy chủ khác hoặc một giai đoạn khác trong ứng dụng. Suy luận làm cho vấn đề đó rõ ràng hơn khi kích thước bộ đệm KV tăng lên và nhiều phiên đồng thời hơn cạnh tranh băng thông.

Các nhà vận hành cần khả năng hiển thị tốt hơn về việc sử dụng bộ nhớ hiệu quả, xem xét số byte được di chuyển trên mỗi token, thời gian đình trệ của bộ gia tốc và các mẫu truy cập bộ nhớ trên CPU, GPU và các tầng bộ nhớ liền kề. Họ cũng cần theo dõi đường ống có thể tách các độ trễ liên quan đến bộ nhớ khỏi các vấn đề về mạng hoặc lưu trữ. Nếu không có khả năng hiển thị đó, các nhóm có nguy cơ chi nhiều hơn cho việc tính toán mà không giải quyết được nguồn gốc thực sự của sự chậm lại.

2. Giảm thiểu việc di chuyển dữ liệu trước khi thêm dung lượng

Trong các hệ thống AI lớn, việc di chuyển dữ liệu có thể tạo ra nhiều chi phí phụ như xử lý dữ liệu.

Điều này đặc biệt đúng trong suy luận. Khi cửa sổ ngữ cảnh mở rộng, bộ đệm KV có thể trở thành một trong những nơi tiêu thụ bộ nhớ hệ thống lớn nhất trong ngăn xếp. Phục vụ đa người dùng và quy trình làm việc đa tác nhân có thể bổ sung thêm. Giai đoạn đầu tiên tạo ra đầu ra, sau đó một tác nhân khác tiêu thụ nó và cơ sở hạ tầng xử lý việc bàn giao này bằng cách sao chép các khối dữ liệu lớn giữa các GPU, qua các máy chủ hoặc thông qua tuần tự hóa ở cấp độ khung.

Những bản sao đó mang lại một chi phí thực sự. Chúng tiêu thụ băng thông, tăng độ trễ và khiến các tài nguyên tính toán đắt tiền chờ đợi lần chuyển tiếp theo hoàn tất. Chúng cũng đẩy các nhà vận hành mua nhiều bộ nhớ chi phí cao hơn mức khối lượng công việc thực sự yêu cầu.

Trước khi đầu tư vào nhiều bộ gia tốc hơn, các nhóm nên xác định nơi trong hệ thống dữ liệu đang di chuyển nhiều hơn mức cần thiết. Chuyển GPU sang GPU, sao chép máy chủ sang máy chủ và di chuyển lặp lại các trạng thái trung gian qua các đường ống tác nhân là những nơi tốt để bắt đầu. Trong nhiều môi trường, cắt giảm việc di chuyển không cần thiết mang lại hiệu suất có thể sử dụng nhiều hơn một máy chủ khác.

3. Xây dựng các tầng bộ nhớ xung quanh hành vi khối lượng công việc

Cơ sở hạ tầng AI hoạt động tốt hơn khi các nhà vận hành ngừng coi bộ nhớ như một nguồn duy nhất và bắt đầu coi nó như một hệ thống phân cấp với các vai trò riêng biệt.

Dữ liệu nóng nhất nên ở gần bộ gia tốc nhất. Điều đó bao gồm các tập làm việc đòi hỏi độ trễ thấp nhất và băng thông cao nhất. Các bộ đệm hoạt động khác và các trạng thái được truy cập thường xuyên có thể nằm trong DRAM. Các cấu trúc lớn hơn cần quy mô hơn tốc độ tuyệt đối có thể chuyển vào bộ nhớ được tổng hợp. Dữ liệu lạnh hơn và các mô hình ít hoạt động hơn thuộc về phía dưới ngăn xếp.

Cách tiếp cận này yêu cầu các nhóm hiểu dữ liệu nào thay đổi liên tục, dữ liệu nào nhiều quy trình chia sẻ và dữ liệu nào có thể chấp nhận sự đánh đổi độ trễ khiêm tốn mà không ảnh hưởng đến chất lượng dịch vụ. Quá nhiều triển khai vẫn mặc định đẩy mọi thứ vào tầng HBM nhanh nhất vì cảm thấy an toàn hơn. Cách tiếp cận đó làm tăng chi phí và thường để lại hiệu quả trên bàn.

Một chiến lược bộ nhớ phân tầng mang lại cho các nhà vận hành nhiều quyền kiểm soát hơn đối với cả hiệu suất và kinh tế. Trong AI sản xuất, sự cân bằng đó đang trở thành một yêu cầu thiết kế cốt lõi.

4. Coi bộ nhớ dùng chung là một phần của kiến trúc cho AI tác nhân

AI đa tác nhân đang làm tăng chi phí của thiết kế bộ nhớ phân mảnh.

Trong nhiều hệ thống tác nhân, một tác nhân tạo ra đầu ra mà một tác nhân khác sử dụng ngay lập tức. Một dịch vụ thứ ba có thể xếp hạng đầu ra đó, thêm ngữ cảnh hoặc định tuyến nó vào một mô hình khác. Nếu mỗi bước tạo ra một bản sao mới của cùng một trạng thái, lưu lượng tăng nhanh chóng. Khi ngữ cảnh phát triển, kích thước của dữ liệu được sao chép đó cũng tăng theo. Hệ thống dành nhiều thời gian hơn để di chuyển thông tin hơn là xử lý dữ liệu.

Đây là nơi bộ nhớ dùng chung trở nên ngày càng quan trọng, đặc biệt đối với bộ đệm KV dùng chung và các trạng thái khác mà nhiều tác nhân hoặc dịch vụ cần truy cập. Bộ nhớ dùng chung có thể giảm các bản sao dư thừa, giảm lưu lượng mạng và cải thiện mức độ sử dụng trên toàn bộ đường dẫn ứng dụng. Nó cũng có thể giúp các hệ thống tác nhân mở rộng quy mô hiệu quả khi các nút hoặc tác nhân khác nhau có thể tái sử dụng bộ đệm KV với bộ nhớ dùng chung.

Đối với các nhà cung cấp dịch vụ siêu lớn, đây không còn là một trường hợp ngoại lệ. Khi AI tác nhân trưởng thành, bộ nhớ dùng chung đang trở thành một yêu cầu thực tế để triển khai hiệu quả.

5. Chấp nhận CXL cho cơ sở hạ tầng sản xuất

Trong vài năm qua, ngành công nghiệp coi CXL như một tiêu chuẩn đầy hứa hẹn cần thêm thời gian để trưởng thành, vì CXL nhanh chóng chuyển từ phiên bản 1 sang 2. Giờ đây với phần cứng 3.x sắp có sẵn, CXL đang đạt đến điểm hoàn thiện tính năng, tương thích ngược và sẵn sàng đảm nhận khối lượng công việc sản xuất.

CXL đã đạt đến mức độ trưởng thành mà các nhà cung cấp dịch vụ siêu lớn và nhà vận hành trung tâm dữ liệu nên coi nó như một lựa chọn thực tế để mở rộng bộ nhớ sản xuất, tổng hợp và các kiến trúc bộ nhớ dùng chung. Giờ đây nó thuộc về kế hoạch cơ sở hạ tầng nghiêm túc, đặc biệt cho các môi trường cần mở rộng bộ nhớ linh hoạt hơn và kinh tế tốt hơn xung quanh suy luận.

Điều đó không có nghĩa là mọi khối lượng công việc nên chuyển sang bộ nhớ dựa trên CXL. Bộ nhớ cục bộ sẽ vẫn cần thiết cho dữ liệu nóng nhất và nhạy cảm với độ trễ nhất. Nhưng các nhà vận hành không còn cần phải chờ đợi một phiên bản nào đó trong tương lai của tiêu chuẩn trước khi họ hành động. Câu hỏi hữu ích hơn là CXL có thể giải quyết các vấn đề sản xuất thực tế ngày nay ở đâu.

Các cơ hội rõ ràng nhất là trong thiết kế mở rộng bộ nhớ, bộ nhớ tổng hợp và bộ nhớ dùng chung giúp giảm các bản sao không cần thiết trên các quy trình làm việc AI. Những trường hợp sử dụng đó phù hợp trực tiếp với các điểm áp lực hiện tại: nhu cầu bộ đệm KV ngày càng tăng, chuyển dữ liệu từ tác nhân sang tác nhân ngày càng tăng và nhu cầu cải thiện việc sử dụng GPU mà không đẩy tổng chi phí sở hữu lên cao hơn nữa.

Các nhà vận hành vẫn cần phải kỹ thuật cẩn thận. Độ trễ, khả năng dự đoán và hỗ trợ phần mềm vẫn quan trọng. Các chính sách quản lý bộ nhớ cần đặt dữ liệu vào đúng tầng vào đúng thời điểm. Nhưng đó là những câu hỏi triển khai, không phải lý do để trì hoãn kế hoạch.

Tại XCENA, ch

Jin Kim is the CEO and co-founder of XCENA, a South Korea–based fabless semiconductor company focused on building next-generation memory solutions for AI and large-scale data processing. With a background that includes senior leadership roles at SK Hynix—where he was one of the youngest corporate vice presidents—Kim brings deep expertise in data-centric computing and semiconductor architecture.