Trí tuệ nhân tạo
DeepSeek đã phá vỡ rào cản chi phí như thế nào với 5.6 triệu đô la

Trí tuệ AI thông thường cho rằng việc xây dựng mô hình ngôn ngữ lớn (LLM) đòi hỏi nhiều tiền – thường là hàng tỷ đô la tiền đầu tư. Nhưng tìm kiếm sâu, một công ty khởi nghiệp AI của Trung Quốc, vừa phá vỡ chuẩn mực đó với thành tựu mới nhất của họ: phát triển một mô hình AI đẳng cấp thế giới chỉ với 5.6 triệu đô la.
Mô hình V3 của DeepSeek có thể cạnh tranh trực tiếp với những gã khổng lồ trong ngành như Song Tử của Google và Các sản phẩm mới nhất của OpenAI, tất cả trong khi sử dụng một phần nhỏ các tài nguyên máy tính thông thường. Thành tựu này đã thu hút sự chú ý của nhiều nhà lãnh đạo ngành công nghiệp, và điều làm cho điều này đặc biệt đáng chú ý là công ty đã đạt được điều này mặc dù phải đối mặt với các hạn chế xuất khẩu của Hoa Kỳ hạn chế khả năng tiếp cận của họ với các sản phẩm mới nhất chip Nvidia.
Nền kinh tế của AI hiệu quả
Những con số này cho thấy một câu chuyện hấp dẫn về hiệu quả. Trong khi hầu hết các mô hình AI tiên tiến cần từ 16,000 đến 100,000 GPU để huấn luyện, DeepSeek chỉ cần 2,048 GPU chạy trong 57 ngày. Việc huấn luyện mô hình này tiêu tốn 2.78 triệu giờ GPU trên chip Nvidia H800 – một con số khiêm tốn đáng kể đối với một mô hình có 671 tỷ tham số.
Để hiểu rõ hơn, Meta cần khoảng 30.8 triệu giờ GPU – tức là gấp khoảng 11 lần sức mạnh tính toán – để đào tạo Mô hình Llama 3, thực tế có ít tham số hơn ở mức 405 tỷ. Cách tiếp cận của DeepSeek giống như một lớp học chuyên sâu về tối ưu hóa trong điều kiện hạn chế. Sử dụng GPU H800 – chip AI được Nvidia thiết kế riêng cho thị trường Trung Quốc với khả năng hạn chế – công ty đã biến những hạn chế tiềm ẩn thành sự đổi mới. Thay vì sử dụng các giải pháp có sẵn cho giao tiếp bộ xử lý, họ đã phát triển các giải pháp tùy chỉnh giúp tối đa hóa hiệu quả.
Trong khi các đối thủ cạnh tranh vẫn tiếp tục hoạt động với giả định rằng cần phải đầu tư lớn, DeepSeek đang chứng minh rằng sự khéo léo và sử dụng hiệu quả nguồn lực có thể cân bằng sân chơi.

hình ảnh: Phân tích nhân tạo
Kỹ thuật điều không thể
Thành tựu của DeepSeek nằm ở phương pháp tiếp cận kỹ thuật sáng tạo, cho thấy đôi khi những đột phá có tác động lớn nhất đến từ việc làm việc trong phạm vi hạn chế thay vì dồn nguồn lực không giới hạn vào một vấn đề.
Cốt lõi của sự đổi mới này là một chiến lược được gọi là "cân bằng tải không mất mát phụ trợ". Hãy tưởng tượng nó giống như việc điều phối một hệ thống xử lý song song khổng lồ, nơi theo truyền thống, bạn cần các quy tắc và hình phạt phức tạp để giữ cho mọi thứ hoạt động trơn tru. DeepSeek đã đảo ngược quan niệm thông thường này, phát triển một hệ thống tự động duy trì sự cân bằng mà không cần đến các phương pháp truyền thống.
Nhóm nghiên cứu cũng tiên phong trong cái mà họ gọi là “Dự đoán nhiều mã thông báo” (MTP) – một kỹ thuật cho phép mô hình suy nghĩ trước bằng cách dự đoán nhiều mã thông báo cùng một lúc. Trên thực tế, điều này chuyển thành tỷ lệ chấp nhận ấn tượng 85-90% cho các dự đoán này trên nhiều chủ đề khác nhau, mang lại tốc độ xử lý nhanh hơn 1.8 lần so với các phương pháp trước đây.
Bản thân kiến trúc kỹ thuật là một kiệt tác về hiệu quả. V3 của DeepSeek sử dụng phương pháp kết hợp chuyên gia với tổng cộng 671 tỷ tham số, nhưng điểm đặc biệt ở đây là nó chỉ kích hoạt 37 tỷ cho mỗi token. Việc kích hoạt có chọn lọc này giúp họ tận dụng được lợi ích của một mô hình quy mô lớn mà vẫn duy trì hiệu quả thực tế.
Lựa chọn của họ về khuôn khổ đào tạo độ chính xác hỗn hợp FP8 là một bước tiến vượt bậc khác. Thay vì chấp nhận những hạn chế thông thường của độ chính xác giảm, họ đã phát triển các giải pháp tùy chỉnh duy trì độ chính xác trong khi giảm đáng kể yêu cầu về bộ nhớ và tính toán.
Hiệu ứng gợn sóng trong hệ sinh thái AI
Tác động của thành tựu DeepSeek không chỉ giới hạn ở một mô hình thành công.
Đối với sự phát triển AI của châu Âu, bước đột phá này đặc biệt quan trọng. Nhiều mô hình tiên tiến không được đưa vào EU vì các công ty như Meta và OpenAI không thể hoặc sẽ không thích ứng với Đạo luật AI của EUCách tiếp cận của DeepSeek cho thấy việc xây dựng AI tiên tiến không phải lúc nào cũng đòi hỏi các cụm GPU lớn – mà quan trọng hơn là sử dụng hiệu quả các nguồn lực sẵn có.
Sự phát triển này cũng cho thấy các hạn chế xuất khẩu thực sự có thể thúc đẩy sự đổi mới. Việc DeepSeek bị hạn chế tiếp cận phần cứng cao cấp đã buộc họ phải suy nghĩ khác đi, dẫn đến những tối ưu hóa phần mềm có thể chưa từng xuất hiện trong một môi trường giàu tài nguyên. Nguyên tắc này có thể định hình lại cách chúng ta tiếp cận phát triển AI trên toàn cầu.
Những hàm ý dân chủ hóa là sâu sắc. Trong khi những gã khổng lồ trong ngành tiếp tục đốt hàng tỷ đô la, DeepSeek đã tạo ra một bản thiết kế cho sự phát triển AI hiệu quả và tiết kiệm chi phí. Điều này có thể mở ra cánh cửa cho các công ty và tổ chức nghiên cứu nhỏ hơn trước đây không thể cạnh tranh do hạn chế về nguồn lực.
Tuy nhiên, điều này không có nghĩa là cơ sở hạ tầng điện toán quy mô lớn đang trở nên lỗi thời. Ngành công nghiệp đang chuyển trọng tâm sang việc mở rộng thời gian suy luận - thời gian một mô hình mất để tạo ra câu trả lời. Khi xu hướng này tiếp tục, các nguồn tài nguyên điện toán đáng kể vẫn sẽ cần thiết, thậm chí có thể còn cần thiết hơn theo thời gian.
Nhưng DeepSeek đã thay đổi căn bản cuộc trò chuyện. Những tác động lâu dài rất rõ ràng: chúng ta đang bước vào kỷ nguyên mà tư duy sáng tạo và sử dụng tài nguyên hiệu quả có thể quan trọng hơn sức mạnh tính toán thuần túy. Đối với cộng đồng AI, điều này có nghĩa là tập trung không chỉ vào những tài nguyên chúng ta có mà còn vào cách chúng ta sử dụng chúng một cách sáng tạo và hiệu quả.