Trí tuệ nhân tạo
DeepSeek làm thế nào để phá vỡ rào cản chi phí với 5,6 triệu đô la

Sự khôn ngoan thông thường của AI cho rằng việc xây dựng mô hình ngôn ngữ lớn (LLM) đòi hỏi phải có túi tiền sâu – thường là hàng tỷ đô la đầu tư. Nhưng DeepSeek, một công ty khởi nghiệp AI của Trung Quốc, vừa phá vỡ khuôn mẫu đó với thành tựu mới nhất của họ: phát triển một mô hình AI hàng đầu thế giới với chỉ 5,6 triệu đô la.
Mô hình V3 của DeepSeek có thể cạnh tranh với các gã khổng lồ trong ngành như Google’s Gemini và các sản phẩm mới nhất của OpenAI, tất cả trong khi sử dụng một phần nhỏ tài nguyên tính toán thông thường. Thành tựu này đã thu hút sự chú ý của nhiều nhà lãnh đạo trong ngành, và điều làm cho điều này đặc biệt đáng chú ý là công ty đã đạt được điều này mặc dù phải đối mặt với các hạn chế xuất khẩu của Mỹ, hạn chế quyền truy cập của họ vào các chip Nvidia mới nhất.
Kinh tế của AI hiệu quả
Số liệu kể một câu chuyện thuyết phục về hiệu quả. Trong khi hầu hết các mô hình AI tiên tiến yêu cầu từ 16.000 đến 100.000 GPU để đào tạo, DeepSeek đã quản lý với chỉ 2.048 GPU chạy trong 57 ngày. Việc đào tạo mô hình tiêu thụ 2,78 triệu giờ GPU trên chip H800 của Nvidia – đáng chú ý là khiêm tốn cho một mô hình 671 tỷ tham số.
Để đặt điều này vào перспектива, Meta cần khoảng 30,8 triệu giờ GPU – khoảng 11 lần công suất tính toán hơn – để đào tạo mô hình Llama 3 của họ, thực tế có ít tham số hơn với 405 tỷ. Cách tiếp cận của DeepSeek giống như một lớp học về tối ưu hóa dưới các ràng buộc. Làm việc với GPU H800 – chip AI được Nvidia thiết kế đặc biệt cho thị trường Trung Quốc với khả năng giảm – công ty đã biến các hạn chế tiềm năng thành đổi mới. Thay vì sử dụng các giải pháp sẵn có cho giao tiếp bộ xử lý, họ đã phát triển các giải pháp tùy chỉnh tối đa hóa hiệu quả.
Trong khi các đối thủ cạnh tranh tiếp tục hoạt động dưới giả định rằng đầu tư khổng lồ là cần thiết, DeepSeek đang chứng minh rằng sự sáng tạo và sử dụng tài nguyên hiệu quả có thể san bằng sân chơi.

Hình ảnh: Artificial Analysis
Kỹ thuật không thể
Thành tựu của DeepSeek nằm ở cách tiếp cận kỹ thuật đổi mới, thể hiện rằng đôi khi những đột phá có tác động nhất đến từ việc làm việc trong các ràng buộc chứ không phải ném tài nguyên không giới hạn vào một vấn đề.
Ở trung tâm của sự đổi mới này là một chiến lược gọi là “cân bằng tải không mất mát phụ”. Hãy nghĩ về nó như là việc điều khiển một hệ thống xử lý song song khổng lồ nơi truyền thống, bạn sẽ cần các quy tắc và hình phạt phức tạp để giữ mọi thứ chạy trơn tru. DeepSeek đã đảo ngược sự khôn ngoan thông thường này, phát triển một hệ thống tự nhiên duy trì sự cân bằng mà không có gánh nặng của các phương pháp truyền thống.
Đội ngũ cũng tiên phong một kỹ thuật gọi là “Dự đoán nhiều token” (MTP) – một kỹ thuật cho phép mô hình suy nghĩ trước bằng cách dự đoán nhiều token cùng một lúc. Trong thực tế, điều này dịch ra thành một tỷ lệ chấp nhận ấn tượng là 85-90% cho những dự đoán này trên các chủ đề khác nhau, mang lại tốc độ xử lý nhanh hơn 1,8 lần so với các phương pháp trước đây.
Kiến trúc kỹ thuật bản thân nó là một kiệt tác về hiệu quả. Mô hình V3 của DeepSeek sử dụng một phương pháp kết hợp các chuyên gia với tổng cộng 671 tỷ tham số, nhưng đây là phần thông minh – nó chỉ kích hoạt 37 tỷ cho mỗi token. Việc kích hoạt chọn lọc này có nghĩa là họ nhận được lợi ích của một mô hình khổng lồ trong khi vẫn duy trì hiệu quả thực tế.
Sự lựa chọn của họ về khuôn khổ đào tạo chính xác hỗn hợp FP8 là một bước nhảy vĩ đại khác. Thay vì chấp nhận các hạn chế thông thường của độ chính xác giảm, họ đã phát triển các giải pháp tùy chỉnh duy trì độ chính xác trong khi giảm đáng kể yêu cầu bộ nhớ và tính toán.
Hiệu ứng gợn trong hệ sinh thái AI
Tác động của thành tựu của DeepSeek lan rộng ra ngoài một mô hình thành công đơn lẻ.
Đối với sự phát triển AI của châu Âu, đột phá này đặc biệt quan trọng. Nhiều mô hình tiên tiến không đến được EU vì các công ty như Meta và OpenAI không thể hoặc không muốn thích nghi với Đạo luật AI của EU. Cách tiếp cận của DeepSeek cho thấy rằng việc xây dựng AI hàng đầu không luôn đòi hỏi phải có các cụm GPU khổng lồ – nó nhiều hơn về việc sử dụng tài nguyên có sẵn một cách hiệu quả.
Sự phát triển này cũng cho thấy làm thế nào các hạn chế xuất khẩu có thể thực sự thúc đẩy đổi mới. Việc tiếp cận hạn chế với phần cứng cao cấp của DeepSeek đã buộc họ phải suy nghĩ khác, dẫn đến các tối ưu hóa phần mềm có thể không bao giờ xuất hiện trong một môi trường giàu tài nguyên. Nguyên tắc này có thể làm thay đổi cách chúng ta tiếp cận sự phát triển AI trên toàn cầu.
Các tác động về dân chủ hóa là sâu sắc. Trong khi các gã khổng lồ trong ngành tiếp tục đốt tiền tỷ, DeepSeek đã tạo ra một bản thiết kế cho sự phát triển AI hiệu quả và tiết kiệm chi phí. Điều này có thể mở cửa cho các công ty nhỏ hơn và các cơ sở nghiên cứu mà trước đây không thể cạnh tranh do hạn chế về tài nguyên.
Tuy nhiên, điều này không có nghĩa là cơ sở hạ tầng tính toán quy mô lớn đang trở nên lỗi thời. Ngành công nghiệp đang chuyển sự chú ý sang việc mở rộng thời gian suy luận – thời gian một mô hình cần để tạo ra câu trả lời. Khi xu hướng này tiếp tục, tài nguyên tính toán đáng kể vẫn sẽ cần thiết, có thể thậm chí nhiều hơn theo thời gian.
Nhưng DeepSeek đã thay đổi cơ bản cuộc trò chuyện. Các ý nghĩa lâu dài là rõ ràng: chúng ta đang bước vào một kỷ nguyên mà tư duy đổi mới và sử dụng tài nguyên hiệu quả có thể quan trọng hơn sức mạnh tính toán thuần túy. Đối với cộng đồng AI, điều này có nghĩa là tập trung không chỉ vào tài nguyên chúng ta có, mà còn vào cách chúng ta sử dụng chúng một cách sáng tạo và hiệu quả.












