Lãnh đạo tư tưởng
Mô hình LLM tùy chỉnh cho mọi doanh nghiệp? DeepSeek chỉ cho chúng ta cách

Ngày xưa, lời kêu gọi công nghệ là “điện thoại di động cho mọi người” – và thực sự, giao tiếp di động đã cách mạng hóa kinh doanh (và thế giới). Ngày nay, tương đương với lời kêu gọi đó là cung cấp cho mọi người quyền truy cập đến các ứng dụng AI. Nhưng sức mạnh thực sự của AI nằm ở việc tận dụng nó cho nhu cầu cụ thể của các doanh nghiệp và tổ chức. Con đường được vạch ra bởi công ty khởi nghiệp Trung Quốc DeepSeek chứng tỏ AI có thể được tận dụng bởi mọi người, đặc biệt là những người có ngân sách hạn chế, để đáp ứng nhu cầu cụ thể của họ. Thực sự, sự xuất hiện của AI với chi phí thấp hơn hứa hẹn sẽ thay đổi mẫu hình lâu đời của các giải pháp AI thường nằm ngoài tầm nhìn của nhiều doanh nghiệp nhỏ và tổ chức do yêu cầu chi phí.
Mô hình LLM là – hoặc đã từng là – một nỗ lực tốn kém, đòi hỏi quyền truy cập vào lượng dữ liệu khổng lồ, số lượng lớn máy tính mạnh để xử lý dữ liệu, và thời gian và tài nguyên đầu tư vào việc đào tạo mô hình. Nhưng những quy tắc đó đang thay đổi. Hoạt động trên một ngân sách eo hẹp, DeepSeek đã phát triển mô hình LLM của riêng mình, và một ứng dụng loại ChatGPT cho các truy vấn – với một khoản đầu tư nhỏ hơn nhiều so với các hệ thống tương tự được xây dựng bởi các công ty Mỹ và châu Âu. Cách tiếp cận của DeepSeek mở ra một cửa sổ vào việc phát triển LLM cho các tổ chức nhỏ hơn không có hàng tỷ đô la để chi tiêu. Thực tế, ngày không xa khi hầu hết các tổ chức nhỏ có thể phát triển mô hình LLM của riêng họ để phục vụ mục đích cụ thể của họ, thường cung cấp một giải pháp hiệu quả hơn so với các mô hình LLM chung như ChatGPT.
Mặc dù đ辯 cãi vẫn còn về chi phí thực sự của DeepSeek, nó không chỉ là chi phí đặt nó và các mô hình tương tự khác biệt: Đó là thực tế rằng nó dựa trên các chip ít tiên tiến hơn và một cách tiếp cận tập trung hơn vào đào tạo. Là một công ty Trung Quốc chịu các hạn chế xuất khẩu của Mỹ, DeepSeek không thể truy cập vào các chip Nvidia tiên tiến thường được sử dụng cho tính toán nặng cần thiết cho việc phát triển LLM, và do đó buộc phải sử dụng các chip Nvidia H-800 ít mạnh mẽ hơn, không thể xử lý dữ liệu nhanh chóng hoặc hiệu quả.
Để bù đắp cho sự thiếu hụt sức mạnh đó, DeepSeek đã thực hiện một cách tiếp cận khác, tập trung và trực tiếp hơn vào việc phát triển LLM. Thay vì ném các ngọn núi dữ liệu vào một mô hình và dựa vào sức mạnh tính toán để gắn nhãn và áp dụng dữ liệu, DeepSeek đã thu hẹp đào tạo, sử dụng một lượng nhỏ dữ liệu “cold-start” chất lượng cao và áp dụng IRL (học tăng cường lặp lại, với thuật toán áp dụng dữ liệu vào các kịch bản khác nhau và học hỏi từ nó). Cách tiếp cận tập trung này cho phép mô hình học nhanh hơn, với ít sai lầm và ít lãng phí sức mạnh tính toán.
Tương tự như cách cha mẹ có thể hướng dẫn các chuyển động cụ thể của em bé, giúp em thành công lăn qua lần đầu tiên – thay vì để em tự tìm ra hoặc dạy em một loạt các chuyển động có thể giúp em lăn qua – các nhà khoa học dữ liệu đào tạo các mô hình AI tập trung này zoom vào những gì cần thiết nhất cho các nhiệm vụ và kết quả cụ thể. Những mô hình như vậy có thể không có ứng dụng đáng tin cậy rộng như các mô hình LLM lớn như ChatGPT, nhưng chúng có thể được tin cậy cho các ứng dụng cụ thể và thực hiện chúng với độ chính xác và hiệu quả. Thậm chí những người chỉ trích DeepSeek cũng thừa nhận rằng cách tiếp cận phát triển tinh gọn của nó đã tăng đáng kể hiệu quả, cho phép nó làm được nhiều hơn với ít hơn.
Cách tiếp cận này là về việc cung cấp cho AI những đầu vào tốt nhất để nó có thể đạt được các cột mốc của mình theo cách thông minh và hiệu quả nhất, và có thể có giá trị cho bất kỳ tổ chức nào muốn phát triển một LLM cho nhu cầu và nhiệm vụ cụ thể của mình. Cách tiếp cận như vậy ngày càng có giá trị cho các doanh nghiệp nhỏ và tổ chức. Bước đầu tiên là bắt đầu với dữ liệu đúng. Ví dụ, một công ty muốn sử dụng AI để giúp các đội bán hàng và tiếp thị của mình nên đào tạo mô hình của mình trên một tập dữ liệu được chọn cẩn thận, tập trung vào các cuộc trò chuyện bán hàng, chiến lược và chỉ số. Điều này giữ cho mô hình không lãng phí thời gian và sức mạnh tính toán vào thông tin không liên quan. Ngoài ra, đào tạo cần được cấu trúc theo các giai đoạn, đảm bảo mô hình nắm vững từng nhiệm vụ hoặc khái niệm trước khi chuyển sang cái tiếp theo.
Điều này cũng có sự tương đồng trong việc nuôi dạy một em bé, như tôi đã học được bản thân mình kể từ khi trở thành mẹ vài tháng trước. Trong cả hai kịch bản, một cách tiếp cận hướng dẫn, từng bước tránh lãng phí tài nguyên và giảm ma sát. Cuối cùng, cách tiếp cận như vậy với cả em bé con người và mô hình AI dẫn đến sự cải thiện lặp lại. Khi em bé lớn lên, hoặc mô hình học hỏi nhiều hơn, khả năng của nó được cải thiện. Điều này có nghĩa là mô hình có thể được tinh chỉnh và cải thiện để xử lý tốt hơn các tình huống thực tế.
Cách tiếp cận này giữ chi phí thấp, ngăn chặn các dự án AI trở thành một cống nước tài nguyên, làm cho chúng dễ tiếp cận hơn với các đội và tổ chức nhỏ. Nó cũng dẫn đến hiệu suất tốt hơn của các mô hình AI nhanh hơn; và, vì các mô hình không bị quá tải với dữ liệu không cần thiết, chúng cũng có thể được điều chỉnh để thích ứng với thông tin mới và nhu cầu kinh doanh thay đổi – điều quan trọng trong các thị trường cạnh tranh.
Sự xuất hiện của DeepSeek và thế giới AI hiệu quả và tiết kiệm hơn – mặc dù ban đầu lan truyền sự hoảng loạn trong thế giới AI và thị trường chứng khoán – tổng thể là một sự phát triển tích cực cho lĩnh vực AI. Hiệu quả và chi phí thấp hơn của AI, ít nhất là đối với các ứng dụng tập trung, sẽ cuối cùng dẫn đến việc sử dụng AI nhiều hơn, điều này thúc đẩy sự tăng trưởng cho mọi người, từ các nhà phát triển đến các nhà sản xuất chip đến người dùng cuối. Thực tế, DeepSeek minh họa định lý Jevons – nơi hiệu quả hơn sẽ có khả năng dẫn đến việc sử dụng nhiều hơn một tài nguyên, không ít hơn. Khi xu hướng này có vẻ sẽ tiếp tục, các doanh nghiệp nhỏ tập trung vào việc sử dụng AI để đáp ứng nhu cầu cụ thể của họ cũng sẽ được đặt tốt hơn cho sự tăng trưởng và thành công.












