Lãnh đạo tư tưởng
LLM theo yêu cầu cho mọi doanh nghiệp? DeepSeek chỉ cho chúng ta cách

Ngày xửa ngày xưa, tiếng gọi vang dội của công nghệ là “điện thoại di động cho mọi người” – và thực sự truyền thông di động đã cách mạng hóa kinh doanh (và thế giới). Ngày nay, tương đương với lời kêu gọi đó là cung cấp cho mọi người quyền truy cập để AI ứng dụng. Nhưng sức mạnh thực sự của AI nằm ở việc khai thác nó cho các nhu cầu cụ thể của doanh nghiệp và tổ chức. Con đường do công ty khởi nghiệp Trung Quốc DeepSeek mở ra chứng minh AI thực sự có thể được mọi người khai thác, đặc biệt là những người có ngân sách hạn chế, để đáp ứng các nhu cầu cụ thể của họ. Thật vậy, sự ra đời của AI chi phí thấp hơn hứa hẹn sẽ thay đổi mô hình giải pháp AI ăn sâu bám rễ thường không được nhiều doanh nghiệp và tổ chức nhỏ chú ý do yêu cầu về chi phí.
LLM là – hoặc đã từng là – một nỗ lực tốn kém, đòi hỏi phải truy cập vào lượng dữ liệu khổng lồ, số lượng lớn máy tính mạnh để xử lý dữ liệu và thời gian cùng nguồn lực đầu tư vào việc đào tạo mô hình. Nhưng những quy tắc đó đang thay đổi. Hoạt động với ngân sách eo hẹp, DeepSeek đã phát triển LLM của riêng mình và một ứng dụng kiểu ChatGPT cho các truy vấn – với khoản đầu tư nhỏ hơn nhiều so với các hệ thống tương tự do các công ty Mỹ và châu Âu xây dựng. Cách tiếp cận của DeepSeek mở ra một cánh cửa vào quá trình phát triển LLM cho các tổ chức nhỏ hơn không có hàng tỷ đô la để chi tiêu. Trên thực tế, ngày mà hầu hết các tổ chức nhỏ có thể phát triển LLM của riêng mình để phục vụ cho các mục đích cụ thể của riêng họ có thể không còn xa nữa, thường cung cấp giải pháp hiệu quả hơn so với các LLM chung như ChatGPT.
Trong khi tranh luận vẫn cao hơn chi phí thực sự của DeepSeek, không chỉ chi phí khiến nó và các mô hình tương tự khác biệt: Đó là thực tế là nó dựa vào các chip kém tiên tiến hơn và cách tiếp cận tập trung hơn vào đào tạo. Là một công ty Trung Quốc chịu các hạn chế xuất khẩu của Hoa Kỳ, DeepSeek không thể truy cập chip Nvidia tiên tiến thường được sử dụng cho việc tính toán nặng cần thiết cho việc phát triển LLM và do đó buộc phải sử dụng chip Nvidia H-800 yếu hơn, không thể xử lý dữ liệu nhanh chóng hoặc hiệu quả.
Để bù đắp cho sự thiếu hụt năng lực đó, DeepSeek đã áp dụng một cách tiếp cận khác, tập trung hơn và trực tiếp hơn đối với quá trình phát triển LLM của mình. Thay vì ném hàng núi dữ liệu vào một mô hình và dựa vào sức mạnh tính toán để dán nhãn và áp dụng dữ liệu, DeepSeek đã thu hẹp quá trình đào tạo, sử dụng một lượng nhỏ dữ liệu “khởi động nguội” chất lượng cao và áp dụng IRL (học tăng cường lặp đi lặp lại, với thuật toán áp dụng dữ liệu vào các tình huống khác nhau và học hỏi từ dữ liệu đó). Phương pháp tập trung này cho phép mô hình học nhanh hơn, ít lỗi hơn và ít lãng phí năng lượng tính toán hơn.
Tương tự như cách cha mẹ có thể hướng dẫn các chuyển động cụ thể của trẻ sơ sinh, giúp trẻ lật người thành công lần đầu tiên - thay vì để trẻ tự tìm hiểu hoặc dạy trẻ nhiều chuyển động đa dạng hơn về mặt lý thuyết có thể giúp trẻ lật người - các nhà khoa học dữ liệu đào tạo các mô hình AI tập trung hơn này sẽ tập trung vào những gì cần thiết nhất cho một số nhiệm vụ và kết quả nhất định. Các mô hình như vậy có thể không có ứng dụng đáng tin cậy rộng rãi như các LLM lớn hơn như ChatGPT, nhưng chúng có thể được tin cậy cho các ứng dụng cụ thể và thực hiện chúng một cách chính xác và hiệu quả. Ngay cả những người chỉ trích DeepSeek cũng thừa nhận rằng cách tiếp cận hợp lý hóa đối với quá trình phát triển đã làm tăng hiệu quả đáng kể, cho phép nó làm được nhiều việc hơn với ít hơn nhiều.
Cách tiếp cận này là cung cấp cho AI những thông tin đầu vào tốt nhất để AI có thể đạt được các mốc quan trọng theo cách thông minh nhất, hiệu quả nhất có thể và có thể có giá trị đối với bất kỳ tổ chức nào muốn phát triển LLM cho các nhu cầu và nhiệm vụ cụ thể của mình. Cách tiếp cận như vậy ngày càng có giá trị đối với các doanh nghiệp và tổ chức nhỏ. Bước đầu tiên là bắt đầu với dữ liệu phù hợp. Ví dụ, một công ty muốn sử dụng AI để hỗ trợ nhóm bán hàng và tiếp thị của mình nên đào tạo mô hình của mình trên một tập dữ liệu được lựa chọn cẩn thận, tập trung vào các cuộc trò chuyện, chiến lược và số liệu bán hàng. Điều này giúp mô hình không lãng phí thời gian và sức mạnh tính toán vào thông tin không liên quan. Ngoài ra, đào tạo cần được cấu trúc theo từng giai đoạn, đảm bảo mô hình nắm vững từng nhiệm vụ hoặc khái niệm trước khi chuyển sang nhiệm vụ tiếp theo.
Điều này cũng có điểm tương đồng trong việc nuôi dạy trẻ sơ sinh, như tôi đã tự học được kể từ khi trở thành một người mẹ cách đây vài tháng. Trong cả hai trường hợp, một cách tiếp cận có hướng dẫn, từng bước sẽ tránh lãng phí tài nguyên và giảm ma sát. Cuối cùng, cách tiếp cận như vậy với cả người và mô hình AI đều dẫn đến sự cải thiện lặp đi lặp lại. Khi em bé lớn lên hoặc mô hình học được nhiều hơn, khả năng của nó sẽ được cải thiện. Điều này có nghĩa là các mô hình có thể được tinh chỉnh và cải thiện để xử lý tốt hơn các tình huống trong thế giới thực.
Cách tiếp cận này giúp giảm chi phí, ngăn chặn các dự án AI trở thành sự lãng phí tài nguyên, giúp chúng dễ tiếp cận hơn với các nhóm và tổ chức nhỏ hơn. Nó cũng dẫn đến hiệu suất tốt hơn của các mô hình AI nhanh hơn; và, vì các mô hình không bị quá tải với dữ liệu không liên quan, chúng cũng có thể được điều chỉnh để thích ứng với thông tin mới và nhu cầu kinh doanh thay đổi - chìa khóa trong các thị trường cạnh tranh.
Sự ra đời của DeepSeek và thế giới AI hiệu quả hơn, chi phí thấp hơn – mặc dù ban đầu nó đã gây ra sự hoảng loạn trên toàn thế giới AI và thị trường chứng khoán – nhưng nhìn chung là một sự phát triển tích cực cho ngành AI. Hiệu quả cao hơn và chi phí thấp hơn của AI, ít nhất là đối với một số ứng dụng tập trung, cuối cùng sẽ dẫn đến việc sử dụng AI nhiều hơn nói chung, thúc đẩy tăng trưởng cho tất cả mọi người, từ các nhà phát triển đến các nhà sản xuất chip đến người dùng cuối. Trên thực tế, DeepSeek minh họa Nghịch lý Jevons – nơi hiệu quả hơn có thể dẫn đến việc sử dụng nhiều hơn một nguồn lực, chứ không phải ít hơn. Khi xu hướng này có vẻ sẽ tiếp tục, các doanh nghiệp nhỏ tập trung vào việc sử dụng AI để đáp ứng các nhu cầu cụ thể của họ cũng sẽ được thiết lập tốt hơn cho sự tăng trưởng và thành công.