Trí tuệ nhân tạo

Phương pháp COCONUT của Meta: Phương pháp AI suy nghĩ mà không cần ngôn ngữ

Đã xuất bản 16 tháng 12, 2024

Đã cập nhật 20 tháng 5, 2026

Alex McFarland

Khi các nhà nghiên cứu lần đầu tiên phát hiện ra rằng các mô hình ngôn ngữ lớn (LLM) có thể “suy nghĩ” từng bước thông qua chain-of-thought prompting, đó là một khoảnh khắc đột phá – cuối cùng, chúng ta có thể nhìn vào quá trình suy nghĩ của những hộp đen này. Nhưng nếu tôi nói với bạn rằng việc tạo ra các mô hình AI suy nghĩ bằng ngôn ngữ tự nhiên có thể đang cản trở chúng?

Đó là những gì các nhà nghiên cứu tại Meta và UC San Diego đã phát hiện ra với phương pháp COCONUT (Chain of Continuous Thought) mới của họ.

Hãy tưởng tượng bạn đang cố gắng giải quyết một vấn đề toán học phức tạp trong khi bị buộc phải mô tả từng bước một cách rõ ràng. Đó là một việc khó chịu, phải không? Bây giờ bạn đang dần hiểu được thách thức cốt lõi mà các mô hình ngôn ngữ phải đối mặt.

Khi chúng ta tạo ra các mô hình AI suy nghĩ bằng ngôn ngữ tự nhiên:

Hầu hết các token mà chúng tạo ra chỉ là chất kết dính ngôn ngữ – các từ như “do đó”, “tiếp theo” và “tương tự” không thêm giá trị suy nghĩ nào
Các điểm quyết định quan trọng bị tắc nghẽn bởi nhu cầu phải cam kết với các từ cụ thể
Mô hình dành nhiều nỗ lực tính toán để duy trì sự nhất quán về ngữ pháp thay vì giải quyết vấn đề thực sự

Các nhà nghiên cứu đã phát hiện ra một điều thú vị trong các nghiên cứu về hình ảnh não bộ: khi con người thực hiện các nhiệm vụ suy nghĩ phức tạp, các trung tâm ngôn ngữ của não thường im lặng một cách đáng ngạc nhiên. Tuy nhiên, chúng ta đã xây dựng các hệ thống AI mà làm ngược lại – buộc chúng phải dịch mọi bước suy nghĩ thành từ.

Hãy nghĩ về cách bạn giải quyết một câu đố. Tâm trí của bạn có thể khám phá nhiều khả năng đồng thời, duy trì các giả thuyết mờ và chỉ kết tinh suy nghĩ của bạn thành ngôn ngữ khi chia sẻ giải pháp. Nhưng các phương pháp suy nghĩ truyền thống buộc các mô hình AI phải thể hiện mọi bước trung gian, tạo ra một “bottleneck ngôn ngữ”.

Sự hiểu biết này dẫn đến một câu hỏi hấp dẫn: Nếu chúng ta có thể để các mô hình AI suy nghĩ trong “ngôn ngữ” bản địa của chúng – không gian liên tục, đa chiều của các trạng thái ẩn – thay vì buộc chúng phải dịch mọi thứ thành token?

Hiểu về sự đổi mới của COCONUT

Hãy hình dung sự khác biệt giữa việc nói suy nghĩ của bạn to và quá trình suy nghĩ thực sự xảy ra trong não của bạn. Khoảng cách đó – giữa suy nghĩ được thể hiện và hoạt động thần kinh – chính xác là những gì các nhà nghiên cứu của Meta đã tận dụng với COCONUT.

Sự đột phá thực sự của COCONUT nằm ở cách nó cho phép các mô hình AI suy nghĩ theo hai cách khác nhau, giống như con người. Hãy nghĩ về khi bạn đang giải quyết một câu đố phức tạp – bạn không mô tả mọi bước có thể trong đầu, phải không? Thay vào đó, bạn:

Thu nạp vấn đề: Bạn thu thập thông tin (như đọc quy tắc của câu đố)
Suy nghĩ im lặng: Não của bạn khám phá nhiều khả năng mà không cần phải thể hiện chúng thành từ
Chia sẻ giải pháp: Chỉ khi đó bạn mới giải thích suy nghĩ của mình cho người khác

COCONUT cung cấp cho các mô hình AI sự linh hoạt tự nhiên này. Thay vì buộc chúng phải “nói” mọi suy nghĩ to (như các phương pháp truyền thống làm), nó cho phép chúng suy nghĩ trong không gian thần kinh bản địa – những gì các nhà nghiên cứu gọi là “không gian ẩn”.

Mô hình chuyển đổi mượt mà giữa hai chế độ:

Khi nó cần hiểu câu hỏi hoặc đưa ra câu trả lời, nó sử dụng ngôn ngữ thông thường
Nhưng đối với quá trình suy nghĩ thực sự? Nó sử dụng các mẫu thần kinh thuần túy, miễn phí từ các hạn chế của từ

Hình ảnh: Meta

Hành trình đào tạo

Một trong những khía cạnh thú vị nhất của COCONUT là chương trình đào tạo của nó. Điều làm cho chương trình này đặc biệt là cách nó phản ánh quá trình học tập tự nhiên. Hãy nghĩ về cách chúng ta dạy các kỹ năng phức tạp – bạn không ném ai vào tình huống khó ngay từ đầu. Bạn xây dựng dần dần, thêm phức tạp khi họ nắm vững từng cấp độ.

Các nhà nghiên cứu đã thực hiện chính xác cách tiếp cận này với COCONUT:

Giai đoạn 1: Cơ sở

Trước tiên, mô hình học như bất kỳ mô hình AI nào khác – thông qua lý luận truyền thống. Điều này cung cấp cho nó một sự hiểu biết cơ bản vững chắc.

Giai đoạn 2: Chuyển đổi

Đây là nơi mọi thứ trở nên thú vị. Dần dần, những bước suy nghĩ được viết ra được thay thế bằng suy nghĩ liên tục. Hãy tưởng tượng việc từ từ loại bỏ các bánh xe đào tạo, cho phép mô hình phát triển các mẫu suy nghĩ nội bộ của riêng nó.

Giai đoạn 3: Cân bằng

Cuối cùng, mô hình học cách chuyển đổi mượt mà giữa suy nghĩ sâu trong không gian ẩn và truyền đạt những hiểu biết của nó bằng ngôn ngữ rõ ràng.

Trong quá trình đào tạo, mô hình đã phát triển các khả năng mà không ai lập trình rõ ràng – như xem xét nhiều đường suy nghĩ đồng thời. Hành vi xuất hiện này đặc biệt thú vị vì nó cho thấy chúng ta có thể đang đến gần hơn với các hình thức suy nghĩ tự nhiên hơn của AI. Đây là những phát triển không lường trước được thường dẫn đến những đột phá lớn nhất.

Hãy nhớ những nghiên cứu về hình ảnh não bộ mà tôi đã đề cập trước đó? Chúng cho thấy rằng não của con người thường xử lý các nhiệm vụ suy nghĩ phức tạp mà không cần tham gia mạnh mẽ các trung tâm ngôn ngữ. COCONUT dường như đang phát triển các mẫu tương tự – suy nghĩ sâu trong không gian thần kinh bản địa và chỉ chuyển đổi sang ngôn ngữ khi cần cho giao tiếp.

Số liệu kể một câu chuyện

Một số phát hiện quan trọng khác nổi bật từ nghiên cứu:

Vấn đề toán từ (GSM8k): Ở đây, COCONUT đạt được độ chính xác 34,1%. Mặc dù điều này thấp hơn so với phương pháp suy nghĩ truyền thống (42,9%), nhưng nó tốt hơn đáng kể so với các phương pháp cơ bản.
Suy luận logic (ProntoQA): COCONUT đạt được độ chính xác 99,8%, vượt qua phương pháp suy nghĩ truyền thống với 98,8%. Nhưng điều thú vị ở đây là – nó làm được điều này trong khi chỉ sử dụng 9 token so với 92,5 token của CoT.
Lập kế hoạch phức tạp (ProsQA): Kết quả ấn tượng nhất đến từ thử nghiệm suy nghĩ phức tạp này. COCONUT đạt được độ chính xác 97% trong khi các phương pháp truyền thống chỉ đạt 77,5%. Và một lần nữa, nó làm được điều này với hiệu quả đáng kể – 14,2 token so với 49,4 token.

Điều làm cho những kết quả này đáng khích lệ không chỉ là các con số thô – mà là những gì chúng tiết lộ về các loại suy nghĩ khác nhau. Mặc dù COCONUT có thể vẫn đang tìm kiếm chỗ đứng của mình trong suy nghĩ toán học, nhưng nó excels trong các nhiệm vụ đòi hỏi lập kế hoạch logic và suy luận phức tạp.

COCONUT đại diện cho một sự thay đổi cơ bản về cách các hệ thống AI có thể suy nghĩ, và nó đưa chúng ta đến gần hơn với các hình thức suy nghĩ tự nhiên, hiệu quả và mạnh mẽ hơn của trí tuệ nhân tạo. Hành trình từ suy nghĩ dựa trên ngôn ngữ đến suy nghĩ liên tục là một bước tiến tới các hệ thống AI có khả năng và hiệu quả hơn.