Trí tuệ nhân tạo

Kết Thúc Của Chain-of-Thought? CoreThink và Các Nhà Nghiên Cứu Từ Đại Học California Đề Xuất Một Sự Thay Đổi Căn Bản Trong Lý Luận AI

mm

Trong nhiều năm, cuộc đua trong trí tuệ nhân tạo đã tập trung vào quy mô. Các mô hình lớn hơn, nhiều GPU hơn, các câu lệnh dài hơn. OpenAI, Anthropic và Google đã dẫn đầu với các mô hình ngôn ngữ lớn (LLM), tinh chỉnh học tăng cường và kỹ thuật kích thích suy nghĩ – các kỹ thuật được thiết kế để mô phỏng suy nghĩ bằng cách viết ra các câu trả lời bước từng bước.

Tuy nhiên, một bài báo kỹ thuật mới có tiêu đề CoreThink: Một Lớp Lý Luận Ký Hiệu Để lý luận trên Các Nhiệm Vụ Horizon Dài với LLM từ CoreThink AI và các nhà nghiên cứu từ Đại học California cho rằng mô hình này có thể đang đạt đến giới hạn của nó. Các tác giả đưa ra một tuyên bố gây tranh cãi: LLM là các máy tạo văn bản thống kê mạnh mẽ, nhưng chúng không phải là các động cơ lý luận. Và chain-of-thought, phương pháp thường được sử dụng để gợi ý ngược lại, là hơn là một buổi biểu diễn hơn là một logic thực sự.

Để đáp lại, nhóm nghiên cứu giới thiệu General Symbolics, một lớp lý luận neuro-ký hiệu được thiết kế để cắm vào các mô hình hiện có. Các đánh giá của họ cho thấy sự cải thiện đáng kể trên một loạt các tiêu chuẩn lý luận – đạt được mà không cần phải đào tạo lại hoặc thêm chi phí GPU. Nếu được xác nhận, cách tiếp cận này có thể đánh dấu một bước ngoặt trong cách các hệ thống AI được thiết kế cho logic và ra quyết định.

Chain-of-Thought Là Gì — và Tại Sao Nó Quan Trọng

Chain-of-thought (CoT) đã trở thành một trong những kỹ thuật được áp dụng rộng rãi nhất trong AI hiện đại. Bằng cách yêu cầu một mô hình viết ra các bước suy nghĩ của nó trước khi đưa ra câu trả lời, các nhà nghiên cứu đã tìm thấy rằng họ có thể thường xuyên cải thiện điểm số chuẩn trên các lĩnh vực như toán học, lập trình và lập kế hoạch. Trên bề mặt, nó似乎 như một đột phá.

Tuy nhiên, báo cáo nhấn mạnh những hạn chế của cách tiếp cận này. Các giải thích CoT có thể trông thuyết phục, nhưng các nghiên cứu cho thấy chúng thường không trung thực với những gì mô hình thực sự tính toán, hợp lý hóa đầu ra sau khi thực tế hơn là tiết lộ logic thực sự. Điều này tạo ra những rủi ro thực tế. Trong y học, một câu chuyện có thể che giấu sự phụ thuộc vào các mối tương quan giả, dẫn đến chẩn đoán sai nguy hiểm. Trong luật, các lý do được tạo ra có thể bị nhầm lẫn với các lý do thực sự, đe dọa đến quá trình và trách nhiệm.

Báo cáo cũng nhấn mạnh sự không hiệu quả: Các chuỗi CoT thường trở nên quá dài trên các vấn đề đơn giản, trong khi sụp đổ vào suy nghĩ nông trên các vấn đề phức tạp. Kết quả là lãng phí tính toán và, trong nhiều trường hợp, giảm độ chính xác. Các tác giả kết luận rằng chain-of-thought là “biểu diễn, không phải cơ học”—một màn hình bề mặt tạo ra ảo giác về khả năng giải thích mà không cung cấp nó.

Trí Tuệ Nhân Tạo Ký Hiệu: Từ Những Giấc Mơ Sớm đến Những Sự Sống Lại Mới

Việc chỉ trích CoT mời gọi một cái nhìn lại lịch sử của trí tuệ nhân tạo ký hiệu. Trong những thập kỷ đầu tiên, nghiên cứu AI tập trung vào các hệ thống dựa trên quy tắc mà mã hóa kiến thức dưới dạng logic rõ ràng. Các hệ thống chuyên gia như MYCIN đã cố gắng chẩn đoán bệnh bằng cách áp dụng các quy tắc được tạo thủ công, và các hệ thống phát hiện gian lận dựa trên các tập hợp logic lớn để bắt các bất thường.

Trí tuệ nhân tạo ký hiệu có những điểm mạnh không thể phủ nhận: mỗi bước của suy nghĩ của nó là minh bạch và có thể theo dõi được. Tuy nhiên, những hệ thống này là giòn. Mã hóa hàng chục nghìn quy tắc đòi hỏi lao động khổng lồ, và chúng gặp khó khăn khi đối mặt với các tình huống mới. Các nhà phê bình như Hubert Dreyfus cho rằng trí thông minh con người phụ thuộc vào kiến thức cụ thể, bối cảnh mà không quy tắc nào có thể bắt được. Vào những năm 1990, các phương pháp ký hiệu đã nhường chỗ cho các mạng nơ-ron dữ liệu.

Trong những năm gần đây, đã có một nỗ lực để kết hợp các điểm mạnh của cả hai thế giới thông qua trí tuệ nhân tạo neuro-ký hiệu. Ý tưởng là đơn giản: hãy để các mạng nơ-ron xử lý các đầu vào cảm giác phức tạp như hình ảnh hoặc văn bản, trong khi các mô-đun ký hiệu cung cấp suy nghĩ có cấu trúc và đảm bảo logic. Tuy nhiên, hầu hết các mô hình lai này đã gặp khó khăn trong việc tích hợp. Các xương sống ký hiệu quá cứng nhắc, trong khi các mô-đun nơ-ron thường phá vỡ sự nhất quán. Kết quả là các hệ thống phức tạp, nặng nề không thể cung cấp khả năng giải thích như mong đợi.

General Symbolics: Một Lớp Lý Luận Mới

Bộ General Symbolics Reasoner (GSR) của CoreThink nhằm vượt qua những hạn chế này với một cách tiếp cận khác. Thay vì dịch ngôn ngữ thành cấu trúc hình thức cứng nhắc hoặc các bản nhúng chiều cao, GSR hoạt động hoàn toàn trong ngôn ngữ tự nhiên. Mỗi bước suy nghĩ được thể hiện bằng từ ngữ, đảm bảo rằng bối cảnh, sắc thái và phương thức được bảo tồn. Điều này có nghĩa là các khác biệt như “phải” so với “nên” được truyền qua quá trình suy nghĩ, thay vì được trừu tượng hóa.

Khung khổ này hoạt động bằng cách phân tích đầu vào một cách bản địa trong ngôn ngữ tự nhiên, áp dụng các ràng buộc logic thông qua các biến đổi ngôn ngữ và tạo ra các dấu vết suy nghĩ từ ngữ mà vẫn hoàn toàn có thể đọc được bởi con người. Khi các mâu thuẫn hoặc lỗi xuất hiện, chúng được hiển thị trực tiếp trong đường dẫn suy nghĩ, cho phép minh bạch và gỡ lỗi. Để duy trì hiệu quả, hệ thống cắt giảm các bước không cần thiết, cho phép suy nghĩ ổn định trên đường chân trời dài mà không cần tăng quy mô GPU.

Bởi vì nó hoạt động như một lớp chứ không yêu cầu đào tạo lại, GSR có thể được áp dụng cho các mô hình cơ sở hiện có. Trong các đánh giá, nó liên tục cung cấp sự cải thiện độ chính xác từ 30 đến 60 phần trăm trên các nhiệm vụ suy nghĩ, tất cả đều không tăng chi phí đào tạo.

Kết Quả Benchmark

Sự cải thiện được minh họa tốt nhất thông qua các điểm chuẩn. Trên LiveCodeBench v6, đánh giá các vấn đề lập trình cấp độ cạnh tranh, CoreThink đạt được tỷ lệ vượt qua 66,6 phần trăm – cao hơn đáng kể so với các mô hình hàng đầu trong cùng loại. Trong SWE-Bench Lite, một điểm chuẩn cho việc sửa lỗi thực tế được rút ra từ các kho lưu trữ GitHub, hệ thống đạt được độ chính xác 62,3 phần trăm, kết quả cao nhất được báo cáo cho đến nay. Và trên ARC-AGI-2, một trong những thử nghiệm đòi hỏi nhất về suy nghĩ trừu tượng, nó đạt được 24,4 phần trăm, vượt xa các mô hình tiền phong như Claude và Gemini, vẫn còn dưới 6 phần trăm.

Những con số này phản ánh hơn là độ chính xác thô. Trong các nghiên cứu trường hợp chi tiết, lớp ký hiệu cho phép các mô hình hoạt động khác nhau. Trong ColumnTransformer của scikit-learn, ví dụ, một mô hình cơ sở đề xuất một bản vá bề mặt che giấu lỗi. Hệ thống được tăng cường bởi CoreThink đã xác định vấn đề đồng bộ hóa ở gốc rễ và sửa chữa nó một cách toàn diện. Trên một thử thách LeetCode khó, mô hình cơ sở áp dụng sai lập trình động và thất bại hoàn toàn, trong khi lớp suy nghĩ ký hiệu sửa đổi biểu diễn trạng thái bị lỗi và tạo ra một giải pháp hoạt động.

Làm Thế Nào Nó Phù Hợp Với Sự Sống Lại Ký Hiệu

General Symbolics tham gia vào một phong trào ngày càng tăng của các nỗ lực nhằm đưa cấu trúc trở lại vào suy nghĩ AI. Trí tuệ nhân tạo ký hiệu cổ điển đã chỉ ra giá trị của sự minh bạch nhưng không thể thích nghi với sự mới mẻ. Các mô hình lai neuro-ký hiệu truyền thống đã hứa hẹn sự cân bằng nhưng thường trở nên cồng kềnh. Các chồng lập kế hoạch đã gắn kết tìm kiếm vào LLM đã cung cấp hy vọng sớm nhưng sụp đổ dưới sự phức tạp khi các nhiệm vụ tăng.

Các tiến bộ gần đây cho thấy tiềm năng của các mô hình lai mới. AlphaGeometry của DeepMind, ví dụ, đã chứng minh rằng các cấu trúc ký hiệu có thể vượt qua các mô hình nơ-ron thuần túy trên các vấn đề hình học. Cách tiếp cận của CoreThink mở rộng xu hướng này. Trong đường ống ARC-AGI, phát hiện đối tượng quyết định và trừu tượng hóa mẫu ký hiệu được kết hợp với thực hiện nơ-ron, tạo ra kết quả vượt xa so với các hệ thống LLM chỉ.

Sự khác biệt chính là General Symbolics không dựa vào logic cứng nhắc hoặc đào tạo lại lớn. Bằng cách suy nghĩ trực tiếp trong ngôn ngữ, nó vẫn linh hoạt trong khi bảo tồn khả năng giải thích. Điều này làm cho nó nhẹ hơn so với các mô hình lai trước đó và, quan trọng nhất, thực tế cho tích hợp vào các ứng dụng doanh nghiệp.

Tại Sao Nó Quan Trọng

Nếu chain-of-thought là một ảo giác của suy nghĩ, thì ngành công nghiệp AI đang đối mặt với một thách thức cấp bách. Các doanh nghiệp không thể dựa vào các hệ thống chỉ có vẻ như suy nghĩ, đặc biệt là trong các môi trường có rủi ro cao như y học, luật và tài chính. Bài báo cho rằng tiến bộ thực sự sẽ đến không từ việc tăng quy mô mô hình hơn, mà từ việc suy nghĩ lại các nền tảng của suy nghĩ bản thân.

General Symbolics là một trong những nền tảng như vậy. Nó cung cấp một lớp giải thích nhẹ và có thể tăng cường các mô hình hiện có mà không cần đào tạo lại, tạo ra sự cải thiện suy nghĩ thực sự thay vì các câu chuyện bề mặt. Đối với cộng đồng AI rộng lớn hơn, nó đánh dấu một sự thay đổi mô hình có thể xảy ra: sự trở lại của suy nghĩ ký hiệu, không phải là các tập hợp quy tắc giòn, mà là một người bạn linh hoạt của học tập nơ-ron.

Như các tác giả đã nói: “Chúng ta không cần thêm tham số để có được suy nghĩ tốt hơn – chúng ta cần suy nghĩ lại các nền tảng.”

Antoine là một nhà lãnh đạo có tầm nhìn và là đối tác sáng lập của Unite.AI, được thúc đẩy bởi một niềm đam mê không ngừng nghỉ để định hình và thúc đẩy tương lai của AI và robot. Là một doanh nhân liên tục, ông tin rằng AI sẽ gây ra sự gián đoạn cho xã hội giống như điện, và thường bị bắt gặp nói về tiềm năng của các công nghệ gây gián đoạn và AGI.
Như một futurist, ông dành để khám phá cách những đổi mới này sẽ định hình thế giới của chúng ta. Ngoài ra, ông là người sáng lập của Securities.io, một nền tảng tập trung vào đầu tư vào các công nghệ tiên tiến đang định nghĩa lại tương lai và thay đổi toàn bộ lĩnh vực.