Trí tuệ nhân tạo

Tại Sao LLMs Quá Tư Duy Về Những Đồ Họa Dễ Dàng Nhưng Bỏ Cuộc Trên Những Đồ Họa Khó

Published June 12, 2025

Updated April 26, 2026

Dr. Tehseen Zia

Trí tuệ nhân tạo đã đạt được tiến bộ đáng kể, với Mô hình Ngôn ngữ Lớn (LLMs) và các đối tác tiên tiến của chúng, Mô hình Lý luận Lớn (LRMs), định nghĩa lại cách máy móc xử lý và tạo ra văn bản giống con người. Những mô hình này có thể viết bài luận, trả lời câu hỏi và thậm chí giải quyết vấn đề toán học. Tuy nhiên, mặc dù có khả năng ấn tượng, những mô hình này hiển thị hành vi kỳ lạ: chúng thường phức tạp hóa các vấn đề đơn giản trong khi đấu tranh với những vấn đề phức tạp. Một nghiên cứu gần đây của các nhà nghiên cứu Apple cung cấp thông tin chi tiết về hiện tượng này. Bài viết này khám phá lý do tại sao LLMs và LRMs hành động theo cách này và điều đó có nghĩa gì cho tương lai của AI.

Hiểu về LLMs và LRMs

Để hiểu tại sao LLMs và LRMs hành động theo cách này, chúng ta đầu tiên cần làm rõ những mô hình này là gì. LLMs, như GPT-3 hoặc BERT, được đào tạo trên các tập dữ liệu văn bản lớn để dự đoán từ tiếp theo trong một chuỗi. Điều này làm cho chúng xuất sắc trong các nhiệm vụ như tạo văn bản, dịch và tóm tắt. Tuy nhiên, chúng không được thiết kế nội tại cho việc lý luận, điều涉及 suy luận logic hoặc giải quyết vấn đề.

LRMs là một lớp mô hình mới được thiết kế để giải quyết khoảng trống này. Chúng kết hợp các kỹ thuật như Chain-of-Thought (CoT) prompting, nơi mô hình tạo ra các bước lý luận trung gian trước khi cung cấp câu trả lời cuối cùng. Ví dụ, khi giải quyết một vấn đề toán học, một LRM có thể chia nó thành các bước, giống như một con người. Cách tiếp cận này cải thiện hiệu suất trên các nhiệm vụ phức tạp nhưng đối mặt với thách thức khi xử lý các vấn đề có độ phức tạp khác nhau, như nghiên cứu của Apple tiết lộ.

Nghiên cứu

Đội nghiên cứu của Apple đã thực hiện một tiếp cận khác để đánh giá khả năng lý luận của LLMs và LRMs. Thay vì dựa vào các điểm chuẩn truyền thống như kiểm tra toán hoặc mã hóa, những thứ có thể bị ảnh hưởng bởi ô nhiễm dữ liệu (trong đó mô hình ghi nhớ câu trả lời), họ tạo ra các môi trường câu đố được kiểm soát. Những môi trường này bao gồm các câu đố nổi tiếng như Tháp Hà Nội, Checker Jumping, River Crossing và Blocks World. Ví dụ, Tháp Hà Nội liên quan đến việc di chuyển đĩa giữa các chốt theo các quy tắc cụ thể, với độ phức tạp tăng lên khi thêm nhiều đĩa. Bằng cách điều chỉnh có hệ thống độ phức tạp của những câu đố này trong khi duy trì cấu trúc logic nhất quán, các nhà nghiên cứu quan sát cách mô hình hoạt động trên một phổ độ khó. Phương pháp này cho phép họ phân tích không chỉ câu trả lời cuối cùng mà còn cả quá trình lý luận, cung cấp cái nhìn sâu hơn về cách những mô hình này “nghĩ”.

Phát hiện về Tư duy Quá mức và Bỏ cuộc

Nghiên cứu đã xác định ba chế độ hiệu suất riêng biệt dựa trên độ phức tạp của vấn đề:

Ở mức độ phức tạp thấp, LLMs tiêu chuẩn thường hoạt động tốt hơn LRMs vì LRMs có xu hướng tư duy quá mức, tạo ra các bước bổ sung không cần thiết, trong khi LLMs tiêu chuẩn hiệu quả hơn.
Đối với các vấn đề có độ phức tạp trung bình, LRMs thể hiện hiệu suất vượt trội do khả năng tạo ra các dấu vết lý luận chi tiết giúp họ giải quyết những thách thức này một cách hiệu quả.
Đối với các vấn đề có độ phức tạp cao, cả LLMs và LRMs đều thất bại hoàn toàn; LRMs, đặc biệt, trải qua sự sụp đổ hoàn toàn về độ chính xác và giảm nỗ lực lý luận mặc dù độ khó tăng lên.

Đối với các câu đố đơn giản, chẳng hạn như Tháp Hà Nội với một hoặc hai đĩa, LLMs tiêu chuẩn cung cấp câu trả lời chính xác hiệu quả hơn. LRMs, tuy nhiên, thường tư duy quá mức những vấn đề này, tạo ra các dấu vết lý luận dài dòng ngay cả khi giải pháp là trực tiếp. Điều này cho thấy LRMs có thể bắt chước các giải thích phóng đại từ dữ liệu đào tạo của chúng, điều này có thể dẫn đến kém hiệu quả.

Trong các kịch bản phức tạp vừa phải, LRMs hoạt động tốt hơn. Khả năng của chúng trong việc tạo ra các bước lý luận chi tiết cho phép chúng giải quyết các vấn đề đòi hỏi nhiều bước logic. Điều này cho phép chúng vượt trội so với LLMs tiêu chuẩn, những mô hình này gặp khó khăn trong việc duy trì sự nhất quán.

Tuy nhiên, đối với các câu đố rất phức tạp, chẳng hạn như Tháp Hà Nội với nhiều đĩa, cả hai mô hình đều thất bại hoàn toàn. Điều đáng ngạc nhiên là LRMs giảm nỗ lực lý luận khi độ phức tạp tăng lên vượt quá một điểm nhất định, mặc dù chúng có đủ tài nguyên tính toán. Hành vi “bỏ cuộc” này cho thấy một hạn chế cơ bản trong khả năng của chúng để mở rộng khả năng lý luận.

Tại Sao Điều Này Xảy Ra

Sự tư duy quá mức về các câu đố đơn giản có thể bắt nguồn từ cách LLMs và LRMs được đào tạo. Những mô hình này học từ các tập dữ liệu lớn bao gồm cả giải thích cô đọng và chi tiết. Đối với các vấn đề dễ dàng, chúng có thể mặc định tạo ra các dấu vết lý luận冗長, bắt chước các ví dụ dài dòng trong dữ liệu đào tạo của chúng, ngay cả khi một câu trả lời trực tiếp sẽ đủ. Hành vi này không nhất thiết là một khiếm khuyết mà là sự phản ánh của quá trình đào tạo của chúng, ưu tiên lý luận hơn hiệu quả.

Sự thất bại trên các câu đố phức tạp phản ánh sự không thể của LLMs và LRMs trong việc học cách khái quát hóa các quy tắc logic. Khi độ phức tạp của vấn đề tăng lên, sự phụ thuộc của chúng vào việc khớp mẫu bị phá vỡ, dẫn đến lý luận không nhất quán và sự sụp đổ về hiệu suất. Nghiên cứu cho thấy LRMs không sử dụng các thuật toán rõ ràng và lý luận không nhất quán trên các câu đố khác nhau. Điều này nhấn mạnh rằng trong khi những mô hình này có thể mô phỏng lý luận, chúng không thực sự hiểu logic cơ bản theo cách con người làm.

Quan điểm Đa dạng

Nghiên cứu này đã gây ra cuộc thảo luận trong cộng đồng AI. Một số chuyên gia cho rằng những phát hiện này có thể bị nhầm hiểu. Họ đề xuất rằng trong khi LLMs và LRMs có thể không lý luận như con người, chúng vẫn thể hiện khả năng giải quyết vấn đề hiệu quả trong các giới hạn độ phức tạp nhất định. Họ nhấn mạnh rằng “lý luận” trong AI không cần phải phản ánh nhận thức của con người để có giá trị. Tương tự, thảo luận trên các nền tảng như Hacker News ca ngợi cách tiếp cận nghiêm ngặt của nghiên cứu nhưng nhấn mạnh nhu cầu nghiên cứu thêm để cải thiện lý luận AI. Những quan điểm này nhấn mạnh cuộc tranh luận đang diễn ra về什么 cấu thành lý luận trong AI và làm thế nào chúng ta nên đánh giá nó.

Ý nghĩa và Hướng phát triển Tương lai

Phát hiện của nghiên cứu có ý nghĩa quan trọng đối với sự phát triển của AI. Trong khi LRMs đại diện cho tiến bộ trong việc bắt chước lý luận của con người, hạn chế của chúng trong việc xử lý các vấn đề phức tạp và mở rộng nỗ lực lý luận cho thấy rằng các mô hình hiện tại còn xa so với việc đạt được lý luận có thể khái quát hóa. Điều này nhấn mạnh nhu cầu phát triển các phương pháp đánh giá mới tập trung vào chất lượng và khả năng thích ứng của các quá trình lý luận, không chỉ là độ chính xác của câu trả lời cuối cùng.

Nghiên cứu trong tương lai nên nhằm mục đích tăng cường khả năng của mô hình trong việc thực hiện các bước logic một cách chính xác và điều chỉnh nỗ lực lý luận dựa trên độ phức tạp của vấn đề. Phát triển các điểm chuẩn phản ánh các nhiệm vụ lý luận trong thế giới thực, chẳng hạn như chẩn đoán y tế hoặc lập luận pháp lý, có thể cung cấp thông tin chi tiết hơn về khả năng của AI.

Ngoài ra, giải quyết sự phụ thuộc quá mức của mô hình vào việc nhận dạng mẫu và cải thiện khả năng khái quát hóa các quy tắc logic sẽ là rất quan trọng để thúc đẩy lý luận AI.

Kết luận

Nghiên cứu cung cấp một phân tích quan trọng về khả năng lý luận của LLMs và LRMs. Nó chứng minh rằng trong khi những mô hình này phân tích quá mức các câu đố đơn giản, chúng đấu tranh với những câu đố phức tạp hơn,暴 lộ cả điểm mạnh và hạn chế của chúng. Mặc dù chúng hoạt động tốt trong某些 tình huống, sự không thể của chúng trong việc giải quyết các vấn đề rất phức tạp cho thấy khoảng cách giữa lý luận mô phỏng và sự hiểu biết thực sự. Nghiên cứu nhấn mạnh nhu cầu phát triển một hệ thống AI có thể lý luận một cách thích ứng trên các mức độ phức tạp khác nhau, cho phép nó giải quyết các vấn đề với độ phức tạp khác nhau, giống như con người làm.