Trí tuệ nhân tạo
Trí tuệ Jagged: Tại sao AIs đạt điểm cao trong các vấn đề Olympiad nhưng gặp khó khăn trong toán học trường học

Cộng đồng trí tuệ nhân tạo đã kỷ niệm một cột mốc đáng chú ý vào năm 2025 khi cả Google DeepMind và hệ thống OpenAI đạt được điểm vàng tại Olympiad Toán học Quốc tế. Những mô hình AI này đã giải quyết các vấn đề mà chỉ một số ít trong những nhà toán học trẻ tài năng nhất trên thế giới có thể giải quyết. Tuy nhiên, những hệ thống này thường gặp khó khăn khi được yêu cầu thực hiện các phép tính cơ bản mà bất kỳ học sinh trung học nào cũng có thể xử lý dễ dàng. Sự mâu thuẫn này tiết lộ điều gì đó cơ bản về bản chất của trí tuệ nhân tạo ngày nay. Chúng ta đang chứng kiến sự xuất hiện của những gì chỉ có thể được gọi là trí tuệ jagged, nơi máy móc thể hiện khả năng siêu phàm trong một số lĩnh vực nhất định trong khi thất bại trong các nhiệm vụ mà chúng ta coi là cơ bản.
Chiến thắng Olympiad
Olympiad Toán học Quốc tế là tiêu chuẩn hàng đầu trong cuộc thi toán học trước đại học. Mỗi năm, những nhà toán học trẻ tài năng nhất từ khắp thế giới giải quyết sáu vấn đề đòi hỏi sự sâu sắc, tư duy sáng tạo và kỹ thuật chứng minh cấp cao. Vào năm 2025, các hệ thống AI từ cả Google DeepMind và OpenAI đã đạt được 35 điểm trên 42, đủ để giành huy chương vàng. AlphaGeometry 2 của DeepMind đã giải quyết một vấn đề hình học phức tạp trong chỉ 19 giây, trong khi AlphaProof đã giải quyết các vấn đề trong lý thuyết số và đại số mà đã khiến hầu hết các thí sinh người bị bối rối.
Những thành tựu này xây dựng trên nhiều năm tiến bộ dần dần. Các hệ thống sử dụng ngôn ngữ toán học chính thức như Lean để xây dựng các chứng minh nghiêm ngặt. Họ sử dụng các kỹ thuật như học chương trình, nơi AI được đào tạo trên các vấn đề có độ khó tăng dần. Việc đào tạo này cho phép AI hiểu các mối quan hệ phức tạp giữa các đối tượng toán học, nhận ra các mẫu tinh vi và xây dựng các chứng minh thanh lịch.
Khó khăn Cơ bản
Những hệ thống AI cùng đạt được huy chương vàng tại các vấn đề Olympiad thường thất bại trong các nhiệm vụ dường như tầm thường. Ví dụ, nếu bạn yêu cầu họ nhân các số lớn, họ có thể tự tin sản xuất ra các câu trả lời sai. Tương tự, nếu bạn cố gắng thực hiện các phép toán cơ bản khác, hiệu suất của họ trở nên khó dự đoán. Vấn đề không chỉ giới hạn ở tính toán đơn giản. Những hệ thống này thường gặp khó khăn với các vấn đề từ ngôn ngữ đòi hỏi theo dõi nhiều lượng, hiểu ngữ cảnh thế giới thực hoặc áp dụng các phép toán cơ bản theo trình tự.
Sự yếu kém này cơ bản bắt nguồn từ cách các mô hình AI này hoạt động. Các mô hình ngôn ngữ lớn dự đoán văn bản nên đến tiếp theo dựa trên các mẫu chúng đã thấy trong dữ liệu đào tạo. Khi chúng gặp “2 + 2”, chúng nhận ra mẫu này và dự đoán chính xác “4” không phải vì chúng hiểu phép cộng, mà vì chuỗi này xuất hiện vô số lần trong dữ liệu đào tạo của chúng. Khi bạn trình bày cho chúng các tính toán bất thường mà hiếm khi xuất hiện trong văn bản, hiệu suất của chúng suy giảm nhanh chóng. Chúng cơ bản là máy 匹配 mẫu mà vượt trội khi mẫu rõ ràng và nhất quán nhưng gặp khó khăn khi buộc phải tính toán một vấn đề chưa từng thấy.
Sự mâu thuẫn Kiến trúc
Sự mâu thuẫn giữa thành công Olympiad và thất bại toán cơ bản tiết lộ một vấn đề kiến trúc sâu sắc hơn. Các hệ thống AI hiện đại vượt trội trong các vấn đề có thể được giải quyết thông qua nhận dạng mẫu, suy luận logic và tìm kiếm hệ thống qua không gian giải pháp. Các vấn đề Olympiad, mặc dù khó khăn, thường có cấu trúc thanh lịch mà AI có thể khai thác. Các hệ thống có thể khám phá các chiến lược chứng minh khác nhau, xác minh các bước logic và xây dựng trên các khuôn khổ toán học đã thiết lập. Chúng hoạt động trong một thế giới của các ký hiệu và quy tắc nơi tính nhất quán và logic thống trị.
Ngược lại, toán cơ bản, một cách nghịch lý, đặt ra những thách thức khác. Nó đòi hỏi sự thao túng chính xác các lượng, không phải 匹配 mẫu. Nó đòi hỏi sự hiểu biết về độ lớn số và mối quan hệ không thể được xấp xỉ. Khi một hệ thống AI tiếp cận toán cơ bản thông qua mô hình ngôn ngữ, nó đối xử với các số như các token để được dự đoán chứ không phải là các lượng để được tính toán. Sự không phù hợp cơ bản giữa yêu cầu nhiệm vụ và kiến trúc mô hình tạo ra khoảng cách hiệu suất mà chúng ta quan sát.
Dữ liệu Đào tạo và Giới hạn của nó
Khả năng của AI phụ thuộc lớn vào chất lượng và bản chất của dữ liệu đào tạo. Các chứng minh toán học và các vấn đề nâng cao thường xuất hiện trong các định dạng được cấu trúc tốt trực tuyến. Các bài báo học thuật, sách giáo khoa và tài nguyên giáo dục cung cấp các ví dụ rõ ràng về tư duy toán học. Internet chứa các cuộc thảo luận rộng rãi về các khái niệm toán học, kỹ thuật chứng minh và chiến lược giải quyết vấn đề. Cơ sở dữ liệu phong phú này cho phép các hệ thống AI học tư duy toán học nâng cao.
Toán cơ bản, tuy nhiên, gặp phải một vấn đề khác. Mặc dù toán cơ bản xuất hiện thường xuyên trực tuyến, nó hiếm khi đi kèm với các chuỗi lý lẽ chi tiết giúp AI hiểu các quá trình cơ bản. Các tính toán đơn giản được tuyên bố như các sự kiện chứ không phải được giải thích như các thủ tục. Dữ liệu đào tạo chứa kết quả của tính toán nhưng không phải quá trình tính toán chính nó. Điều này tạo ra một khoảng cách cơ bản trong sự hiểu biết mà thể hiện như hiệu suất kém trên các nhiệm vụ cơ bản.
Implications cho Phát triển AI
Mẫu trí tuệ không đồng đều này có ý nghĩa quan trọng đối với cách chúng ta thiết kế và sử dụng các hệ thống AI. Chúng ta không thể giả định rằng thành công trong các nhiệm vụ phức tạp có nghĩa là khả năng trong các nhiệm vụ đơn giản hơn. Một AI có khả năng chứng minh các định lý toán học có thể thất bại trong việc cân bằng một cuốn séc. Một hệ thống có thể viết mã máy tính có thể gặp khó khăn trong việc đếm cơ bản. Hiện thực này đòi hỏi sự xem xét cẩn thận về khả năng và giới hạn của AI trong các ứng dụng thế giới thực.
Hiện tượng này cũng tiết lộ tầm quan trọng của các phương pháp kết hợp. Thay vì mong đợi một mô hình xử lý mọi nhiệm vụ, chúng ta có thể cần các hệ thống chuyên dụng cho các loại nhiệm vụ khác nhau. Ví dụ, kết hợp tính toán biểu tượng cho toán cơ bản với mô hình ngôn ngữ cho lý lẽ có thể tạo ra các giải pháp đáng tin cậy hơn. Tương lai của AI có thể nằm trong việc phối hợp nhiều hệ thống chuyên dụng thay vì theo đuổi trí tuệ tổng quát monolithic.
Con đường Tiếp theo
Nhận ra trí tuệ jagged cung cấp một hướng rõ ràng hơn cho việc xây dựng các hệ thống AI có khả năng hơn. Các nhà nghiên cứu đang phát triển phương pháp để tích hợp các công cụ tính toán vào các mô hình ngôn ngữ, cho phép chúng ủy thác toán cơ bản cho các máy tính. Các chiến lược đào tạo mới tập trung vào việc dạy cho các mô hình khi nào nên sử dụng các công cụ bên ngoài thay vì cố gắng nội hóa mọi kỹ năng. Cách tiếp cận này phản ánh trí tuệ của con người, nơi chúng ta dựa vào máy tính cho tính toán và dành nỗ lực tinh thần của mình cho lý lẽ cấp cao hơn.
Sự mâu thuẫn của trí tuệ jagged cuối cùng dạy cho chúng ta sự khiêm tốn về trí tuệ nhân tạo. Những hệ thống này không phải là vượt trội toàn diện cũng không phải là bị giới hạn đồng đều. Thay vào đó, chúng thể hiện một hỗn hợp phức tạp của điểm mạnh và điểm yếu mà chúng ta phải nhận thức được để sử dụng và cải thiện hiệu quả khả năng của AI. Thành công đòi hỏi không chỉ mở rộng những gì AI có thể làm mà còn giải quyết các khoảng cách cơ bản của nó. Các máy móc có thể chứng minh các định lý nhưng thất bại trong việc cộng cơ bản cho thấy rằng trí tuệ, dù là nhân tạo hay con người, vẫn là một hiện tượng đa diện không dễ định nghĩa.
Kết luận
Thành công của AI trong việc giải quyết các vấn đề Olympiad nhưng thất bại trong toán cơ bản cho thấy rằng trí tuệ không phát triển đồng đều. Những hệ thống này có thể xuất sắc trong một lĩnh vực và yếu trong lĩnh vực khác. Hiểu mẫu không đồng đều này quan trọng đối với cách chúng ta thiết kế và sử dụng AI. Thay vì mong đợi một mô hình làm mọi việc, chúng ta có thể cần kết hợp các phương pháp khác nhau để tận dụng điểm mạnh của mỗi hệ thống. Tiến bộ thực sự sẽ đến từ việc xây dựng AI hoạt động đáng tin cậy trong thực tế, không phải từ việc giả định nó sẽ tốt trong mọi nhiệm vụ.












