AGI
Luật quy mô tiếp theo của Trí tuệ nhân tạo: Không phải là nhiều dữ liệu hơn, mà là các Mô hình thế giới tốt hơn

Trong nhiều năm, ngành công nghiệp trí tuệ nhân tạo đã tuân theo một quy tắc đơn giản, tàn bạo: lớn hơn là tốt hơn. Chúng tôi đã đào tạo các mô hình trên các tập dữ liệu lớn, tăng số lượng tham số và ném sức mạnh tính toán khổng lồ vào vấn đề này. Công thức này đã hoạt động trong hầu hết thời gian. Từ GPT-3 đến GPT-4, và từ các chatbot thô sơ đến các động cơ suy luận, “luật quy mô” cho thấy rằng nếu chúng tôi chỉ tiếp tục cung cấp cho máy móc nhiều văn bản hơn, nó sẽ trở nên thông minh.
Nhưng chúng tôi hiện đang đập vào tường. Internet là hữu hạn. Dữ liệu công khai chất lượng cao đang trở nên cạn kiệt, và lợi nhuận từ việc chỉ làm cho các mô hình lớn hơn đang giảm dần. Các nhà nghiên cứu trí tuệ nhân tạo hàng đầu cho rằng bước nhảy vĩ đại tiếp theo trong trí tuệ nhân tạo sẽ không đến từ việc đọc nhiều văn bản hơn. Nó sẽ đến từ việc hiểu thực tế đằng sau văn bản. Niềm tin này cho thấy một sự thay đổi cơ bản trong sự tập trung của trí tuệ nhân tạo, đánh dấu sự ra đời của kỷ nguyên Mô hình thế giới.
Giới hạn của Dự đoán Token Tiếp theo
Để hiểu tại sao chúng tôi cần một cách tiếp cận mới, chúng tôi phải đầu tiên xem xét những gì các hệ thống trí tuệ nhân tạo hiện tại thực sự làm. Mặc dù chúng có khả năng ấn tượng, các mô hình như ChatGPT hoặc Claude về cơ bản là động cơ thống kê. Chúng dự đoán từ tiếp theo trong một chuỗi dựa trên xác suất của những gì đã xảy ra trước đó. Chúng không hiểu rằng một chiếc ly bị rơi sẽ vỡ; chúng chỉ biết rằng trong hàng triệu câu chuyện, từ “vỡ” thường theo sau cụm từ “ly bị rơi.”
Cách tiếp cận này, được gọi là mô hình tự hồi quy, có một khiếm khuyết quan trọng. Nó phụ thuộc hoàn toàn vào mối tương quan, không phải nguyên nhân. Nếu bạn đào tạo một LLM trên một nghìn mô tả về một vụ tai nạn xe hơi, nó sẽ học ngôn ngữ của tai nạn. Nhưng nó không bao giờ học được vật lý của động lượng, ma sát hoặc độ giòn. Nó là một người quan sát, không phải người tham gia.
Giới hạn này đang trở thành “Tường Dữ liệu.” Chúng tôi đã gần như cào sạch toàn bộ internet công cộng. Để mở rộng quy mô hơn bằng cách sử dụng phương pháp hiện tại, chúng tôi sẽ cần nhiều dữ liệu hơn gấp nhiều lần so với hiện tại. Dữ liệu tổng hợp (tức là văn bản được tạo bởi trí tuệ nhân tạo) cung cấp một giải pháp tạm thời, nhưng nó thường dẫn đến “sự sụp đổ của mô hình,” nơi hệ thống khuếch đại các thiên vị và lỗi của chính nó. Chúng tôi không thể mở rộng quy mô đến Trí tuệ nhân tạo tổng quát (AGI) bằng cách sử dụng văn bản alone vì văn bản là một nén băng thông thấp của thế giới. Nó mô tả thực tế, nhưng nó không phải là thực tế chính nó.
Tại sao Mô hình Thế giới lại Quan trọng
Các lãnh đạo trí tuệ nhân tạo như Yann LeCun đã lâu nay cho rằng các hệ thống trí tuệ nhân tạo hiện tại thiếu một khía cạnh cơ bản của nhận thức con người mà thậm chí trẻ em cũng có tự nhiên. Đây là khả năng của chúng tôi để duy trì một mô hình nội bộ về cách thế giới hoạt động, mà chúng thường được gọi là Mô hình Thế giới. Một Mô hình Thế giới không chỉ dự đoán từ tiếp theo; nó xây dựng một bản đồ tinh thần nội bộ về cách môi trường vật lý hoạt động. Khi chúng tôi nhìn thấy một quả bóng lăn sau một chiếc ghế sofa, chúng tôi biết nó vẫn còn ở đó. Chúng tôi biết nó sẽ xuất hiện ở phía bên kia trừ khi nó bị ngăn chặn. Chúng tôi không cần phải đọc một cuốn sách giáo khoa để hiểu điều này; chúng tôi chạy một mô phỏng tinh thần dựa trên “mô hình thế giới” nội bộ của chúng tôi về vật lý và sự tồn tại của vật thể.
Để trí tuệ nhân tạo phát triển, nó phải chuyển từ việc bắt chước thống kê sang loại mô phỏng nội bộ này. Nó cần hiểu các nguyên nhân cơ bản của các sự kiện, không chỉ mô tả văn bản của chúng.
Kiến trúc Dự đoán Ghép nối Nội bộ (JEPA) là một ví dụ chính về sự thay đổi范式 này. Không giống như LLM, những mô hình này cố gắng dự đoán mọi pixel hoặc từ (một quá trình tốn kém về tính toán và nhiễu), JEPA dự đoán các biểu diễn trừu tượng. Nó bỏ qua các chi tiết không thể đoán trước như chuyển động của các lá riêng lẻ trên một cây và tập trung vào các khái niệm cấp cao như cây, gió và mùa. Bằng cách học cách dự đoán cách các trạng thái cấp cao này thay đổi theo thời gian, trí tuệ nhân tạo học được cấu trúc của thế giới chứ không phải chi tiết bề mặt.
Từ Dự đoán đến Mô phỏng
Chúng tôi đã thấy những dấu hiệu đầu tiên của sự chuyển đổi này trong các mô hình tạo video. Khi OpenAI phát hành Sora, họ mô tả nó không chỉ là một công cụ video, mà là một “mô phỏng thế giới.”
Sự khác biệt này là quan trọng. Một máy tạo video tiêu chuẩn có thể tạo ra một video về một người đi bộ bằng cách dự đoán những pixel màu nào thường đi cùng nhau. Một mô phỏng thế giới, tuy nhiên, cố gắng duy trì sự nhất quán 3D, ánh sáng và sự tồn tại của vật thể theo thời gian. Nó “hiểu” rằng nếu một người đi bộ sau một bức tường, họ không nên biến mất khỏi sự tồn tại.
Mặc dù các mô hình video hiện tại vẫn còn xa so với hoàn hảo, chúng đại diện cho sân tập mới. Thế giới vật lý chứa nhiều thông tin hơn nhiều so với thế giới văn bản. Một giây video chứa hàng triệu điểm dữ liệu trực quan về vật lý, ánh sáng và tương tác. Bằng cách đào tạo các mô hình trên thực tế trực quan này, chúng tôi có thể dạy trí tuệ nhân tạo “cảm giác thông thường” mà LLM hiện tại thiếu.
Điều này tạo ra một luật quy mô mới. Thành công sẽ không còn được đo lường bởi số lượng token mà một mô hình đã đọc. Nó sẽ được đo lường bởi độ trung thực của mô phỏng và khả năng dự đoán các trạng thái tương lai của môi trường. Một trí tuệ nhân tạo có thể mô phỏng chính xác các hậu quả của một hành động mà không cần thực hiện hành động đó là một trí tuệ nhân tạo có thể lập kế hoạch, suy luận và hành động an toàn.
Hiệu suất và Con đường đến AGI
Sự thay đổi này cũng giải quyết các chi phí năng lượng không bền vững của trí tuệ nhân tạo hiện tại. LLM không hiệu quả vì chúng phải dự đoán mọi chi tiết để tạo ra đầu ra nhất quán. Một Mô hình Thế giới hiệu quả hơn vì nó có chọn lọc. Giống như một tài xế con người tập trung vào đường và bỏ qua mẫu của đám mây trên bầu trời, một Mô hình Thế giới tập trung vào các yếu tố nguyên nhân liên quan đến một nhiệm vụ.
LeCun đã cho rằng cách tiếp cận này cho phép các mô hình học nhanh hơn. Một hệ thống như V-JEPA (Kiến trúc Dự đoán Ghép nối Nội bộ Video) đã cho thấy nó có thể hội tụ đến một giải pháp với ít lần lặp lại đào tạo hơn so với các phương pháp truyền thống. Bằng cách học “hình dạng” của dữ liệu chứ không phải ghi nhớ dữ liệu itu, Mô hình Thế giới xây dựng một dạng thông minh mạnh mẽ hơn, tổng quát hóa tốt hơn cho các tình huống mới, chưa từng thấy.
Đây là liên kết bị thiếu cho AGI. Sự thông minh thực sự đòi hỏi phải điều hướng. Nó đòi hỏi một tác nhân phải nhìn vào một mục tiêu, mô phỏng các đường dẫn khác nhau để đạt được mục tiêu đó bằng mô hình thế giới nội bộ của nó và sau đó chọn đường dẫn có xác suất thành công cao nhất. Các máy tạo văn bản không thể làm điều này; chúng chỉ có thể viết một kế hoạch, chúng không thể hiểu các ràng buộc của việc thực hiện nó.
Kết luận
Ngành công nghiệp trí tuệ nhân tạo đang ở một điểm chuyển折. Chiến lược “chỉ cần thêm nhiều dữ liệu hơn” đang đạt đến kết thúc logic của nó. Chúng tôi đang chuyển từ kỷ nguyên của Chatbot sang kỷ nguyên của Mô phỏng.
Thế hệ tiếp theo của việc mở rộng quy mô trí tuệ nhân tạo sẽ không còn là về việc đọc toàn bộ internet. Nó sẽ là về việc quan sát thế giới, hiểu các quy tắc của nó và xây dựng một kiến trúc nội bộ phản ánh thực tế. Đây không chỉ là một nâng cấp kỹ thuật; nó là một sự thay đổi cơ bản trong những gì chúng tôi coi là “học tập.”
Đối với các doanh nghiệp và nhà nghiên cứu, sự tập trung phải thay đổi. Chúng tôi cần ngừng ám ảnh về số lượng tham số và bắt đầu đánh giá cách tốt hệ thống của chúng tôi hiểu nguyên nhân và kết quả. Trí tuệ nhân tạo trong tương lai sẽ không chỉ cho bạn biết những gì đã xảy ra; nó sẽ cho bạn biết những gì có thể xảy ra và tại sao. Đó là lời hứa của Mô hình Thế giới, và đó là con đường duy nhất tiến về phía trước.












