Lãnh đạo tư tưởng

Dữ Liệu Tạo Ra Từ Trò Đánh Có Thể Là Tài Nguyên Được Đánh Giá Thấp Nhất Trong Huấn Luyện AI

mm

Các công ty AI đã dành năm năm qua để tiêu thụ mọi mảnh văn bản, mọi hình ảnh và mọi mảnh dữ liệu công khai trên internet. Cung cấp đó là有限, và chúng ta đang đến gần điểm mà không còn đủ dữ liệu để duy trì tốc độ tiến bộ mà nó đã phụ thuộc vào.

Tuy nhiên, có một ứng cử viên rõ ràng mà ngành công nghiệp AI đã bỏ qua.

Tôi xây dựng hệ thống trò chơi để mưu sinh, và dữ liệu chảy qua chúng mỗi ngày là không giống với bất cứ điều gì mà hầu hết các nhà nghiên cứu AI đã từng làm việc với. Và gần như không ai ngoài ngành công nghiệp trò chơi dường như đang chú ý đến nó.

Các nền tảng trò chơi tạo ra terabyte dữ liệu hành vi mỗi ngày, các luồng dữ liệu thời gian thực được cấu trúc, quyết định, hoạt động kinh tế và tương tác xã hội, tất cả đều trong môi trường được xây dựng trên các quy tắc vật lý nhất quán.

Gần như không có dữ liệu nào trong số này đã được sử dụng để huấn luyện AI. Và các công ty đã sử dụng nó, từ DeepMind đến NVIDIA, đã tạo ra một số đột phá quan trọng nhất trong lĩnh vực này.

Vấn Đề Dữ Liệu Của AI

Một nghiên cứu từ Epoch AI dự đoán rằng kho dữ liệu văn bản được tạo ra bởi con người sẽ được sử dụng hết vào khoảng năm 2026 và 2032. Các mô hình đằng sau ChatGPT, Gemini và Claude đã tiêu thụ gần như mọi thứ mà internet có thể cung cấp.

Dữ liệu tổng hợp hoặc văn bản mà AI tạo ra để đưa trở lại vào AI là giải pháp thay thế của ngành công nghiệp. Nhưng các mô hình được đào tạo trên đầu ra của chính chúng sẽ suy giảm theo thời gian thông qua một hiện tượng mà các nhà nghiên cứu gọi là sự sụp đổ của mô hình.

Tôi tin rằng lĩnh vực này cần một thông tin phong phú, tương tác, đa phương thức, nơi nguyên nhân và kết quả xảy ra trong thời gian thực và mọi hành động có một hậu quả có thể đo lường được. Trò chơi tạo ra chính xác điều này, và chúng làm điều đó với một quy mô mà hầu như không có gì khác có thể sánh được.

Các nền tảng trò chơi đẩy terabyte dữ liệu hành vi qua hệ thống của chúng mỗi ngày. Các chuyển động của người chơi, lựa chọn chiến lược, thời gian phản ứng, giao dịch kinh tế và tương tác xã hội đều chảy qua các luồng dữ liệu được cấu trúc, thời gian thực mà hầu hết các nhà nghiên cứu AI chưa từng chạm vào.

Một bài báo học thuật gần đây về dữ liệu tạo ra từ trò chơi đưa ra một phân loại chín loại thông tin này và lập luận rằng đa số trong số đó vẫn chưa được khai thác bởi ngành công nghiệp AI.

Tôi có thể xác nhận điều đó từ kinh nghiệm của mình. Lượng dữ liệu chảy qua hệ thống trò chơi của chúng tôi mỗi ngày sẽ được coi là một mỏ vàng trong bất kỳ lĩnh vực nghiên cứu AI nào. Trong trò chơi, nó chỉ được lưu trữ hoặc vứt bỏ.

Tại Sao Dữ Liệu Trò Đánh Là Khác Biệt

Khi bạn xây dựng trong một công cụ trò chơi trong một thời gian dài, bạn bắt đầu nhận ra rằng bạn đang ngồi trên một lượng dữ liệu được cấu trúc mà không ai trong AI đã từng yêu cầu. Mỗi phiên tạo ra các vật lý đồng bộ, hành vi của người chơi và nguyên nhân và kết quả ở cấp độ hệ thống tại một quy mô khó tìm thấy ở nơi khác.

Các công cụ trò chơi áp dụng các quy tắc vật lý. Các vật thể rơi, va chạm và phá vỡ theo các quy tắc nhất quán, điều đó có nghĩa là dữ liệu mang theo các mối quan hệ nguyên nhân và kết quả được nướng vào cấp độ hệ thống chứ không phải là các mẫu mà mô hình phải đoán từ các mối tương quan văn bản.

Khi một người chơi phóng một vật thể, công cụ tính toán quỹ đạo, lực cản gió và tác động. AI học hỏi từ một môi trường mà thể hiện các quy luật vật lý trực tiếp thông qua mọi tương tác, chứ không phải là một môi trường coi các định luật vật lý như các xấp xỉ thống kê.

Có vấn đề về việc sắp xếp đa phương thức. Trong một trò chơi, dữ liệu hình ảnh, âm thanh, đầu vào của người chơi và trạng thái môi trường đều xảy ra đồng thời và được ghi lại cùng nhau. Loại sắp xếp tự nhiên này có chi phí rất cao để sao chép trong các tập dữ liệu thế giới thực, nơi các nhà nghiên cứu thường phải gắn nhãn và sắp xếp từng phương thức bằng tay.

Trò chơi tạo ra các trường hợp biên tại quy mô lớn, thông qua việc tạo nội dung thủ tục. No Man’s Sky 18 quintillion hành tinh độc nhất, và đối với AI, sự thay đổi đó rất quan trọng vì các trường hợp biên xác định liệu mô hình có hoạt động đáng tin cậy hay thất bại nguy hiểm.

Và sau đó là sự phức tạp xuất hiện, điều mà có thể là thuộc tính quý giá nhất. Khi OpenAI đặt các tác nhân trong một trò chơi ẩn và tìm kiếm đơn giản, các tác nhân đã phát triển sáu giai đoạn chiến lược tinh vi hoàn toàn trên自己的 trong hàng trăm triệu vòng.

Họ xây dựng các nơi ẩn náu từ các vật thể di chuyển, sử dụng các đường dốc để phá vỡ các pháo đài và thậm chí khai thác các lỗi vật lý để trượt các hộp qua tường. Không có gì trong số đó được lập trình. Tất cả đều xuất hiện từ sự cạnh tranh trong môi trường trò chơi, mà không có một dòng mã nào cho chúng biết phải làm gì.

Loại phức tạp tự tạo này chính xác là những gì nghiên cứu AI cần ở quy mô lớn, và trò chơi là môi trường duy nhất tạo ra nó một cách đáng tin cậy mà không cần sự giám sát của con người đắt tiền.

Từ Bàn Cờ Đến Giải Nobel

Bằng chứng rõ ràng nhất rằng AI được đào tạo trong trò chơi chuyển sang thế giới thực là một hệ thống đã giành được giải Nobel, và đó là ví dụ tôi luôn nhắc lại khi mọi người hỏi tôi tại sao tôi xây dựng sự nghiệp của mình xung quanh trò chơi và AI.

DeepMind bắt đầu với AlphaGo vào năm 2016, sau đó xây dựng AlphaZero, một hệ thống tự dạy mình cờ vua, cờ vây và shogi mà không cần kiến thức của con người. Kiến trúc của AlphaZero đã trở thành nền tảng cho AlphaFold, đã giải quyết vấn đề gấp protein 50 năm tuổi và đã giành được giải Nobel Hóa học năm 2024 cho các nhà tạo ra nó.

CEO của DeepMind, Demis Hassabis, đã nói rõ về đường ống này. Ông cho biết với Scientific American rằng trò chơi không bao giờ là mục tiêu cuối cùng mà là cách hiệu quả nhất để phát triển và kiểm tra các kỹ thuật AI trước khi ông áp dụng chúng cho các vấn đề khoa học thực sự.

Tôi nhớ đã đọc điều đó và cảm thấy như ai đó đã diễn đạt chính xác những gì tôi đã thấy từ bên trong phát triển trò chơi trong nhiều năm.

Quỹ đạo đó đã lặp lại trên toàn lĩnh vực. Các môi trường học tăng cường mà OpenAI đầu tiên tiêu chuẩn hóa thông qua Gymnasium hiện đang hỗ trợ nghiên cứu trong lĩnh vực robot, xe tự hành và tự động hóa công nghiệp.

Cấu trúc giống trò chơi của tác nhân, môi trường, hành động và phần thưởng đã bắt đầu như một sự tiện lợi cho nghiên cứu và đã trở thành khuôn khổ mặc định cho bất kỳ hệ thống AI nào cần hành động trong thế giới vật lý.

Trò Đánh Là Lớp Mô Phỏng Mới

Vào tháng 12 năm 2025, NVIDIA phát hành NitroGen, một mô hình nền được đào tạo trên 40.000 giờ chơi trò chơi trên hơn 1.000 tựa. Mô hình này xem các video chơi trò chơi công khai, trích xuất các hành động của người chơi từ các lớp phủ điều khiển và học chơi trò chơi trực tiếp từ các pixel thô.

Trên các trò chơi chưa từng gặp, NitroGen đã cho thấy sự cải thiện lên đến 52% trong thành công của nhiệm vụ so với các mô hình được đào tạo từ đầu. Nhưng ý nghĩa thực sự nằm ở kiến trúc bên dưới.

NitroGen chạy trên khuôn khổ robot GR00T của NVIDIA, cùng nền tảng mà công ty sử dụng cho AI vật lý và chuyển đổi mô phỏng-thực trong nền tảng Isaac Sim của mình. Tác nhân trò chơi và robot nhà máy chia sẻ cùng một hệ thống cơ bản.

Jim Fan của NVIDIA đã mô tả dự án này như một nỗ lực để xây dựng “một GPT cho hành động”, một mô hình đa năng học cách hoạt động trong bất kỳ môi trường nào.

Là người xây dựng các hệ thống trò chơi tạo ra chính xác loại dữ liệu mà các mô hình này tiêu thụ, tôi thấy khó để nhấn mạnh ý nghĩa của điều đó đối với ngành công nghiệp tôi làm việc.

Và điều này không chỉ giới hạn ở NVIDIA. Waymo đã đăng ký hơn 20 tỷ dặm mô phỏng để đào tạo xe tự hành của mình, tất cả trong các môi trường giống trò chơi mà mô phỏng các kịch bản quá nguy hiểm hoặc quá hiếm để thử nghiệm trên đường thực.

Các nền tảng phẫu thuật được xây dựng trên các công cụ trò chơi đã cho thấy sự cải thiện đáng kể trong hiệu suất của người học. Các nhà lập kế hoạch đô thị sử dụng các công cụ tương tự cho tối ưu hóa giao thông ở quy mô thành phố.

Các nền tảng phẫu thuật được xây dựng trên các công cụ trò chơi đã cho thấy sự cải thiện đáng kể trong hiệu suất của người học. Các nhà lập kế hoạch đô thị sử dụng các công cụ tương tự cho tối ưu hóa giao thông ở quy mô thành phố. Công cụ trò chơi đã trở thành một lớp mô phỏng phổ quát bất cứ nơi nào AI cần học thông qua tương tác với môi trường của nó.

Cơ Sở Hạ Tầng Mà Không Ai Nói Về

Khi mọi người thảo luận về cơ sở hạ tầng AI, họ thường có nghĩa là các trung tâm dữ liệu, cụm GPU và tính toán. Trong tất cả các năm tôi đã làm việc trong trò chơi, tôi có thể đếm trên một tay số lần tôi đã nghe ai đó trong không gian AI đề cập đến các môi trường trò chơi trong cùng một hơi thở. Sự ngắt kết nối đó sẽ đóng lại rất nhanh.

Điều này sẽ chỉ trở nên rõ ràng hơn khi các tập dữ liệu truyền thống cạn kiệt. Các ngành công nghiệp tạo ra dữ liệu tương tác phong phú nhất sẽ không thể tránh khỏi việc di chuyển đến trung tâm của nghiên cứu AI, và trò chơi, mô phỏng và thế giới ảo được định vị tốt hơn bất cứ thứ gì khác để lấp đầy khoảng trống đó.

Tiền đã đang theo xu hướng này. AI trong lĩnh vực trò chơi được định giá 4,54 tỷ đô la vào năm 2025 và dự kiến đạt 81 tỷ đô la vào năm 2035.

Hầu hết các studio trò chơi tôi nói chuyện vẫn coi mình là công ty giải trí. Nhưng khi hệ thống của bạn tạo ra chính xác loại dữ liệu mà thế hệ mô hình AI tiếp theo cần để đào tạo, bạn đang trong kinh doanh cơ sở hạ tầng cho dù bạn có kế hoạch hay không.

Ilman Shazhaev là Người sáng lập và Giám đốc điều hành của Dizzaract, studio trò chơi lớn nhất trong khu vực MENA. Ông là một nhà nghiên cứu trí tuệ nhân tạo và chuyên gia Liên Hợp Quốc dưới chương trình UNODC, làm việc tại giao điểm của trí tuệ nhân tạo và tác động thực tế.