Trí tuệ nhân tạo

POKELLMON: Tác nhân ngang bằng giữa con người với các trận chiến Pokemon với LLM

Được phát hành

4 tuần trước

11 Tháng Tư, 2024

POKELLMON: Tác nhân ngang bằng giữa con người với các trận chiến Pokemon với LLM

Mô hình ngôn ngữ lớn và AI sáng tạo đã chứng tỏ thành công chưa từng có trên một loạt các nhiệm vụ Xử lý ngôn ngữ tự nhiên. Sau khi chinh phục lĩnh vực NLP, thử thách tiếp theo đối với các nhà nghiên cứu GenAI và LLM là khám phá cách các mô hình ngôn ngữ lớn có thể hoạt động tự chủ trong thế giới thực với khoảng cách thế hệ mở rộng từ văn bản đến hành động, do đó đại diện cho một mô hình quan trọng trong việc theo đuổi Trí tuệ nhân tạo chung . Trò chơi trực tuyến được coi là nền tảng thử nghiệm phù hợp để phát triển các tác nhân thể hiện mô hình ngôn ngữ lớn tương tác với môi trường thị giác theo cách mà con người sẽ làm.

Ví dụ: trong trò chơi mô phỏng trực tuyến phổ biến Minecraft, các tác nhân ra quyết định có thể được sử dụng để hỗ trợ người chơi khám phá thế giới cùng với việc phát triển các kỹ năng chế tạo công cụ và giải quyết nhiệm vụ. Bạn có thể trải nghiệm một ví dụ khác về tác nhân LLM tương tác với môi trường thị giác trong một trò chơi trực tuyến khác, The Sims, nơi các tác nhân đã chứng tỏ thành công đáng kể trong tương tác xã hội và thể hiện hành vi giống con người. Tuy nhiên, so với các trò chơi hiện có, trò chơi chiến đấu chiến thuật có thể là lựa chọn tốt hơn để đánh giá khả năng chơi trò chơi ảo của các mô hình ngôn ngữ lớn. Lý do chính khiến trò chơi chiến thuật tạo ra điểm chuẩn tốt hơn là vì tỷ lệ thắng có thể được đo lường trực tiếp và các đối thủ nhất quán bao gồm người chơi và AI luôn sẵn sàng.

Dựa trên nền tảng đó, POKELLMON đặt mục tiêu trở thành đặc vụ hiện thân đầu tiên trên thế giới đạt được hiệu suất ngang bằng con người trong các trò chơi chiến thuật, tương tự như điều đã được chứng kiến trong các trận chiến Pokemon. Về cốt lõi, khung POKELLMON kết hợp ba chiến lược chính.

Học tăng cường trong ngữ cảnh sử dụng phản hồi dựa trên văn bản thu được từ các trận chiến ngay lập tức để tinh chỉnh chính sách nhiều lần.
Thế hệ tăng cường kiến thức lấy lại kiến thức bên ngoài để chống lại ảo giác, cho phép tác nhân hành động đúng đắn và khi cần thiết.
Tạo hành động nhất quán để giảm thiểu tình huống chuyển đổi hoảng loạn khi đặc vụ gặp một người chơi mạnh và muốn tránh đối mặt với họ.

Bài viết này nhằm mục đích trình bày sâu về khung POKELLMON và chúng tôi khám phá cơ chế, phương pháp, kiến trúc của khung cùng với sự so sánh của nó với các khung hiện đại. Chúng ta cũng sẽ nói về cách hệ thống POKELLMON thể hiện các chiến lược chiến đấu giống con người đáng chú ý và khả năng ra quyết định kịp thời, đạt được tỷ lệ thắng đáng nể gần 50%. Vậy hãy bắt đầu.

POKELLMON: Đặc vụ bình đẳng của con người với LLM cho các trận chiến Pokemon

Sự phát triển về khả năng và hiệu quả của Mô hình ngôn ngữ lớn và khung AI sáng tạo trong vài năm qua không có gì đáng ngạc nhiên, đặc biệt là đối với các nhiệm vụ NLP. Gần đây, các nhà phát triển và nhà nghiên cứu AI đang nghiên cứu cách làm cho Generative AI và LLM trở nên nổi bật hơn trong các tình huống thực tế với khả năng hoạt động tự chủ trong thế giới thực. Để đạt được hiệu suất tự chủ này trong các tình huống thực tế và thế giới thực, các nhà nghiên cứu và nhà phát triển coi trò chơi là nền tảng thử nghiệm phù hợp để phát triển các tác nhân thể hiện LLM có khả năng tương tác với môi trường ảo theo cách giống với hành vi của con người.

Trước đây, các nhà phát triển đã cố gắng phát triển các tác nhân thể hiện LLM trên các trò chơi mô phỏng ảo như Minecraft và Sims, mặc dù người ta tin rằng các trò chơi chiến thuật như Pokemon có thể là lựa chọn tốt hơn để phát triển các tác nhân này. Trận chiến Pokemon cho phép các nhà phát triển đánh giá khả năng chiến đấu của người huấn luyện trong các trò chơi Pokemon nổi tiếng và mang lại một số lợi thế so với các trò chơi chiến thuật khác. Vì không gian hành động và trạng thái là rời rạc nên nó có thể được dịch sang văn bản mà không bị mất mát. Hình dưới đây minh họa một trận chiến Pokemon điển hình trong đó người chơi được yêu cầu thực hiện một hành động để thực hiện ở mỗi lượt dựa trên trạng thái hiện tại của Pokemon từ mỗi bên. Người dùng có tùy chọn để chọn từ năm Pokemon khác nhau và có tổng cộng bốn chiêu thức trong không gian hành động. Hơn nữa, trò chơi giúp giảm bớt căng thẳng về thời gian suy luận và chi phí suy luận cho LLM vì định dạng theo lượt loại bỏ yêu cầu về lối chơi chuyên sâu. Kết quả là, hiệu quả hoạt động phụ thuộc chủ yếu vào khả năng suy luận của mô hình ngôn ngữ lớn. Cuối cùng, mặc dù các trò chơi chiến đấu Pokemon có vẻ đơn giản nhưng thực tế mọi thứ lại phức tạp hơn một chút và mang tính chiến lược cao. Người chơi có kinh nghiệm không chọn ngẫu nhiên Pokemon cho trận chiến mà xem xét nhiều yếu tố khác nhau bao gồm loại, chỉ số, khả năng, loài, vật phẩm, bước di chuyển của Pokemon, cả trong và ngoài chiến trường. Hơn nữa, trong một trận chiến ngẫu nhiên, các Pokemon được chọn ngẫu nhiên từ một nhóm hơn một nghìn nhân vật, mỗi nhân vật có một bộ nhân vật riêng biệt với khả năng suy luận và kiến thức về Pokemon.

POKELLMON : Phương pháp và kiến trúc

Khung và kiến trúc tổng thể của khung POKELLMON được minh họa trong hình ảnh sau.

Trong mỗi lượt, khung POKELLMON sử dụng các hành động trước đó và phản hồi dựa trên văn bản tương ứng để tinh chỉnh chính sách lặp đi lặp lại cùng với việc tăng cường thông tin trạng thái hiện tại bằng kiến thức bên ngoài như hiệu ứng khả năng/nước đi hoặc mối quan hệ ưu điểm/điểm yếu. Đối với thông tin được cung cấp dưới dạng đầu vào, khung POKELLMON tạo ra nhiều hành động một cách độc lập và sau đó chọn những hành động nhất quán nhất làm đầu ra cuối cùng.

Học tăng cường trong bối cảnh

Các cầu thủ và vận động viên là con người thường đưa ra quyết định không chỉ dựa trên tình trạng hiện tại mà còn phản ánh phản hồi từ các hành động trước đó cũng như kinh nghiệm của những người chơi khác. Sẽ an toàn khi nói rằng phản hồi tích cực là điều giúp người chơi học hỏi từ những sai lầm của họ và ngăn họ mắc lại cùng một sai lầm. Nếu không có phản hồi thích hợp, các tác nhân POKELLMON có thể mắc phải hành động lỗi tương tự, như minh họa trong hình sau.

Như có thể quan sát, đặc vụ trong trò chơi sử dụng chiêu thức dựa trên nước để chống lại nhân vật Pokemon có khả năng “Dry Skin”, cho phép nhân vật này vô hiệu hóa sát thương trước các đòn tấn công dựa trên nước. Trò chơi cố gắng cảnh báo người dùng bằng cách nhấp nháy thông báo “Miễn dịch” trên màn hình. Thông báo này có thể nhắc người chơi xem xét lại hành động của họ và thay đổi chúng, ngay cả khi không biết về “Da khô”. Tuy nhiên, nó không được đưa vào mô tả trạng thái của tác nhân, dẫn đến việc tác nhân lại mắc lỗi tương tự.

Để đảm bảo rằng tác nhân POKELLMON học hỏi từ những sai lầm trước đó, khung này triển khai phương pháp Học tăng cường trong bối cảnh. Học tăng cường là một cách tiếp cận phổ biến trong học máy và nó giúp các nhà phát triển thực hiện chính sách tinh chỉnh vì nó yêu cầu phần thưởng bằng số để đánh giá các hành động. Từ mô hình ngôn ngữ lớn có khả năng diễn giải và hiểu ngôn ngữ, các mô tả dựa trên văn bản đã nổi lên như một hình thức khen thưởng mới dành cho LLM. Bằng cách bao gồm phản hồi dựa trên văn bản từ các hành động trước đó, tác nhân POKELLMON có thể tinh chỉnh lặp đi lặp lại và ngay lập tức chính sách của mình, cụ thể là Học tăng cường trong bối cảnh. Khung POKELLMON phát triển bốn loại phản hồi,

Thiệt hại thực tế do một đòn tấn công gây ra dựa trên sự chênh lệch HP trong hai lượt liên tiếp.
Hiệu quả của các động tác tấn công. Phản hồi cho thấy tính hiệu quả của cuộc tấn công ở khía cạnh không có tác dụng hoặc miễn dịch, không hiệu quả hoặc siêu hiệu quả do hiệu ứng khả năng/di chuyển hoặc lợi thế về loại.
Thứ tự ưu tiên thực hiện một nước đi. Vì không có số liệu thống kê chính xác cho nhân vật Pokemon đối phương nên phản hồi về thứ tự ưu tiên sẽ cung cấp ước tính sơ bộ về tốc độ.
Hiệu quả thực tế của các động tác được thực hiện đối với đối thủ. Cả chiêu thức tấn công và trạng thái đều có thể dẫn đến các kết quả như phục hồi HP, tăng hoặc giảm chỉ số, gây ra các tình trạng như đóng băng, bỏng hoặc nhiễm độc.

Hơn nữa, việc sử dụng phương pháp Học tăng cường trong bối cảnh sẽ giúp tăng hiệu suất đáng kể như được minh họa trong hình sau.

Khi so sánh với hiệu suất ban đầu trên GPT-4, tỷ lệ thắng tăng gần 10% cùng với điểm chiến đấu tăng gần 13%. Hơn nữa, như được minh họa trong hình dưới đây, tác nhân bắt đầu phân tích và thay đổi hành động của mình nếu các nước đi được thực hiện trong các nước đi trước đó không thể khớp với mong đợi.

Thế hệ tăng cường tri thức hay KAG

Mặc dù việc triển khai Học tăng cường trong bối cảnh giúp giải quyết ảo giác ở một mức độ nào đó, nhưng nó vẫn có thể dẫn đến hậu quả nghiêm trọng trước khi tác nhân nhận được phản hồi. Ví dụ: nếu đặc vụ quyết định chiến đấu chống lại Pokemon hệ lửa bằng Pokemon hệ cỏ, thì đặc vụ trước đó có khả năng giành chiến thắng trong một lượt duy nhất. Để giảm ảo giác hơn nữa và cải thiện khả năng ra quyết định của tác nhân, khung POKELLMON triển khai Thế hệ tăng cường kiến thức hoặc phương pháp tiếp cận KAG, một kỹ thuật sử dụng kiến thức bên ngoài để thế hệ tăng cường.

Bây giờ, khi mô hình tạo ra 4 loại phản hồi được thảo luận ở trên, nó sẽ chú thích các bước di chuyển của Pokemon và thông tin cho phép tác nhân tự suy ra mối quan hệ lợi thế về loại. Trong nỗ lực giảm bớt ảo giác trong lý luận hơn nữa, khung POKELLMON chú thích rõ ràng lợi thế về loại và điểm yếu của Pokemon đối phương cũng như Pokemon của đặc vụ với các mô tả đầy đủ. Hơn nữa, việc ghi nhớ các chiêu thức và khả năng với các hiệu ứng riêng biệt của Pokemon là một thách thức, đặc biệt vì có rất nhiều chúng. Bảng sau đây trình bày kết quả của việc tạo ra kiến thức tăng cường. Điều đáng chú ý là bằng cách triển khai phương pháp Tạo tăng cường kiến thức, khung POKELLMON có thể tăng tỷ lệ thắng khoảng 20% từ 36% hiện tại lên 55%.

Hơn nữa, các nhà phát triển còn quan sát thấy rằng khi đặc vụ được cung cấp kiến thức bên ngoài về Pokemon, nó sẽ bắt đầu sử dụng các chiêu thức đặc biệt vào đúng thời điểm, như minh họa trong hình ảnh sau đây.

Tạo hành động nhất quán

Các mô hình hiện tại chứng minh rằng việc thực hiện các phương pháp nhắc nhở và lý luận có thể nâng cao khả năng của LLM trong việc giải quyết các nhiệm vụ phức tạp. Thay vì tạo ra hành động một lần, khung POKELLMON đánh giá các chiến lược nhắc nhở hiện có bao gồm CoT hoặc Chuỗi suy nghĩ, ToT hoặc Cây suy nghĩ và Tính nhất quán. Đối với Chuỗi suy nghĩ, ban đầu tác nhân tạo ra một suy nghĩ để phân tích kịch bản trận chiến hiện tại và đưa ra một hành động dựa trên suy nghĩ đó. Đối với Tự thống nhất, tác nhân tạo ra các hành động gấp ba lần và chọn đầu ra đã nhận được số phiếu bầu tối đa. Cuối cùng, đối với cách tiếp cận Cây Tư duy, khung này tạo ra ba hành động giống như trong cách tiếp cận tự nhất quán, nhưng chọn hành động mà nó cho là tốt nhất sau khi tự đánh giá tất cả chúng. Bảng sau đây tóm tắt hiệu quả của các phương pháp nhắc nhở.

Chỉ có một hành động duy nhất cho mỗi lượt, điều này ngụ ý rằng ngay cả khi tác nhân quyết định chuyển đổi và đối thủ quyết định tấn công, Pokémon chuyển đổi sẽ nhận sát thương. Thông thường, tác nhân quyết định chuyển đổi vì nó muốn chuyển đổi lợi thế về loại một Pokémon ngoài trận chiến và do đó Pokémon chuyển đổi có thể duy trì sát thương, vì nó có khả năng chống lại các bước di chuyển của Pokémon đối phương. Tuy nhiên, như trên, đối với đặc vụ có lý luận CoT, ngay cả khi Pokémon đối lập mạnh mẽ buộc phải quay nhiều lượt khác nhau, nó vẫn hành động không nhất quán với nhiệm vụ, bởi vì nó có thể không muốn chuyển sang Pokemon mà muốn chuyển sang một số Pokémon và quay lại, mà chúng tôi gọi là chuyển đổi hoảng loạn. Chuyển đổi hoảng loạn sẽ loại bỏ cơ hội thực hiện các bước di chuyển và do đó đánh bại.

POKELLMON : Kết quả và thử nghiệm

Trước khi thảo luận về kết quả, điều cần thiết là chúng ta phải hiểu môi trường chiến đấu. Khi bắt đầu một lượt, môi trường nhận được thông báo yêu cầu hành động từ máy chủ và sẽ phản hồi thông báo này ở cuối, thông báo này cũng chứa kết quả thực hiện từ lượt trước.

Đầu tiên phân tích thông báo và cập nhật các biến trạng thái cục bộ, 2. sau đó dịch các biến trạng thái thành văn bản. Phần mô tả văn bản chủ yếu có bốn phần: 1. Thông tin về đội riêng, chứa các thuộc tính của Pokémon trong và ngoài sân (không được sử dụng).
Thông tin về đội đối thủ, chứa các thuộc tính của Pokémon đối thủ trong và ngoài sân (một số thông tin chưa xác định).
Thông tin chiến trường, bao gồm thời tiết, các mối nguy hiểm khi xâm nhập và địa hình.
Thông tin nhật ký lượt lịch sử, chứa các hành động trước đó của cả Pokémon và được lưu trữ trong hàng đợi nhật ký. LLM lấy trạng thái dịch làm hành động đầu vào và đầu ra cho bước tiếp theo. Hành động sau đó được gửi đến máy chủ và được thực hiện cùng lúc với hành động được thực hiện bởi con người.

Trận chiến chống lại người chơi con người

Bảng sau minh họa hiệu suất của tác nhân POKELLMON đối với người chơi là con người.

Như có thể thấy, đặc vụ POKELLMON mang lại hiệu suất tương đương với những người chơi bậc thang có tỷ lệ thắng cao hơn so với người chơi được mời cùng với kinh nghiệm chiến đấu dày dặn.

Phân tích kỹ năng chiến đấu

Hệ thống POKELLMON hiếm khi mắc sai lầm khi chọn nước đi hiệu quả và chuyển sang một Pokemon phù hợp khác nhờ chiến lược Thế hệ tăng cường kiến thức.

Như trong ví dụ trên, đặc vụ chỉ sử dụng một Pokemon để đánh bại toàn bộ đội đối thủ vì nó có thể chọn các chiêu thức tấn công khác nhau, những chiêu thức hiệu quả nhất cho đối thủ trong tình huống đó. Hơn nữa, khuôn khổ POKELLMON cũng thể hiện chiến lược tiêu hao giống như con người. Một số Pokemon có chiêu thức “Độc hại” có thể gây thêm sát thương ở mỗi lượt, trong khi chiêu thức “Phục hồi” cho phép nó phục hồi HP. Lợi dụng điều tương tự, trước tiên, đặc vụ sẽ đầu độc Pokemon đối phương và sử dụng chiêu thức Phục hồi để ngăn bản thân bị ngất xỉu.

Kết luận:

Trong bài viết này, chúng ta đã nói về POKELLMON, một cách tiếp cận cho phép các mô hình ngôn ngữ lớn chơi các trận chiến Pokemon với con người một cách tự động. POKELLMON, đặt mục tiêu trở thành đặc vụ hiện thân đầu tiên trên thế giới đạt được hiệu suất ngang bằng con người trong các trò chơi chiến thuật, tương tự như điều được chứng kiến trong các trận chiến Pokemon. Khung POKELLMON giới thiệu ba chiến lược chính: Học tăng cường trong bối cảnh sử dụng phản hồi dựa trên văn bản làm “phần thưởng” để tinh chỉnh lặp đi lặp lại chính sách tạo hành động mà không cần đào tạo, Tạo tăng cường kiến thức lấy kiến thức bên ngoài để chống lại ảo giác và đảm bảo hành động của tác nhân kịp thời và đúng cách, đồng thời Tạo hành động nhất quán giúp ngăn chặn vấn đề chuyển đổi hoảng loạn khi gặp đối thủ mạnh.

Chủ đề liên quan:Tầm nhìn máy tính Tinh chỉnh LLM ai chung chung LLM Pokemon

Cách mạng hóa AI với ReALM của Apple: Tương lai của Trợ lý Thông minh

Đừng bỏ lỡ

Meta tiết lộ chip đào tạo AI thế hệ tiếp theo, hứa hẹn hiệu suất nhanh hơn

Kunal Kejriwal

"Kỹ sư chuyên nghiệp, nhà văn có tâm". Kunal là một nhà văn kỹ thuật có niềm yêu thích và hiểu biết sâu sắc về AI và ML, chuyên đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và nhiều thông tin của mình.