Connect with us

POKELLMON: Một tác nhân ngang bằng con người cho các trận đấu Pokémon với LLM

Trí tuệ nhân tạo

POKELLMON: Một tác nhân ngang bằng con người cho các trận đấu Pokémon với LLM

mm
POKELLMON: A Human-Parity Agent for Pokemon Battles with LLMs

Các Mô hình Ngôn ngữ Lớn và Trí tuệ Nhân tạo Tạo sinh đã chứng minh thành công chưa từng có trên một loạt các nhiệm vụ Xử lý Ngôn ngữ Tự nhiên. Sau khi chinh phục lĩnh vực NLP, thách thức tiếp theo cho các nhà nghiên cứu GenAI và LLM là khám phá cách các mô hình ngôn ngữ lớn có thể hoạt động tự chủ trong thế giới thực với khoảng cách tạo sinh mở rộng từ văn bản đến hành động, do đó đại diện cho một mô hình quan trọng trong việc theo đuổi Trí tuệ Nhân tạo Tổng quát. Các trò chơi trực tuyến được coi là một nền tảng thử nghiệm phù hợp để phát triển các tác nhân nhúng LLM tương tác với môi trường trực quan theo cách mà con người làm.

Ví dụ, trong một trò chơi mô phỏng trực tuyến phổ biến Minecraft, các tác nhân ra quyết định có thể được sử dụng để hỗ trợ người chơi trong việc khám phá thế giới cùng với phát triển kỹ năng để tạo công cụ và giải quyết nhiệm vụ. Một ví dụ khác về các tác nhân LLM tương tác với môi trường trực quan có thể được trải nghiệm trong một trò chơi trực tuyến khác, The Sims, nơi các tác nhân đã chứng minh thành công đáng kể trong các tương tác xã hội và thể hiện hành vi giống như con người. Tuy nhiên, so với các trò chơi hiện có, các trò chơi chiến thuật có thể chứng minh là một lựa chọn tốt hơn để đánh giá khả năng của các mô hình ngôn ngữ lớn trong việc chơi trò chơi ảo. Lý do chính tại sao các trò chơi chiến thuật làm cho một điểm chuẩn tốt hơn là vì tỷ lệ thắng có thể được đo lường trực tiếp, và các đối thủ nhất quán bao gồm cả người chơi và AI luôn có sẵn.

Xây dựng trên cùng, POKELLMON, nhằm mục đích trở thành tác nhân nhúng đầu tiên trên thế giới đạt được hiệu suất ngang bằng con người trên các trò chơi chiến thuật, tương tự như những gì được chứng kiến trong các trận đấu Pokémon. Tại cốt lõi, khuôn khổ POKELLMON bao gồm ba chiến lược chính.

  1. Học tăng cường trong ngữ cảnh tiêu thụ phản hồi dựa trên văn bản được dẫn xuất từ các trận đấu tức thời để tinh chỉnh chính sách lặp lại.
  2. Sinh tạo tăng cường kiến thức để thu thập kiến thức bên ngoài và chống lại ảo giác, cho phép tác nhân hành động đúng và khi cần.
  3. Sinh tạo hành động nhất quán để giảm thiểu tình huống chuyển đổi hoảng loạn khi tác nhân gặp phải một đối thủ mạnh và muốn tránh đối mặt với họ.

Bài viết này nhằm mục đích bao gồm khuôn khổ POKELLMON một cách sâu sắc, và chúng tôi khám phá cơ chế, phương pháp, kiến trúc của khuôn khổ cùng với so sánh với các khuôn khổ hiện có. Chúng tôi cũng sẽ thảo luận về cách khuôn khổ POKELLMON chứng minh các chiến lược trận đấu giống như con người và khả năng ra quyết định kịp thời, đạt được tỷ lệ thắng khoảng 50%. Vậy hãy bắt đầu.

POKELLMON: Một Tác nhân Ngang bằng Con người với LLM cho Các Trận đấu Pokémon

Sự phát triển trong khả năng và hiệu quả của Các Mô hình Ngôn ngữ Lớn và Trí tuệ Nhân tạo Tạo sinh trong những năm gần đây đã không gì khác ngoài tuyệt vời, đặc biệt là trên các nhiệm vụ Xử lý Ngôn ngữ Tự nhiên. Gần đây, các nhà phát triển và nhà nghiên cứu AI đã làm việc trên các cách để làm cho Trí tuệ Nhân tạo Tạo sinh và LLM trở nên nổi bật hơn trong các tình huống thế giới thực với khả năng hoạt động tự chủ trong thế giới vật lý. Để đạt được hiệu suất tự chủ trong các tình huống vật lý và thế giới thực, các nhà nghiên cứu và nhà phát triển coi các trò chơi là một nền tảng thử nghiệm phù hợp để phát triển các tác nhân nhúng LLM với khả năng tương tác với môi trường ảo theo cách mà con người làm.

Trước đây, các nhà phát triển đã cố gắng phát triển các tác nhân nhúng LLM trên các trò chơi mô phỏng ảo như Minecraft và Sims, mặc dù người ta tin rằng các trò chơi chiến thuật như Pokémon có thể là một lựa chọn tốt hơn để phát triển các tác nhân này. Các trận đấu Pokémon cho phép các nhà phát triển đánh giá khả năng của một huấn luyện viên trong việc chiến đấu trong các trò chơi Pokémon nổi tiếng, và cung cấp một số lợi thế so với các trò chơi chiến thuật khác. Vì không gian hành động và trạng thái là rời rạc, nó có thể được dịch thành văn bản mà không mất mát. Hình ảnh sau minh họa một trận đấu Pokémon điển hình nơi người chơi được yêu cầu tạo ra một hành động để thực hiện tại mỗi lượt cho biết trạng thái hiện tại của Pokémon từ mỗi bên.

POKELLMON: Phương pháp và Kiến trúc

Khuôn khổ và kiến trúc tổng thể của khuôn khổ POKELLMON được minh họa trong hình ảnh sau.

Trong mỗi lượt, khuôn khổ POKELLMON sử dụng các hành động trước và phản hồi dựa trên văn bản tương ứng để tinh chỉnh chính sách lặp lại cùng với tăng cường thông tin trạng thái hiện tại với kiến thức bên ngoài như hiệu ứng khả năng/dịch chuyển hoặc mối quan hệ ưu thế/yếu điểm. Đối với thông tin được nhập, khuôn khổ POKELLMON tạo ra nhiều hành động độc lập và sau đó chọn các hành động nhất quán nhất làm đầu ra cuối cùng.

Học tăng cường trong Ngữ cảnh

Các vận động viên và người chơi thường đưa ra quyết định không chỉ dựa trên trạng thái hiện tại, mà họ cũng phản ánh phản hồi từ các hành động trước đó cũng như kinh nghiệm của các vận động viên khác. Nó sẽ an toàn khi nói rằng phản hồi tích cực là điều giúp một người chơi học từ sai lầm của mình và ngăn họ lặp lại sai lầm đó nhiều lần. Không có phản hồi thích hợp, các tác nhân POKELLMON có thể mắc kẹt trong cùng một hành động sai lầm, như được minh họa trong hình sau.

Như có thể quan sát được, tác nhân trong trò chơi sử dụng một đòn tấn công dựa trên nước chống lại một nhân vật Pokémon có khả năng “Da khô” cho phép nó vô hiệu hóa thiệt hại từ các đòn tấn công dựa trên nước. Trò chơi cố gắng cảnh báo người dùng bằng cách nhấp nháy thông điệp “Miễn dịch” trên màn hình có thể khiến người chơi con người xem xét lại hành động của mình và thay đổi chúng, thậm chí không biết về “Da khô”. Tuy nhiên, nó không được bao gồm trong mô tả trạng thái cho tác nhân, dẫn đến tác nhân lặp lại sai lầm đó.

Để đảm bảo rằng tác nhân POKELLMON học từ sai lầm trước đó của mình, khuôn khổ thực hiện phương pháp Học tăng cường trong Ngữ cảnh. Học tăng cường là một phương pháp phổ biến trong học máy và nó giúp các nhà phát triển tinh chỉnh chính sách vì nó yêu cầu phần thưởng số để đánh giá hành động. Vì các mô hình ngôn ngữ lớn có khả năng diễn giải và hiểu ngôn ngữ, các mô tả dựa trên văn bản đã xuất hiện như một hình thức mới của phần thưởng cho LLM.

  1. Thiệt hại thực tế gây ra bởi một đòn tấn công dựa trên sự khác biệt về HP trong hai lượt liên tiếp.
  2. Hiệu quả của các đòn tấn công. Phản hồi chỉ ra hiệu quả của đòn tấn công về mặt không có tác dụng hoặc miễn dịch, không hiệu quả hoặc siêu hiệu quả do hiệu ứng khả năng/dịch chuyển hoặc ưu thế loại.
  3. Thứ tự ưu tiên cho việc thực hiện một đòn. Vì thông tin chính xác về thống kê của nhân vật Pokémon đối thủ không có sẵn, thứ tự ưu tiên phản hồi cung cấp một ước tính thô về tốc độ.
  4. Hiệu quả thực tế của các đòn được thực hiện trên đối thủ. Cả đòn tấn công và trạng thái có thể dẫn đến kết quả như hồi phục HP, tăng trạng thái hoặc giảm trạng thái, gây ra các tình trạng như đóng băng, bỏng hoặc ngộ độc.

Hơn nữa, việc sử dụng phương pháp Học tăng cường trong Ngữ cảnh dẫn đến sự tăng đáng kể về hiệu suất như được minh họa trong hình sau.

Khi đặt so với hiệu suất ban đầu trên GPT-4, tỷ lệ thắng tăng lên gần 10% cùng với gần 13% tăng về điểm trận đấu. Hơn nữa, như được minh họa trong hình sau, tác nhân bắt đầu phân tích và thay đổi hành động của mình nếu các đòn được thực hiện trong các lượt trước không thể đáp ứng được kỳ vọng.

Sinh tạo Tăng cường Kiến thức hoặc KAG

Mặc dù việc thực hiện Học tăng cường trong Ngữ cảnh giúp giảm ảo giác đến một mức độ, nó vẫn có thể dẫn đến hậu quả nghiêm trọng trước khi tác nhân nhận được phản hồi. Ví dụ, nếu tác nhân quyết định chiến đấu với một Pokémon loại lửa bằng một Pokémon loại cỏ, trước đó có thể sẽ thắng trong một lượt. Để giảm ảo giác thêm và cải thiện khả năng ra quyết định của tác nhân, khuôn khổ POKELLMON thực hiện phương pháp Sinh tạo Tăng cường Kiến thức hoặc KAG, một kỹ thuật sử dụng kiến thức bên ngoài để tăng cường sinh tạo.

Bây giờ, khi mô hình tạo ra bốn loại phản hồi được thảo luận ở trên, nó chú thích các đòn và thông tin của Pokémon cho phép tác nhân suy luận ra mối quan hệ ưu thế loại một cách độc lập. Trong một nỗ lực để giảm ảo giác trong suy luận thêm, khuôn khổ POKELLMON chú thích rõ ràng ưu thế loại và điểm yếu của Pokémon đối thủ và Pokémon của tác nhân với các mô tả đầy đủ. Hơn nữa, nó rất khó để ghi nhớ các đòn và khả năng với các hiệu ứng riêng biệt của Pokémon, đặc biệt là vì có rất nhiều.

Hơn nữa, các nhà phát triển quan sát thấy rằng khi tác nhân được cung cấp kiến thức bên ngoài về Pokémon, nó bắt đầu sử dụng các đòn đặc biệt vào đúng thời điểm, như được minh họa trong hình sau.

Sinh tạo Hành động Nhất quán

Các mô hình hiện có cho thấy rằng việc thực hiện các phương pháp gợi nhắc và suy luận có thể tăng cường khả năng của LLM trong việc giải quyết các nhiệm vụ phức tạp. Thay vì tạo ra một hành động một lần, khuôn khổ POKELLMON đánh giá các chiến lược gợi nhắc hiện có bao gồm CoT hoặc Chuỗi Tư duy, ToT hoặc Cây Tư duy, và Tự nhất quán. Đối với Chuỗi Tư duy, tác nhân ban đầu tạo ra một suy nghĩ phân tích kịch bản trận đấu hiện tại và xuất ra một hành động có điều kiện dựa trên suy nghĩ đó.

Chỉ có một hành động cho mỗi lượt, điều này ngụ ý rằng ngay cả khi tác nhân quyết định chuyển đổi và đối thủ quyết định tấn công, Pokémon chuyển đổi sẽ nhận thiệt hại. Thông thường, tác nhân quyết định chuyển đổi vì nó muốn chuyển đổi một Pokémon ngoài trận đấu để có lợi thế loại, và do đó, Pokémon chuyển đổi có thể chịu đựng được thiệt hại, vì nó có khả năng chống lại các đòn của Pokémon đối thủ.

POKELLMON: Kết quả và Thử nghiệm

Trước khi chúng tôi thảo luận về kết quả, điều quan trọng là chúng tôi phải hiểu môi trường trận đấu. Vào đầu mỗi lượt, môi trường nhận được một thông điệp yêu cầu hành động từ máy chủ và sẽ trả lời thông điệp đó vào cuối, thông điệp cũng chứa kết quả thực hiện từ lượt trước.

  1. Trước tiên, phân tích thông điệp và cập nhật các biến trạng thái cục bộ, 2. sau đó dịch các biến trạng thái thành văn bản. Mô tả văn bản có chủ yếu bốn phần: 1. Thông tin đội của mình, chứa các thuộc tính của Pokémon trong lĩnh vực và ngoài lĩnh vực (chưa sử dụng).
  2. Thông tin đội đối thủ, chứa các thuộc tính của Pokémon đối thủ trong lĩnh vực và ngoài lĩnh vực (một số thông tin không xác định).
  3. Thông tin sân đấu, bao gồm thời tiết, các mối nguy hiểm khi vào và địa hình.
  4. Thông tin nhật ký lượt trước, chứa các hành động trước của cả hai Pokémon và được lưu trữ trong một hàng đợi nhật ký. LLM lấy trạng thái dịch làm đầu vào và xuất ra các hành động cho bước tiếp theo. Hành động sau đó được gửi đến máy chủ và thực hiện cùng một lúc với hành động được thực hiện bởi con người.

Trận đấu Chống lại Người chơi Con người

Bảng sau minh họa hiệu suất của tác nhân POKELLMON chống lại người chơi con người.

Như có thể quan sát được, tác nhân POKELLMON cung cấp hiệu suất tương đương với người chơi bậc thang có tỷ lệ thắng cao hơn khi so sánh với người chơi được mời cùng với kinh nghiệm trận đấu rộng lớn.

Phân tích Kỹ năng Trận đấu

Khuôn khổ POKELLMON hiếm khi mắc sai lầm khi chọn đòn hiệu quả và chuyển sang một Pokémon khác phù hợp nhờ vào chiến lược Sinh tạo Tăng cường Kiến thức.

Như được minh họa trong ví dụ trên, tác nhân sử dụng chỉ một Pokémon để đánh bại toàn bộ đội đối thủ vì nó có thể chọn các đòn tấn công khác nhau, những đòn hiệu quả nhất cho đối thủ trong tình huống đó. Hơn nữa, khuôn khổ POKELLMON cũng thể hiện chiến lược tiêu hao giống như con người. Một số Pokémon có một đòn “Độc” có thể gây thêm thiệt hại tại mỗi lượt, trong khi đòn “Hồi phục” cho phép nó hồi phục HP của mình.

Suy nghĩ Cuối cùng

Trong bài viết này, chúng tôi đã thảo luận về POKELLMON, một phương pháp cho phép các mô hình ngôn ngữ lớn chơi các trận đấu Pokémon chống lại con người một cách tự chủ. POKELLMON, nhằm mục đích trở thành tác nhân nhúng đầu tiên trên thế giới đạt được hiệu suất ngang bằng con người trên các trò chơi chiến thuật, tương tự như những gì được chứng kiến trong các trận đấu Pokémon. Khuôn khổ POKELLMON giới thiệu ba chiến lược chính: Học tăng cường trong Ngữ cảnh tiêu thụ phản hồi dựa trên văn bản như một “phần thưởng” để tinh chỉnh chính sách hành động lặp lại mà không cần đào tạo, Sinh tạo Tăng cường Kiến thức thu thập kiến thức bên ngoài để chống lại ảo giác và đảm bảo tác nhân hành động đúng và khi cần, và Sinh tạo Hành động Nhất quán ngăn chặn vấn đề chuyển đổi hoảng loạn khi gặp phải đối thủ mạnh.

"Một kỹ sư theo nghề nghiệp, một nhà văn theo trái tim". Kunal là một nhà văn kỹ thuật với tình yêu và hiểu biết sâu sắc về AI và ML, dành để đơn giản hóa các khái niệm phức tạp trong các lĩnh vực này thông qua tài liệu hấp dẫn và thông tin của mình.