Intelligence Artificielle
DIAMOND : les détails visuels comptent dans Atari et Diffusion pour la modélisation mondiale
C'était en 2018, quand l'idée de apprentissage par renforcement dans le contexte d'un modèle mondial de réseau neuronal a été introduit pour la première fois, et bientôt, ce principe fondamental a été appliqué aux modèles mondiaux. Certains des modèles les plus importants qui mettent en œuvre l'apprentissage par renforcement étaient le cadre Dreamer, qui introduisait l'apprentissage par renforcement à partir de l'espace latent d'un modèle spatial d'états récurrents. Le DreamerV2 a démontré que l'utilisation de latentes discrètes pouvait entraîner une réduction des erreurs de composition, et le framework DreamerV3 a pu atteindre des performances semblables à celles d'un humain sur une série de tâches dans différents domaines avec des hyperparamètres fixes.
En outre, des parallèles peuvent être établis entre les modèles de génération d’images et les modèles mondiaux, indiquant que les progrès réalisés dans les modèles de vision générative pourraient être reproduits au profit des modèles mondiaux. Depuis l'utilisation des transformateurs dans traitement du langage naturel Les frameworks ont gagné en popularité, les frameworks DALL-E et VQGAN ont émergé. Les frameworks ont implémenté des auto-encodeurs discrets pour convertir les images en jetons discrets et ont pu créer des modèles génératifs de texte en image très puissants et efficaces en exploitant les capacités de modélisation de séquence des transformateurs autorégressifs. Dans le même temps, les modèles de diffusion ont gagné du terrain et se sont aujourd’hui imposés comme un paradigme dominant pour la génération d’images haute résolution. En raison des capacités offertes par les modèles de diffusion et l'apprentissage par renforcement, des tentatives sont en cours pour combiner les deux approches, dans le but de tirer parti de la flexibilité des modèles de diffusion en tant que modèles de trajectoire, modèles de récompense, planificateurs et politique d'augmentation des données dans apprentissage par renforcement hors ligne.
Les modèles mondiaux offrent une méthode prometteuse pour former les agents d’apprentissage par renforcement de manière sûre et efficace. Traditionnellement, ces modèles utilisent des séquences de variables latentes discrètes pour simuler la dynamique de l'environnement. Cependant, cette compression peut négliger des détails visuels cruciaux pour l’apprentissage par renforcement. Dans le même temps, les modèles de diffusion ont gagné en popularité pour la génération d’images, remettant en question les méthodes traditionnelles utilisant des latentes discrètes. Inspirés par ce changement, dans cet article, nous parlerons de DIAMOND (DIffusion As a Model Of eNvironment Dreams), un agent d'apprentissage par renforcement formé dans un modèle mondial de diffusion. Nous explorerons les choix de conception nécessaires pour rendre la diffusion adaptée à la modélisation mondiale et montrerons que des détails visuels améliorés conduisent à de meilleures performances des agents. DIAMOND établit une nouvelle référence sur le test compétitif Atari 100k, atteignant un score humain normalisé moyen de 1.46, le plus élevé pour des agents formés entièrement dans un modèle mondial.
DIAMOND : LA Diffusion comme modèle de rêves environnementaux
Les modèles mondiaux ou modèles génératifs d'environnements apparaissent comme l'un des composants les plus importants permettant aux agents génératifs de planifier et de raisonner sur leurs environnements. Bien que l’utilisation de l’apprentissage par renforcement ait connu un succès considérable ces dernières années, les modèles mettant en œuvre l’apprentissage par renforcement sont connus pour être inefficaces, ce qui limite considérablement leurs applications dans le monde réel. D’autre part, les modèles mondiaux ont démontré leur capacité à former efficacement des agents d’apprentissage par renforcement dans divers environnements avec une efficacité d’échantillonnage considérablement améliorée, permettant au modèle d’apprendre des expériences du monde réel. Les cadres de modélisation mondiale récents modélisent généralement la dynamique de l'environnement comme une séquence de variables latentes discrètes, le modèle discrétisant l'espace latent pour éviter de cumuler les erreurs sur des horizons temporels à plusieurs étapes. Même si cette approche peut donner des résultats substantiels, elle est également associée à une perte d’informations, entraînant une perte de qualité de reconstruction et une perte de généralité. La perte d’informations pourrait devenir un obstacle important pour les scénarios du monde réel qui nécessitent que les informations soient bien définies, comme la formation de véhicules autonomes. Dans de telles tâches, de petits changements ou détails dans l'entrée visuelle comme la couleur du feu de circulation ou le clignotant du véhicule qui précède peuvent changer la politique d'un agent. Bien que l’augmentation du nombre de latents discrets puisse aider à éviter la perte d’informations, cela réduit considérablement les coûts de calcul.
De plus, ces dernières années, les modèles de diffusion sont devenus l'approche dominante pour les cadres de génération d'images de haute qualité, car les cadres construits sur des modèles de diffusion apprennent à inverser un processus de bruit et entrent directement en concurrence avec certaines des approches les plus bien établies modélisant des jetons discrets. , et offre donc une alternative prometteuse pour éliminer le besoin de discrétisation dans la modélisation du monde. Les modèles de diffusion sont connus pour leur capacité à être facilement conditionnés et à modéliser de manière flexible des distributions complexes et multimodales sans effondrement des modes. Ces attributs sont cruciaux pour la modélisation mondiale, car le conditionnement permet à un modèle mondial de refléter avec précision les actions d'un agent, conduisant ainsi à une attribution de crédit plus fiable. De plus, la modélisation de distributions multimodales offre une plus grande diversité de scénarios de formation pour l'agent, améliorant ainsi ses performances globales.
S'appuyant sur ces caractéristiques, DIAMOND (DIffusion As a Model Of eNvironment Dreams), un agent d'apprentissage par renforcement formé dans un modèle mondial de diffusion. Le cadre DIAMOND fait des choix de conception prudents pour garantir que son modèle mondial de diffusion reste efficace et stable sur de longues périodes. Le cadre fournit une analyse qualitative pour démontrer l’importance de ces choix de conception. DIAMOND établit un nouvel état de l'art avec un score humain normalisé moyen de 1.46 sur la référence bien établie Atari 100k, le plus élevé pour les agents formés entièrement dans un modèle mondial. Fonctionner dans l'espace image permet au modèle mondial de diffusion de DIAMOND de remplacer de manière transparente l'environnement, offrant ainsi une meilleure compréhension du modèle mondial et des comportements des agents. L’amélioration des performances de certains jeux est notamment attribuée à une meilleure modélisation des détails visuels critiques. Le framework DIAMOND modélise l'environnement comme un POMDP standard ou processus de décision de Markov partiellement observable avec un ensemble d'états, un ensemble d'actions discrètes et un ensemble d'observations d'images. Les fonctions de transition décrivent la dynamique de l'environnement et la fonction de récompense mappe les transitions vers des récompenses scalaires. La fonction d'observation décrit les probabilités d'observation et émet des observations d'images, qui sont ensuite utilisées par les agents pour voir les environnements, puisqu'ils ne peuvent pas accéder directement aux états. L’objectif principal de l’approche était d’obtenir une politique qui mappe les observations aux actions en tentant de maximiser le rendement d’actualisation attendu avec un facteur d’actualisation. Les modèles mondiaux sont des modèles génératifs de l'environnement, et les modèles mondiaux peuvent être utilisés pour créer des environnements simulés pour former des agents d'apprentissage par renforcement dans l'environnement réel et former des agents d'apprentissage par renforcement dans l'environnement du modèle mondial. La figure 1 montre l'imagination déployée par le cadre DIAMOND au fil du temps.
DIAMOND : Méthodologie et Architecture
À la base, les modèles de diffusion sont une classe de modèles génératifs qui génèrent un échantillon en inversant le processus de bruit et s’inspirent fortement de la thermodynamique hors équilibre. Le cadre DIAMOND considère un processus de diffusion indexé par une variable de temps continue avec des marges et des conditions aux limites correspondantes avec une distribution a priori non structurée traitable. De plus, pour obtenir un modèle génératif, qui mappe le bruit aux données, le cadre DIAMOND doit inverser le processus, le processus de réversion étant également un processus de diffusion, remontant dans le temps. De plus, à un moment donné, il n'est pas trivial d'estimer la fonction de score puisque le cadre DIAMOND n'accède pas à la véritable fonction de score, et le modèle surmonte cet obstacle en mettant en œuvre un objectif de correspondance de score, une approche qui facilite un cadre pour entraîner un modèle de score sans connaître la fonction de score sous-jacente. Le modèle de diffusion basé sur les scores fournit un modèle génératif inconditionnel. Cependant, un modèle génératif conditionnel de la dynamique de l'environnement est nécessaire pour servir de modèle mondial, et pour atteindre cet objectif, le cadre DIAMOND examine le cas général de l'approche POMDP, dans lequel le cadre peut utiliser des observations et des actions passées pour se rapproche de l'état markovien inconnu. Comme le démontre la figure 1., le cadre DIAMOND utilise cet historique pour conditionner un modèle de diffusion, afin d'estimer et de générer directement l'observation suivante. Bien que le cadre DIAMOND puisse en théorie recourir à n'importe quel solveur SDE ou ODE, il existe un compromis entre NFE ou nombre d'évaluations de fonctions et la qualité des échantillons qui a un impact significatif sur le coût d'inférence des modèles de diffusion.
En nous appuyant sur les apprentissages ci-dessus, examinons maintenant la réalisation pratique du cadre DIAMOND d'un modèle mondial basé sur la diffusion incluant les coefficients de dérive et de diffusion correspondant à un choix particulier d'approche de diffusion. Au lieu d'opter pour DDPM, un candidat naturellement approprié pour cette tâche, le cadre DIAMOND s'appuie sur la formulation EDM et considère un noyau de perturbation avec une fonction à valeur réelle du temps de diffusion appelée programme de bruit. Le cadre sélectionne les préconditionneurs pour conserver la variance d'entrée et de sortie pour n'importe quel niveau de voix. La formation du réseau mélange le signal et le bruit de manière adaptative en fonction du niveau de dégradation et lorsque le bruit est faible, et la cible devient la différence entre le signal propre et le signal perturbé, c'est-à-dire le bruit gaussien ajouté. Intuitivement, cela évite que l’objectif de formation ne devienne trivial en régime à faible bruit. En pratique, cet objectif est une variance élevée aux extrémités du programme de bruit, de sorte que le modèle échantillonne le niveau de bruit à partir d'une distribution log-normale choisie empiriquement afin de concaténer l'entraînement autour des régions de bruit moyen. Le framework DIAMOND utilise un composant U-Net 2D standard pour le champ vectoriel et conserve un tampon d'observations et d'actions passées que le framework utilise pour se conditionner. Le cadre DIAMOND concatène ensuite ces observations passées à l'observation bruyante suivante et entre les actions via des couches de normalisation de groupe adaptatives dans les blocs résiduels de l'U-Net.
DIAMANT : Expériences et résultats
Pour une évaluation complète, le framework DIAMOND opte pour le benchmark Atari 100k. Le benchmark Atari 100k se compose de 26 jeux conçus pour tester un large éventail de capacités d'agents. Dans chaque jeu, un agent est limité à 100 2 actions dans l'environnement, ce qui équivaut à peu près à 50 heures de jeu humain, pour apprendre le jeu avant évaluation. À titre de comparaison, les agents Atari sans contraintes s’entraînent généralement pendant 500 millions de pas, ce qui représente une expérience 5 fois supérieure. Nous avons formé DIAMOND à partir de zéro en utilisant 12 graines aléatoires pour chaque partie. Chaque exécution de formation nécessitait environ 2.9 Go de VRAM et prenait environ 4090 jours sur un seul Nvidia RTX 1.03, soit XNUMX années GPU au total. Le tableau suivant fournit le score pour tous les jeux, la moyenne et l'IQM ou moyenne interquartile des scores normalisés par l'homme.
Compte tenu des limites des estimations ponctuelles, le cadre DIAMOND fournit une confiance bootstrap stratifiée dans la moyenne et l'IQM ou moyenne interquartile des scores normalisés par l'homme, ainsi que des profils de performance et des mesures supplémentaires, comme résumé dans la figure suivante.
Les résultats montrent que DIAMOND affiche des performances exceptionnelles sur l'ensemble du benchmark, surpassant les joueurs humains dans 11 parties et atteignant un HNS moyen surhumain de 1.46, établissant un nouveau record pour des agents entièrement entraînés dans un modèle mondial. De plus, l'IQM de DIAMOND est comparable à celui de STORM et dépasse toutes les autres références. DIAMOND excelle dans les environnements où la capture de petits détails est cruciale, comme Astérix, Breakout et RoadRunner. De plus, comme indiqué précédemment, le framework DIAMOND offre la flexibilité d'implémenter n'importe quel modèle de diffusion dans son pipeline. Bien qu'il opte pour l'approche EDM, il aurait été naturel d'opter pour le modèle DDPM, car il est déjà implémenté dans de nombreuses applications de génération d'images. Pour comparer l'approche EDM à l'implémentation DDPM, le framework DIAMOND entraîne les deux variantes avec la même architecture réseau sur le même jeu de données statique partagé, avec plus de 100 16 images collectées avec une politique experte. Le nombre d'étapes de débruitage est directement lié au coût d'inférence du modèle du monde. Par conséquent, un nombre réduit d'étapes réduira le coût d'entraînement d'un agent sur des trajectoires imaginaires. Afin de garantir que notre modèle du monde reste comparable, sur le plan informatique, à d'autres modèles de référence, comme IRIS qui nécessite 1000 NFE par pas de temps, nous visons à n'utiliser que quelques dizaines d'étapes de débruitage, de préférence moins. Cependant, un nombre d'étapes de débruitage trop faible peut dégrader la qualité visuelle et entraîner des erreurs de composition. Pour évaluer la stabilité de différentes variantes de diffusion, nous présentons dans la figure suivante des trajectoires imaginaires générées de manière autorégressive jusqu'à t = 10 XNUMX pas de temps, en utilisant différents nombres d'étapes de débruitage n ≤ XNUMX.
Nous observons que l’utilisation de DDPM (a) dans ce régime entraîne de graves erreurs de composition, entraînant une dérive rapide du modèle mondial hors de la distribution. En revanche, le modèle mondial de diffusion (b) basé sur l'EDM reste beaucoup plus stable sur de longues périodes, même avec une seule étape de débruitage. Des trajectoires imaginées avec modèles du monde de diffusion basés sur DDPM (à gauche) et EDM (à droite) sont affichés. L'observation initiale à t = 0 est la même pour les deux, et chaque ligne correspond à un nombre décroissant d'étapes de débruitage n. Nous observons que la génération basée sur DDPM souffre d'erreurs de composition, un nombre plus petit d'étapes de débruitage conduisant à une accumulation d'erreurs plus rapide. En revanche, le modèle mondial basé sur l'EDM de DIAMOND reste beaucoup plus stable, même pour n = 1. La prédiction optimale en une seule étape est l'attente sur les reconstructions possibles pour une entrée bruyante donnée, qui peut être hors distribution si la distribution postérieure est multimodale. . Alors que certains jeux, comme Breakout, comportent des transitions déterministes qui peuvent être modélisées avec précision avec une seule étape de débruitage, d'autres jeux présentent une observabilité partielle, ce qui entraîne des distributions d'observations multimodales. Dans ces cas, un solveur itératif est nécessaire pour guider la procédure d’échantillonnage vers un mode spécifique, comme illustré dans le jeu Boxing dans la figure suivante. Par conséquent, le cadre DIAMOND a défini n = 3 dans toutes nos expériences.
La figure ci-dessus compare l'échantillonnage en une seule étape (rangée du haut) et en plusieurs étapes (rangée du bas) en boxe. Les mouvements du joueur noir sont imprévisibles, ce qui entraîne une interpolation du débruitage en une seule étape entre les résultats possibles, ce qui donne lieu à des prédictions floues. En revanche, l’échantillonnage multi-étapes produit une image claire en guidant la génération vers un mode spécifique. Il est intéressant de noter que puisque la politique contrôle le joueur blanc, ses actions sont connues du modèle mondial, éliminant ainsi toute ambiguïté. Ainsi, l'échantillonnage en une seule étape et en plusieurs étapes prédit correctement la position du joueur blanc.
Dans la figure ci-dessus, les trajectoires imaginées par DIAMOND présentent généralement une qualité visuelle supérieure et sont plus fidèles à l'environnement réel par rapport à celles imaginées par IRIS. Les trajectoires générées par IRIS contiennent des incohérences visuelles entre les images (mises en évidence par des cases blanches), comme les ennemis affichés en récompense et vice-versa. Même si ces incohérences n’affectent que quelques pixels, elles peuvent avoir un impact significatif sur l’apprentissage par renforcement. Par exemple, un agent vise généralement à cibler les récompenses et à éviter les ennemis, de sorte que ces petits écarts visuels peuvent rendre plus difficile l’apprentissage d’une politique optimale. La figure montre des images consécutives imaginées avec IRIS (à gauche) et DIAMOND (à droite). Les cases blanches mettent en évidence les incohérences entre les images, qui n'apparaissent que dans les trajectoires générées avec IRIS. Dans Astérix (rangée du haut), un ennemi (orange) devient une récompense (rouge) dans la deuxième image, puis redevient un ennemi dans la troisième, et de nouveau une récompense dans la quatrième. Dans Breakout (rangée du milieu), les briques et le score sont incohérents entre les images. Dans Road Runner (rangée du bas), les récompenses (petits points bleus sur la route) sont rendues de manière incohérente entre les images. Ces incohérences ne se produisent pas avec DIAMOND. Dans Breakout, le score est mis à jour de manière fiable de +7 lorsqu'une brique rouge est cassée.
Conclusion
Dans cet article, nous avons parlé de DIAMOND, un agent d'apprentissage par renforcement formé dans un modèle mondial de diffusion. Le cadre DIAMOND fait des choix de conception prudents pour garantir que son modèle mondial de diffusion reste efficace et stable sur de longues périodes. Le cadre fournit une analyse qualitative pour démontrer l’importance de ces choix de conception. DIAMOND établit un nouvel état de l'art avec un score humain normalisé moyen de 1.46 sur la référence bien établie Atari 100k, le plus élevé pour les agents formés entièrement dans un modèle mondial. Fonctionner dans l'espace image permet au modèle mondial de diffusion de DIAMOND de remplacer de manière transparente l'environnement, offrant ainsi une meilleure compréhension du modèle mondial et des comportements des agents. L’amélioration des performances de certains jeux est notamment attribuée à une meilleure modélisation des détails visuels critiques. Le framework DIAMOND modélise l'environnement comme un POMDP standard ou processus de décision de Markov partiellement observable avec un ensemble d'états, un ensemble d'actions discrètes et un ensemble d'observations d'images. Les fonctions de transition décrivent la dynamique de l'environnement et la fonction de récompense mappe les transitions vers des récompenses scalaires.












