Intelligence Artificielle
DeepMind crée une IA qui rejoue des souvenirs comme l'hippocampe

Le cerveau humain rappelle souvent des souvenirs passés (apparemment) spontanément. Tout au long de notre journée, nous avons des flashs spontanés de souvenirs de nos vies. Alors que cette conjuration spontanée de souvenirs intéresse depuis longtemps les neuroscientifiques, la société de recherche en intelligence artificielle DeepMind a récemment publié un document détaillant comment une de leurs IA a reproduit cet étrange schéma de rappel.
La conjuration des souvenirs dans le cerveau, la répétition neuronale, est étroitement liée à la hippocampe. L'hippocampe est une formation en forme d'hippocampe dans le cerveau qui appartient au système limbique, et il est associé à la formation de nouveaux souvenirs, ainsi qu'aux émotions que les souvenirs suscitent. Les théories actuelles sur le rôle de l'hippocampe (il y en a un dans chaque hémisphère du cerveau), affirment que différentes régions de l'hippocampe sont responsables de la gestion de différents types de souvenirs. Par exemple, on pense que la mémoire spatiale est gérée dans la région arrière de l'hippocampe.
Tel que rapporté par Jesus Rodriguez, Dr John O'Keefe est responsable de nombreuses contributions à notre compréhension de l'hippocampe, y compris l'hippocampe cellules de « lieu ». Les cellules de lieu dans l'hippocampe sont déclenchées par des stimuli dans un environnement spécifique. Par exemple, des expériences sur des rats ont montré que des neurones spécifiques se déclenchent lorsque les rats parcourent certaines portions d'une piste. Les chercheurs ont continué à surveiller les rats même lorsqu'ils se reposaient, et ils ont découvert que les mêmes schémas de neurones indiquant une partie du labyrinthe se déclencheraient, bien qu'ils se déclenchent à une vitesse accélérée. Les rats semblaient rejouer les souvenirs du labyrinthe dans leur esprit.
Chez l'homme, le rappel des souvenirs est une partie importante du processus d'apprentissage, mais lorsqu'on essaie de permettre à l'IA d'apprendre, il est difficile de recréer le phénomène.
L'équipe de DeepMind s'est mise à essayer de recréer le phénomène de rappel en utilisant l'apprentissage par renforcement. Les algorithmes d'apprentissage par renforcement fonctionnent en obtenant un retour de leurs interactions avec l'environnement qui les entoure, en étant récompensés chaque fois qu'ils entreprennent des actions qui les rapprochent de l'objectif souhaité. Dans ce contexte, l'agent d'apprentissage par renforcement enregistre les événements, puis les rejoue ultérieurement, le système étant renforcé pour améliorer l'efficacité avec laquelle il finit par rappeler les expériences passées.
DeepMind a ajouté la relecture des expériences à un algorithme d'apprentissage par renforcement à l'aide d'un tampon de relecture qui relirait les souvenirs/expériences enregistrées sur le système à des moments précis. Certaines versions du système avaient les expériences lues dans des ordres aléatoires tandis que d'autres modèles avaient des ordres de lecture présélectionnés. Alors que les chercheurs ont expérimenté l'ordre de lecture des agents de renforcement, ils ont également expérimenté différentes méthodes pour rejouer les expériences elles-mêmes.
Deux méthodes principales sont utilisées pour fournir des algorithmes de renforcement avec des expériences rappelées. Ces méthodes sont la méthode de relecture d'imagination et la méthode de relecture de film. L'article DeepMind utilise une analogie pour décrire les deux stratégies :
« Supposez que vous rentriez chez vous et, à votre grande surprise et consternation, découvriez l'accumulation d'eau sur vos beaux planchers en bois. En entrant dans la salle à manger, vous trouvez un vase cassé. Ensuite, vous entendez un gémissement et vous jetez un coup d'œil par la porte-fenêtre pour voir que votre chien a l'air très coupable.
Comme l'a rapporté Rodriguez, la méthode de relecture imaginaire n'enregistre pas les événements dans l'ordre où ils ont été vécus. Elle infère plutôt une cause probable entre les événements. Les événements sont déduits de la compréhension du monde par l'agent. La méthode de relecture de film, quant à elle, stocke les souvenirs dans l'ordre où les événements se sont produits et rejoue la séquence de stimuli – « eau renversée, vase cassé, chien ». L'ordre chronologique des événements est préservé.
La recherche dans le domaine des neurosciences implique que la méthode de relecture de film fait partie intégrante de la création d'associations entre concepts et de la connexion de neurones entre événements. Or la méthode du rejeu de l'imagination pourrait aider l'agent à créer de nouvelles séquences lorsqu'il raisonne par analogie. Par exemple, l'agent pourrait penser que si un baril est à l'huile ce qu'un vase est à l'eau, un baril pourrait être renversé par un robot d'usine au lieu d'un chien. En effet, lorsque DeepMind a approfondi les possibilités de la méthode de relecture de l'imagination, ils ont découvert que leur agent d'apprentissage était capable de créer des séquences impressionnantes et innovantes en tenant compte des expériences précédentes.
La plupart des progrès actuels réalisés dans le domaine de la mémoire d'apprentissage par renforcement sont réalisés avec la stratégie du film, bien que les chercheurs aient récemment commencé à faire des progrès avec la stratégie de l'imagination. La recherche sur les deux méthodes de mémoire IA peut non seulement permettre de meilleures performances des agents d'apprentissage par renforcement, mais elles peuvent également nous aider à mieux comprendre comment l'esprit humain pourrait fonctionner.












