talon Relier les points : démêler le prétendu modèle Q-Star d'OpenAI - Unite.AI
Suivez nous sur

Intelligence générale artificielle

Relier les points : démêler le prétendu modèle Q-Star d'OpenAI

mm

Publié le

 on

Récemment, de nombreuses spéculations ont eu lieu au sein de la communauté de l'IA autour du prétendu projet d'OpenAI, Q-star. Malgré le peu d’informations disponibles sur cette mystérieuse initiative, elle marquerait une étape importante vers la réalisation de l’intelligence artificielle générale, un niveau d’intelligence qui égale ou dépasse les capacités humaines. Alors qu’une grande partie du débat s’est concentrée sur les conséquences négatives potentielles de ce développement pour l’humanité, relativement peu d’efforts ont été consacrés à la découverte de la nature de Q-star et des avantages technologiques potentiels qu’il pourrait apporter. Dans cet article, j'adopterai une approche exploratoire, en essayant de démêler ce projet principalement à partir de son nom, qui, je pense, fournit suffisamment d'informations pour en tirer un aperçu.

Contexte du mystère

Tout a commencé lorsque le conseil des gouverneurs d'OpenAI a soudainement Sam Altman évincé, le PDG et co-fondateur. Bien qu’Altman ait été réintégré plus tard, des questions persistent concernant les événements. Certains y voient une lutte de pouvoir, tandis que d'autres l'attribuent à la concentration d'Altman sur d'autres projets comme Worldcoin. Cependant, l'intrigue s'épaissit lorsque Reuters rapporte qu'un projet secret appelé Q-star pourrait être la principale raison du drame. Selon Reuters, Q-Star marque une étape substantielle vers l'objectif AGI d'OpenAI, un sujet de préoccupation transmis au conseil des gouverneurs par les travailleurs d'OpenAI. L’émergence de cette nouvelle a suscité un flot de spéculations et d’inquiétudes.

Éléments de base du puzzle

Dans cette section, j'ai présenté quelques éléments de base qui nous aideront à percer ce mystère.

  • Q Apprentissage : Apprentissage par renforcement est un type d'apprentissage automatique dans lequel les ordinateurs apprennent en interagissant avec leur environnement et en recevant des commentaires sous forme de récompenses ou de pénalités. Q Learning est une méthode spécifique de l'apprentissage par renforcement qui aide les ordinateurs à prendre des décisions en apprenant la qualité (valeur Q) de différentes actions dans différentes situations. Il est largement utilisé dans des scénarios tels que les jeux vidéo et la robotique, permettant aux ordinateurs d'apprendre à prendre des décisions optimales grâce à un processus d'essais et d'erreurs.
  • Recherche d'étoiles : A-star est un algorithme de recherche qui aide les ordinateurs à explorer les possibilités et à trouver la meilleure solution pour résoudre un problème. L'algorithme se distingue particulièrement par son efficacité à trouver le chemin le plus court entre un point de départ et un objectif dans un graphique ou une grille. Sa principale force réside dans sa capacité à peser intelligemment le coût d’atteinte d’un nœud par rapport au coût estimé pour atteindre l’objectif global. En conséquence, A-star est largement utilisé pour relever les défis liés à la recherche de chemin et à l’optimisation.
  • AlphaZéro : AlphaZero, un système d'IA avancé de DeepMind, combine le Q-learning et la recherche (c'est-à-dire Monte Carlo Tree Search) pour la planification stratégique dans les jeux de société comme les échecs et le Go. Il apprend des stratégies optimales grâce au jeu autonome, guidé par un réseau neuronal pour les mouvements et l'évaluation des positions. L'algorithme Monte Carlo Tree Search (MCTS) équilibre l'exploration et l'exploitation dans l'exploration des possibilités de jeu. Le processus itératif de jeu personnel, d'apprentissage et de recherche d'AlphaZero conduit à une amélioration continue, permettant des performances surhumaines et des victoires sur des champions humains, démontrant ainsi son efficacité dans la planification stratégique et la résolution de problèmes.
  • Modèles de langage : Grands modèles de langage (LLM), comme GPT-3, sont une forme d’IA conçue pour comprendre et générer du texte de type humain. Ils suivent une formation sur des données Internet étendues et diversifiées, couvrant un large spectre de sujets et de styles d'écriture. La caractéristique remarquable des LLM est leur capacité à prédire le mot suivant dans une séquence, connue sous le nom de modélisation du langage. L'objectif est de faire comprendre comment les mots et les expressions s'interconnectent, permettant au modèle de produire un texte cohérent et contextuellement pertinent. La formation approfondie permet aux LLM de comprendre la grammaire, la sémantique et même les aspects nuancés de l'utilisation de la langue. Une fois formés, ces modèles de langage peuvent être affinés pour des tâches ou des applications spécifiques, ce qui en fait des outils polyvalents pour traitement du langage naturel, chatbots, génération de contenu, etc.
  • Intelligence générale artificielle : Intelligence générale artificielle (AGI) est un type d’intelligence artificielle capable de comprendre, d’apprendre et d’exécuter des tâches couvrant divers domaines à un niveau qui correspond ou dépasse les capacités cognitives humaines. Contrairement à l’IA étroite ou spécialisée, l’AGI possède la capacité de s’adapter, de raisonner et d’apprendre de manière autonome sans se limiter à des tâches spécifiques. AGI permet aux systèmes d’IA de mettre en valeur la prise de décision indépendante, la résolution de problèmes et la pensée créative, reflétant l’intelligence humaine. Essentiellement, AGI incarne l’idée d’une machine capable d’entreprendre n’importe quelle tâche intellectuelle effectuée par des humains, mettant en avant la polyvalence et l’adaptabilité dans divers domaines.

Principales limites des LLM pour atteindre l'AGI

Les grands modèles linguistiques (LLM) ont des limites dans la réalisation de l'intelligence générale artificielle (AGI). Bien qu’habiles au traitement et à la génération de textes basés sur des modèles appris à partir de vastes données, ils ont du mal à comprendre le monde réel, ce qui entrave une utilisation efficace des connaissances. L'AGI nécessite un raisonnement de bon sens et des capacités de planification pour gérer les situations quotidiennes, ce que les LLM trouvent difficiles. Bien qu’ils produisent des réponses apparemment correctes, ils n’ont pas la capacité de résoudre systématiquement des problèmes complexes, tels que les problèmes mathématiques.

De nouvelles études indiquent que les LLM peuvent imiter n'importe quel calcul comme un ordinateur universel, mais sont limités par le besoin d'une mémoire externe étendue. L’augmentation des données est cruciale pour améliorer les LLM, mais elle nécessite des ressources informatiques et une énergie importantes, contrairement au cerveau humain économe en énergie. Cela pose des défis pour rendre les LLM largement disponibles et évolutifs pour l'AGI. Des recherches récentes suggèrent que le simple fait d'ajouter davantage de données n'améliore pas toujours les performances, ce qui soulève la question de savoir sur quoi d'autre se concentrer dans le cheminement vers l'AGI.

Connecting Dots

De nombreux experts en IA estiment que les défis posés par les grands modèles linguistiques (LLM) proviennent de leur objectif principal : prédire le mot suivant. Cela limite leur compréhension des nuances linguistiques, du raisonnement et de la planification. Pour y faire face, les chercheurs aiment Yann LeCun suggérons d’essayer différentes méthodes de formation. Ils proposent que les LLM planifient activement la prédiction des mots, et pas seulement du prochain jeton.

L'idée de « Q-star », similaire à la stratégie d'AlphaZero, peut impliquer de demander aux LLM de planifier activement la prédiction de jetons, et pas seulement de prédire le mot suivant. Cela introduit un raisonnement et une planification structurés dans le modèle de langage, allant au-delà de l'accent habituel mis sur la prédiction du prochain jeton. En utilisant des stratégies de planification inspirées d'AlphaZero, les LLM peuvent mieux comprendre les nuances linguistiques, améliorer le raisonnement et la planification, en répondant ainsi aux limites des méthodes de formation LLM classiques.

Une telle intégration met en place un cadre flexible pour représenter et manipuler les connaissances, aidant le système à s'adapter aux nouvelles informations et tâches. Cette adaptabilité peut être cruciale pour l’intelligence générale artificielle (AGI), qui doit gérer diverses tâches et domaines avec des exigences différentes.

L'AGI a besoin de bon sens, et former les LLM au raisonnement peut les doter d'une compréhension globale du monde. En outre, la formation de LLM comme AlphaZero peut les aider à acquérir des connaissances abstraites, améliorant ainsi l'apprentissage par transfert et la généralisation dans différentes situations, contribuant ainsi aux solides performances d'AGI.

Outre le nom du projet, cette idée vient d'un rapport de Reuters, soulignant la capacité du Q-star à résoudre avec succès des problèmes mathématiques et de raisonnement spécifiques.

Conclusion

Q-Star, le projet secret d'OpenAI, fait des vagues dans le domaine de l'IA, visant une intelligence au-delà des humains. Au milieu des discussions sur ses risques potentiels, cet article approfondit le puzzle, reliant les points de Q-learning à AlphaZero et aux grands modèles linguistiques (LLM).

Nous pensons que « Q-star » signifie une fusion intelligente de l'apprentissage et de la recherche, donnant aux LLM un coup de pouce en matière de planification et de raisonnement. Alors que Reuters déclare qu’il peut résoudre des problèmes mathématiques et de raisonnement délicats, cela suggère une avancée majeure. Cela nécessite d’examiner de plus près la direction que pourrait prendre l’apprentissage de l’IA à l’avenir.

Le Dr Tehseen Zia est professeur agrégé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en IA de l'Université de technologie de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté d'importantes contributions avec des publications dans des revues scientifiques réputées. Le Dr Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi à titre de consultant en IA.