talon Au-delà de ChatGPT ; Agent IA : un nouveau monde de travailleurs - Unite.AI
Suivez nous sur

Outils IA 101

Au-delà de ChatGPT ; Agent IA : un nouveau monde de travailleurs

mm

Publié le

 on

Avec les progrès de l’apprentissage profond, du traitement du langage naturel (NLP) et de l’IA, nous sommes dans une période où les agents d’IA pourraient constituer une partie importante de la main-d’œuvre mondiale. Ces agents IA, transcendant les chatbots et les assistants vocaux, façonnent un nouveau paradigme pour les industries et notre vie quotidienne. Mais que signifie réellement vivre dans un monde augmenté par ces « travailleurs » ? Cet article plonge profondément dans ce paysage en évolution, évaluant les implications, le potentiel et les défis à venir.

Un bref récapitulatif : l'évolution des travailleurs de l'IA

Avant de comprendre la révolution imminente, il est crucial de reconnaître l’évolution déjà intervenue grâce à l’IA.

  • Systèmes informatiques traditionnels: À partir des algorithmes informatiques de base, le voyage a commencé. Ces systèmes pourraient résoudre des tâches prédéfinies en utilisant un ensemble fixe de règles.
  • Chatbots et premiers assistants vocaux: À mesure que la technologie a évolué, nos interfaces ont également évolué. Des outils tels que Siri, Cortana et les premiers chatbots simplifiaient l'interaction utilisateur-IA, mais avaient une compréhension et des capacités limitées.
  • Réseaux de neurones et apprentissage profond: Les réseaux de neurones ont marqué un tournant, imitant les fonctions du cerveau humain et évoluant au fil de l'expérience. Les techniques d’apprentissage profond ont encore amélioré cela, permettant une reconnaissance sophistiquée de l’image et de la parole.
  • Transformateurs et modèles PNL avancés: L'introduction des architectures de transformateurs a révolutionné le paysage du NLP. Des systèmes comme ChatGPT par OpenAI, BERT et T5 ont permis des percées dans la communication homme-IA. Grâce à leur compréhension approfondie du langage et du contexte, ces modèles peuvent tenir des conversations significatives, rédiger du contenu et répondre à des questions complexes avec une précision sans précédent.

Entrez dans l'agent IA : plus qu'une simple conversation

Aujourd'hui Paysage de l'IA fait allusion à quelque chose de plus vaste que les outils de conversation. Les agents IA, au-delà des simples fonctions de chat, peuvent désormais effectuer des tâches, apprendre de leur environnement, prendre des décisions et même faire preuve de créativité. Ils ne se contentent pas de répondre aux questions ; ils résolvent des problèmes.

Les modèles logiciels traditionnels ont suivi une voie claire. Les parties prenantes ont exprimé un objectif aux gestionnaires de logiciels, qui ont ensuite conçu un plan spécifique. Les ingénieurs exécuteraient ce plan via des lignes de code. Ce « paradigme hérité » des fonctionnalités logicielles était clair et impliquait une pléthore d'interventions humaines.

Les agents IA fonctionnent cependant différemment. Un agent:

  1. A objectifs il cherche à atteindre.
  2. Pouvez interagir avec ses sûr, heureux et sain.
  3. Formule un plan sur la base de ces observations pour atteindre son objectif.
  4. Prend nécessaire actes, ajuster son approche en fonction de l'état changeant de l'environnement.

Ce qui distingue véritablement les agents d’IA des modèles traditionnels, c’est leur capacité à créer de manière autonome un plan étape par étape pour atteindre un objectif. Essentiellement, alors qu'auparavant le programmeur fournissait le plan, les agents d'IA d'aujourd'hui tracent leur voie.

Prenons un exemple quotidien. Dans la conception de logiciels traditionnels, un programme informerait les utilisateurs des tâches en retard en fonction de conditions prédéterminées. Les développeurs définiraient ces conditions sur la base des spécifications fournies par le chef de produit.

Dans le paradigme de l’agent IA, l’agent détermine lui-même quand et comment avertir l’utilisateur. Il évalue l'environnement (habitudes de l'utilisateur, état de l'application) et décide de la meilleure marche à suivre. Le processus devient ainsi plus dynamique, plus dans l’instant.

ChatGPT a marqué une rupture avec son utilisation traditionnelle avec l'intégration de plugins, lui permettant ainsi d'exploiter des outils externes pour effectuer plusieurs requêtes. C’est devenu l’une des premières manifestations du concept d’agent. Si l'on considère un exemple simple : un utilisateur se renseignant sur la météo de la ville de New York, ChatGPT, en tirant parti des plugins, pourrait interagir avec une API météo externe, interpréter les données et même corriger le cap en fonction des réponses reçues.

Paysage actuel des agents IA

Paysage actuel des agents IA

Les agents d'IA, notamment Auto-GPT, AgentGPT et BabyAGI, annoncent une nouvelle ère dans le vaste univers de l'IA. Tandis que ChatGPT popularisait IA générative en exigeant une contribution humaine, la vision derrière les agents d’IA est de permettre aux IA de fonctionner de manière indépendante, en se dirigeant vers des objectifs avec peu ou pas d’interférence humaine. Ce potentiel de transformation a été souligné par l'ascension fulgurante d'Auto-GPT, qui a récolté plus de 107,000 XNUMX étoiles sur GitHub en seulement six semaines après sa création, une croissance sans précédent par rapport aux projets établis comme le package de science des données « pandas ».

Agents IA contre ChatGPT

De nombreux agents d'IA avancés, tels qu'Auto-GPT et BabyAGI, utilisent l'architecture GPT. Leur objectif principal est de minimiser le besoin d’intervention humaine dans l’accomplissement des tâches d’IA. Des termes descriptifs comme « GPT en boucle » caractérisent le fonctionnement de modèles comme AgentGPT et BabyAGI. Ils fonctionnent selon des cycles itératifs pour mieux comprendre les demandes des utilisateurs et affiner leurs résultats. Parallèlement, Auto-GPT repousse les limites en intégrant des capacités d'accès à Internet et d'exécution de code, élargissant ainsi considérablement sa portée en matière de résolution de problèmes.

Innovations dans les agents IA

  1. Memoire à long terme: Les LLM traditionnels ont une mémoire limitée, ne conservant que les segments récents d'interactions. Pour des tâches complètes, se souvenir de l’intégralité de la conversation ou même des précédentes devient essentiel. Pour surmonter ce problème, les agents d'IA ont adopté des flux de travail intégrés, convertissant les conversations textuelles en tableaux numériques, offrant ainsi une solution aux contraintes de mémoire.
  2. Capacités de navigation Web: Pour rester informé des événements récents, Auto-GPT s'est doté de fonctionnalités de navigation, utilisant l'API de recherche Google. Cela a suscité des débats au sein de la communauté de l'IA concernant l'étendue des connaissances d'une IA.
  3. Code d'exécution: Au-delà de la génération de code, Auto-GPT peut exécuter à la fois des codes shell et Python. Cette capacité inédite lui permet de s'interfacer avec d'autres logiciels, élargissant ainsi son domaine opérationnel.

AGENTS IA ARCHITECTURE AUTOGPT, AGENTGPT, LLM, MEMORY ET plus

Le diagramme visualise l'architecture d'un système d'IA alimenté par un grand modèle de langage et des agents.

  • Contributions: Le système reçoit des données de diverses sources : commandes utilisateur directes, bases de données structurées, contenu Web et capteurs environnementaux en temps réel.
  • LLM et agents: À la base, le LLM traite ces entrées, en collaborant avec des agents spécialisés comme Auto-GPT pour enchaîner les pensées, AgentGPT pour les tâches spécifiques au Web, BabyAGI pour des actions spécifiques à une tâche, et HuggingGPT pour un traitement en équipe.
  • Sortie: Une fois traitées, les informations sont transformées dans un format convivial puis relayées vers des appareils capables d'agir ou d'influencer l'environnement extérieur.
  • Composants de la mémoire: Le système conserve les informations, à la fois de manière temporaire et permanente, via des caches à court terme et des bases de données à long terme.
  • Environment: Il s'agit du domaine externe, qui affecte les capteurs et est impacté par les actions du système.

Agents IA avancés : Auto-GPT, BabyAGI et plus

AutoGPT et AgentGPT

GPT automatique, une idée originale publiée sur GitHub en mars 2023, est une ingénieuse application basée sur Python qui exploite la puissance de GPT, le modèle génératif transformateur d'OpenAI. Ce qui distingue Auto-GPT de ses prédécesseurs est son autonomie : il est conçu pour entreprendre des tâches avec un minimum de conseils humains et possède la capacité unique de lancer automatiquement des invites. Les utilisateurs doivent simplement définir un objectif primordial, et Auto-GPT crée les invites nécessaires pour atteindre cet objectif, ce qui en fait un saut potentiellement révolutionnaire vers une véritable intelligence artificielle générale (AGI).

Avec des fonctionnalités couvrant la connectivité Internet, la gestion de la mémoire et les capacités de stockage de fichiers utilisant GPT-3.5, cet outil est capable de gérer un large éventail de tâches, depuis les tâches conventionnelles comme la composition d'e-mails jusqu'aux tâches complexes qui nécessiteraient généralement beaucoup plus d'implication humaine.

D'autre part, AgentGPT, également construit sur le framework GPT, est une interface centrée sur l'utilisateur qui ne nécessite pas d'expertise approfondie en codage pour sa configuration et son utilisation. AgentGPT permet aux utilisateurs de définir des objectifs d'IA, qu'il décompose ensuite en tâches gérables.

AgentGPT AI AGENT LLM

Interface utilisateur AgentGPT

De plus, AgentGPT se distingue par sa polyvalence. Cela ne se limite pas à la création de chatbots. La plate-forme étend ses capacités pour créer diverses applications telles que les robots Discord et s'intègre même de manière transparente avec Auto-GPT. Cette approche garantit que même ceux qui n'ont pas une vaste expérience en codage peuvent effectuer des tâches telles que le codage entièrement autonome, la génération de texte, la traduction et la résolution de problèmes.

LangChaîne est un cadre qui relie les grands modèles linguistiques (LLM) avec divers outils et utilise des agents, souvent perçus comme des « robots », pour déterminer et exécuter des tâches spécifiques en choisissant l'outil approprié. Ces agents s'intègrent de manière transparente aux ressources externes, tandis qu'une base de données vectorielles dans LangChain stocke des données non structurées, facilitant ainsi la récupération rapide d'informations pour les LLM.

BébéAGI

Ensuite, il y a BébéAGI, un agent simplifié mais puissant. Pour comprendre les capacités de BabyAGI, imaginez un chef de projet numérique qui crée, organise et exécute de manière autonome des tâches en se concentrant sur les objectifs donnés. Alors que la plupart des plateformes basées sur l'IA sont limitées par leurs connaissances pré-entraînées, BabyAGI se distingue par sa capacité à s'adapter et à apprendre de ses expériences. Il possède une profonde capacité à discerner les commentaires et, comme les humains, à fonder ses décisions sur des essais et des erreurs.

Notamment, la force sous-jacente de BabyAGI ne réside pas seulement dans son adaptabilité, mais également dans sa capacité à exécuter du code pour des objectifs spécifiques. Il brille dans des domaines complexes, tels que le trading de cryptomonnaies, la robotique et la conduite autonome, ce qui en fait un outil polyvalent dans une multitude d'applications.

Agent autonome piloté par les tâches BABYAGI

https://yoheinakajima.com/task-driven-autonomous-agent-utilizing-gpt-4-pinecone-and-langchain-for-diverse-applications/

Le processus peut être classé en trois agents :

  1. Agent d'exécution: Cœur du système, cet agent exploite l'API d'OpenAI pour le traitement des tâches. Étant donné un objectif et une tâche, il active l'API d'OpenAI et récupère les résultats de la tâche.
  2. Agent de création de tâche: Cette fonction crée de nouvelles tâches basées sur les résultats antérieurs et les objectifs actuels. Une invite est envoyée à l'API d'OpenAI, qui renvoie ensuite des tâches potentielles, organisées sous forme de liste de dictionnaires.
  3. Agent de priorisation des tâches: La phase finale consiste à séquencer les tâches en fonction de leur priorité. Cet agent utilise l'API d'OpenAI pour réorganiser les tâches en garantissant que les plus critiques soient exécutées en premier.

En collaboration avec le modèle de langage d'OpenAI, BabyAGI exploite les capacités de Pinecone pour le stockage et la récupération des résultats de tâches centrés sur le contexte.

Vous trouverez ci-dessous une démonstration de BabyAGI utilisant ce lien.

Pour commencer, vous aurez besoin d'une clé OpenAPI valide. Pour faciliter l'accès, l'interface utilisateur dispose d'une section de paramètres dans laquelle la clé OpenAPI peut être saisie. De plus, si vous cherchez à gérer les coûts, n'oubliez pas de fixer une limite au nombre d'itérations.

Une fois l’application configurée, j’ai fait une petite expérience. J'ai publié une invite sur BabyAGI : « Créez un fil de tweet concis axé sur le parcours de croissance personnelle, abordant les étapes, les défis et le pouvoir transformateur de l'apprentissage continu. »

BabyAGI a répondu avec un plan bien pensé. Il ne s’agissait pas simplement d’un modèle générique mais d’une feuille de route complète indiquant que l’IA sous-jacente avait effectivement compris les nuances de la demande.

Agent autonome piloté par les tâches BABYAGI

Copilote IA Deepnote

Copilote IA Deepnote remodèle la dynamique de l’exploration des données dans les notebooks. Mais qu’est-ce qui le différencie ?

À la base, Deepnote AI vise à augmenter le flux de travail des data scientists. Dès que vous fournissez une instruction rudimentaire, l’IA entre en action, élaborant des stratégies, exécutant des requêtes SQL, visualisant les données à l’aide de Python et présentant ses résultats de manière articulée.

L'une des forces de Deepnote AI réside dans sa compréhension globale de votre espace de travail. En comprenant les schémas d'intégration et les systèmes de fichiers, il aligne parfaitement ses plans d'exécution avec le contexte organisationnel, garantissant ainsi que ses informations sont toujours pertinentes.

L'intégration de l'IA avec les supports d'ordinateurs portables crée une boucle de rétroaction unique. Il évalue activement les résultats du code, ce qui le rend apte à l'autocorrection et garantit que les résultats sont conformes aux objectifs fixés.

Deepnote AI se distingue par ses opérations transparentes, fournissant des informations claires sur ses processus. L'entrelacement du code et des résultats garantit que ses actions sont toujours responsables et reproductibles.

CAMEL

CAMEL est un cadre qui cherche à favoriser la collaboration entre les agents d’IA, dans le but d’accomplir efficacement les tâches avec un minimum de surveillance humaine.

AGENT IA CHAMEAU

https://github.com/camel-ai/camel

Elle divise ses opérations en deux principaux types d'agents :

  • L’agent utilisateur AI présente les instructions.
  • L'agent AI Assistant exécute des tâches basées sur les directives fournies.

L'une des aspirations de CAMEL est de démêler les subtilités des processus de pensée de l'IA, dans le but d'optimiser les synergies entre plusieurs agents. Avec des fonctionnalités telles que le jeu de rôle et l’invite de création, il garantit que les tâches de l’IA s’alignent parfaitement sur les objectifs humains.

Westworld Simulation : la vie dans l'IA

Dérivé d'inspirations comme le logiciel Unity et adapté en Python, le Simulation de Westworld est un saut dans la simulation et l’optimisation des environnements dans lesquels plusieurs agents d’IA interagissent, presque comme dans une société numérique.

Agents Génératifs

Agents Génératifs

Ces agents ne sont pas de simples entités numériques. Ils simulent des comportements humains crédibles, depuis les routines quotidiennes jusqu'aux interactions sociales complexes. Leur architecture étend un vaste modèle de langage pour stocker les expériences, y réfléchir et les utiliser pour une planification dynamique des comportements.

L'environnement bac à sable interactif de Westworld, qui rappelle Les Sims, donne vie à une ville peuplée d'agents générateurs. Ici, les utilisateurs peuvent interagir, observer et guider ces agents tout au long de leur journée, en observant les comportements émergents et les dynamiques sociales complexes.

La simulation Westworld illustre la fusion harmonieuse des prouesses informatiques et des subtilités humaines. En fusionnant de vastes modèles de langage avec des simulations d’agents dynamiques, il trace la voie à suivre pour créer des expériences d’IA étonnamment impossibles à distinguer de la réalité.

Conclusion

Les agents d’IA peuvent être incroyablement polyvalents et ils façonnent les industries, modifient les flux de travail et permettent des exploits qui semblaient autrefois impossibles. Mais comme toutes les innovations révolutionnaires, elles ne sont pas sans imperfections.

Bien qu’ils aient le pouvoir de remodeler le tissu même de notre existence numérique, ces agents sont toujours aux prises avec certains défis, dont certains sont intrinsèquement humains, comme comprendre le contexte dans des scénarios nuancés ou s’attaquer à des problèmes qui ne relèvent pas de leurs ensembles de données formés.

Dans le prochain article, nous approfondirons AutoGPT et GPT Engineer, en examinant comment les configurer et les utiliser. De plus, nous explorerons les raisons pour lesquelles ces agents d’IA échouent parfois, comme se retrouver piégés dans des boucles, entre autres problèmes. Alors restez à l'écoute!

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.