Suivez nous sur

Ce que vous devez savoir sur l'opérateur d'OpenAI

Intelligence Artificielle

Ce que vous devez savoir sur l'opérateur d'OpenAI

mm
(Ouvrir l'IA)

Au cours des dernières semaines, OpenAI a posé les bases. Alors que la plupart des utilisateurs commençaient tout juste à vraiment explorer Tâches ChatGPT – une nouvelle fonctionnalité qui permet à l’utilisateur de planifier et de déclencher des tâches – l’entreprise se préparait à quelque chose de bien plus important.

Sortie hier de Opérateur c'est un autre signal clair de la direction que prend l'intelligence artificielle : des modèles qui traitent simplement des informations à des agents qui peuvent travailler activement à nos côtés.

Chaque jour, nous passons d'innombrables heures à naviguer sur des sites web, à remplir des formulaires, à réserver des services et à gérer des tâches numériques. L'IA est restée la plupart du temps en retrait, se limitant à donner des conseils ou à traiter des textes. Operator, ainsi que d'autres annonces récentes d'agents comme Anthropic Utilisation de l'ordinateur et de Google Projet Mariner, changer complètement cette dynamique.

La prouesse technique est ici considérable. OpenAI a créé une IA capable de voir et d’interagir avec les interfaces Web comme le ferait un humain. Elle prend des captures d’écran, comprend les dispositions visuelles et prend des décisions sur l’endroit où cliquer, ce qu’il faut saisir et comment naviguer.

Voici ce que vous devez savoir sur Operator Agent : Alors que de nombreux outils d'IA sont essentiellement enfermés dans des API et des intégrations spécialisées, Operator fonctionne avec le Web exactement comme vous. Il voit l'écran, comprend le contexte et agit directement.

Un regard plus approfondi sur les performances réelles de l'opérateur

Lorsque les entreprises d'IA publient des benchmarks, il est important d'examiner attentivement la signification réelle des chiffres. Les performances des opérateurs diffèrent selon les environnements de test.

La mesure la plus impressionnante est le taux de réussite de 87 % de l'opérateur sur le Référence WebVoyager. C’est important car WebVoyager teste des sites Web réels – les plateformes réelles que nous utilisons quotidiennement, comme Amazon et Google Maps. Il ne s’agit pas d’un test en laboratoire contrôlé. Il s’agit d’une performance en situation réelle.

Mais lorsque nous examinons d’autres indicateurs de référence, nous voyons une image plus nuancée :

  • Référence WebArena: Taux de réussite de 58.1 %. Test de sites Web simulés pour des tâches telles que les achats et la gestion de contenu. Les performances inférieures ici révèlent en fait quelque chose d'important sur la façon dont les agents d'IA gèrent les environnements structurés et non structurés.
  • Référence OSWorld: Taux de réussite de 38.1 %. Ce test teste des tâches complexes en plusieurs étapes, comme la combinaison de fichiers PDF à partir d'e-mails. La baisse significative des performances nous montre les limites actuelles des agents IA lorsque les tâches nécessitent plusieurs changements de contexte.

Ce qui m’intéresse dans ces chiffres, c’est la façon dont ils reflètent les modèles d’apprentissage humains. Nous obtenons généralement de meilleurs résultats dans des environnements familiers et réels que dans des scénarios de test artificiels. Le fait qu’Operator excelle sur des sites Web réels tout en rencontrant des difficultés avec des sites simulés suggère que sa formation privilégie l’utilité pratique par rapport aux performances théoriques.

Ces benchmarks établissent de nouveaux records en matière d'automatisation des navigateurs, mais les taux de réussite variables selon les différents tests nous indiquent quelque chose de crucial sur la stratégie d'OpenAI.

Pensez à votre propre navigation sur le web. La plupart des tâches sont simples : remplir des formulaires, effectuer des achats, prendre des rendez-vous. C'est là que le taux de réussite de 87 % d'Operator se distingue. Les tâches plus complexes, où les performances chutent, sont généralement celles pour lesquelles une supervision humaine est de toute façon précieuse.

Ces données suggèrent qu’OpenAI fait un choix délibéré : perfectionner d’abord les tâches courantes, puis étendre progressivement ses activités à des opérations plus complexes. Il s’agit d’une approche pratique qui privilégie l’utilité immédiate par rapport aux capacités théoriques.

Tests de performance des agents d'IA (OpenAI)

La stratégie d'OpenAI derrière Operator

L’approche d’OpenAI avec Operator révèle une stratégie soigneusement orchestrée.

Tout d’abord, il faut tenir compte du timing. Le récent déploiement de fonctionnalités telles que les tâches ChatGPT ne visait pas seulement à ajouter des fonctionnalités, mais également à préparer les utilisateurs à l’arrivée d’agents autonomes.

Mais voici ce qui est vraiment intéressant : OpenAI prévoit d’exposer le modèle CUA via une API. Cela signifie que les développeurs pourront créer leurs propres agents utilisant un ordinateur.

Les implications en sont importantes :

  1. Potentiel d'intégration
  • Intégration directe dans les flux de travail existants
  • Agents personnalisés pour des besoins commerciaux spécifiques
  • Solutions d'automatisation spécifiques à l'industrie
  1. Chemin de développement futur
  • Extension aux utilisateurs Plus, Team et Enterprise
  • Intégration directe de ChatGPT
  • Expansion géographique (bien que l’Europe prenne plus de temps en raison de exigences réglementaires)

Les partenariats stratégiques sont également révélateurs. OpenAI tente de créer un écosystème complet. Ils travaillent avec des entreprises comme DoorDash, Instacart et OpenTable, mais aussi avec des organisations du secteur public comme la ville de Stockton.

Cela laisse entrevoir un avenir où les agents d’IA ne seront pas seulement des assistants mais feront partie intégrante de la manière dont nous interagissons avec les systèmes numériques.

Ce que cela signifie réellement pour vous

Nous entrons dans une phase où l’IA ne se contente pas de répondre à des questions : elle devient un participant actif dans nos vies numériques.

Pensez à vos tâches quotidiennes en ligne. Non pas aux tâches complexes et stratégiques qui requièrent votre expertise, mais aux tâches répétitives. Je parle ici de la recherche d'options de voyage sur plusieurs sites, du remplissage de formulaires standardisés, de la collecte de données à partir de diverses sources web et de la gestion des réservations courantes. C'est là qu'Operator commence par éliminer les tâches numériques fastidieuses. Mais ce n'est pas tout. Avec le temps, les agents IA seront capables de réaliser des workflows de plus en plus complexes.

Les premières données de performance nous révèlent également un élément crucial : Operator excelle dans les tâches Web de routine avec un taux de réussite de 87 %. Les premiers utilisateurs qui apprendront à l'intégrer efficacement bénéficieront d'un avantage de productivité significatif.

Le calendrier d'intégration révèle l'approche prudente d'OpenAI. L'intégration commence avec les utilisateurs Pro aux États-Unis, puis s'étend aux utilisateurs Plus, Team et Enterprise, avant de s'intégrer directement à ChatGPT.

Nous assistons à un changement fondamental dans le fonctionnement des outils d’IA. La véritable question que vous devez vous poser n’est pas de savoir s’adapter à ce changement, mais comment le faire de manière stratégique. La technologie va évoluer, mais le principe demeure : l’IA passe de la réponse aux questions à l’action. Ceux qui comprendront ce changement tôt auront un avantage significatif pour façonner la manière dont ces outils s’intègrent dans leurs flux de travail.

Alex McFarland est un journaliste et écrivain en IA qui explore les derniers développements en matière d'intelligence artificielle. Il a collaboré avec de nombreuses startups et publications d'IA dans le monde entier.