Leaders d’opinion

Combler le fossé des agents IA : réalités de mise en œuvre à travers le spectre de l’autonomie

Published April 3, 2025

Updated April 3, 2026

Anita Kirkovska, Founding Growth Lead at Vellum

Des données d’enquête récentes provenant de plus de 1 250 équipes de développement révèlent une réalité frappante : 55,2 % prévoient de construire des flux de travail agents plus complexes cette année, mais seulement 25,1 % ont déployé avec succès des applications IA en production. Ce fossé entre ambition et mise en œuvre met en évidence le défi critique de l’industrie : Comment construire, évaluer et mettre à l’échelle efficacement des systèmes IA de plus en plus autonomes ?

Plutôt que de débattre des définitions abstraites d’un “agent”, concentrons-nous sur les défis de mise en œuvre pratiques et le spectre de capacités que les équipes de développement naviguent aujourd’hui.

Comprendre le cadre d’autonomie

Semblable à la façon dont les véhicules autonomes progressent à travers des niveaux de capacité définis, les systèmes IA suivent une trajectoire de développement où chaque niveau s’appuie sur les capacités précédentes. Ce cadre à six niveaux (L0-L5) fournit aux développeurs une lentille pratique pour évaluer et planifier leurs mises en œuvre IA.

L0 : Flux de travail basé sur des règles (Suiveur) – Automatisation traditionnelle avec des règles prédéfinies et sans véritable intelligence
L1 : Répondeur de base (Exécuteur) – Systèmes réactifs qui traitent les entrées mais manquent de mémoire ou de raisonnement itératif
L2 : Utilisation d’outils (Acteur) – Systèmes qui décident activement quand appeler des outils externes et intégrer les résultats
L3 : Observer, planifier, agir (Opérateur) – Flux de travail mult étapes avec des capacités d’auto-évaluation
L4 : Entièrement autonome (Explorateur) – Systèmes persistants qui maintiennent un état et déclenchent des actions de manière indépendante
L5 : Entièrement créatif (Inventeur) – Systèmes qui créent de nouveaux outils et approches pour résoudre des problèmes imprévisibles

Réalité actuelle de mise en œuvre : Où la plupart des équipes sont aujourd’hui

Les réalités de mise en œuvre révèlent un contraste frappant entre les cadres théoriques et les systèmes de production. Nos données d’enquête montrent que la plupart des équipes sont encore aux premiers stades de la maturité de mise en œuvre :

25 % restent en développement de stratégie
21 % construisent des preuves de concept
1 % testent dans des environnements bêta
1 % ont atteint le déploiement en production

Cette distribution met en évidence les défis pratiques de passer du concept à la mise en œuvre, même aux niveaux d’autonomie inférieurs.

Defis techniques par niveau d’autonomie

L0-L1 : Construction de la base

La plupart des systèmes IA de production aujourd’hui opèrent à ces niveaux, avec 51,4 % des équipes développant des chatbots de service client et 59,7 % se concentrant sur l’analyse de documents. Les principaux défis de mise en œuvre à ce stade sont la complexité d’intégration et la fiabilité, et non les limites théoriques.

L2 : La frontière actuelle

C’est là que se déroule le développement de pointe, avec 59,7 % des équipes utilisant des bases de données vectorielles pour ancrer leurs systèmes IA dans des informations factuelles. Les approches de développement varient considérablement :

2 % construisent avec des outils internes
9 % utilisent des plateformes de développement IA tierces
9 % s’appuient purement sur l’ingénierie de prompt

La nature expérimentale du développement L2 reflète les meilleures pratiques et les considérations techniques en évolution. Les équipes font face à des obstacles de mise en œuvre importants, avec 57,4 % citant la gestion des hallucinations comme leur principale préoccupation, suivie de la priorisation des cas d’utilisation (42,5 %) et des lacunes dans les compétences techniques (38 %).

L3-L5 : Barrières de mise en œuvre

Même avec des progrès importants dans les capacités des modèles, des limites fondamentales bloquent la progression vers des niveaux d’autonomie plus élevés. Les modèles actuels démontrent une contrainte critique : ils surestiment les données d’entraînement plutôt que de démontrer un véritable raisonnement. Cela explique pourquoi 53,5 % des équipes s’appuient sur l’ingénierie de prompt plutôt que sur le réglage fin (32,5 %) pour guider les sorties de modèle.

Considérations de pile technique

La pile technique de mise en œuvre reflète les capacités et les limites actuelles :

Intégration multimodale : Texte (93,8 %), fichiers (62,1 %), images (49,8 %) et audio (27,7 %)
Fournisseurs de modèles : OpenAI (63,3 %), Microsoft/Azure (33,8 %) et Anthropic (32,3 %)
Approches de surveillance : Solutions internes (55,3 %), outils tiers (19,4 %), services de fournisseurs de cloud (13,6 %)

À mesure que les systèmes deviennent plus complexes, les capacités de surveillance deviennent de plus en plus critiques, avec 52,7 % des équipes surveillant maintenant activement leurs mises en œuvre IA.

Limitations techniques bloquant une autonomie plus élevée

Même les modèles les plus sophistiqués d’aujourd’hui démontrent une limitation fondamentale : ils surestiment les données d’entraînement plutôt que de démontrer un véritable raisonnement. Cela explique pourquoi la plupart des équipes (53,5 %) s’appuient sur l’ingénierie de prompt plutôt que sur le réglage fin (32,5 %) pour guider les sorties de modèle. Quelle que soit la sophistication de votre ingénierie, les modèles actuels ont toujours du mal avec un véritable raisonnement autonome.

La pile technique reflète ces limites. Même si les capacités multimodales sont en augmentation – avec du texte à 93,8 %, des fichiers à 62,1 %, des images à 49,8 % et de l’audio à 27,7 % – les modèles sous-jacents d’OpenAI (63,3 %), Microsoft/Azure (33,8 %) et Anthropic (32,3 %) opèrent toujours avec les mêmes contraintes fondamentales qui limitent une véritable autonomie.

Approche de développement et orientations futures

Pour les équipes de développement qui construisent des systèmes IA aujourd’hui, plusieurs insights pratiques émergent des données. Tout d’abord, la collaboration est essentielle – un développement IA efficace implique l’ingénierie (82,3 %), les experts en la matière (57,5 %), les équipes de produits (55,4 %) et la direction (60,8 %). Cette exigence transversale rend le développement IA fondamentalement différent de l’ingénierie logicielle traditionnelle.

En regardant vers 2025, les équipes fixent des objectifs ambitieux : 58,8 % prévoient de construire plus d’applications IA orientées client, tandis que 55,2 % se préparent à des flux de travail agents plus complexes. Pour soutenir ces objectifs, 41,9 % se concentrent sur la formation de leurs équipes et 37,9 % construisent une IA spécifique à l’organisation pour les cas d’utilisation internes.

L’infrastructure de surveillance évolue également, avec 52,7 % des équipes surveillant maintenant leurs systèmes IA en production. La plupart (55,3 %) utilisent des solutions internes, tandis que d’autres utilisent des outils tiers (19,4 %), des services de fournisseurs de cloud (13,6 %) ou des solutions de surveillance open source (9 %). À mesure que les systèmes deviennent plus complexes, ces capacités de surveillance deviendront de plus en plus critiques.

Feuille de route technique

Alors que nous regardons vers l’avenir, la progression vers L3 et au-delà nécessitera des avancées fondamentales plutôt que des améliorations incrémentielles. Néanmoins, les équipes de développement posent les fondements pour des systèmes plus autonomes.

Pour les équipes qui construisent vers des niveaux d’autonomie plus élevés, les domaines de concentration devraient inclure :

Cadres d’évaluation robustes qui vont au-delà des tests manuels pour vérifier de manière programmatique les sorties
Systèmes de surveillance améliorés qui peuvent détecter et répondre à des comportements inattendus en production
Modèles d’intégration d’outils qui permettent aux systèmes IA d’interagir en toute sécurité avec d’autres composants logiciels
Méthodes de vérification du raisonnement pour distinguer un véritable raisonnement d’une correspondance de modèles

Les données montrent que l’avantage concurrentiel (31,6 %) et les gains d’efficacité (27,1 %) sont déjà réalisés, mais 24,2 % des équipes signalent encore aucun impact mesurable. Cela met en évidence l’importance de choisir des niveaux d’autonomie appropriés pour vos défis techniques spécifiques.

Alors que nous entrons dans 2025, les équipes de développement doivent rester pragmatiques sur ce qui est actuellement possible tout en expérimentant des modèles qui permettront des systèmes plus autonomes à l’avenir. Comprendre les capacités techniques et les limites à chaque niveau d’autonomie aidera les développeurs à prendre des décisions architecturales éclairées et à construire des systèmes IA qui livrent une valeur réelle plutôt que de la novauté technique.

Unite.AI