Connect with us

Le Problème de Fiabilité de l’IA Dont Personne Ne Veut Parler

Leaders d’opinion

Le Problème de Fiabilité de l’IA Dont Personne Ne Veut Parler

mm

Le récit dominant sur la fiabilité de l’IA est simple : les modèles hallucinent. Par conséquent, pour que les entreprises tirent le maximum d’utilité de ceux-ci, les modèles doivent s’améliorer. Plus de paramètres. De meilleures données de formation. Plus d’apprentissage par renforcement. Plus d’alignement.

Et pourtant, même si les modèles de pointe deviennent plus capables, le débat sur la fiabilité refuse de disparaître. Les dirigeants d’entreprise hésitent encore à permettre aux agents de prendre des mesures significatives au sein des systèmes principaux. Les conseils d’administration demandent encore : « Pouvez-vous lui faire confiance ? »

Mais les hallucinations ne sont pas principalement un problème de modèle. Ce sont un problème de contexte. Nous demandons aux systèmes d’IA de fonctionner sur les infrastructures d’entreprise sans leur donner la visibilité structurelle nécessaire pour raisonner en toute sécurité. Ensuite, nous blâmons le modèle lorsqu’il devine.

Le véritable écart de fiabilité n’est pas dans les poids, mais dans la couche d’information.

Un Chirurgien Sans Imagerie

Imaginez un chirurgien opérant sans imagerie. Pas d’IRM. Pas de scanner. Pas de visualisation en temps réel des tissus environnants. Juste une compréhension générale de l’anatomie et un scalpel. Même le chirurgien le plus habile serait forcé de déduire. D’approximer. De se fier à la raison probabiliste.

C’est ce que les agents d’IA d’entreprise font actuellement.

Lorsqu’un système d’IA est invité à modifier un flux de travail, à mettre à jour une règle de planification de ressources d’entreprise ou à déclencher une automatisation entre outils, il dispose rarement d’un graphique de dépendance complet de l’environnement. Il ne sait pas quel champ « inutilisé » alimente un tableau de bord en aval. Il ne voit pas quelle automatisation fait référence à cette règle de validation. Il ne peut pas simuler de manière fiable l’impact de second ordre.

Il fait donc ce que les grands modèles de langage sont formés pour faire : prédire. La prédiction n’est pas la compréhension. Et la prédiction sans contexte structurel ressemble à une hallucination.

Nous Continuons de Cadrer le Mauvais Débat

La communauté d’IA a été verrouillée dans une conversation sur la fiabilité centrée sur le modèle. Des documents sur les lois d’échelle. Des recherches sur les chaînes de pensée de rappel. Des techniques d’augmentation de récupération. Des benchmarks d’évaluation.

Tout cela est nécessaire. Tout cela est précieux. Mais remarquez ce qui manque : la discussion sur la topologie des systèmes d’entreprise.

La fiabilité dans un contexte d’entreprise ne signifie pas simplement « le modèle génère du texte correct ». Cela signifie « le système effectue des modifications qui sont sûres, traçables et prévisibles ».

C’est une exigence fondamentalement différente.

Lorsqu’OpenAI et Anthropic publient des évaluations des performances du modèle, ils mesurent la précision sur les tâches de raisonnement, les benchmarks de codage ou la mémoire des connaissances. Ce sont des signaux utiles. Cependant, ils ne mesurent pas la capacité d’un agent d’IA à modifier en toute sécurité un système de revenu en direct avec 15 ans d’accumulation d’automatisation.

Le problème n’est pas de savoir si le modèle peut écrire du code syntaxiquement correct ; c’est de savoir si l’IA comprend l’environnement dans lequel ce code est déployé.

Les Systèmes Vivants Accumulent de l’Entropie

Les systèmes d’entreprise ne sont pas des bases de données statiques. Ce sont des systèmes vivants. Chaque nouvelle intégration laisse une trace. Chaque campagne introduit un champ. Chaque « solution rapide » introduit une couche d’automatisation supplémentaire. Au fil du temps, ces couches interagissent de manière que personne ne comprend pleinement.

C’est une fonction de la croissance. Les systèmes adaptatifs complexes accumulent naturellement de l’entropie. Des recherches de la Sloan School du MIT ont longtemps souligné comment l’asymétrie d’information à l’intérieur des organisations accroît le risque opérationnel. Pendant ce temps, Gartner estime que la mauvaise qualité des données coûte en moyenne aux organisations $12,9 million par an.

Imaginez maintenant insérer des agents autonomes dans cet environnement sans résoudre d’abord son opacité structurelle.

Nous ne devrions pas être surpris lorsque les résultats semblent imprévisibles. L’agent n’est pas malveillant ou stupide. Il est aveugle. Il construit dans le noir.

La Récupération Ne Suffit Pas

Certains diront que la génération assistée par récupération (RAG) résout ce problème. Donnez au modèle accès à la documentation. Alimentez-le avec des descriptions de schéma. Connectez-le aux API.

Cela aide.

Mais la documentation n’est pas la topologie.

Un PDF expliquant comment un flux de travail « devrait » fonctionner n’est pas la même chose qu’un graphique en temps réel de la manière dont il interagit réellement avec 17 autres automatisations.

La réalité de l’entreprise correspond rarement à la documentation de l’entreprise.

Une étude de 2023 publiée dans Communications of the ACM a trouvé que la documentation obsolète est un contributeur principal aux défaillances de maintenance logicielle. Les systèmes évoluent plus vite que leurs récits.

Donc, même lorsque nous fournissons aux agents d’IA une documentation, nous leur donnons souvent une carte partielle ou idéalisée.

Les cartes partielles produisent encore des erreurs confiantes.

La Couche Agente Est la Véritable Couche de Sécurité

Nous avons tendance à penser que la sécurité est une formation d’alignement, des garde-fous, des équipes rouges et des filtres de politique. Tout cela est important. Mais dans les contextes d’entreprise, la sécurité est contextuelle. Cela signifie savoir :

  • Qu’est-ce qui dépend de ce champ ?
  • Quelle automatisation fait référence à cet objet ?
  • Quels rapports en aval seront cassés ?
  • Qui possède ce processus ?
  • Quand a-t-il été modifié pour la dernière fois ?
  • Quels changements historiques ont précédé la configuration actuelle ?

Sans cette couche, un agent d’IA improvise essentiellement à l’intérieur d’une boîte noire. Avec cette couche, il peut simuler l’impact avant d’agir. La différence entre hallucination et fiabilité est souvent la visibilité.

Pourquoi le Modèle Est Blâmé

Pourquoi, alors, le débat se concentre-t-il si lourdement sur les modèles ? Parce que les modèles sont lisibles. Nous pouvons mesurer la perplexité. Nous pouvons comparer les scores de benchmark. Nous pouvons publier des courbes d’échelle. Nous pouvons débattre de la qualité des données de formation.

La topologie de l’information au sein des entreprises est bien plus désordonnée. Cela nécessite une coordination interfonctionnelle. Cela exige une discipline de gouvernance. Cela force les organisations à confronter la complexité accumulée de leurs propres systèmes.

Il est plus facile de dire « le modèle n’est pas prêt » que d’admettre « notre infrastructure est opaque ».

Mais à mesure que les agents d’IA passent de la génération de contenu à l’exécution opérationnelle, cette formulation devient dangereuse.

Si nous traitons la fiabilité uniquement comme un problème de sélection de modèle, nous continuerons à déployer des agents dans des environnements qu’ils ne peuvent pas percevoir de manière significative.

L’Autonomie Exige du Contexte

Les expériences récentes d’Anthropic sur les équipes de développement de logiciels multi-agents montrent que les systèmes d’IA peuvent coordonner des tâches complexes lorsqu’ils sont fournis avec un contexte structuré et une mémoire persistante. La frontière des capacités avance rapidement. Mais cette marque d’autonomie sans conscience de l’environnement est fragile.

Une voiture autonome ne repose pas uniquement sur un réseau de neurones puissant. Elle dépend du lidar, des caméras, des systèmes de cartographie et de la détection de l’environnement en temps réel. Le modèle est une couche dans une pile de perception plus large.

L’IA d’entreprise a besoin de l’équivalent du lidar. Pas seulement l’accès à l’API. Pas seulement la documentation. Mais une compréhension structurée et dynamique des dépendances du système.

Jusqu’à ce que cela existe, les débats sur les hallucinations continueront à diagnostiquer incorrectement la cause profonde.

Le Risque Caché : La Surconfiance

Il y a un autre risque subtil dans la formulation actuelle.

À mesure que les modèles s’améliorent, leurs sorties deviennent plus fluides, plus persuasives, plus autoritaires.

La fluidité amplifie la surconfiance.

Lorsqu’un agent modifie en toute confiance un système sans contexte complet, la défaillance n’est pas immédiatement évidente. Elle peut surgir des semaines plus tard sous la forme d’une erreur de rapport, d’un écart de conformité ou d’une erreur de prévision des revenus. Parce que le modèle semble compétent, les organisations peuvent surestimer sa sécurité opérationnelle. Le véritable mode de défaillance est un mauvais calcul plausible.

Et le mauvais calcul plausible prospère dans le noir.

Reformuler la Question de Fiabilité

Au lieu de demander : « Le modèle est-il suffisamment bon ? » Nous devrions demander : « L’agent dispose-t-il d’un contexte structurel suffisant pour agir en toute sécurité ? » Au lieu de mesurer la précision des benchmarks, nous devrions mesurer la visibilité de l’environnement. Au lieu de débattre du nombre de paramètres, nous devrions auditer l’opacité du système.

La prochaine frontière de la fiabilité de l’IA n’est pas simplement de plus grands modèles. C’est des couches de contexte plus riches.

Cela inclut :

  • Des graphiques de dépendance des systèmes d’entreprise
  • Un suivi des changements en temps réel
  • Une cartographie de la propriété
  • Une conscience de la configuration historique
  • Une simulation d’impact avant l’exécution

Rien de tout cela n’est glamour. Rien de tout cela ne fait tendance sur les médias sociaux. Mais c’est là que la fiabilité sera gagnée.

Construire Avec les Lumières Allumées

Les dirigeants d’entreprise ont raison d’exiger la fiabilité avant d’accorder aux agents l’autorité opérationnelle. Mais la voie à suivre n’est pas d’attendre un modèle mythique sans hallucination.

C’est investir dans les infrastructures de visibilité qui rendent l’action intelligente possible.

Nous n’autoriserions pas un administrateur junior à modifier des systèmes de production sans comprendre les dépendances. Nous ne devrions pas non plus autoriser les agents d’IA à le faire.

L’objectif ? Réduire les angles morts.

Lorsque les agents opèrent avec une conscience structurelle, les taux d’hallucination diminuent non pas parce que le modèle a changé, mais parce que la surface de devinette diminue.

La prédiction devient raisonnement. Le raisonnement devient simulation. La simulation devient exécution sûre.

Le Changement Inévitable

Au cours des cinq prochaines années, la pile d’IA se diviserait. Une couche se concentrerait sur les capacités du modèle : la profondeur de raisonnement, la fluidité multimodale et l’efficacité coût. L’autre se concentrerait sur la topologie informationnelle/contextuelle : les graphiques de systèmes, l’intelligence des métadonnées et les cadres de gouvernance.

Les organisations qui traitent la fiabilité uniquement comme un exercice de sélection de modèle rencontreront des difficultés.

Les organisations qui traitent la fiabilité comme une propriété architecturale avanceront plus rapidement avec moins de risques.

Le débat sur les hallucinations semblera ringard en regard rétrospectif. L’histoire réelle sera celle de la visibilité.

L’IA n’est pas intrinsèquement imprudente.

Elle opère dans une salle noire.

Jusqu’à ce que nous abordions cela, nous ne construisons pas de systèmes intelligents. Nous construisons des prévisionnistes puissants dans des environnements opaques.

Et cela signifie, malgré tous les progrès, que l’IA construit toujours dans le noir.

Ido Gaver est le PDG et co-fondateur de Sweep, où il dirige la recherche et la stratégie produit à l'intersection de l'IA, de l'architecture des métadonnées et de la gouvernance d'entreprise. Son travail se concentre sur la possibilité de permettre aux systèmes d'IA agents de fonctionner de manière sûre et contextuelle au sein de grands écosystèmes logiciels d'entreprise.