Leaders d’opinion

La technologie seule ne garantit pas l’adoption : Leçons tirées de la création d’un chatbot interne basé sur l’IA

Published March 6, 2026

Updated April 1, 2026

Angie Navia, Full-Stack Developer, Jalasoft

Alors que l’adoption de l’IA s’accélérait dans tous les secteurs, le déploiement d’un chatbot pour soutenir une application interne nouvellement lancée semblait être une décision logique. Cependant, l’application elle-même remettait en question les attentes conventionnelles des utilisateurs. Elle introduisait de nouveaux flux de travail basés sur des technologies émergentes inconnues de la plupart des utilisateurs.

Pour réduire les frictions et améliorer l’adoption, le chatbot a été conçu pour répondre aux questions sur l’application et la technologie sous-jacente. L’objectif était d’aider les utilisateurs à comprendre non seulement ce qu’ils devaient faire, mais aussi pourquoi le système se comportait de telle ou telle manière. Nous croyions que la fourniture d’explications contextuelles accélérerait l’apprentissage et réduirait la confusion.

Dès le début, l’agent IA a été conçu comme une solution à portée limitée. Il a été conçu strictement pour soutenir la documentation et fournir une assistance aux utilisateurs. Conceptuellement, le chatbot était destiné à servir de remplacement dynamique d’un document de questions fréquentes traditionnel, offrant une interface conversationnelle, recherchable et continuellement disponible avec une fonctionnalité étendue au-delà du contenu statique.

Pour intégrer l’agent dans l’environnement de chat interne de l’organisation, nous devions comprendre comment les messages structurés étaient rendus, comment l’historique de conversation était stocké et comment le système identifiait les participants dans les threads. Cela nous a permis de déterminer les variables principales requises pour commencer à traiter les questions des utilisateurs.

Ancrage du modèle : De l’hallucination à un contexte fiable

Les grands modèles de langage sont puissants, mais sans ancrage contextuel, ils sont sujets aux hallucinations. Pour remédier à cela, nous avons mis en œuvre une technique d’intégration de vecteurs.

Les guides d’utilisation, la documentation interne et la vision du produit ont été transformés en représentations numériques vectorielles de texte. Ces intégrations ont capturé la signification sémantique, permettant au système de faire correspondre des concepts plutôt que de se fier à une simple correspondance de mots clés.

Lorsqu’un utilisateur posait une question, le système convertissait la requête en représentation vectorielle et la comparait aux intégrations stockées. Il a récupéré les documents les plus pertinents sur le plan sémantique et les a injectés dans l’invite du modèle. Le modèle a ensuite généré une réponse ancrée dans ces documents spécifiques, résumant souvent les informations pertinentes.

Cette approche a considérablement amélioré la précision des réponses. Au lieu de générer des réponses basées uniquement sur des connaissances générales, le modèle a répondu en utilisant la documentation propre de notre organisation comme contexte.

La complexité cachée de la gestion du contexte

Il était essentiel d’inclure l’historique de conversation dans l’invite pour que le bot puisse interpréter les questions de suivi et maintenir la continuité. Sans historique, les interactions devenaient fragmentées et répétitives. Les utilisateurs affinent souvent leurs questions de manière incrémentale, et sans contexte, le bot ne pouvait pas interpréter des références comme « cette option » ou « l’étape précédente ».

Cependant, inclure trop d’historique créait un autre problème : limites de jetons. Celles-ci se produisent lorsque les modèles de langage tronquent les entrées qui dépassent leur fenêtre de contexte maximale. Si une question ou une conversation devenait trop longue, des informations importantes pouvaient être perdues. Cela n’a pas produit d’erreur explicite, mais a plutôt dégradé la qualité de la réponse ou affecté la précision de la récupération.

Pour atténuer cela, nous avons mis en œuvre des stratégies pour contrôler la taille de l’invite, donner la priorité au contenu pertinent et surveiller la longueur des questions. Nous avons expérimenté la synthèse de messages plus anciens et l’inclusion sélective des parties les plus pertinentes de la conversation. Le contexte était critique, mais il devait être soigneusement géré.

Élargir les capacités et créer de la confusion

Au-delà de la réponse aux questions basées sur la documentation, nous avons étendu les capacités du bot en ajoutant des fonctions backend qui pouvaient extraire certaines informations publiques directement de l’application. Cela a permis aux utilisateurs de récupérer des données du chat sans se connecter à l’application elle-même. L’idée était de réduire les frictions et de renforcer le chatbot en tant qu’interface utile, et non seulement une couche de connaissances statique.

Cette extension a créé de la confusion pour certains utilisateurs. Une fois que le bot a commencé à récupérer des données en temps réel, les utilisateurs ont commencé à lui demander d’exécuter des actions qui nécessitaient une interaction directe à l’intérieur de la plate-forme. Ils supposaient que le chatbot pouvait remplacer les étapes opérationnelles, y compris celles qui nécessitaient une authentification ou une exécution délibérée à l’intérieur de la plate-forme.

Le bot n’a jamais été conçu pour effectuer ces actions, mais la distinction entre l’assistance informative et l’exécution opérationnelle n’était pas toujours claire.

L’intégration de données en temps réel a également introduit de nouvelles considérations techniques. Nous devions définir quand une question devait passer par une récupération basée sur l’intégration et quand elle devait déclencher un appel backend. Cette logique de décision nécessitait une conception soigneuse. De plus, nous devions ajuster les réponses pour gérer avec grâce les exceptions techniques et éviter d’exposer les erreurs brutes du système aux utilisateurs.

La capacité multilingue n’est pas automatique

Lors des tests, nous avons réalisé que le bot se comportait de manière plus cohérente en anglais qu’en d’autres langues utilisées au sein de Jalasoft. La raison principale était structurelle : la plupart de la documentation utilisée pour générer les intégrations était rédigée en anglais, et le modèle d’intégration que nous avons choisi était optimisé pour la similarité sémantique en anglais.

Il ne prenait pas en charge la récupération translinguistique ou la comparaison sémantique entre les langues. En conséquence, les requêtes non anglaises ont souvent récupéré une documentation moins pertinente, conduisant à des réponses plus faibles.

Cela a mis en évidence une idée importante : la capacité multilingue n’est pas automatique.

Quand les attentes dépassent la portée

Pour contrôler les coûts d’utilisation, nous avons mis en œuvre une limite quotidienne sur le nombre de questions que les utilisateurs pouvaient poser. Cependant, nous n’avons pas explicitement restreint la portée de ces questions. Les utilisateurs étaient libres de poser n’importe quelle question.

Cette ouverture a conduit à des modèles d’utilisation inattendus. Certains utilisateurs ont commencé à interagir avec le bot pour des raisons personnelles ou d’exploration sans rapport avec l’application. Au fil du temps, les attentes ont dépassé le rôle prévu du bot, créant un écart entre ce que les utilisateurs espéraient qu’il puisse faire et ce pour quoi il était conçu.

Ce décalage a progressivement réduit son utilité perçue. L’utilisation a diminué, et le chatbot a finalement été déprécié, les efforts étant redirigés vers la reconception de l’application elle-même pour la rendre plus intuitive et plus facile à utiliser.

La véritable leçon : La conception d’interaction.

Du point de vue de l’ingénierie, le système fonctionnait de manière raisonnable. Il a récupéré la documentation, incorporé l’historique de conversation, réduit les hallucinations grâce aux intégrations, géré les appels backend et géré la taille de l’invite. L’architecture a fonctionné comme prévu.

Mais il lui manquait une conception d’interaction intentionnelle.

Le bot n’a pas clairement façonné les conversations. Il n’a pas constamment renforcé sa portée. Il n’a pas guidé les utilisateurs avec des exemples structurés de ce qu’il pouvait et ne pouvait pas faire. Il a répondu aux questions, mais il n’a pas établi d’attentes.

Nous avons appris que les systèmes d’IA conversationnels nécessitent plus que de solides modèles et des données structurées. Ils nécessitent des attentes soigneusement conçues.

Les utilisateurs ont besoin de clarté sur le rôle de l’agent, ses limites et ses forces. Le système doit fournir proactivement des exemples d’invites, clarifier les limites et rediriger les questions hors de la portée de manière cohérente.

Sans cette mise en cadre intentionnelle, même une mise en œuvre techniquement solide peut avoir du mal à maintenir sa valeur. Les utilisateurs peuvent surestimer les capacités ou se désengager lorsque les attentes non déclarées ne sont pas satisfaites.

L’insight clé est simple mais puissant.

La construction d’un système d’IA conversationnel n’est pas seulement un défi technique. C’est également un défi de conception d’interaction.

Un contexte solide, une récupération précise et une architecture robuste sont nécessaires, mais pas suffisants. L’efficacité du système dépend également de la manière dont il définit son rôle, communique ses limites et façonne les attentes des utilisateurs.

La technologie seule ne garantit pas l’adoption. Une conception d’interaction claire le fait.

Related Topics:chatbot Jalasoft

Angie Navia, Full-Stack Developer, Jalasoft

Angie Navia est une développeuse full-stack chez Jalasoft avec cinq ans d'expérience dans la construction d'applications de production et l'intégration de capacités d'IA dans les solutions logicielles. Elle a complété la spécialisation IBM en intelligence artificielle générative pour les développeurs de logiciels et applique des outils d'IA dans son flux de travail de développement quotidien.

LLM-as-a-Judge: Une solution évolutiva pour évaluer les modèles de langage à l’aide de modèles de langage « Meilleure réponse : A » ou « Meilleure réponse : B » ou « Match nul » ; [/code] Invite de notation directe Invite d’évaluation basée sur référence Concevoir des invites de cette manière réduit l’ambiguïté et permet au juge LLM de comprendre exactement comment évaluer chaque réponse. Pour améliorer encore la clarté de l’invite, limitez la portée de chaque évaluation à une ou deux qualités (par exemple, la pertinence et le détail) au lieu de mélanger plusieurs facteurs dans une seule invite. Étape 4 : Test et itération Après avoir créé l’invite et le jeu de données, évaluez le juge LLM en le faisant fonctionner sur votre jeu de données étiqueté. Comparez les sorties du LLM aux étiquettes de vérité de référence que vous avez attribuées pour vérifier la cohérence et l’exactitude. Les métriques clés pour l’évaluation incluent : Précision : Le pourcentage d’évaluations positives correctes. Rappel : Le pourcentage de vérités de référence positives correctement identifiées par le LLM. Exactitude : Le pourcentage global d’évaluations correctes. Le test aide à identifier les incohérences dans les performances du juge LLM. Par exemple, si le juge étiquette fréquemment des réponses utiles comme inutiles, vous devrez peut-être affiner l’invite d’évaluation. Commencez avec un petit échantillon, puis augmentez la taille du jeu de données à mesure que vous itérez. Dans cette phase, envisagez d’expérimenter avec différentes structures d’invites ou d’utiliser plusieurs LLM pour une validation croisée. Par exemple, si un modèle a tendance à être verbeux, essayez de tester avec un modèle LLM plus concis pour voir si les résultats correspondent plus étroitement à votre vérité de référence. Les révisions d’invites peuvent impliquer l’ajustement des étiquettes, la simplification du langage ou même la division d’invites complexes en invites plus petites et plus gérables. Mise en œuvre du code : Mettre LLM-as-a-Judge en action Cette section vous guidera à travers la configuration et la mise en œuvre du cadre LLM-as-a-Judge en utilisant Python et Hugging Face. De la configuration de votre client LLM à la traitement des données et à l’exécution des évaluations, cette section couvrira l’ensemble du pipeline. Configuration de votre client LLM Pour utiliser un LLM comme évaluateur, nous devons d’abord le configurer pour les tâches d’évaluation. Cela implique la configuration d’un client LLM pour effectuer des tâches d’inférence et d’évaluation avec un modèle pré-entraîné disponible sur le hub Hugging Face. Ici, nous allons utiliser huggingface_hub pour simplifier la configuration. Dans cette configuration, le modèle est initialisé avec une limite de temps d’attente pour gérer les demandes d’évaluation prolongées. Assurez-vous de remplacer repo_id par l’ID de référentiel correct pour votre modèle choisi. Chargement et préparation des données Après avoir configuré le client LLM, l’étape suivante consiste à charger et à préparer les données pour l’évaluation. Nous allons utiliser pandas pour la manipulation des données et la bibliothèque datasets pour charger tout jeu de données préexistant. Ci-dessous, nous préparons un petit jeu de données contenant des questions et des réponses pour l’évaluation. Assurez-vous que le jeu de données contient des champs pertinents pour vos critères d’évaluation, tels que des paires question-réponse ou des formats de sortie attendus. Évaluation avec un juge LLM Une fois les données chargées et préparées, nous pouvons créer des fonctions pour évaluer les réponses. Cet exemple montre une fonction qui évalue la pertinence et l’exactitude d’une réponse en fonction d’une paire question-réponse fournie. Cette fonction envoie une paire question-réponse au LLM, qui répond avec un jugement basé sur l’invite d’évaluation. Vous pouvez adapter cette invite à d’autres tâches d’évaluation en modifiant les critères spécifiés dans l’invite, tels que « pertinence et ton » ou « concision ». Mise en œuvre de la comparaison par paires Dans les cas où vous souhaitez comparer deux sorties de modèles, le LLM peut agir comme juge entre les réponses. Nous ajustons l’invite d’évaluation pour instruire le LLM de choisir la meilleure réponse des deux en fonction de critères spécifiés. Cette fonction fournit un moyen pratique d’évaluer et de classer les réponses, ce qui est particulièrement utile dans les scénarios de test A/B pour optimiser les réponses du modèle. Conseils pratiques et défis Bien que le cadre LLM-as-a-Judge soit un outil puissant, plusieurs considérations pratiques peuvent aider à améliorer ses performances et à maintenir l’exactitude au fil du temps. Meilleures pratiques pour la conception d’invites La conception d’invites efficaces est clé pour des évaluations précises. Voici quelques conseils pratiques : Éviter les biais : Les LLM peuvent montrer des préférences basées sur la structure de l’invite. Évitez de suggérer la « bonne » réponse dans l’invite et assurez-vous que la question est neutre. Réduire le biais de verbosité : Les LLM peuvent favoriser les réponses plus verbales. Spécifiez la concision si la verbosité n’est pas un critère. Minimiser le biais de position : Dans les comparaisons par paires, randomisez périodiquement l’ordre des réponses pour réduire tout biais positionnel envers la première ou la deuxième réponse. Par exemple, plutôt que de dire « Choisissez la meilleure réponse ci-dessous », spécifiez les critères directement : « Choisissez la réponse qui fournit une explication claire et concise ». Limitations et stratégies d’atténuation Bien que les juges LLM puissent reproduire un jugement humain, ils ont également des limitations : Complexité de la tâche : Certaines tâches, en particulier celles qui nécessitent des mathématiques ou un raisonnement approfondi, peuvent dépasser la capacité d’un LLM. Il peut être bénéfique d’utiliser des modèles plus simples ou des validateurs externes pour les tâches qui nécessitent des connaissances factuelles précises. Biais involontaires : Les juges LLM peuvent afficher des biais basés sur la formulation, appelés « biais de position » (favorisant les réponses dans certaines positions) ou « biais d’amélioration » (favorisant les réponses similaires aux précédentes). Pour atténuer ces biais, évitez les hypothèses de position et surveillez les tendances d’évaluation pour détecter les incohérences. Ambiguïté dans la sortie : Si le LLM produit des évaluations ambiguës, envisagez d’utiliser des invites binaires qui nécessitent des classifications oui/non ou positives/négatives pour des tâches plus simples. Conclusion Le cadre LLM-as-a-Judge offre une approche flexible, évolutiva et rentable pour évaluer les sorties de texte générées par l’IA. Avec une configuration et une conception d’invites soigneuses, il peut imiter le jugement humain dans diverses applications, des chatbots aux résumés et aux systèmes de questions-réponses. Grâce à une surveillance attentive, à l’itération des invites et à la prise en compte des limites, les équipes peuvent s’assurer que leurs juges LLM restent alignés sur les besoins d’application du monde réel.