Suivez nous sur

Au-delĂ  des repères : pourquoi l'Ă©valuation de l'IA doit ĂŞtre confrontĂ©e Ă  la rĂ©alitĂ©

Intelligence Artificielle

Au-delĂ  des repères : pourquoi l'Ă©valuation de l'IA doit ĂŞtre confrontĂ©e Ă  la rĂ©alitĂ©

mm

Si vous suivez l'IA ces derniers temps, vous avez probablement vu des gros titres faisant état des avancées révolutionnaires de modèles d'IA atteignant des records de performance. Des tâches de reconnaissance d'images ImageNet aux performances exceptionnelles en traduction et en diagnostic d'images médicales, les benchmarks constituent depuis longtemps la référence absolue pour mesurer les performances de l'IA. Cependant, aussi impressionnants soient-ils, ces chiffres ne reflètent pas toujours la complexité des applications concrètes. Un modèle parfaitement performant lors d'un benchmark peut néanmoins s'avérer décevant lorsqu'il est mis à l'épreuve en conditions réelles. Dans cet article, nous allons examiner pourquoi les benchmarks traditionnels ne parviennent pas à saisir la véritable valeur de l'IA et explorer des méthodes d'évaluation alternatives qui reflètent mieux les défis dynamiques, éthiques et pratiques du déploiement de l'IA dans le monde réel.

L'attrait des repères

Depuis des années, les benchmarks constituent le fondement de l'évaluation de l'IA. Ils proposent des ensembles de données statiques conçus pour mesurer des tâches spécifiques comme la reconnaissance d'objets ou la traduction automatique. ImageNet, par exemple, est une référence largement utilisée pour tester la classification des objets, tandis que BLEU et ROUGE Évaluer la qualité d'un texte généré par ordinateur en le comparant à des textes de référence rédigés par des humains. Ces tests standardisés permettent aux chercheurs de comparer leurs progrès et de créer une saine concurrence dans le domaine. Les critères de référence ont joué un rôle clé dans les avancées majeures du domaine. Le concours ImageNet, par exemple, joué un rôle crucial dans la révolution de l’apprentissage en profondeur en montrant des améliorations significatives de la précision.

Cependant, les benchmarks simplifient souvent la réalité. Les modèles d'IA étant généralement entraînés pour s'améliorer sur une seule tâche bien définie dans des conditions fixes, cela peut conduire à une suroptimisation. Pour obtenir des scores élevés, les modèles peuvent s'appuyer sur des modèles d'ensembles de données qui ne résistent pas au-delà du benchmark. Un célèbre (ici) Il s'agit d'un modèle de vision entraîné à distinguer les loups des huskies. Au lieu d'apprendre les caractéristiques distinctives des animaux, le modèle s'appuyait sur la présence d'arrière-plans enneigés, communément associés aux loups, dans les données d'entraînement. Par conséquent, lorsqu'un husky dans la neige était présenté au modèle, il le considérait à tort comme un loup. Cela illustre comment le surapprentissage d'une référence peut conduire à des modèles erronés. Loi de Goodhart déclare : « Lorsqu'une mesure devient un objectif, elle cesse d'être une bonne mesure. » Ainsi, lorsque les scores de référence deviennent l'objectif, les modèles d'IA illustrent la loi de Goodhart : ils produisent des scores impressionnants dans les classements, mais ont du mal à relever les défis du monde réel.

Attentes humaines et scores métriques

L'une des principales limites des benchmarks est qu'ils ne parviennent souvent pas Ă  saisir ce qui compte vraiment pour les humains. Prenons l'exemple de la traduction automatique. Un modèle peut obtenir un bon score Ă  l'indicateur BLEU, qui mesure le chevauchement entre les traductions gĂ©nĂ©rĂ©es automatiquement et les traductions de rĂ©fĂ©rence. Si cet indicateur permet d'Ă©valuer la plausibilitĂ© d'une traduction en termes de chevauchement au niveau des mots, il ne prend pas en compte la fluiditĂ© ni le sens. Une traduction peut obtenir un mauvais score, mĂŞme plus naturelle, voire plus prĂ©cise, simplement parce qu'elle utilise une formulation diffĂ©rente de celle de la rĂ©fĂ©rence. Les utilisateurs humains, quant Ă  eux, se soucient du sens et de la fluiditĂ© des traductions, et pas seulement de leur correspondance exacte avec une rĂ©fĂ©rence. Le mĂŞme problème se pose pour le rĂ©sumĂ© de texte : un score ROUGE Ă©levĂ© ne garantit pas la cohĂ©rence du rĂ©sumĂ© ni la restitution des points clĂ©s attendus par un lecteur humain.

Pour les modèles d'IA gĂ©nĂ©ratifs, la problĂ©matique devient encore plus complexe. Par exemple, les grands modèles de langage (LLM) sont gĂ©nĂ©ralement Ă©valuĂ©s sur un benchmark. MMLU pour tester leur capacitĂ© Ă  rĂ©pondre Ă  des questions dans plusieurs domaines. Bien que ce benchmark puisse aider Ă  tester la performance des LLM Ă  rĂ©pondre Ă  des questions, il ne garantit pas leur fiabilitĂ©. Ces modèles peuvent nĂ©anmoins « halluciner, prĂ©sentant des faits faux mais apparemment plausibles. Cet Ă©cart est difficile Ă  dĂ©tecter par les critères qui se concentrent sur les rĂ©ponses correctes sans Ă©valuer la vĂ©racitĂ©, le contexte ou la cohĂ©rence. Dans un cas très mĂ©diatisĂ© maisons, un assistant IA utilisĂ© pour rĂ©diger un mĂ©moire juridique citait des affaires judiciaires entièrement fausses. L'IA peut paraĂ®tre convaincante sur le papier, mais elle a failli aux attentes humaines Ă©lĂ©mentaires en matière de vĂ©racitĂ©.

Les défis des repères statiques dans des contextes dynamiques

  • Adaptation aux environnements changeants

Les benchmarks statiques évaluent les performances de l'IA dans des conditions contrôlées, mais les scénarios réels sont imprévisibles. Par exemple, une IA conversationnelle peut exceller sur des questions scriptées à un tour dans un benchmark, mais peiner dans un dialogue en plusieurs étapes incluant des relances, de l'argot ou des fautes de frappe. De même, les voitures autonomes obtiennent souvent de bons résultats aux tests de détection d'objets dans des conditions idéales, mais échouer dans des circonstances inhabituelles, comme un mauvais éclairage, des conditions météorologiques défavorables ou des obstacles inattendus. Par exemple, un panneau d'arrêt modifié avec des autocollants peut embrouiller le système de vision d'une voiture, ce qui peut entraîner des erreurs d'interprétation. Ces exemples montrent que les repères statiques ne permettent pas de mesurer de manière fiable les complexités du monde réel.

  • ConsidĂ©rations Ă©thiques et sociales

Les critères de référence traditionnels ne parviennent souvent pas à évaluer la performance éthique de l'IA. Un modèle de reconnaissance d'images peut atteindre une grande précision, mais mal identifier Des individus issus de certains groupes ethniques peuvent être affectés par des données d'entraînement biaisées. De même, les modèles linguistiques peuvent obtenir de bons résultats en grammaire et en fluidité, tout en produisant du contenu biaisé ou préjudiciable. Ces problèmes, qui ne sont pas reflétés dans les indicateurs de référence, ont des conséquences importantes dans les applications concrètes.

  • IncapacitĂ© Ă  saisir les aspects nuancĂ©s

Les benchmarks sont très efficaces pour vérifier des compétences superficielles, comme la capacité d'un modèle à générer un texte grammaticalement correct ou une image réaliste. Mais ils peinent souvent à évaluer des qualités plus profondes, comme le raisonnement logique ou la pertinence contextuelle. Par exemple, un modèle peut exceller dans un benchmark en produisant une phrase parfaite, mais si cette phrase est factuellement incorrecte, elle est inutile. L'IA doit comprendre. quand et how dire quelque chose, pas seulement est ce que nous faisons Les benchmarks testent rarement ce niveau d'intelligence, pourtant essentiel pour des applications comme les chatbots ou la création de contenu.

  • Adaptation contextuelle

Les modèles d'IA peinent souvent à s'adapter à de nouveaux contextes, notamment lorsqu'ils sont confrontés à des données hors de leur base d'entraînement. Les benchmarks sont généralement conçus avec des données similaires à celles sur lesquelles le modèle a été entraîné. Cela signifie qu'ils ne testent pas pleinement la capacité d'un modèle à gérer des entrées nouvelles ou inattendues, une exigence essentielle dans les applications réelles. Par exemple, un chatbot peut être plus performant sur des questions de benchmark, mais rencontrer des difficultés lorsque les utilisateurs posent des questions non pertinentes, comme de l'argot ou des sujets de niche.

  • Raisonnement et infĂ©rence

Si les benchmarks permettent de mesurer la reconnaissance de formes ou la génération de contenu, ils sont souvent insuffisants pour le raisonnement et l'inférence de haut niveau. L'IA doit faire plus que simplement imiter des schémas. Elle doit comprendre les implications, établir des liens logiques et déduire de nouvelles informations. Par exemple, un modèle peut générer une réponse factuellement correcte, mais ne pas la relier logiquement à une conversation plus large. Les benchmarks actuels ne prennent peut-être pas pleinement en compte ces compétences cognitives avancées, ce qui nous laisse une vision incomplète des capacités de l'IA.

Au-delĂ  des repères : une nouvelle approche de l’évaluation de l’IA

Pour combler l'Ă©cart entre les performances des benchmarks et la rĂ©ussite concrète, une nouvelle approche de l'Ă©valuation de l'IA Ă©merge. Voici quelques stratĂ©gies qui gagnent en popularitĂ© :

  • RĂ©troaction humaine dans la boucle : Au lieu de vous fier uniquement Ă  des indicateurs automatisĂ©s, impliquez des Ă©valuateurs humains dans le processus. Cela pourrait impliquer de demander Ă  des experts ou Ă  des utilisateurs finaux d'Ă©valuer la qualitĂ©, l'utilitĂ© et la pertinence des rĂ©sultats de l'IA. Les humains peuvent ainsi mieux Ă©valuer des aspects tels que le ton, la pertinence et la prise en compte Ă©thique par rapport Ă  des critères de rĂ©fĂ©rence.
  • Tests de dĂ©ploiement en conditions rĂ©elles : Les systèmes d'IA devraient ĂŞtre testĂ©s dans des environnements aussi proches que possible des conditions rĂ©elles. Par exemple, les voitures autonomes pourraient ĂŞtre testĂ©es sur des routes simulĂ©es avec des scĂ©narios de circulation imprĂ©visibles, tandis que les chatbots pourraient ĂŞtre dĂ©ployĂ©s dans des environnements rĂ©els pour gĂ©rer diverses conversations. Cela garantit que les modèles sont Ă©valuĂ©s dans les conditions rĂ©elles auxquelles ils seront confrontĂ©s.
  • Robustesse et tests de rĂ©sistance : Il est crucial de tester les systèmes d'IA dans des conditions inhabituelles ou conflictuelles. Cela peut impliquer de tester un modèle de reconnaissance d'images avec des images dĂ©formĂ©es ou bruitĂ©es, ou d'Ă©valuer un modèle de langage avec des dialogues longs et complexes. Comprendre le comportement de l'IA sous contrainte nous permet de mieux la prĂ©parer aux dĂ©fis du monde rĂ©el.
  • Mesures d'Ă©valuation multidimensionnelles : Au lieu de vous fier Ă  un seul score de rĂ©fĂ©rence, Ă©valuez l'IA selon un Ă©ventail de critères, notamment la prĂ©cision, l'Ă©quitĂ©, la robustesse et les considĂ©rations Ă©thiques. Cette approche holistique permet une comprĂ©hension plus complète des forces et des faiblesses d'un modèle d'IA.
  • Tests spĂ©cifiques au domaine : L'Ă©valuation doit ĂŞtre personnalisĂ©e en fonction du domaine spĂ©cifique dans lequel l'IA sera dĂ©ployĂ©e. L'IA mĂ©dicale, par exemple, doit ĂŞtre testĂ©e sur des Ă©tudes de cas conçues par des professionnels de la santĂ©, tandis qu'une IA destinĂ©e aux marchĂ©s financiers doit ĂŞtre Ă©valuĂ©e pour sa stabilitĂ© face aux fluctuations Ă©conomiques.

En résumé

Si les benchmarks ont permis de faire progresser la recherche en IA, ils ne parviennent pas à saisir les performances réelles. À mesure que l'IA passe des laboratoires aux applications pratiques, son évaluation doit être centrée sur l'humain et holistique. Tester en conditions réelles, intégrer le retour d'expérience humain et privilégier l'équité et la robustesse sont essentiels. L'objectif n'est pas de figurer en tête des classements, mais de développer une IA fiable, adaptable et performante dans un monde dynamique et complexe.

Le Dr Tehseen Zia est professeur agrégé titulaire à l'Université COMSATS d'Islamabad, titulaire d'un doctorat en IA de l'Université de technologie de Vienne, en Autriche. Spécialisé en intelligence artificielle, apprentissage automatique, science des données et vision par ordinateur, il a apporté d'importantes contributions avec des publications dans des revues scientifiques réputées. Le Dr Tehseen a également dirigé divers projets industriels en tant que chercheur principal et a servi à titre de consultant en IA.