Intelligence Artificielle

Comment les données synthétiques impactent-elles les hallucinations de l’IA ?

Publié 8 février 2025

Zac Amos

Bien que les données synthétiques soient un outil puissant, elles ne peuvent réduire les hallucinations de l’intelligence artificielle que dans certaines circonstances. Dans presque tous les autres cas, elles les amplifieront. Pourquoi en est-il ainsi ? Que signifie ce phénomène pour ceux qui y ont investi ?

En quoi les données synthétiques sont-elles différentes des données réelles ?

Les données synthétiques sont des informations générées par l'IA. Au lieu d'être collectées à partir d'événements ou d'observations du monde réel, elles sont produites artificiellement. Cependant, elles ressemblent suffisamment à l'original pour produire des résultats précis et pertinents. C'est en tout cas l'idée.

Pour créer un ensemble de données artificiel, les ingénieurs en intelligence artificielle entraînent un algorithme génératif sur une base de données relationnelle réelle. Lorsqu’ils y sont invités, ils produisent un deuxième ensemble qui reflète étroitement le premier mais ne contient aucune information réelle. Bien que les tendances générales et les propriétés mathématiques restent intactes, il y a suffisamment de bruit pour masquer les relations d’origine.

Un ensemble de données généré par l’IA va au-delà de la désidentification, en reproduisant la logique sous-jacente des relations entre les champs au lieu de simplement remplacer les champs par des alternatives équivalentes. Comme il ne contient aucun détail d’identification, les entreprises peuvent l’utiliser pour contourner les réglementations en matière de confidentialité et de droits d’auteur. Plus important encore, elles peuvent le partager ou le distribuer librement sans craindre une violation.

Cependant, les fausses informations sont plus souvent utilisées à des fins de complémentarité. Les entreprises peuvent les utiliser pour enrichir ou élargir des échantillons trop petits, afin de les rendre suffisamment grands pour former efficacement les systèmes d’IA.

Les données synthétiques minimisent-elles les hallucinations de l’IA ?

Parfois, les algorithmes font référence à des événements inexistants ou émettent des suggestions logiquement impossibles. Ces hallucinations sont souvent absurdes, trompeuses ou incorrectes. Par exemple, un grand modèle linguistique peut écrire un article pratique sur la domestication des lions ou sur la façon de devenir médecin à 6 ans. Cependant, elles ne sont pas toutes aussi extrêmes, ce qui peut rendre leur reconnaissance difficile.

Si elles sont correctement organisées, les données artificielles peuvent atténuer ces incidents. Une base de données de formation pertinente et authentique est la base de tout modèle. Il va donc de soi que plus une personne dispose de détails, plus le résultat de son modèle sera précis. Un ensemble de données supplémentaire permet l'évolutivité, même pour des applications de niche avec des informations publiques limitées.

Le débiasing est une autre façon pour une base de données synthétique de minimiser les hallucinations de l'IA. Selon la MIT Sloan School of Management, peut aider à lutter contre les préjugés car elle ne se limite pas à la taille de l'échantillon d'origine. Les professionnels peuvent utiliser des détails réalistes pour combler les lacunes lorsque certaines sous-populations sont sous-représentées ou surreprésentées.

Comment les données artificielles aggravent les hallucinations

Étant donné que les algorithmes intelligents ne peut pas raisonner ou contextualiser l'information, ils sont sujets aux hallucinations. Les modèles génératifs, en particulier les modèles de langage pré-entraînés, sont particulièrement vulnérables. À certains égards, les faits artificiels aggravent le problème.

Amplification de biais

Comme les humains, l’IA peut apprendre et reproduire des biais. Si une base de données artificielle surévalue certains groupes tout en en sous-représentant d’autres (ce qui est extrêmement facile à faire par accident), sa logique de prise de décision sera faussée, ce qui aura un impact négatif sur la précision des résultats.

Un problème similaire peut survenir lorsque les entreprises utilisent de fausses données pour éliminer les biais du monde réel, car elles peuvent ne plus refléter la réalité. Par exemple, plus de 99 % des cancers du sein se produisent chez les femmes, l’utilisation d’informations supplémentaires pour équilibrer la représentation pourrait fausser les diagnostics.

Hallucinations intersectionnelles

L'intersectionnalité est un cadre sociologique qui décrit la manière dont les caractéristiques démographiques telles que l'âge, le sexe, la race, la profession et la classe sociale se croisent. Elle analyse la manière dont les identités sociales qui se chevauchent entre les groupes donnent lieu à des combinaisons uniques de discrimination et de privilèges.

Lorsqu'on demande à un modèle génératif de produire des détails artificiels en fonction de ce sur quoi il a été formé, il peut générer des combinaisons qui n'existaient pas dans l'original ou qui sont logiquement impossibles.

Ericka Johnson, professeure de genre et de société à l'université de Linköping, a travaillé avec un scientifique spécialisé dans l'apprentissage automatique pour démontrer ce phénomène. Ils ont utilisé un réseau antagoniste génératif pour créer des versions synthétiques des chiffres du recensement des États-Unis de 1990.

Ils ont tout de suite remarqué un problème flagrant. La version artificielle comportait des catégories intitulées « épouse célibataire » et « mari célibataire », deux hallucinations intersectionnelles.

Sans une curation appropriée, la base de données répliquée surreprésentera toujours les sous-populations dominantes dans les ensembles de données tout en sous-représentant, voire en excluant, les groupes sous-représentés. Les cas extrêmes et les valeurs aberrantes peuvent être entièrement ignorés au profit des tendances dominantes.

Effondrement du modèle

Une dépendance excessive aux modèles et aux tendances artificiels conduit à l’effondrement du modèle, où les performances d’un algorithme se détériorent considérablement à mesure qu’il devient moins adaptable aux observations et aux événements du monde réel.

Ce phénomène est particulièrement apparent dans l'IA générative de nouvelle génération. L'utilisation répétée d'une version artificielle pour les entraîner entraîne une boucle d'autoconsommation. Une étude a révélé que leur baisse de la qualité et du rappel progressivement, sans disposer de chiffres suffisamment récents et réels pour chaque génération.

Surapprentissage

Surapprentissage Il s'agit d'une dépendance excessive aux données d'entraînement. L'algorithme fonctionne bien au début, mais il aura des hallucinations lorsqu'il sera confronté à de nouveaux points de données. Les informations synthétiques peuvent aggraver ce problème si elles ne reflètent pas exactement la réalité.

Les implications de l’utilisation continue des données synthétiques

Le marché des données synthétiques est en plein essor. Les entreprises de ce créneau industriel levé environ 328 millions de dollars en 2022, contre 53 millions de dollars en 2020, soit une augmentation de 518 % en seulement 18 mois. Il convient de noter qu'il s'agit uniquement d'un financement connu du public, ce qui signifie que le chiffre réel peut être encore plus élevé. On peut dire sans se tromper que les entreprises sont incroyablement investies dans cette solution.

Si les entreprises continuent d’utiliser une base de données artificielle sans la sélectionner et la corriger correctement, les performances de leur modèle vont progressivement diminuer, ce qui va nuire à leurs investissements en IA. Les conséquences peuvent être plus graves, selon l’application. Par exemple, dans le domaine de la santé, une augmentation des hallucinations pourrait entraîner des erreurs de diagnostic ou des plans de traitement inappropriés, ce qui pourrait entraîner de moins bons résultats pour les patients.

La solution n’implique pas de revenir aux données réelles

Les systèmes d’IA ont besoin de millions, voire de milliards, d’images, de textes et de vidéos pour s’entraîner, dont une grande partie est extraite de sites Web publics et compilée dans des ensembles de données massifs et ouverts. Malheureusement, les algorithmes consomment ces informations plus vite que les humains ne peuvent les générer. Que se passe-t-il lorsqu’ils apprennent tout ?

Les chefs d’entreprise craignent de se retrouver face à un mur de données, le point où toutes les informations publiques sur Internet auront été épuisées. Ce moment pourrait arriver plus vite qu’ils ne le pensent.

Même si la quantité de texte en clair sur la page Web moyenne et le nombre d'utilisateurs Internet augmentent de 2% à 4% Chaque année, les algorithmes manquent de données de haute qualité. Seuls 10 à 40 % de ces données peuvent être utilisées pour la formation sans compromettre les performances. Si la tendance se poursuit, le stock d’informations publiques générées par l’homme pourrait s’épuiser d’ici 2026.

Il est fort probable que le secteur de l’IA se retrouve encore plus tôt confronté au mur des données. L’essor de l’IA générative au cours des dernières années a accru les tensions autour de la propriété des informations et de la violation des droits d’auteur. De plus en plus de propriétaires de sites Web utilisent le protocole d’exclusion des robots (Robots Exclusion Protocol), une norme qui utilise un fichier robots.txt pour bloquer les robots d’indexation du Web, ou indiquent clairement que leur site est inaccessible.

Une étude de 2024 publiée par un groupe de recherche dirigé par le MIT a révélé que les restrictions sur l'ensemble de données Colossal Cleaned Common Crawl (C4) - un corpus d'exploration Web à grande échelle - sont en augmentation. 28 % des sources les plus actives et critiques dans C4, l'accès était totalement restreint. De plus, 45 % du C4 sont désormais désignés comme étant interdits par les conditions de service.

Si les entreprises respectent ces restrictions, la fraîcheur, la pertinence et l’exactitude des faits publics réels diminueront, les obligeant à s’appuyer sur des bases de données artificielles. Elles n’auront peut-être pas beaucoup de choix si les tribunaux décident que toute autre solution constitue une violation du droit d’auteur.

L'avenir des données synthétiques et des hallucinations de l'IA

À mesure que les lois sur le droit d'auteur se modernisent et que de plus en plus de propriétaires de sites Web cachent leur contenu aux robots d'exploration, la génération de jeux de données artificiels va devenir de plus en plus populaire. Les organisations doivent se préparer à faire face à la menace des hallucinations.

Rubriques connexes:hallucinations ai données synthétiques

Transformers et au-delà : repenser les architectures d'IA pour les tâches spécialisées

Ne manquez pas

DeepSeek AI et le changement de pouvoir mondial : battage médiatique ou réalité ?