Intelligence Artificielle
Comment les donnĂ©es synthĂ©tiques impactent-elles les hallucinations de lâIA ?

Bien que les donnĂ©es synthĂ©tiques soient un outil puissant, elles ne peuvent rĂ©duire les hallucinations de lâintelligence artificielle que dans certaines circonstances. Dans presque tous les autres cas, elles les amplifieront. Pourquoi en est-il ainsi ? Que signifie ce phĂ©nomĂšne pour ceux qui y ont investi ?
En quoi les données synthétiques sont-elles différentes des données réelles ?
Les donnĂ©es synthĂ©tiques sont des informations gĂ©nĂ©rĂ©es par l'IA. Au lieu d'ĂȘtre collectĂ©es Ă partir d'Ă©vĂ©nements ou d'observations du monde rĂ©el, elles sont produites artificiellement. Cependant, elles ressemblent suffisamment Ă l'original pour produire des rĂ©sultats prĂ©cis et pertinents. C'est en tout cas l'idĂ©e.
Pour crĂ©er un ensemble de donnĂ©es artificiel, les ingĂ©nieurs en intelligence artificielle entraĂźnent un algorithme gĂ©nĂ©ratif sur une base de donnĂ©es relationnelle rĂ©elle. Lorsquâils y sont invitĂ©s, ils produisent un deuxiĂšme ensemble qui reflĂšte Ă©troitement le premier mais ne contient aucune information rĂ©elle. Bien que les tendances gĂ©nĂ©rales et les propriĂ©tĂ©s mathĂ©matiques restent intactes, il y a suffisamment de bruit pour masquer les relations dâorigine.
Un ensemble de donnĂ©es gĂ©nĂ©rĂ© par lâIA va au-delĂ de la dĂ©sidentification, en reproduisant la logique sous-jacente des relations entre les champs au lieu de simplement remplacer les champs par des alternatives Ă©quivalentes. Comme il ne contient aucun dĂ©tail dâidentification, les entreprises peuvent lâutiliser pour contourner les rĂ©glementations en matiĂšre de confidentialitĂ© et de droits dâauteur. Plus important encore, elles peuvent le partager ou le distribuer librement sans craindre une violation.
Cependant, les fausses informations sont plus souvent utilisĂ©es Ă des fins de complĂ©mentaritĂ©. Les entreprises peuvent les utiliser pour enrichir ou Ă©largir des Ă©chantillons trop petits, afin de les rendre suffisamment grands pour former efficacement les systĂšmes dâIA.
Les donnĂ©es synthĂ©tiques minimisent-elles les hallucinations de lâIA ?
Parfois, les algorithmes font rĂ©fĂ©rence Ă des Ă©vĂ©nements inexistants ou Ă©mettent des suggestions logiquement impossibles. Ces hallucinations sont souvent absurdes, trompeuses ou incorrectes. Par exemple, un grand modĂšle linguistique peut Ă©crire un article pratique sur la domestication des lions ou sur la façon de devenir mĂ©decin Ă 6 ans. Cependant, elles ne sont pas toutes aussi extrĂȘmes, ce qui peut rendre leur reconnaissance difficile.
Si elles sont correctement organisĂ©es, les donnĂ©es artificielles peuvent attĂ©nuer ces incidents. Une base de donnĂ©es de formation pertinente et authentique est la base de tout modĂšle. Il va donc de soi que plus une personne dispose de dĂ©tails, plus le rĂ©sultat de son modĂšle sera prĂ©cis. Un ensemble de donnĂ©es supplĂ©mentaire permet l'Ă©volutivitĂ©, mĂȘme pour des applications de niche avec des informations publiques limitĂ©es.
Le débiasing est une autre façon pour une base de données synthétique de minimiser les hallucinations de l'IA. Selon la MIT Sloan School of Management, peut aider à lutter contre les préjugés car elle ne se limite pas à la taille de l'échantillon d'origine. Les professionnels peuvent utiliser des détails réalistes pour combler les lacunes lorsque certaines sous-populations sont sous-représentées ou surreprésentées.
Comment les données artificielles aggravent les hallucinations
Ătant donnĂ© que les algorithmes intelligents ne peut pas raisonner ou contextualiser l'information, ils sont sujets aux hallucinations. Les modĂšles gĂ©nĂ©ratifs, en particulier les modĂšles de langage prĂ©-entraĂźnĂ©s, sont particuliĂšrement vulnĂ©rables. Ă certains Ă©gards, les faits artificiels aggravent le problĂšme.
Amplification de biais
Comme les humains, lâIA peut apprendre et reproduire des biais. Si une base de donnĂ©es artificielle surĂ©value certains groupes tout en en sous-reprĂ©sentant dâautres (ce qui est extrĂȘmement facile Ă faire par accident), sa logique de prise de dĂ©cision sera faussĂ©e, ce qui aura un impact nĂ©gatif sur la prĂ©cision des rĂ©sultats.
Un problĂšme similaire peut survenir lorsque les entreprises utilisent de fausses donnĂ©es pour Ă©liminer les biais du monde rĂ©el, car elles peuvent ne plus reflĂ©ter la rĂ©alitĂ©. Par exemple, plus de 99 % des cancers du sein se produisent chez les femmes, lâutilisation dâinformations supplĂ©mentaires pour Ă©quilibrer la reprĂ©sentation pourrait fausser les diagnostics.
Hallucinations intersectionnelles
L'intersectionnalité est un cadre sociologique qui décrit la maniÚre dont les caractéristiques démographiques telles que l'ùge, le sexe, la race, la profession et la classe sociale se croisent. Elle analyse la maniÚre dont les identités sociales qui se chevauchent entre les groupes donnent lieu à des combinaisons uniques de discrimination et de privilÚges.
Lorsqu'on demande à un modÚle génératif de produire des détails artificiels en fonction de ce sur quoi il a été formé, il peut générer des combinaisons qui n'existaient pas dans l'original ou qui sont logiquement impossibles.
Ericka Johnson, professeure de genre et de sociĂ©tĂ© Ă l'universitĂ© de Linköping, a travaillĂ© avec un scientifique spĂ©cialisĂ© dans l'apprentissage automatique pour dĂ©montrer ce phĂ©nomĂšne. Ils ont utilisĂ© un rĂ©seau antagoniste gĂ©nĂ©ratif pour crĂ©er des versions synthĂ©tiques des chiffres du recensement des Ătats-Unis de 1990.
Ils ont tout de suite remarqué un problÚme flagrant. La version artificielle comportait des catégories intitulées « épouse célibataire » et « mari célibataire », deux hallucinations intersectionnelles.
Sans une curation appropriĂ©e, la base de donnĂ©es rĂ©pliquĂ©e surreprĂ©sentera toujours les sous-populations dominantes dans les ensembles de donnĂ©es tout en sous-reprĂ©sentant, voire en excluant, les groupes sous-reprĂ©sentĂ©s. Les cas extrĂȘmes et les valeurs aberrantes peuvent ĂȘtre entiĂšrement ignorĂ©s au profit des tendances dominantes.
Effondrement du modĂšle
Une dĂ©pendance excessive aux modĂšles et aux tendances artificiels conduit Ă lâeffondrement du modĂšle, oĂč les performances dâun algorithme se dĂ©tĂ©riorent considĂ©rablement Ă mesure quâil devient moins adaptable aux observations et aux Ă©vĂ©nements du monde rĂ©el.
Ce phénomÚne est particuliÚrement apparent dans l'IA générative de nouvelle génération. L'utilisation répétée d'une version artificielle pour les entraßner entraßne une boucle d'autoconsommation. Une étude a révélé que leur baisse de la qualité et du rappel progressivement, sans disposer de chiffres suffisamment récents et réels pour chaque génération.
Surapprentissage
Surapprentissage Il s'agit d'une dépendance excessive aux données d'entraßnement. L'algorithme fonctionne bien au début, mais il aura des hallucinations lorsqu'il sera confronté à de nouveaux points de données. Les informations synthétiques peuvent aggraver ce problÚme si elles ne reflÚtent pas exactement la réalité.
Les implications de lâutilisation continue des donnĂ©es synthĂ©tiques
Le marchĂ© des donnĂ©es synthĂ©tiques est en plein essor. Les entreprises de ce crĂ©neau industriel levĂ© environ 328 millions de dollars en 2022, contre 53 millions de dollars en 2020, soit une augmentation de 518 % en seulement 18 mois. Il convient de noter qu'il s'agit uniquement d'un financement connu du public, ce qui signifie que le chiffre rĂ©el peut ĂȘtre encore plus Ă©levĂ©. On peut dire sans se tromper que les entreprises sont incroyablement investies dans cette solution.
Si les entreprises continuent dâutiliser une base de donnĂ©es artificielle sans la sĂ©lectionner et la corriger correctement, les performances de leur modĂšle vont progressivement diminuer, ce qui va nuire Ă leurs investissements en IA. Les consĂ©quences peuvent ĂȘtre plus graves, selon lâapplication. Par exemple, dans le domaine de la santĂ©, une augmentation des hallucinations pourrait entraĂźner des erreurs de diagnostic ou des plans de traitement inappropriĂ©s, ce qui pourrait entraĂźner de moins bons rĂ©sultats pour les patients.
La solution nâimplique pas de revenir aux donnĂ©es rĂ©elles
Les systĂšmes dâIA ont besoin de millions, voire de milliards, dâimages, de textes et de vidĂ©os pour sâentraĂźner, dont une grande partie est extraite de sites Web publics et compilĂ©e dans des ensembles de donnĂ©es massifs et ouverts. Malheureusement, les algorithmes consomment ces informations plus vite que les humains ne peuvent les gĂ©nĂ©rer. Que se passe-t-il lorsquâils apprennent tout ?
Les chefs dâentreprise craignent de se retrouver face Ă un mur de donnĂ©es, le point oĂč toutes les informations publiques sur Internet auront Ă©tĂ© Ă©puisĂ©es. Ce moment pourrait arriver plus vite quâils ne le pensent.
MĂȘme si la quantitĂ© de texte en clair sur la page Web moyenne et le nombre d'utilisateurs Internet augmentent de 2% Ă 4% Chaque annĂ©e, les algorithmes manquent de donnĂ©es de haute qualitĂ©. Seuls 10 Ă 40 % de ces donnĂ©es peuvent ĂȘtre utilisĂ©es pour la formation sans compromettre les performances. Si la tendance se poursuit, le stock dâinformations publiques gĂ©nĂ©rĂ©es par lâhomme pourrait sâĂ©puiser dâici 2026.
Il est fort probable que le secteur de lâIA se retrouve encore plus tĂŽt confrontĂ© au mur des donnĂ©es. Lâessor de lâIA gĂ©nĂ©rative au cours des derniĂšres annĂ©es a accru les tensions autour de la propriĂ©tĂ© des informations et de la violation des droits dâauteur. De plus en plus de propriĂ©taires de sites Web utilisent le protocole dâexclusion des robots (Robots Exclusion Protocol), une norme qui utilise un fichier robots.txt pour bloquer les robots dâindexation du Web, ou indiquent clairement que leur site est inaccessible.
Une étude de 2024 publiée par un groupe de recherche dirigé par le MIT a révélé que les restrictions sur l'ensemble de données Colossal Cleaned Common Crawl (C4) - un corpus d'exploration Web à grande échelle - sont en augmentation. 28 % des sources les plus actives et critiques dans C4, l'accÚs était totalement restreint. De plus, 45 % du C4 sont désormais désignés comme étant interdits par les conditions de service.
Si les entreprises respectent ces restrictions, la fraĂźcheur, la pertinence et lâexactitude des faits publics rĂ©els diminueront, les obligeant Ă sâappuyer sur des bases de donnĂ©es artificielles. Elles nâauront peut-ĂȘtre pas beaucoup de choix si les tribunaux dĂ©cident que toute autre solution constitue une violation du droit dâauteur.
L'avenir des données synthétiques et des hallucinations de l'IA
à mesure que les lois sur le droit d'auteur se modernisent et que de plus en plus de propriétaires de sites Web cachent leur contenu aux robots d'exploration, la génération de jeux de données artificiels va devenir de plus en plus populaire. Les organisations doivent se préparer à faire face à la menace des hallucinations.