Suivez nous sur

Comment les donnĂ©es synthĂ©tiques impactent-elles les hallucinations de l’IA ?

Intelligence Artificielle

Comment les donnĂ©es synthĂ©tiques impactent-elles les hallucinations de l’IA ?

mm

Bien que les donnĂ©es synthĂ©tiques soient un outil puissant, elles ne peuvent rĂ©duire les hallucinations de l’intelligence artificielle que dans certaines circonstances. Dans presque tous les autres cas, elles les amplifieront. Pourquoi en est-il ainsi ? Que signifie ce phĂ©nomĂšne pour ceux qui y ont investi ? 

En quoi les donnĂ©es synthĂ©tiques sont-elles diffĂ©rentes des donnĂ©es rĂ©elles ?

Les donnĂ©es synthĂ©tiques sont des informations gĂ©nĂ©rĂ©es par l'IA. Au lieu d'ĂȘtre collectĂ©es Ă  partir d'Ă©vĂ©nements ou d'observations du monde rĂ©el, elles sont produites artificiellement. Cependant, elles ressemblent suffisamment Ă  l'original pour produire des rĂ©sultats prĂ©cis et pertinents. C'est en tout cas l'idĂ©e.  

Pour crĂ©er un ensemble de donnĂ©es artificiel, les ingĂ©nieurs en intelligence artificielle entraĂźnent un algorithme gĂ©nĂ©ratif sur une base de donnĂ©es relationnelle rĂ©elle. Lorsqu’ils y sont invitĂ©s, ils produisent un deuxiĂšme ensemble qui reflĂšte Ă©troitement le premier mais ne contient aucune information rĂ©elle. Bien que les tendances gĂ©nĂ©rales et les propriĂ©tĂ©s mathĂ©matiques restent intactes, il y a suffisamment de bruit pour masquer les relations d’origine. 

Un ensemble de donnĂ©es gĂ©nĂ©rĂ© par l’IA va au-delĂ  de la dĂ©sidentification, en reproduisant la logique sous-jacente des relations entre les champs au lieu de simplement remplacer les champs par des alternatives Ă©quivalentes. Comme il ne contient aucun dĂ©tail d’identification, les entreprises peuvent l’utiliser pour contourner les rĂ©glementations en matiĂšre de confidentialitĂ© et de droits d’auteur. Plus important encore, elles peuvent le partager ou le distribuer librement sans craindre une violation. 

Cependant, les fausses informations sont plus souvent utilisĂ©es Ă  des fins de complĂ©mentaritĂ©. Les entreprises peuvent les utiliser pour enrichir ou Ă©largir des Ă©chantillons trop petits, afin de les rendre suffisamment grands pour former efficacement les systĂšmes d’IA. 

Les donnĂ©es synthĂ©tiques minimisent-elles les hallucinations de l’IA ?

Parfois, les algorithmes font rĂ©fĂ©rence Ă  des Ă©vĂ©nements inexistants ou Ă©mettent des suggestions logiquement impossibles. Ces hallucinations sont souvent absurdes, trompeuses ou incorrectes. Par exemple, un grand modĂšle linguistique peut Ă©crire un article pratique sur la domestication des lions ou sur la façon de devenir mĂ©decin Ă  6 ans. Cependant, elles ne sont pas toutes aussi extrĂȘmes, ce qui peut rendre leur reconnaissance difficile. 

Si elles sont correctement organisĂ©es, les donnĂ©es artificielles peuvent attĂ©nuer ces incidents. Une base de donnĂ©es de formation pertinente et authentique est la base de tout modĂšle. Il va donc de soi que plus une personne dispose de dĂ©tails, plus le rĂ©sultat de son modĂšle sera prĂ©cis. Un ensemble de donnĂ©es supplĂ©mentaire permet l'Ă©volutivitĂ©, mĂȘme pour des applications de niche avec des informations publiques limitĂ©es. 

Le dĂ©biasing est une autre façon pour une base de donnĂ©es synthĂ©tique de minimiser les hallucinations de l'IA. Selon la MIT Sloan School of Management, peut aider Ă  lutter contre les prĂ©jugĂ©s car elle ne se limite pas Ă  la taille de l'Ă©chantillon d'origine. Les professionnels peuvent utiliser des dĂ©tails rĂ©alistes pour combler les lacunes lorsque certaines sous-populations sont sous-reprĂ©sentĂ©es ou surreprĂ©sentĂ©es. 

Comment les données artificielles aggravent les hallucinations

Étant donnĂ© que les algorithmes intelligents ne peut pas raisonner ou contextualiser l'information, ils sont sujets aux hallucinations. Les modĂšles gĂ©nĂ©ratifs, en particulier les modĂšles de langage prĂ©-entraĂźnĂ©s, sont particuliĂšrement vulnĂ©rables. À certains Ă©gards, les faits artificiels aggravent le problĂšme. 

Amplification de biais

Comme les humains, l’IA peut apprendre et reproduire des biais. Si une base de donnĂ©es artificielle surĂ©value certains groupes tout en en sous-reprĂ©sentant d’autres (ce qui est extrĂȘmement facile Ă  faire par accident), sa logique de prise de dĂ©cision sera faussĂ©e, ce qui aura un impact nĂ©gatif sur la prĂ©cision des rĂ©sultats. 

Un problĂšme similaire peut survenir lorsque les entreprises utilisent de fausses donnĂ©es pour Ă©liminer les biais du monde rĂ©el, car elles peuvent ne plus reflĂ©ter la rĂ©alitĂ©. Par exemple, plus de 99 % des cancers du sein se produisent chez les femmes, l’utilisation d’informations supplĂ©mentaires pour Ă©quilibrer la reprĂ©sentation pourrait fausser les diagnostics.

Hallucinations intersectionnelles

L'intersectionnalité est un cadre sociologique qui décrit la maniÚre dont les caractéristiques démographiques telles que l'ùge, le sexe, la race, la profession et la classe sociale se croisent. Elle analyse la maniÚre dont les identités sociales qui se chevauchent entre les groupes donnent lieu à des combinaisons uniques de discrimination et de privilÚges.

Lorsqu'on demande à un modÚle génératif de produire des détails artificiels en fonction de ce sur quoi il a été formé, il peut générer des combinaisons qui n'existaient pas dans l'original ou qui sont logiquement impossibles.

Ericka Johnson, professeure de genre et de sociĂ©tĂ© Ă  l'universitĂ© de Linköping, a travaillĂ© avec un scientifique spĂ©cialisĂ© dans l'apprentissage automatique pour dĂ©montrer ce phĂ©nomĂšne. Ils ont utilisĂ© un rĂ©seau antagoniste gĂ©nĂ©ratif pour crĂ©er des versions synthĂ©tiques des chiffres du recensement des États-Unis de 1990. 

Ils ont tout de suite remarqué un problÚme flagrant. La version artificielle comportait des catégories intitulées « épouse célibataire » et « mari célibataire », deux hallucinations intersectionnelles.

Sans une curation appropriĂ©e, la base de donnĂ©es rĂ©pliquĂ©e surreprĂ©sentera toujours les sous-populations dominantes dans les ensembles de donnĂ©es tout en sous-reprĂ©sentant, voire en excluant, les groupes sous-reprĂ©sentĂ©s. Les cas extrĂȘmes et les valeurs aberrantes peuvent ĂȘtre entiĂšrement ignorĂ©s au profit des tendances dominantes. 

Effondrement du modĂšle 

Une dĂ©pendance excessive aux modĂšles et aux tendances artificiels conduit Ă  l’effondrement du modĂšle, oĂč les performances d’un algorithme se dĂ©tĂ©riorent considĂ©rablement Ă  mesure qu’il devient moins adaptable aux observations et aux Ă©vĂ©nements du monde rĂ©el. 

Ce phénomÚne est particuliÚrement apparent dans l'IA générative de nouvelle génération. L'utilisation répétée d'une version artificielle pour les entraßner entraßne une boucle d'autoconsommation. Une étude a révélé que leur baisse de la qualité et du rappel progressivement, sans disposer de chiffres suffisamment récents et réels pour chaque génération.

Surapprentissage 

Surapprentissage Il s'agit d'une dĂ©pendance excessive aux donnĂ©es d'entraĂźnement. L'algorithme fonctionne bien au dĂ©but, mais il aura des hallucinations lorsqu'il sera confrontĂ© Ă  de nouveaux points de donnĂ©es. Les informations synthĂ©tiques peuvent aggraver ce problĂšme si elles ne reflĂštent pas exactement la rĂ©alitĂ©. 

Les implications de l’utilisation continue des donnĂ©es synthĂ©tiques

Le marchĂ© des donnĂ©es synthĂ©tiques est en plein essor. Les entreprises de ce crĂ©neau industriel levĂ© environ 328 millions de dollars en 2022, contre 53 millions de dollars en 2020, soit une augmentation de 518 % en seulement 18 mois. Il convient de noter qu'il s'agit uniquement d'un financement connu du public, ce qui signifie que le chiffre rĂ©el peut ĂȘtre encore plus Ă©levĂ©. On peut dire sans se tromper que les entreprises sont incroyablement investies dans cette solution. 

Si les entreprises continuent d’utiliser une base de donnĂ©es artificielle sans la sĂ©lectionner et la corriger correctement, les performances de leur modĂšle vont progressivement diminuer, ce qui va nuire Ă  leurs investissements en IA. Les consĂ©quences peuvent ĂȘtre plus graves, selon l’application. Par exemple, dans le domaine de la santĂ©, une augmentation des hallucinations pourrait entraĂźner des erreurs de diagnostic ou des plans de traitement inappropriĂ©s, ce qui pourrait entraĂźner de moins bons rĂ©sultats pour les patients.

La solution n’implique pas de revenir aux donnĂ©es rĂ©elles

Les systĂšmes d’IA ont besoin de millions, voire de milliards, d’images, de textes et de vidĂ©os pour s’entraĂźner, dont une grande partie est extraite de sites Web publics et compilĂ©e dans des ensembles de donnĂ©es massifs et ouverts. Malheureusement, les algorithmes consomment ces informations plus vite que les humains ne peuvent les gĂ©nĂ©rer. Que se passe-t-il lorsqu’ils apprennent tout ?

Les chefs d’entreprise craignent de se retrouver face Ă  un mur de donnĂ©es, le point oĂč toutes les informations publiques sur Internet auront Ă©tĂ© Ă©puisĂ©es. Ce moment pourrait arriver plus vite qu’ils ne le pensent. 

MĂȘme si la quantitĂ© de texte en clair sur la page Web moyenne et le nombre d'utilisateurs Internet augmentent de 2% Ă  4% Chaque annĂ©e, les algorithmes manquent de donnĂ©es de haute qualitĂ©. Seuls 10 Ă  40 % de ces donnĂ©es peuvent ĂȘtre utilisĂ©es pour la formation sans compromettre les performances. Si la tendance se poursuit, le stock d’informations publiques gĂ©nĂ©rĂ©es par l’homme pourrait s’épuiser d’ici 2026.

Il est fort probable que le secteur de l’IA se retrouve encore plus tĂŽt confrontĂ© au mur des donnĂ©es. L’essor de l’IA gĂ©nĂ©rative au cours des derniĂšres annĂ©es a accru les tensions autour de la propriĂ©tĂ© des informations et de la violation des droits d’auteur. De plus en plus de propriĂ©taires de sites Web utilisent le protocole d’exclusion des robots (Robots Exclusion Protocol), une norme qui utilise un fichier robots.txt pour bloquer les robots d’indexation du Web, ou indiquent clairement que leur site est inaccessible. 

Une Ă©tude de 2024 publiĂ©e par un groupe de recherche dirigĂ© par le MIT a rĂ©vĂ©lĂ© que les restrictions sur l'ensemble de donnĂ©es Colossal Cleaned Common Crawl (C4) - un corpus d'exploration Web Ă  grande Ă©chelle - sont en augmentation. 28 % des sources les plus actives et critiques dans C4, l'accĂšs Ă©tait totalement restreint. De plus, 45 % du C4 sont dĂ©sormais dĂ©signĂ©s comme Ă©tant interdits par les conditions de service. 

Si les entreprises respectent ces restrictions, la fraĂźcheur, la pertinence et l’exactitude des faits publics rĂ©els diminueront, les obligeant Ă  s’appuyer sur des bases de donnĂ©es artificielles. Elles n’auront peut-ĂȘtre pas beaucoup de choix si les tribunaux dĂ©cident que toute autre solution constitue une violation du droit d’auteur. 

L'avenir des donnĂ©es synthĂ©tiques et des hallucinations de l'IA 

À mesure que les lois sur le droit d'auteur se modernisent et que de plus en plus de propriĂ©taires de sites Web cachent leur contenu aux robots d'exploration, la gĂ©nĂ©ration de jeux de donnĂ©es artificiels va devenir de plus en plus populaire. Les organisations doivent se prĂ©parer Ă  faire face Ă  la menace des hallucinations. 

Zac Amos est un rĂ©dacteur technique qui se concentre sur l'intelligence artificielle. Il est Ă©galement Ă©diteur de fonctionnalitĂ©s chez Repirater, oĂč vous pouvez lire plus de son travail.