Connect with us

Kunstmatige intelligentie

Hoe beïnvloedt synthetische data AI-hallucinaties?

mm

Hoewel synthetische data een krachtig hulpmiddel is, kan het alleen kunstmatige intelligentie-hallucinaties onder specifieke omstandigheden verminderen. In bijna alle andere gevallen zal het ze versterken. Waarom is dit? Wat betekent dit fenomeen voor degenen die hierin hebben geïnvesteerd? 

Hoe verschilt synthetische data van echte data?

Synthetische data is informatie die door AI wordt gegenereerd. In plaats van dat het wordt verzameld uit echte gebeurtenissen of observaties, wordt het kunstmatig geproduceerd. Het lijkt echter genoeg op het origineel om accurate, relevante output te produceren. Dat is tenminste de bedoeling.  

Om een kunstmatige dataset te creëren, trainen AI-ingenieurs een generatief algoritme op een echte relationele database. Wanneer hierom wordt gevraagd, produceert het een tweede set die de eerste nauwkeurig nabootst, maar geen echte informatie bevat. Terwijl de algemene trends en wiskundige eigenschappen intact blijven, is er genoeg ruis om de oorspronkelijke relaties te maskeren. 

Een door AI gegenereerde dataset gaat verder dan desidentificatie, door de onderliggende logica van de relaties tussen velden te repliceren in plaats van alleen velden te vervangen door equivalente alternatieven. Aangezien het geen identificerende details bevat, kunnen bedrijven het gebruiken om privacy- en auteursrechtsregels te omzeilen. Nog belangrijker, ze kunnen het vrij delen of distribueren zonder angst voor een inbreuk. 

Fake-informatie wordt echter vaker gebruikt voor aanvulling. Bedrijven kunnen het gebruiken om steekproefgroottes die te klein zijn, te verrijken of uit te breiden, zodat ze groot genoeg zijn om AI-systemen effectief te trainen. 

Vermindert synthetische data AI-hallucinaties?

Soms verwijzen algoritmen naar niet-bestaande gebeurtenissen of doen ze logisch onmogelijke suggesties. Deze hallucinaties zijn vaak nonsensicaal, misleidend of onjuist. Bijvoorbeeld, een groot taalmodel kan een how-to-artikel schrijven over het temmen van leeuwen of arts worden op 6-jarige leeftijd. Echter, ze zijn niet allemaal zo extreem, wat het moeilijk kan maken om ze te herkennen. 

Als het op de juiste manier wordt gecureerd, kan kunstmatige data deze incidenten mitigeren. Een relevante, authentieke trainingsdatabase is de basis voor elk model, dus het staat te redeneren dat hoe meer details iemand heeft, hoe nauwkeuriger de output van het model zal zijn. Een supplementaire dataset maakt schaalbaarheid mogelijk, zelfs voor niche-toepassingen met beperkte openbare informatie. 

Debiasing is een andere manier waarop een synthetische database AI-hallucinaties kan minimaliseren. Volgens de MIT Sloan School of Management kan het helpen om vooroordelen aan te pakken, omdat het niet beperkt is tot de oorspronkelijke steekproefgrootte. Professionals kunnen realistische details gebruiken om de lacunes te vullen waar selecte subpopulaties onder- of oververtegenwoordigd zijn. 

Hoe kunstmatige data hallucinaties erger maakt

Aangezien intelligente algoritmen geen reden of context kunnen geven, zijn ze vatbaar voor hallucinaties. Generatieve modellen — vooral grote voorgetrainde taalmodellen — zijn bijzonder kwetsbaar. Op sommige manieren versterken kunstmatige feiten het probleem. 

Vooroordeelversterking

Net als mensen kan AI vooroordelen leren en reproduceren. Als een kunstmatige database sommige groepen overwaardeert en andere ondervertegenwoordigt — wat gemakkelijk per ongeluk kan gebeuren — zal de beslissingslogica scheef gaan, waardoor de outputnauwkeurigheid nadelig wordt beïnvloed. 

Een soortgelijk probleem kan optreden wanneer bedrijven gebruikmaken van fake-data om echte wereldvooroordelen te elimineren, omdat het dan mogelijk niet langer de realiteit weerspiegelt. Bijvoorbeeld, aangezien meer dan 99% van de borstkankers voorkomt bij vrouwen, kan het gebruik van supplementaire informatie om de vertegenwoordiging te balanceren de diagnoses vertekenen.

Intersectiehallucinaties

Intersectiviteit is een sociologisch kader dat beschrijft hoe demografische gegevens zoals leeftijd, geslacht, ras, beroep en klasse elkaar overlappen. Het analyseert hoe de overlappende sociale identiteiten van groepen unieke combinaties van discriminatie en privilege opleveren.

Wanneer een generatief model wordt gevraagd om kunstmatige details te produceren op basis van waarop het is getraind, kan het combinaties genereren die niet in het origineel bestonden of logisch onmogelijk zijn.

Ericka Johnson, een professor in geslacht en samenleving aan de Linköping Universiteit, werkte samen met een machine learning-wetenschapper om dit fenomeen te demonstreren. Ze gebruikten een generatief tegenstrijdig netwerk om synthetische versies van de Amerikaanse volkstelling uit 1990 te creëren. 

Onmiddellijk merkten ze een groot probleem op. De kunstmatige versie had categorieën met titels als “vrouw en single” en “nooit-getrouwde echtgenoten”, beide waren intersectiehallucinaties.

Zonder adequate curation zal de replica-database altijd de dominante subpopulaties in datasets oververtegenwoordigen, terwijl ondervertegenwoordigde groepen worden ondervertegenwoordigd of zelfs uitgesloten. Randgevallen en outliers kunnen helemaal worden genegeerd ten gunste van dominante trends. 

Modelininstorting 

Een overmatige afhankelijkheid van kunstmatige patronen en trends leidt tot modelininstorting — waarbij de prestaties van een algoritme drastisch verslechteren naarmate het minder aanpasbaar wordt aan echte wereldobservaties en gebeurtenissen. 

Dit fenomeen is bijzonder duidelijk in de volgende generatie generatieve AI. Het herhaaldelijk gebruiken van een kunstmatige versie om deze te trainen, resulteert in een zelfverbruikende lus. Een studie toonde aan dat hun kwaliteit en recall progressief afnemen zonder voldoende recente, echte cijfers in elke generatie.

Overfitting 

Overfitting is een overmatige afhankelijkheid van trainingsdata. Het algoritme presteert goed aanvankelijk, maar zal hallucineren wanneer het met nieuwe datapunten wordt geconfronteerd. Synthetische informatie kan dit probleem verergeren als het de realiteit niet nauwkeurig weerspiegelt. 

De implicaties van het voortdurend gebruik van synthetische data

De synthetische data-markt bloeit. Bedrijven in deze niche-industrie hebben ongeveer $328 miljoen opgehaald in 2022, tegen $53 miljoen in 2020 — een stijging van 518% in slechts 18 maanden. Het is de moeite waard om op te merken dat dit alleen de openbaar bekende financiering betreft, wat betekent dat het werkelijke cijfer mogelijk nog hoger is. Het is veilig om te zeggen dat bedrijven enorm geïnvesteerd zijn in deze oplossing. 

Als bedrijven zonder adequate curation en debiasing doorgaan met het gebruik van een kunstmatige database, zal de prestatie van hun model progressief verslechteren, waardoor hun AI-investeringen zuur worden. De resultaten kunnen ernstiger zijn, afhankelijk van de toepassing. Bijvoorbeeld, in de gezondheidszorg kan een toename van hallucinaties leiden tot misdiagnoses of onjuiste behandelplannen, wat kan leiden tot slechtere patiëntresultaten.

De oplossing zal niet bestaan uit het terugkeren naar echte data

AI-systemen hebben miljoenen, zo niet miljarden, afbeeldingen, tekst en video’s nodig voor training, waarvan een groot deel wordt geschrapt van openbare websites en wordt samengesteld in enorme, open datasets. Helaas consumeren algoritmen deze informatie sneller dan mensen het kunnen genereren. Wat gebeurt er als ze alles hebben geleerd?

Bedrijfsleiders zijn bezorgd over het bereiken van de datamuur — het punt waarop alle openbare informatie op internet is uitgeput. Het kan sneller naderen dan ze denken. 

Hoewel zowel de hoeveelheid platte tekst op de gemiddelde algemene crawl-webpagina als het aantal internetgebruikers jaarlijks met 2% tot 4% groeit, lopen algoritmen uit high-kwaliteit data. Slechts 10% tot 40% kan worden gebruikt voor training zonder de prestaties te compromitteren. Als trends aanhouden, kan de voorraad openbare informatie gegenereerd door mensen tegen 2026 uitgeput raken.

Waarschijnlijk zal de AI-sector de datamuur nog eerder bereiken. De generatieve AI-boom van de afgelopen jaren heeft spanningen over informatiewetgeving en auteursrechtinbreuken verergerd. Meer website-eigenaren gebruiken de Robots Exclusion Protocol — een standaard die een robots.txt-bestand gebruikt om webcrawlers te blokkeren — of maken het duidelijk dat hun site ontoegankelijk is. 

Een studie uit 2024, gepubliceerd door een door MIT geleid onderzoeksteam, onthulde dat de Colossal Cleaned Common Crawl (C4) dataset — een grote webcrawlcorpus — beperkingen in opkomst zijn. Meer dan 28% van de meest actieve, kritieke bronnen in C4 waren volledig beperkt. Bovendien is 45% van C4 nu door de voorwaarden van de service aangemerkt als ontoegankelijk. 

Als bedrijven deze beperkingen respecteren, zal de versheid, relevantie en nauwkeurigheid van echte wereldfeiten afnemen, waardoor ze gedwongen worden om te vertrouwen op kunstmatige databases. Ze mogen niet veel keuze hebben als de rechtbanken bepalen dat elke alternatieve optie auteursrechtinbreuk is. 

De toekomst van synthetische data en AI-hallucinaties 

Aangezien auteurswetten moderniseren en meer website-eigenaren hun inhoud verbergen voor webcrawlers, zal de generatie van kunstmatige datasets steeds populairder worden. Organisaties moeten zich voorbereiden om het gevaar van hallucinaties te trotseren. 

Zac Amos is een tech-schrijver die zich richt op kunstmatige intelligentie. Hij is ook de Features Editor bij ReHack, waar u meer van zijn werk kunt lezen.