Kunstmatige intelligentie

Hoe heeft synthetische data invloed op AI-hallucinaties?

mm

Hoewel synthetische data een krachtig hulpmiddel is, kan het alleen onder specifieke omstandigheden kunstmatige intelligentie-hallucinaties verminderen. In bijna alle andere gevallen zal het ze verergeren. Waarom is dit? Wat betekent dit fenomeen voor degenen die hierin hebben geïnvesteerd?

Hoe verschilt synthetische data van echte data?

Synthetische data is informatie die wordt gegenereerd door AI. In plaats van verzameld te worden uit echte gebeurtenissen of observaties, wordt het kunstmatig geproduceerd. Echter, het lijkt genoeg op het origineel om accurate, relevante output te produceren. Dat is tenminste de bedoeling.

Om een kunstmatige dataset te creëren, trainen AI-ingenieurs een generatief algoritme op een echte relationele database. Wanneer hierom gevraagd wordt, produceert het een tweede set die de eerste nauwkeurig nabootst, maar geen echte informatie bevat. Terwijl de algemene trends en wiskundige eigenschappen intact blijven, is er genoeg ruis om de oorspronkelijke relaties te maskeren.

Een AI-gegenereerde dataset gaat verder dan deïdentificatie, door de onderliggende logica van relaties tussen velden te repliceren in plaats van alleen velden te vervangen door equivalente alternatieven. Aangezien het geen identificerende details bevat, kunnen bedrijven het gebruiken om privacy- en auteursrechtsregels te omzeilen. Nog belangrijker, ze kunnen het vrij delen of distribueren zonder angst voor een inbreuk.

Echter, wordt valse informatie vaker gebruikt voor aanvulling. Bedrijven kunnen het gebruiken om monsters te verrijken of uit te breiden die te klein zijn, waardoor ze groot genoeg worden om AI-systemen effectief te trainen.

Vermindert synthetische data AI-hallucinaties?

Soms verwijzen algoritmes naar niet-bestaande gebeurtenissen of maken ze logisch onmogelijke suggesties. Deze hallucinaties zijn vaak nonsensicaal, misleidend of onjuist. Bijvoorbeeld, een groot taalmodel kan een handleiding schrijven over het temmen van leeuwen of een dokter worden op 6-jarige leeftijd. Echter, ze zijn niet allemaal zo extreem, wat het herkennen ervan moeilijk kan maken.

Als het goed wordt gecureerd, kan kunstmatige data deze incidenten verminderen. Een relevante, authentieke trainingsdatabase is de basis voor elk model, dus het is logisch dat hoe meer details iemand heeft, hoe nauwkeuriger de output van het model zal zijn. Een aanvullende dataset maakt schaalbaarheid mogelijk, zelfs voor niche-toepassingen met beperkte openbare informatie.

Debiasing is een andere manier waarop een synthetische database AI-hallucinaties kan verminderen. Volgens de MIT Sloan School of Management kan het helpen om vooroordelen aan te pakken omdat het niet beperkt is tot de oorspronkelijke steekproefgrootte. Professionals kunnen realistische details gebruiken om de gaten te vullen waar selecte subpopulaties onder- of oververtegenwoordigd zijn.

Hoe maakt kunstmatige data hallucinaties erger

Aangezien intelligente algoritmes geen reden of context kunnen geven, zijn ze gevoelig voor hallucinaties. Generatieve modellen — in het bijzonder grote taalmodellen — zijn hierbij bijzonder kwetsbaar. Op sommige manieren verergeren kunstmatige feiten het probleem.

Versterking van vooroordelen

Net als mensen, kan AI leren en vooroordelen reproduceren. Als een kunstmatige database sommige groepen overwaardeert en andere ondervertegenwoordigt — wat gemakkelijk per ongeluk kan gebeuren — zal de logica van besluitvorming scheef gaan, waardoor de nauwkeurigheid van de output nadelig wordt beïnvloed.

Een soortgelijk probleem kan optreden wanneer bedrijven valse data gebruiken om echte wereldvooroordeelen te elimineren, omdat het dan niet langer de realiteit weerspiegelt. Bijvoorbeeld, aangezien meer dan 99% van de borstkankers voorkomen bij vrouwen, kan het gebruik van aanvullende informatie om de vertegenwoordiging te balanceren de diagnoses verstoren.

Intersectiehallucinaties

Intersectie is een sociologisch kader dat beschrijft hoe demografische gegevens zoals leeftijd, geslacht, ras, beroep en klasse elkaar overlappen. Het analyseert hoe de overlappende sociale identiteiten van groepen unieke combinaties van discriminatie en privilege resulteren.

Wanneer een generatief model wordt gevraagd om kunstmatige details te produceren op basis van waarop het getraind is, kan het combinaties genereren die niet in het origineel bestonden of logisch onmogelijk zijn.

Ericka Johnson, een professor in geslacht en samenleving aan de Linköping Universiteit, werkte samen met een machine learning-wetenschapper om dit fenomeen te demonstreren. Ze gebruikten een generatief tegenstrijdig netwerk om synthetische versies van de Amerikaanse volkstelling uit 1990 te creëren.

Meteen merkten ze een groot probleem op. De kunstmatige versie had categorieën met de titels “vrouw en alleen” en “nooit-getrouwde echtgenoten”, beide waren intersectiehallucinaties.

Zonder adequate curatie zal de replica-database altijd de dominante subpopulaties in datasets oververtegenwoordigen, terwijl ondervertegenwoordigde groepen onder- of uitgesloten worden. Randgevallen en uitschieters kunnen volledig genegeerd worden ten gunste van dominante trends.

Model-inzinking

Een overmatige afhankelijkheid van kunstmatige patronen en trends leidt tot model-inzinking — waarbij de prestaties van een algoritme drastisch verslechteren naarmate het minder aanpasbaar wordt aan echte wereldobservaties en gebeurtenissen.

Dit fenomeen is bijzonder duidelijk in de volgende generatie generatieve AI. Het herhaaldelijk gebruiken van een kunstmatige versie om ze te trainen resulteert in een zelf-verbruikende lus. Een studie vond dat hun kwaliteit en herinnering progressief afnemen zonder voldoende recente, echte cijfers in elke generatie.

Overfitting

Overfitting is een overmatige afhankelijkheid van trainingsdata. Het algoritme presteert goed in het begin, maar zal hallucineren wanneer het wordt gepresenteerd met nieuwe datapunten. Kunstmatige informatie kan dit probleem verergeren als het de realiteit niet nauwkeurig weerspiegelt.

De implicaties van het voortdurend gebruik van synthetische data

De markt voor synthetische data bloeit. Bedrijven in deze niche-industrie verzamelden ongeveer $ 328 miljoen in 2022, een stijging van $ 53 miljoen in 2020 — een stijging van 518% in slechts 18 maanden. Het is vermeldenswaard dat dit alleen openbaar bekende financiering is, wat betekent dat het werkelijke bedrag hoger kan zijn. Het is veilig om te zeggen dat bedrijven enorm geïnvesteerd zijn in deze oplossing.

Als bedrijven zonder adequate curatie en debiasing een kunstmatige database blijven gebruiken, zal de prestatie van hun model progressief verslechteren, waardoor hun investeringen in AI zuur worden. De resultaten kunnen ernstiger zijn, afhankelijk van de toepassing. Bijvoorbeeld, in de gezondheidszorg kan een toename van hallucinaties leiden tot verkeerde diagnoses of onjuiste behandelplannen, waardoor de resultaten voor patiënten verslechteren.

De oplossing zal niet bestaan uit het terugkeren naar echte data

AI-systemen hebben miljoenen, zo niet miljarden, afbeeldingen, tekst en video’s nodig voor training, waarvan een groot deel wordt geschrapt van openbare websites en samengesteld in enorme, open datasets. Helaas verbruiken algoritmes deze informatie sneller dan mensen het kunnen genereren. Wat gebeurt er als ze alles hebben geleerd?

Bedrijfsleiders zijn bezorgd over het bereiken van de datamuur — het punt waarop alle openbare informatie op internet is uitgeput. Het kan sneller naderen dan ze denken.

Hoewel zowel de hoeveelheid platte tekst op de gemiddelde algemene crawl-webpagina als het aantal internetgebruikers jaarlijks met 2% tot 4% groeit, raken algoritmes zonder hoogwaardige data. Slechts 10% tot 40% kan worden gebruikt voor training zonder de prestaties te compromitteren. Als trends aanhouden, kan de voorraad aan door mensen gegenereerde openbare informatie tegen 2026 uitgeput raken.

Waarschijnlijk zal de AI-sector de datamuur nog eerder bereiken. De generatieve AI-boom van de afgelopen jaren heeft spanningen over eigendom van informatie en auteursrechtschendingen verergerd. Meer website-eigenaren gebruiken het Robots Exclusion Protocol — een standaard die een robots.txt-bestand gebruikt om webcrawlers te blokkeren — of maken het duidelijk dat hun site niet toegankelijk is.

Een studie uit 2024, gepubliceerd door een door MIT geleid onderzoeksteam, onthulde dat de Colossal Cleaned Common Crawl (C4) — een grote webcrawlcorpus — beperkingen in opkomst zijn. Meer dan 28% van de meest actieve, kritieke bronnen in C4 waren volledig beperkt. Bovendien is 45% van C4 nu door de servicevoorwaarden aangemerkt als ontoegankelijk.

Als bedrijven deze beperkingen respecteren, zal de versheid, relevantie en nauwkeurigheid van echte wereldfeiten afnemen, waardoor ze gedwongen worden om te vertrouwen op kunstmatige databases. Ze hebben misschien geen keuze als de rechtbanken bepalen dat elk alternatief auteursrechtschending is.

De toekomst van synthetische data en AI-hallucinaties

Naarmate de auteurswetten moderniseren en meer website-eigenaren hun inhoud verbergen voor webcrawlers, zal de generatie van kunstmatige datasets steeds populairder worden. Organisaties moeten zich voorbereiden op de dreiging van hallucinaties.

Zac Amos is een tech-schrijver die zich richt op kunstmatige intelligentie. Hij is ook de Features Editor bij ReHack, waar u meer van zijn werk kunt lezen.