Kunstig intelligens
Hvordan påvirker syntetisk data AI-hallusinasjoner?
Selv om syntetisk data er et kraftig verktøy, kan det bare redusere kunstig intelligens-hallusinasjoner under bestemte omstendigheter. I nesten alle andre tilfeller vil det forsterke dem. Hvorfor er dette? Hva betyr dette fenomenet for de som har investert i det?
Hvordan er syntetisk data forskjellig fra ekte data?
Syntetisk data er informasjon som er generert av AI. I stedet for å bli samlet inn fra virkelige hendelser eller observasjoner, blir det produsert kunstig. Likevel ligner det originalen nok til å produsere nøyaktig og relevant utdata. Det er ideen, i alle fall.
For å lage en kunstig datasett, trener AI-ingeniører en generativ algoritme på en ekte relasjonsdatabase. Når den blir bedt om det, produserer den en andre sett som ligner det første, men inneholder ingen ekte informasjon. Mens de generelle trendene og matematiske egenskapene forblir intakte, er det nok støy til å maskere de opprinnelige relasjonene.
En AI-generert datasett går utover deidentifisering, ved å replikere den underliggende logikken til relasjonene mellom feltene, i stedet for bare å erstatte feltene med ekvivalente alternativer. Siden det ikke inneholder noen identifiserende detaljer, kan selskaper bruke det til å unngå personvern og opphavsrett. Enda viktigere, kan de fritt dele eller distribuere det uten frykt for brudd.
Likevel brukes feil informasjon oftest til supplementering. Bedrifter kan bruke det til å berike eller utvide prøvestørrelser som er for små, og gjøre dem store nok til å trene AI-systemer effektivt.
Reduserer syntetisk data AI-hallusinasjoner?
Noen ganger henviser algoritmer til ikke-eksisterende hendelser eller gjør logisk umulige forslag. Disse hallusinasjonene er ofte nonsensikale, misvisende eller feil. For eksempel kan en stor språkmodell skrive en artikkel om hvordan man domesticerer løver eller blir lege i en alder av 6 år. Likevel er de ikke alle like ekstreme, noe som kan gjøre det vanskelig å gjenkjenne dem.
Hvis det blir kuratert på riktig måte, kan kunstig data mildne disse hendelsene. En relevant, ekte treningdatabase er grunnlaget for alle modeller, så det står til fornuft at jo flere detaljer noen har, jo mer nøyaktig vil modellens utdata være. En supplerende datasett muliggjør skalerbarhet, selv for nisjeapplikasjoner med begrensede offentlige informasjoner.
Debiasing er en annen måte en syntetisk database kan redusere AI-hallusinasjoner. Ifølge MIT Sloan School of Management kan det hjelpe med å adresse bias, fordi det ikke er begrenset til den opprinnelige prøvestørrelsen. Fagfolk kan bruke realistiske detaljer til å fylle hullene hvor bestemte subpopulasjoner er under- eller overrepresentert.
Hvordan kunstig data forverrer hallusinasjoner
Siden intelligente algoritmer ikke kan grunne eller kontekstualisere informasjon, er de utsatt for hallusinasjoner. Generative modeller — forhåndsrentede store språkmodeller i særlig — er spesielt sårbare. På noen måter forsterker kunstige fakta problemet.
Bias-forsterkning
Liksom mennesker kan AI lære og reproducere bias. Hvis en kunstig database oververdier noen grupper mens de underrepresenterer andre — noe som er bekymringsverdig lett å gjøre utilsiktet — vil dens beslutningslogikk skjeve, og påvirke utdata-nøyaktigheten negativt.
Et lignende problem kan oppstå når selskaper bruker feil data til å eliminere virkelige bias, fordi det kan ikke lenger reflektere virkeligheten. For eksempel, siden over 99% av brystkreft forekommer hos kvinner, kan bruk av supplerende informasjon til å balansere representasjon forvrengte diagnoser.
Intersektionelle hallusinasjoner
Intersektionalitet er en sosiologisk ramme som beskriver hvordan demografi som alder, kjønn, rase, yrke og klasse krysser hverandre. Den analyserer hvordan grupper med overlappende sosiale identiteter resulterer i unike kombinasjoner av diskriminering og privilegier.
Når en generativ modell blir bedt om å produsere kunstige detaljer basert på hva den har blitt trent på, kan den generere kombinasjoner som ikke eksisterte i originalen eller er logisk umulige.
Ericka Johnson, en professor i kjønn og samfunn ved Linköping Universitet, arbeidet med en maskinlæringsforsker for å demonstrere dette fenomenet. De brukte en generativ adversarial nettverk til å lage syntetiske versjoner av USAs folketelling fra 1990.
Umiddelbart merket de en glarende problem. Den kunstige versjonen hadde kategorier med tittelen “kone og singel” og “aldri gift husmenn”, begge av disse var intersektionelle hallusinasjoner.
Uten riktig kurering vil den replika-databasen alltid overrepresentere dominante subpopulasjoner i datasett, mens de underrepresenterer — eller til og med utelukker — underrepresenterte grupper. Kanttilfeller og outliers kan bli ignorert fullstendig til fordel for dominante trender.
Modell-kollaps
En overavhengighet av kunstige mønster og trender fører til modell-kollaps — hvor en algoritmes ytelse forverres dramatisk når den blir mindre tilpasningsdyktig til virkelige observasjoner og hendelser.
Dette fenomenet er særlig tydelig i neste-generasjons generative AI. Repetert bruk av en kunstig versjon til å trene dem resulterer i en selv-forbrukende løkke. En studie fant at deres kvalitet og gjentakelse forverres progressivt uten nok ny, faktisk informasjon i hver generasjon.
Overfitting
Overfitting er en overavhengighet av treningdata. Algoritmen utfører bra initialt, men vil hallusinere når den presenteres med nye datapunkter. Syntetisk informasjon kan forverre dette problemet hvis det ikke nøyaktig reflekterer virkeligheten.
Konsekvensene av fortsatt bruk av syntetisk data
Markedet for syntetisk data blomstrer. Selskaper i denne nisjeindustrien samlet inn rundt 328 millioner dollar i 2022, opp fra 53 millioner dollar i 2020 — en økning på 518% på bare 18 måneder. Det er verdt å merke seg at dette er kun offentlig kjent finansiering, noe som betyr at den faktiske summen kan være enda høyere. Det er trygt å si at selskaper er usedvanlig investert i denne løsningen.
Hvis selskaper fortsetter å bruke en kunstig database uten riktig kurering og debiasing, vil modellens ytelse forverres progressivt, og surt deres AI-investeringer. Resultatene kan være verre, avhengig av applikasjonen. For eksempel i helsevesenet kan en økning i hallusinasjoner resultere i feildiagnoser eller ugyldige behandlingsplaner, og føre til dårligere pasientresultater.
Løsningen vil ikke innebære å returnere til ekte data
AI-systemer trenger millioner, hvis ikke milliarder, av bilder, tekst og videoer for trening, mye av dette blir skrapt fra offentlige nettsteder og samlet i massive, åpne datasett. Dessverre forbruker algoritmer denne informasjonen raskere enn mennesker kan generere den. Hva skjer når de lærer alt?
Forretningsledere er bekymret for å nå dataveggen — punktet hvor all offentlig informasjon på internett er uttømt. Det kan nærme seg raskere enn de tror.
Selv om både mengden av ren tekst på den gjennomsnittlige vanlige nettlesingssiden og antallet internettbrukere øker med 2% til 4% årlig, er algoritmene tom for høykvalitetsdata. Bare 10% til 40% kan brukes til trening uten å kompromittere ytelsen. Hvis trendene fortsetter, kan lageret av menneskegenerert offentlig informasjon være uttømt allerede i 2026.
Sannsynligvis vil AI-sektoren nå dataveggen enda tidligere. Generative AI-boomen de siste årene har økt spenningene over eierrettigheter og opphavsrett. Flere nettstedseiere bruker Robots Exclusion Protocol — en standard som bruker en robots.txt-fil til å blokkere nettlesere — eller gjør det klart at deres nettsted er utilgjengelig.
En studie fra 2024, publisert av en MIT-ledet forskningsgruppe, avslørte at Colossal Cleaned Common Crawl (C4) datasett — et stort web-crawl-korpus — begrensningene øker. Over 28% av de mest aktive, kritiske kildene i C4 var fullstendig begrenset. I tillegg var 45% av C4 nå merket som utilgjengelig av vilkårene for bruk.
Hvis selskaper respekterer disse begrensningene, vil ferskheten, relevansen og nøyaktigheten av virkelige offentlige fakta forverres, og tvinge dem til å bruke kunstige databaser. De kan ikke ha mye valg hvis domstolene avgjør at noen alternativer er opphavsrett-innbrytelse.
Fremtiden for syntetisk data og AI-hallusinasjoner
Ettersom opphavsrettslover moderniseres og flere nettstedseiere skjuler innholdet sitt fra nettlesere, vil generering av syntetisk data bli stadig mer populært. Organisasjoner må forberede seg på å møte truslene fra hallusinasjoner.












