Følg os

Kunstig intelligens

Hvordan påvirker syntetiske data AI-hallucinationer?

mm

Selvom syntetiske data er et kraftfuldt værktøj, kan det kun reducere kunstig intelligens hallucinationer under særlige omstændigheder. I næsten alle andre tilfælde vil det forstærke dem. Hvorfor er dette? Hvad betyder dette fænomen for dem, der har investeret i det? 

Hvordan er syntetiske data anderledes end rigtige data?

Syntetiske data er information, der genereres af AI. I stedet for at blive indsamlet fra begivenheder eller observationer i den virkelige verden, produceres det kunstigt. Men det ligner originalen lige nok til at producere nøjagtigt, relevant output. Det er i hvert fald tanken.  

For at skabe et kunstigt datasæt træner AI-ingeniører en generativ algoritme på en ægte relationsdatabase. Når du bliver bedt om det, producerer den et andet sæt, der nøje afspejler det første, men som ikke indeholder nogen ægte information. Mens de generelle tendenser og matematiske egenskaber forbliver intakte, er der nok støj til at maskere de oprindelige relationer. 

Et AI-genereret datasæt går ud over deidentifikation og replikerer den underliggende logik af relationer mellem felter i stedet for blot at erstatte felter med tilsvarende alternativer. Da den ikke indeholder nogen identificerende detaljer, kan virksomheder bruge den til at omgå privatlivets fred og ophavsretsregler. Endnu vigtigere er det, at de frit kan dele eller distribuere det uden frygt for et brud. 

Imidlertid er falske oplysninger mere almindeligt brugt til at supplere. Virksomheder kan bruge det til at berige eller udvide stikprøvestørrelser, der er for små, hvilket gør dem store nok til at træne AI-systemer effektivt. 

Minimerer syntetiske data AI-hallucinationer?

Nogle gange refererer algoritmer til ikke-eksisterende hændelser eller giver logisk umulige forslag. Disse hallucinationer er ofte meningsløse, vildledende eller forkerte. For eksempel kan en stor sprogmodel skrive en artikel om at tæmme løver eller blive læge i en alder af 6. Men de er ikke alle så ekstreme, hvilket kan gøre det udfordrende at genkende dem. 

Hvis de er korrekt kureret, kan kunstige data afbøde disse hændelser. En relevant, autentisk træningsdatabase er grundlaget for enhver model, så det er naturligt, at jo flere detaljer nogen har, jo mere nøjagtigt vil deres models output være. Et supplerende datasæt muliggør skalerbarhed, selv for nicheapplikationer med begrænset offentlig information. 

Debiasing er en anden måde, hvorpå en syntetisk database kan minimere AI-hallucinationer. Ifølge MIT Sloan School of Management er det kan hjælpe med at imødegå bias fordi den ikke er begrænset til den oprindelige stikprøvestørrelse. Professionelle kan bruge realistiske detaljer til at udfylde hullerne, hvor udvalgte underpopulationer er under eller overrepræsenteret. 

Hvordan kunstige data gør hallucinationer værre

Siden intelligente algoritmer kan ikke begrunde eller kontekstualisere information, de er tilbøjelige til hallucinationer. Generative modeller - især fortrænede store sprogmodeller - er særligt sårbare. På nogle måder forværrer kunstige fakta problemet. 

Bias Amplifikation

Ligesom mennesker kan AI lære og reproducere skævheder. Hvis en kunstig database overvurderer nogle grupper, mens den underrepræsenterer andre - hvilket er ret let at gøre ved et uheld - vil dens beslutningslogik blive skæv, hvilket vil påvirke outputnøjagtigheden negativt. 

Et lignende problem kan opstå, når virksomheder bruger falske data til at fjerne skævheder i den virkelige verden, fordi de måske ikke længere afspejler virkeligheden. For eksempel siden over 99 % af brystkræfttilfældene forekommer hos kvinder, kan brug af supplerende information til at balancere repræsentationen skævvride diagnoser.

Intersektionelle hallucinationer

Intersektionalitet er en sociologisk ramme, der beskriver, hvordan demografi som alder, køn, race, erhverv og klasse krydser hinanden. Den analyserer, hvordan gruppers overlappende sociale identiteter resulterer i unikke kombinationer af diskrimination og privilegier.

Når en generativ model bliver bedt om at producere kunstige detaljer baseret på det, den trænede på, kan den generere kombinationer, der ikke fandtes i originalen eller er logisk umulige.

Ericka Johnson, professor i køn og samfund ved Linköpings Universitet, arbejdede sammen med en maskinlæringsforsker for at demonstrere dette fænomen. De brugte et generativt modstridende netværk at skabe syntetiske versioner af USA's folketællingstal fra 1990. 

Med det samme bemærkede de et grelt problem. Den kunstige version havde kategorier med titlen "kone og single" og "aldrig-gifte ægtemænd", som begge var intersektionelle hallucinationer.

Uden ordentlig kurering vil replikadatabasen altid overrepræsentere dominerende subpopulationer i datasæt, mens den underrepræsenterer - eller endda ekskluderer - underrepræsenterede grupper. Kanttilfælde og outliers kan ignoreres fuldstændigt til fordel for dominerende tendenser. 

Modelkollaps 

En overdreven afhængighed af kunstige mønstre og tendenser fører til modelkollaps - hvor en algoritmes ydeevne forringes drastisk, efterhånden som den bliver mindre tilpasselig til observationer og begivenheder i den virkelige verden. 

Dette fænomen er især tydeligt i næste generation af generativ AI. Gentagen brug af en kunstig version til at træne dem resulterer i en selvforbrugende løkke. En undersøgelse viste, at deres kvalitet og tilbagekaldelse falder gradvist uden nok nyere, faktiske tal i hver generation.

overfitting 

overfitting er en overdreven afhængighed af træningsdata. Algoritmen fungerer godt i starten, men vil hallucinere, når den præsenteres med nye datapunkter. Syntetisk information kan forværre dette problem, hvis det ikke nøjagtigt afspejler virkeligheden. 

Konsekvenserne af fortsat brug af syntetiske data

Markedet for syntetiske data boomer. Virksomheder i denne nichebranche indsamlet omkring $ 328 millioner i 2022, op fra $53 millioner i 2020 - en stigning på 518% på kun 18 måneder. Det er værd at bemærke, at dette udelukkende er offentligt kendt finansiering, hvilket betyder, at det faktiske tal kan være endnu højere. Det er sikkert at sige, at virksomheder er utroligt investeret i denne løsning. 

Hvis virksomheder fortsætter med at bruge en kunstig database uden ordentlig kurering og nedbrydning, vil deres models ydeevne gradvist falde, hvilket forringer deres AI-investeringer. Resultaterne kan være mere alvorlige, afhængigt af applikationen. For eksempel i sundhedsvæsenet kan en stigning i hallucinationer resultere i fejldiagnoser eller ukorrekte behandlingsplaner, hvilket fører til dårligere patientresultater.

Løsningen involverer ikke tilbagevenden til rigtige data

AI-systemer har brug for millioner, hvis ikke milliarder, af billeder, tekst og videoer til træning, hvoraf meget er skrabet fra offentlige hjemmesider og kompileret i massive, åbne datasæt. Desværre bruger algoritmer denne information hurtigere, end mennesker kan generere den. Hvad sker der, når de lærer alt?

Virksomhedsledere er bekymrede for at ramme datamuren - det punkt, hvor al offentlig information på internettet er udtømt. Det kan nærme sig hurtigere, end de tror. 

Selvom både mængden af ​​almindelig tekst på den gennemsnitlige almindelige crawl-webside og antallet af internetbrugere vokser med 2% til 4% årligt løber algoritmerne tør for data af høj kvalitet. Kun 10% til 40% kan bruges til træning uden at gå på kompromis med ydeevnen. Hvis tendenserne fortsætter, kan det menneskeskabte offentlige informationslager løbe ud i 2026.

Efter al sandsynlighed kan AI-sektoren ramme datavæggen endnu hurtigere. Det generative AI-boom i de sidste par år har øget spændingerne om ejerskab af information og krænkelse af ophavsret. Flere webstedsejere bruger Robots Exclusion Protocol - en standard, der bruger en robots.txt-fil til at blokere webcrawlere - eller gør det klart, at deres websted ikke er tilladt. 

En undersøgelse fra 2024 udgivet af en MIT-ledet forskningsgruppe afslørede datasættet Colossal Cleaned Common Crawl (C4) - et storstilet webcrawl-korpus - begrænsningerne er stigende. Over 28 % af de mest aktive, kritiske kilder i C4 var fuldt begrænsede. Desuden er 45 % af C4 nu udpeget som off-limits af servicevilkårene. 

Hvis virksomheder respekterer disse begrænsninger, vil friskheden, relevansen og nøjagtigheden af ​​offentlige fakta i den virkelige verden falde, hvilket tvinger dem til at stole på kunstige databaser. De har måske ikke meget valg, hvis domstolene afgør, at ethvert alternativ er krænkelse af ophavsretten. 

Fremtiden for syntetiske data og AI-hallucinationer 

Efterhånden som love om ophavsret moderniseres, og flere webstedsejere skjuler deres indhold fra webcrawlere, vil generering af kunstige datasæt blive mere og mere populært. Organisationer skal forberede sig på at møde truslen om hallucinationer. 

Zac Amos er en teknisk forfatter, der fokuserer på kunstig intelligens. Han er også Features Editor på ReHack, hvor du kan læse mere om hans arbejde.