Artificiell intelligens
Hur Påverkar Syntetiska Data AI-hallucinationer?
Även om syntetiska data är ett kraftfullt verktyg kan det bara minska artificiell intelligens hallucinationer under specifika omständigheter. I nästan alla andra fall kommer det att förstärka dem. Varför är detta? Vad betyder detta fenomen för dem som har investerat i det?
Hur Skiljer Sig Syntetiska Data Från Riktiga Data?
Syntetiska data är information som genereras av AI. Istället för att samlas in från verkliga händelser eller observationer produceras den artificiellt. Men den liknar originalet tillräckligt för att producera exakt och relevant utdata. Det är i alla fall idén.
För att skapa en artificiell datamängd tränar AI-tekniker en generativ algoritm på en riktigt relationell databas. När den utlöses producerar den en andra uppsättning som nära speglar den första men innehåller ingen äkta information. Medan de allmänna trenderna och matematiska egenskaperna förblir intakta finns det tillräckligt med brus för att maskera de ursprungliga relationerna.
En AI-genererad datamängd går utöver avidentifiering och replikerar den underliggande logiken för relationer mellan fält istället för att bara ersätta fält med ekvivalenta alternativ. Eftersom den innehåller inga identifierande detaljer kan företag använda den för att kringgå sekretess- och upphovsrättslagar. Mer viktigt är att de kan fritt dela eller distribuera den utan rädsla för ett brott.
Men falsk information används oftare för supplementering. Företag kan använda den för att berika eller utöka exempelstorlekar som är för små, vilket gör dem tillräckligt stora för att träna AI-system effektivt.
Minimerar Syntetiska Data AI-hallucinationer?
Ibland hänvisar algoritmer till icke-existerande händelser eller gör logiskt omöjliga förslag. Dessa hallucinationer är ofta nonsens, vilseledande eller felaktiga. Till exempel kan en stor språkmodell skriva en instruktionsartikel om att domesticera lejon eller bli läkare vid 6 års ålder. Men de är inte alla så extrema, vilket kan göra det svårt att känna igen dem.
Om den är korrekt kuraterad kan artificiell data mildra dessa incidenter. En relevant och äkta träningsdatabas är grunden för alla modeller, så det står till reson att ju mer information någon har, desto mer exakt kommer modellens utdata att vara. En supplementär datamängd möjliggör skalbarhet, även för nischapplikationer med begränsad offentlig information.
Debiasing är ett annat sätt som en syntetisk databas kan minimera AI-hallucinationer. Enligt MIT Sloan School of Management kan det hjälpa till att hantera fördomar eftersom den inte är begränsad till den ursprungliga exempelstorleken. Professionella kan använda realistiska detaljer för att fylla luckorna där vissa subpopulationer är under- eller överrepresenterade.
Hur Artificiella Data Förvärrar Hallucinationer
Eftersom intelligenta algoritmer inte kan resonera eller kontextualisera information är de benägna att hallucinationer. Generativa modeller — förtränade stora språkmodeller i synnerhet — är särskilt sårbara. På vissa sätt förvärrar artificiella fakta problemet.
Fördomsförstärkning
Liksom människor kan AI lära sig och reproducera fördomar. Om en artificiell databas övervärderar vissa grupper medan den underrepresenterar andra — vilket är ett oroväckande lätt att göra av misstag — kommer dess beslutslogik att snedvridas, vilket negativt påverkar utdatans noggrannhet.
Ett liknande problem kan uppstå när företag använder falsk data för att eliminera verkliga fördomar eftersom den kanske inte längre återspeglar verkligheten. Till exempel, eftersom över 99% av bröstcancer förekommer hos kvinnor, kan användning av supplementeringsinformation för att balansera representation förvränga diagnoser.
Intersektionella Hallucinationer
Intersektionalitet är ett sociologiskt ramverk som beskriver hur demografiska faktorer som ålder, kön, ras, yrke och klass samverkar. Det analyserar hur gruppers samverkande sociala identiteter resulterar i unika kombinationer av diskriminering och privilegier.
När en generativ modell begärs att producera artificiella detaljer baserat på vad den tränats på kan den generera kombinationer som inte fanns i originalet eller är logiskt omöjliga.
Ericka Johnson, professor i genus och samhälle vid Linköpings universitet, arbetade med en maskinlärningsspecialist för att demonstrera detta fenomen. De använde en generativ adversarial network för att skapa syntetiska versioner av USA:s folkräkningssiffror från 1990.
Omedelbart märkte de ett uppenbart problem. Den artificiella versionen hade kategorier med titlar som “hustru och singel” och “aldrig gifta män”, båda av vilka var intersektionella hallucinationer.
Utan korrekt kurering kommer replikadatabasen alltid att överrepresentera dominanta subpopulationer i datamängder medan den underrepresenterar — eller till och med utesluter — underrepresenterade grupper. Kantfall och avvikare kan ignoreras helt till förmån för dominanta trender.
Modellkollaps
En överdriven tillit till artificiella mönster och trender leder till modellkollaps — där en algoritmens prestanda försämras kraftigt när den blir mindre anpassningsbar till verkliga observationer och händelser.
Detta fenomen är särskilt tydligt i nästa generations generativa AI. Upprepad användning av en artificiell version för att träna dem resulterar i en självförgörande loop. En studie fann att deras kvalitet och återkallande minskar progressivt utan tillräckligt med nya, faktiska siffror i varje generation.
Överanpassning
Överanpassning är en överdriven tillit till träningsdata. Algoritmen presterar bra initialt men kommer att hallucinera när den presenteras med nya datapunkter. Syntetisk information kan förvärra detta problem om den inte återspeglar verkligheten korrekt.
Konsekvenserna Av Fortsatt Användning Av Syntetiska Data
Marknaden för syntetiska data blomstrar. Företag i denna nischindustri samlade in cirka 328 miljoner dollar i 2022, jämfört med 53 miljoner dollar i 2020 — en ökning med 518% på bara 18 månader. Det är värt att notera att detta endast är offentligt kända investeringar, vilket innebär att den faktiska siffran kan vara ännu högre. Det är säkert att säga att företag är oerhört investerade i denna lösning.
Om företag fortsätter att använda en artificiell databas utan korrekt kurering och debiasing kommer deras modells prestanda att försämras progressivt, vilket kan försura deras AI-investeringar. Resultaten kan vara mer allvarliga, beroende på applikationen. Till exempel kan en ökning av hallucinationer inom hälso- och sjukvården leda till feldiagnoser eller olämpliga behandlingsplaner, vilket resulterar i sämre patientutfall.
Lösningen Kommer Inte Att Innebära En Återgång Till Riktiga Data
AI-system behöver miljontals, om inte miljarder, bilder, text och videor för träning, mycket av vilket skrapas från offentliga webbplatser och sammanställs i massiva, öppna datamängder. Tyvärr konsumerar algoritmerna denna information snabbare än människor kan generera den. Vad händer när de lär sig allt?
Företagsledare är oroliga för att nå “datamuren” — den punkt då all offentlig information på internet har uttömts. Den kan vara närmare än de tror.
Även om både mängden vanlig text på den genomsnittliga webbsidan och antalet internetanvändare ökar med 2% till 4% årligen, så är algoritmerna på väg att ta slut på högkvalitetsdata. Bara 10% till 40% kan användas för träning utan att kompromissa med prestanda. Om trenderna fortsätter kan den mänskligt genererade offentliga informationsreserven ta slut redan 2026.
Sannolikt kommer AI-sektorn att nå datamuren ännu tidigare. Den generativa AI-boomen under de senaste åren har ökat spänningarna kring informationsägande och upphovsrättsintrång. Fler webbplatsägare använder Robots Exclusion Protocol — en standard som använder en robots.txt-fil för att blockera webbcrawlers — eller gör det tydligt att deras webbplats är otillgänglig.
En studie från 2024, publicerad av en MIT-ledd forskargrupp, avslöjade att Colossal Cleaned Common Crawl (C4) dataset — en stor webbcrawlkorpus — begränsningar ökar. Över 28% av de mest aktiva, kritiska källorna i C4 var fullständigt begränsade. Dessutom är 45% av C4 utpekade som otillgängliga enligt villkoren.
Om företag respekterar dessa begränsningar kommer fräschheten, relevansen och noggrannheten i verkliga offentliga fakta att försämras, vilket tvingar dem att förlita sig på artificiella databaser. De kanske inte har mycket val om domstolarna beslutar att alla alternativ är upphovsrättsintrång.
Framtiden För Syntetiska Data Och AI-hallucinationer
När upphovsrättslagar moderniseras och fler webbplatsägare döljer sitt innehåll från webbcrawlers kommer generationen av syntetiska datamängder att bli alltmer populär. Organisationer måste förbereda sig på hotet om hallucinationer.












