Umělá inteligence
Jak syntetická data ovlivňují halucinace AI?
Ačkoli jsou syntetická data mocným nástrojem, mohou snížit halucinace umělé inteligence pouze za specifických okolností. V téměř všech ostatních případech je zesílí. Proč je to tak? Co toto jev znamená pro ty, kteří do nich investovali?
Jak se syntetická data liší od skutečných dat?
Syntetická data jsou informace, které jsou generovány umělou inteligencí. Namísto toho, aby byly shromážděny z reálných událostí nebo pozorování, jsou produkovány uměle. Přesto se dostatečně podobají originálu, aby produkovaly přesné a relevantní výstupy. To je alespoň myšlenka.
Pro vytvoření umělé datové sady jsou inženýři umělé inteligence trénují generativní algoritmus na reálné relační databázi. Když jsou požádáni, produkuje druhou sadu, která se blízce podobá první, ale neobsahuje žádné skutečné informace. Zatímco obecné trendy a matematické vlastnosti zůstávají zachovány, je dostatečně mnoho šumu, aby se maskovaly původní vztahy.
Uměle generovaná datová sada jde za rámec deidentifikace, replikuje základní logiku vztahů mezi poli místo toho, aby pouze nahradila pole ekvivalentními alternativami. Protože neobsahuje žádné identifikační údaje, společnosti je mohou použít k obejití předpisů o ochraně soukromí a autorských práv. Více důležitě, mohou je volně sdílet nebo distribuovat bez strachu z porušení.
Nicméně, falešné informace se častěji používají pro doplnění. Společnosti je mohou použít k obohacení nebo rozšíření velikosti vzorků, které jsou příliš malé, aby je činily dostatečně velkými pro efektivní trénování systémů umělé inteligence.
Zmírňují syntetická data halucinace umělé inteligence?
Někdy algoritmy odkazují na neexistující události nebo činí logicky nemožné návrhy. Tyto halucinace jsou často nesmyslné, zavádějící nebo nesprávné. Například velký jazykový model by mohl napsat článek o domestikaci lvů nebo stát se doktorem ve věku 6 let. Nicméně, ne všechny jsou tak extrémní, což může učinit jejich rozpoznání obtížným.
Pokud jsou vhodně kurátorovány, umělá data mohou zmírnit tyto incidenty. Relevantní, autentická trénovací databáze je základem pro jakýkoli model, takže je rozumné předpokládat, že čím více detailů má někdo, tím přesnější bude výstup modelu. Doplňková datová sada umožňuje škálovatelnost, dokonce i pro niklové aplikace s omezenými veřejnými informacemi.
Debiasing je další způsob, jakým umělá datová sada může zmírnit halucinace umělé inteligence. Podle MIT Sloan School of Management to může pomoci řešit předpojatost, protože není omezeno původní velikostí vzorku. Profesionálové mohou použít realistické detaily k vyplnění mezer, kde jsou některé subpopulace nedostatečně nebo nadměrně reprezentovány.
Jak umělá data zhoršují halucinace
Jelikož inteligentní algoritmy nemohou rozumět nebo kontextualizovat informace, jsou náchylné k halucinacím. Generativní modely — zejména velké jazykové modely — jsou zvláště zranitelné. V některých ohledech umělá fakta zhoršují problém.
Zesílení předpojatosti
Stejně jako lidé, umělá inteligence může naučit a reprodukovat předpojatosti. Pokud umělá datová sada nadhodnocuje některé skupiny, zatímco podhodnocuje ostatní — což je znepokojivě snadné udělat náhodou — její logika rozhodování bude zkreslena, nepříznivě ovlivňující přesnost výstupu.
Podobný problém může nastat, když společnosti používají falešná data k odstranění skutečných předpojatostí, protože již nemusí odrážet realitu. Například, jelikož více než 99% rakovin prsu se vyskytuje u žen, použití doplňkových informací k vyvážení reprezentace by mohlo zkreslit diagnózy.
Intersekcionální halucinace
Intersekcionální teorie je sociologický rámec, který popisuje, jak demografické údaje, jako je věk, pohlaví, rasa, zaměstnání a třída, vzájemně souvisejí. Analyzuje, jak se sociální identity skupin překrývají a vedou k jedinečným kombinacím diskriminace a výsad.
Když je generativní model požádán, aby produkoval umělá data na základě toho, na čem byl trénován, může generovat kombinace, které neexistovaly v originálu nebo jsou logicky nemožné.
Ericka Johnson, profesorka genderu a společnosti na Linköping University, pracovala s vědcem v oblasti strojového učení, aby demonstrovala tento jev. Použili generativní adversativní síť k vytvoření syntetických verzí amerického sčítání lidu z roku 1990.
Okamžitě si všimli zřejmého problému. Umělá verze měla kategorie s názvy „manželka a svobodná“ a „nikdy nevdaní manželé“, obě z nich byly intersekcionálními halucinacemi.
Bez řádné kurátorovny bude replika datová sada vždy nadhodnocovat dominantní subpopulace v datech, zatímco podhodnocuje — nebo dokonce vylučuje — nedostatečně reprezentované skupiny. Okrajové případy a outliery mohou být zcela ignorovány ve prospěch dominantních trendů.
Kolaps modelu
Nadměrná závislost na umělých vzorcích a trendech vede k kolapsu modelu — kde výkon algoritmu dramaticky klesá, jak se stává méně adaptabilním na reálné pozorování a události.
Tento jev je zvláště zřejmý v next-generation generativních modelech umělé inteligence. Opakované používání umělé verze k jejich trénování vede k sebekonzumující smyčce. Jedno studie zjistilo, že jejich kvalita a recall klesají postupně bez dostatečných recentních, skutečných čísel v každé generaci.
Přepřáhnutí
Přepřáhnutí je nadměrná závislost na trénovacích datech. Algoritmus se zpočátku dobře vykoná, ale bude halucinovat, když je představen novým datovým bodům. Syntetická informace může zhoršit tento problém, pokud nedůsledně odráží realitu.
Důsledky pokračujícího používání syntetických dat
Trh s umělými daty roste. Společnosti v tomto niklovém odvětví přivítaly kolem 328 milionů dolarů v roce 2022, oproti 53 milionům dolarů v roce 2020 — což je nárůst o 518% za pouhých 18 měsíců. Je třeba poznamenat, že se jedná pouze o veřejně známé financování, což znamená, že skutečná částka může být ještě vyšší. Je jisté, že firmy jsou nesmírně investovány do tohoto řešení.
Pokud firmy budou pokračovat v používání umělé datové sady bez řádné kurátorovny a debiasingu, výkon jejich modelu bude postupně klesat, což zkazí jejich investice do umělé inteligence. Výsledky mohou být závažnější, v závislosti na aplikaci. Například ve zdravotnictví by nárůst halucinací mohl vést k nesprávným diagnózám nebo nesprávným léčebným plánům, což by vedlo k horším výsledkům pacientů.
Rozhodnutí nebude zahrnovat návrat k skutečným datům
Systémy umělé inteligence potřebují miliony, ne-li miliardy, obrázků, textu a videí pro trénování, z nichž většina je získávána ze veřejných webových stránek a kompilována do masivních, otevřených datových sad. Bohužel, algoritmy spotřebují tyto informace rychleji, než je lidé mohou generovat. Co se stane, když se naučí všechno?
Vedoucí pracovníci firem se obávají, že narazí na „datovou zeď“ — bod, ve kterém všechny veřejné informace na internetu budou vyčerpány. To může nastat dříve, než si myslí.
Ačkoli jak množství plain textu na průměrné webové stránce, tak i počet uživatelů internetu rostou o 2% až 4% ročně, algoritmy docházejí kvalitních dat. Jen 10% až 40% lze použít pro trénování bez kompromisování výkonu. Pokud trendy pokračují, zásoba veřejných informací generovaných lidmi by mohla do roku 2026 vyčerpat.
Sektor umělé inteligence může narazit na datovou zeď ještě dříve. Boom generativních modelů umělé inteligence v posledních letech zvýšil napětí nad vlastnictvím informací a porušováním autorských práv. Více vlastníků webových stránek používá Robots Exclusion Protocol — standard, který používá soubor robots.txt k blokování webových crawlerů — nebo zřetelně označují, že jejich web je nepřístupný.
Studie z roku 2024, kterou vedla výzkumná skupina z MIT, odhalila, že omezení v rámci velké datové sady Colossal Cleaned Common Crawl (C4) — rozsáhlé webové procházení — rostou. Více než 28% nejaktivnějších, kritických zdrojů v C4 bylo plně omezeno. Navíc 45% C4 je nyní označeno jako nepřístupné podle podmínek služby.
Pokud firmy budou respektovat tato omezení, čerstvost, relevanci a přesnost reálných veřejných faktů bude klesat, což je donutí spoléhat se na umělá data. Možná nebudou mít na výběr, pokud soudy rozhodnou, že jakákoli alternativa je porušením autorských práv.
Budoucnost syntetických dat a halucinací umělé inteligence
Jak se autorské zákony modernizují a více vlastníků webových stránek skrývá svůj obsah před webovými crawly, generace umělých datových sad bude stále populárnější. Organizace musí být připraveny na hrozbu halucinací.












