Spojte se s námi

Umělá inteligence

Jak syntetická data ovlivňují halucinace umělé inteligence?

mm

Přestože jsou syntetická data mocným nástrojem, mohou omezit halucinace umělé inteligence pouze za specifických okolností. Téměř v každém druhém případě je zesílí. proč tomu tak je? Co tento fenomén znamená pro ty, kteří do něj investovali? 

Jak se syntetická data liší od skutečných dat?

Syntetická data jsou informace, které generuje AI. Místo toho, aby byly shromažďovány ze skutečných událostí nebo pozorování, jsou vyráběny uměle. Podobá se však originálu právě natolik, aby produkoval přesný a relevantní výstup. To je každopádně myšlenka.  

K vytvoření umělé datové sady trénují inženýři AI generativní algoritmus na skutečné relační databázi. Po zobrazení výzvy vytvoří druhou sadu, která přesně zrcadlí první, ale neobsahuje žádné skutečné informace. Zatímco obecné trendy a matematické vlastnosti zůstávají nedotčeny, existuje dostatek šumu, který maskuje původní vztahy. 

Datový soubor generovaný umělou inteligencí jde nad rámec deidentifikace a replikuje základní logiku vztahů mezi poli namísto pouhého nahrazení polí ekvivalentními alternativami. Vzhledem k tomu, že neobsahuje žádné identifikační údaje, společnosti jej mohou použít k obcházení předpisů o ochraně osobních údajů a autorských práv. Ještě důležitější je, že je mohou volně sdílet nebo distribuovat bez obav z porušení. 

K doplnění se však častěji používají falešné informace. Podniky jej mohou použít k obohacení nebo rozšíření velikostí vzorků, které jsou příliš malé, takže jsou dostatečně velké na efektivní trénování systémů AI. 

Minimalizují syntetická data halucinace umělé inteligence?

Algoritmy někdy odkazují na neexistující události nebo vytvářejí logicky nemožné návrhy. Tyto halucinace jsou často nesmyslné, zavádějící nebo nesprávné. Například velký jazykový model může napsat článek s návody na domestikaci lvů nebo na to, stát se lékařem ve věku 6 let. Nejsou však až tak extrémní, takže jejich rozpoznání může být náročné. 

Pokud jsou umělá data vhodně upravena, mohou tyto incidenty zmírnit. Relevantní, autentická tréninková databáze je základem každého modelu, takže je logické, že čím více podrobností má někdo, tím přesnější bude výstup jeho modelu. Doplňková datová sada umožňuje škálovatelnost i pro specializované aplikace s omezenými veřejnými informacemi. 

Debiasing je další způsob, jak může syntetická databáze minimalizovat halucinace AI. Podle MIT Sloan School of Management to může pomoci řešit zaujatost protože není omezena na původní velikost vzorku. Profesionálové mohou použít realistické detaily k vyplnění mezer, kde jsou vybrané dílčí populace pod nebo nadměrně zastoupeny. 

Jak umělá data zhoršují halucinace

Od inteligentních algoritmů neumí zdůvodňovat nebo kontextualizovat informace, jsou náchylní k halucinacím. Generativní modely – zejména předem připravené velké jazykové modely – jsou obzvláště zranitelné. V některých ohledech umělá fakta problém ještě zhoršují. 

Amplifikace zkreslení

Stejně jako lidé se umělá inteligence může učit a reprodukovat předsudky. Pokud umělá databáze nadhodnocuje některé skupiny, zatímco jiné podreprezentuje – což je velmi snadné náhodně – její rozhodovací logika se pokřiví, což nepříznivě ovlivní přesnost výstupu. 

Podobný problém může nastat, když společnosti používají falešná data k odstranění zkreslení v reálném světě, protože už nemusí odrážet realitu. Například od více než 99 % případů rakoviny prsu vyskytují u žen, použití doplňkových informací k vyvážení zastoupení by mohlo zkreslit diagnózy.

Intersekční halucinace

Intersekcionalita je sociologický rámec, který popisuje, jak se prolínají demografie jako věk, pohlaví, rasa, povolání a třída. Analyzuje, jak překrývající se sociální identity skupin vedou k jedinečným kombinacím diskriminace a privilegií.

Když je generativní model požádán, aby vytvořil umělé detaily založené na tom, na čem trénoval, může generovat kombinace, které v originále neexistovaly nebo jsou logicky nemožné.

Ericka Johnson, profesorka genderu a společnosti na Linköpingské univerzitě, spolupracovala s vědcem v oblasti strojového učení na demonstraci tohoto fenoménu. Používali generativní nepřátelskou síť vytvářet syntetické verze údajů ze sčítání lidu Spojených států z roku 1990. 

Vzápětí si všimli do očí bijícího problému. Umělá verze měla kategorie nazvané „manželka a svobodný“ a „nikdy nevdaní manželé“, přičemž obě byly průsečíkovými halucinacemi.

Bez řádného kurátorství bude databáze replik vždy nadměrně zastupovat dominantní subpopulace v souborech dat, zatímco nedostatečně zastoupené skupiny – nebo dokonce vylučovat. Okrajové případy a odlehlé hodnoty mohou být zcela ignorovány ve prospěch dominantních trendů. 

Model kolaps 

Přílišné spoléhání na umělé vzory a trendy vede ke kolapsu modelu – kde se výkon algoritmu drasticky zhorší, protože se hůře přizpůsobí pozorování a událostem v reálném světě. 

Tento jev je zvláště patrný u generativní umělé inteligence nové generace. Opakované používání umělé verze k jejich trénování má za následek samospotřebovou smyčku. Jedna studie zjistila, že jejich pokles kvality a odvolání postupně bez dostatku aktuálních, skutečných čísel v každé generaci.

Přetížení 

Přetížení je přílišné spoléhání na tréninková data. Algoritmus zpočátku funguje dobře, ale při předložení nových datových bodů bude mít halucinace. Syntetické informace mohou tento problém zhoršit, pokud přesně neodrážejí realitu. 

Důsledky pokračujícího používání syntetických dat

Trh syntetických dat zažívá boom. Společnosti v tomto specializovaném odvětví získal kolem 328 milionů $ v roce 2022, z 53 milionů dolarů v roce 2020 – 518% nárůst za pouhých 18 měsíců. Stojí za zmínku, že se jedná pouze o veřejně známé financování, což znamená, že skutečné číslo může být ještě vyšší. Dá se s jistotou říci, že firmy do tohoto řešení neuvěřitelně investují. 

Pokud budou firmy nadále používat umělou databázi bez řádného kurátorství a debiasingu, výkon jejich modelu bude postupně klesat, což zkazí jejich investice do AI. Výsledky mohou být závažnější v závislosti na aplikaci. Například ve zdravotnictví může prudký nárůst halucinací vést k chybným diagnózám nebo nesprávným léčebným plánům, což vede k horším výsledkům pacientů.

Řešení nebude zahrnovat návrat ke skutečným datům

Systémy umělé inteligence potřebují miliony, ne-li miliardy obrázků, textů a videí pro školení, z nichž velká část je stažena z veřejných webových stránek a sestavena do masivních, otevřených datových sad. Algoritmy bohužel spotřebovávají tyto informace rychleji, než je lidé mohou generovat. Co se stane, když se všechno naučí?

Obchodní lídři se obávají, že narazí na datovou zeď – bod, ve kterém jsou všechny veřejné informace na internetu vyčerpány. Možná se to blíží rychleji, než si myslí. 

A to i přesto, že jak množství prostého textu na průměrné běžné procházení webové stránky, tak počet uživatelů internetu rostou o 2 až 4 % algoritmům každoročně dochází vysoce kvalitní data. Pouhých 10 % až 40 % lze použít pro trénink, aniž by došlo ke snížení výkonu. Pokud budou trendy pokračovat, zásoby veřejných informací vytvořených lidmi by se mohly vyčerpat do roku 2026.

Se vší pravděpodobností může sektor AI narazit na datovou zeď ještě dříve. Generativní boom umělé inteligence v posledních několika letech zvýšil napětí ohledně vlastnictví informací a porušování autorských práv. Více vlastníků webových stránek používá protokol Robots Exclusion Protocol – standard, který k blokování webových prohledávačů používá soubor robots.txt – nebo dávají najevo, že jejich web je zakázán. 

Studie z roku 2024, kterou zveřejnila výzkumná skupina vedená MIT, odhalila datový soubor Colossal Cleaned Common Crawl (C4) – rozsáhlý soubor pro procházení webu – omezení jsou na vzestupu. Nad 28 % nejaktivnějších, kritických zdrojů v C4 byly plně omezeny. Navíc 45 % C4 je nyní podle podmínek služby označeno jako mimo limit. 

Pokud firmy budou tato omezení respektovat, aktuálnost, relevance a přesnost skutečných veřejných faktů se sníží, což je donutí spoléhat se na umělé databáze. Pokud soud rozhodne, že jakákoli alternativa je porušením autorských práv, nemusí mít moc na výběr. 

Budoucnost syntetických dat a halucinací umělé inteligence 

Jak se modernizují autorská práva a stále více vlastníků webových stránek skrývá svůj obsah před webovými prohledávači, generování umělých datových sad bude stále populárnější. Organizace se musí připravit čelit hrozbě halucinací. 

Zac Amos je technický spisovatel, který se zaměřuje na umělou inteligenci. Je také editorem funkcí na ReHack, kde si můžete přečíst více z jeho tvorby.