Inteligența artificială
Cum influențează datele sintetice halucinațiile AI?
Deși datele sintetice sunt un instrument puternic, pot reduce halucinațiile inteligenței artificiale doar în circumstanțe specifice. În aproape toate celelalte cazuri, le va amplifica. De ce este asta? Ce înseamnă acest fenomen pentru cei care au investit în el?
Cum sunt datele sintetice diferite de datele reale?
Datele sintetice sunt informații care sunt generate de AI. În loc să fie colectat din evenimente sau observații din lumea reală, este produs artificial. Cu toate acestea, seamănă cu originalul suficient pentru a produce rezultate precise și relevante. Asta e ideea, oricum.
Pentru a crea un set de date artificial, inginerii AI antrenează un algoritm generativ pe o bază de date relațională reală. Când vi se solicită, produce un al doilea set care îl oglindește îndeaproape pe primul, dar nu conține informații autentice. În timp ce tendințele generale și proprietățile matematice rămân intacte, există suficient zgomot pentru a masca relațiile originale.
Un set de date generat de AI depășește deidentificarea, replicând logica de bază a relațiilor dintre câmpuri, în loc să înlocuiască pur și simplu câmpurile cu alternative echivalente. Deoarece nu conține detalii de identificare, companiile îl pot folosi pentru a evita reglementările privind confidențialitatea și drepturile de autor. Mai important, ei îl pot împărtăși sau distribui în mod liber fără teama de încălcare.
Cu toate acestea, informațiile false sunt utilizate mai frecvent pentru suplimentare. Companiile îl pot folosi pentru a îmbogăți sau extinde dimensiunile eșantioanelor care sunt prea mici, făcându-le suficient de mari pentru a instrui sistemele AI în mod eficient.
Datele sintetice minimizează halucinațiile AI?
Uneori, algoritmii fac referire la evenimente inexistente sau fac sugestii imposibile din punct de vedere logic. Aceste halucinații sunt adesea fără sens, înșelătoare sau incorecte. De exemplu, un model de limbă mare ar putea scrie un articol despre domesticirea leilor sau să deveniți medic la vârsta de 6 ani. Cu toate acestea, nu sunt atât de extreme, ceea ce poate face ca recunoașterea lor să fie dificilă.
Dacă sunt organizate în mod corespunzător, datele artificiale pot atenua aceste incidente. O bază de date de instruire relevantă și autentică este baza oricărui model, așa că este de la sine înțeles că cu cât cineva are mai multe detalii, cu atât rezultatul modelului său va fi mai precis. Un set de date suplimentar permite scalabilitatea, chiar și pentru aplicații de nișă cu informații publice limitate.
Debiazarea este un alt mod în care o bază de date sintetică poate minimiza halucinațiile AI. Potrivit MIT Sloan School of Management, acesta poate ajuta la abordarea părtinirii deoarece nu se limitează la dimensiunea eșantionului inițial. Profesioniștii pot folosi detalii realiste pentru a umple golurile în care anumite subpopulații sunt sub sau suprareprezentate.
Cum datele artificiale agravează halucinațiile
Din moment ce algoritmi inteligenţi nu poate argumenta sau contextualiza informațiile, sunt predispuși la halucinații. Modelele generative – în special modelele de limbaj mari pregătite în prealabil – sunt deosebit de vulnerabile. Într-un fel, faptele artificiale agravează problema.
Amplificare bias
La fel ca oamenii, AI poate învăța și reproduce prejudecăți. Dacă o bază de date artificială supraevaluează unele grupuri în timp ce subreprezintă altele - ceea ce este îngrijorător de ușor de făcut accidental - logica sa de luare a deciziilor se va distorsiona, afectând negativ acuratețea rezultatelor.
O problemă similară poate apărea atunci când companiile folosesc date false pentru a elimina părtinirile din lumea reală, deoarece este posibil să nu mai reflecte realitatea. De exemplu, din moment ce peste 99% dintre cancerele de sân apar la femei, utilizarea informațiilor suplimentare pentru a echilibra reprezentarea ar putea denatura diagnosticele.
Halucinații intersecționale
Intersecționalitatea este un cadru sociologic care descrie modul în care se intersectează demografii precum vârsta, sexul, rasa, ocupația și clasa. Acesta analizează modul în care identitățile sociale suprapuse ale grupurilor au ca rezultat combinații unice de discriminare și privilegii.
Atunci când unui model generativ i se cere să producă detalii artificiale pe baza a ceea ce s-a antrenat, acesta poate genera combinații care nu existau în original sau sunt imposibile din punct de vedere logic.
Ericka Johnson, profesor de gen și societate la Universitatea Linköping, a lucrat cu un om de știință în învățarea automată pentru a demonstra acest fenomen. Au folosit o rețea generativă adversară pentru a crea versiuni sintetice a cifrelor recensământului din SUA din 1990.
Imediat, au observat o problemă flagrantă. Versiunea artificială avea categorii intitulate „soție și necăsătorit” și „soți niciodată căsătoriți”, ambele fiind halucinații intersecționale.
Fără o curatare adecvată, baza de date replica va suprareprezenta întotdeauna subpopulațiile dominante în seturile de date, în timp ce va subreprezenta - sau chiar exclude - grupurile subreprezentate. Cazurile marginale și valorile aberante pot fi ignorate în întregime în favoarea tendințelor dominante.
Colapsul modelului
O dependență excesivă de modele și tendințe artificiale duce la colapsul modelului - în cazul în care performanța unui algoritm se deteriorează drastic pe măsură ce devine mai puțin adaptabil la observațiile și evenimentele din lumea reală.
Acest fenomen este deosebit de evident în IA generativă de următoarea generație. Folosirea în mod repetat a unei versiuni artificiale pentru a le antrena are ca rezultat o buclă care se consumă singur. Un studiu a constatat că lor scăderea calității și a reamintirii progresiv fără cifre suficiente recente, reale în fiecare generație.
Suprapunere
Suprapunere este o dependență excesivă de datele de antrenament. Algoritmul funcționează bine inițial, dar va halucina când i se prezintă noi puncte de date. Informațiile sintetice pot agrava această problemă dacă nu reflectă cu exactitate realitatea.
Implicațiile utilizării continue a datelor sintetice
Piața de date sintetice este în plină expansiune. Companii din această industrie de nișă a strâns în jur de 328 milioane de dolari în 2022, în creștere față de 53 de milioane de dolari în 2020 - o creștere de 518% în doar 18 luni. Este demn de remarcat faptul că aceasta este doar finanțare cunoscută public, ceea ce înseamnă că cifra reală poate fi și mai mare. Este sigur să spunem că firmele sunt incredibil de investite în această soluție.
Dacă firmele continuă să folosească o bază de date artificială fără curatarea și debiasarea corespunzătoare, performanța modelului lor va scădea progresiv, acrezându-și investițiile în IA. Rezultatele pot fi mai severe, în funcție de aplicație. De exemplu, în asistența medicală, o creștere a halucinațiilor ar putea duce la diagnostice greșite sau planuri de tratament necorespunzătoare, ceea ce duce la rezultate mai slabe ale pacientului.
Soluția nu va implica revenirea la datele reale
Sistemele de inteligență artificială au nevoie de milioane, dacă nu de miliarde de imagini, texte și videoclipuri pentru instruire, dintre care multe sunt extrase de pe site-uri web publice și compilate în seturi de date masive și deschise. Din păcate, algoritmii consumă aceste informații mai repede decât le pot genera oamenii. Ce se întâmplă când învață totul?
Liderii de afaceri sunt îngrijorați să lovească peretele de date - punctul în care toate informațiile publice de pe internet au fost epuizate. Poate că se apropie mai repede decât cred ei.
Chiar dacă atât cantitatea de text simplu de pe pagina web cu crawlere obișnuită, cât și numărul de utilizatori de internet cresc cu 2% până la 4% anual, algoritmii rămân fără date de înaltă calitate. Doar 10% până la 40% pot fi folosite pentru antrenament fără a compromite performanța. Dacă tendințele continuă, stocul de informații publice generat de oameni s-ar putea epuiza până în 2026.
După toate probabilitățile, sectorul AI poate lovi peretele de date și mai devreme. Boom-ul generativ al inteligenței artificiale din ultimii câțiva ani a crescut tensiunile legate de proprietatea informațiilor și încălcarea drepturilor de autor. Mai mulți proprietari de site-uri web folosesc Robots Exclusion Protocol – un standard care utilizează un fișier robots.txt pentru a bloca crawlerele web – sau clarifică site-ul lor este interzis.
Un studiu din 2024 publicat de un grup de cercetare condus de MIT a dezvăluit setul de date Colossal Cleaned Common Crawl (C4) – un corpus de accesare cu crawlere pe internet la scară largă – restricțiile sunt în creștere. Peste 28% dintre cele mai active, surse critice în C4 au fost complet restricționate. Mai mult decât atât, 45% din C4 este acum desemnat în afara limitelor prin termenii și condițiile.
Dacă firmele respectă aceste restricții, prospețimea, relevanța și acuratețea faptelor publice din lumea reală vor scădea, forțându-le să se bazeze pe baze de date artificiale. Este posibil să nu aibă prea multe de ales dacă instanțele decide că orice alternativă este încălcarea drepturilor de autor.
Viitorul datelor sintetice și al halucinațiilor AI
Pe măsură ce legile privind drepturile de autor se modernizează și mai mulți proprietari de site-uri își ascund conținutul de crawlerele web, generarea artificială a seturilor de date va deveni din ce în ce mai populară. Organizațiile trebuie să se pregătească să facă față amenințării halucinațiilor.












