Connect with us

Inteligență artificială

Cum Impactează Datele Sintetice Halucinațiile IA?

mm

Deși datele sintetice sunt un instrument puternic, ele pot reduce halucinațiile inteligenței artificiale doar în circumstanțe specifice. În aproape toate celelalte cazuri, le vor amplifica. De ce se întâmplă acest lucru? Ce înseamnă acest fenomen pentru cei care au investit în el? 

Cum se Diferențiază Datele Sintetice de Datele Reale?

Datele sintetice sunt informații generate de inteligența artificială. În loc să fie colectate din evenimente sau observații din lumea reală, ele sunt produse în mod artificial. Cu toate acestea, ele semănă suficient de mult cu originalul pentru a produce ieșiri precise și relevante. Acesta este ideea, oricum.  

Pentru a crea un set de date artificial, inginerii de inteligență artificială instruiesc un algoritm generativ pe o bază de date relațională reală. Atunci când sunt solicitați, ei produc un al doilea set care reflectă îndeaproape primul, dar conține nicio informație autentică. În timp ce tendințele generale și proprietățile matematice rămân intacte, există suficient zgomot pentru a masca relațiile originale. 

Un set de date generat de inteligența artificială merge dincolo de deidentificare, replicând logica subiacentă a relațiilor dintre câmpuri, în loc să înlocuiască pur și simplu câmpurile cu alternative echivalente. Deoarece nu conține detalii de identificare, companiile pot să le utilizeze pentru a ocoli reglementările privind confidențialitatea și drepturile de autor. Mai important, ele pot să le partajeze sau să le distribuie în mod liber, fără teama unei încălcări. 

Cu toate acestea, informațiile false sunt utilizate mai frecvent pentru suplimentare. Companiile pot să le utilizeze pentru a îmbogăți sau a extinde dimensiunile mostrelor care sunt prea mici, făcându-le suficient de mari pentru a antrena sistemele de inteligență artificială în mod eficient. 

Reduc Datele Sintetice Halucinațiile IA?

Uneori, algoritmii se referă la evenimente inexistente sau fac sugestii logic imposibile. Aceste halucinații sunt adesea lipsite de sens, înșelătoare sau incorecte. De exemplu, un model de limbaj mare poate să scrie un articol despre cum să domesticești lei sau să devii medic la vârsta de 6 ani. Cu toate acestea, ele nu sunt toate la fel de extreme, ceea ce poate face dificilă recunoașterea lor. 

Dacă sunt curate corespunzător, datele artificiale pot reduce aceste incidente. O bază de date de antrenare relevantă și autentică este fundamentul oricărui model, așa că este logic că, cu cât mai multe detalii are cineva, cu atât mai precisă va fi ieșirea modelului. Un set de date suplimentar permite scalabilitate, chiar și pentru aplicații de nișă cu informații publice limitate. 

Debiasarea este o altă modalitate prin care o bază de date sintetică poate reduce halucinațiile IA. Conform Școlii de Management MIT Sloan, ea poate ajuta la adresarea prejudecăților, deoarece nu este limitată la dimensiunea mostrei originale. Profesioniștii pot utiliza detalii realiste pentru a umple golurile în care subpopulațiile selectate sunt sub sau suprareprezentate. 

Cum Datele Artificiale Înrăutățesc Halucinațiile

Deoarece algoritmii inteligenți nu pot raționa sau contextualiza informațiile, ei sunt predispuși la halucinații. Modelele generative — în special modelele de limbaj mare preantrenate — sunt deosebit de vulnerabile. În unele moduri, faptele artificiale compun problema. 

Amplificarea Prejudecăților

La fel ca oamenii, inteligența artificială poate învăța și reproduce prejudecăți. Dacă o bază de date artificială suprareprezintă anumite grupuri, în timp ce subreprezintă altele — ceea ce este ușor de făcut accidental — logica decizională va fi distorsionată, afectând negativ acuratețea ieșirii. 

Un problemă similară poate apărea atunci când companiile utilizează date false pentru a elimina prejudecățile din lumea reală, deoarece ele nu mai reflectă realitatea. De exemplu, deoarece peste 99% din cazurile de cancer mamar apar la femei, utilizarea informațiilor suplimentare pentru a echilibra reprezentarea poate distorsiona diagnosticarea.

Halucinații Intersecționale

Intersecționalitatea este un cadru sociologic care descrie modul în care demografiile precum vârsta, sexul, rasa, ocupația și clasa se intersectează. Ea analizează modul în care identitățile sociale care se suprapun ale grupurilor duc la combinații unice de discriminare și privilegii.

Atunci când un model generativ este solicitat să producă detalii artificiale pe baza celor pe care s-a antrenat, el poate genera combinații care nu au existat în original sau sunt logic imposibile.

Ericka Johnson, profesor de gen și societate la Universitatea Linköping, a lucrat cu un om de știință din domeniul învățării automate pentru a demonstra acest fenomen. Ei au utilizat o rețea adversarială generativă pentru a crea versiuni sintetice ale datelor recensământului din Statele Unite din 1990. 

Imediat, ei au observat o problemă evidentă. Versiunea artificială avea categorii intitulate „soție și necăsătorit” și „soți necăsătoriți”, ambele fiind halucinații intersecționale.

Fără o curare corespunzătoare, baza de date replică va reprezenta întotdeauna subpopulațiile dominante din seturile de date, în timp ce va subreprezenta — sau chiar exclude — grupurile subreprezentate. Cazurile marginale și outlier-ii pot fi ignorați complet în favoarea tendințelor dominante. 

Prăbușirea Modelului 

O dependență excesivă de modele și tendințe artificiale conduce la prăbușirea modelului — unde performanța unui algoritm se deteriorează drastic, devenind mai puțin adaptabil la evenimente și observații din lumea reală. 

Acest fenomen este deosebit de evident în inteligența artificială generativă de ultimă generație. Utilizarea repetată a unei versiuni artificiale pentru a le antrena duce la un buclă autodistructivă. Un studiu a constatat că calitatea și rechemarea lor scad progresiv, fără suficiente cifre recente și reale în fiecare generație.

Supraajustare 

Supraajustarea este o dependență excesivă de datele de antrenare. Algoritmul performează bine inițial, dar va halucina atunci când este prezentat cu noi puncte de date. Informațiile sintetice pot compune această problemă, dacă nu reflectă cu acuratețe realitatea. 

Implicațiile Utilizării Continue a Datelor Sintetice

Piața datelor sintetice este în plină expansiune. Companiile din acest sector de nișă au strâns aproximativ 328 de milioane de dolari în 2022, față de 53 de milioane de dolari în 2020 — o creștere de 518% în doar 18 luni. Este important de remarcat că aceasta este doar finanțarea publică cunoscută, ceea ce înseamnă că cifra reală poate fi și mai mare. Este sigur să spunem că firmele sunt incredibil de investite în această soluție. 

Dacă firmele continuă să utilizeze o bază de date artificială fără o curare și debiasare corespunzătoare, performanța modelului lor va scădea progresiv, stricând investițiile lor în inteligența artificială. Rezultatele pot fi mai severe, în funcție de aplicație. De exemplu, în domeniul sănătății, o creștere a halucinațiilor ar putea duce la diagnosticări greșite sau planuri de tratament inadecvate, ceea ce ar conduce la rezultate mai slabe pentru pacienți.

Soluția Nu Va Implica Revenirea La Datele Reale

Sistemele de inteligență artificială au nevoie de milioane, dacă nu miliarde, de imagini, texte și videoclipuri pentru antrenare, multe dintre acestea fiind extrase din site-uri web publice și compilate în seturi de date deschise masive. Din nefericire, algoritmii consumă aceste informații mai repede decât oamenii pot să le genereze. Ce se întâmplă atunci când ei învață totul?

Liderii de afaceri se tem de lovitura peretelui de date — punctul în care toate informațiile publice de pe internet au fost epuizate. Acesta poate fi mai aproape decât cred. 

Deși cantitatea de text simplu de pe o pagină web obișnuită și numărul de utilizatori de internet cresc cu 2% până la 4% anual, algoritmii se epuizează de date de înaltă calitate. Doar 10% până la 40% pot fi utilizate pentru antrenare fără a compromite performanța. Dacă tendințele continuă, stocul de informații publice generate de oameni ar putea fi epuizat până în 2026.

În toate probabilitățile, sectorul inteligenței artificiale poate lovi peretele de date chiar mai devreme. Boom-ul de inteligență artificială generativă din ultimii ani a crescut tensiunile legate de proprietatea informațiilor și încălcarea drepturilor de autor. Mai mulți proprietari de site-uri web utilizează Protocolul de Excludere a Robotilor — un standard care utilizează un fișier robots.txt pentru a bloca crawlerele web — sau fac clar că site-ul lor este interzis. 

Un studiu din 2024, publicat de un grup de cercetare condus de MIT, a arătat că restricțiile din setul de date Colossal Cleaned Common Crawl (C4) — un corpus de crawlers web la scară largă — sunt în creștere. Peste 28% din sursele cele mai active și critice din C4 au fost complet restricționate. Mai mult, 45% din C4 este acum desemnat ca interzis de condițiile de serviciu. 

Dacă firmele respectă aceste restricții, prospețimea, relevanța și acuratețea faptelor publice din lumea reală vor scădea, forțându-le să se bazeze pe baze de date artificiale. Ei nu au prea multă alegere, dacă instanțele decid că orice alternativă reprezintă o încălcare a drepturilor de autor. 

Viitorul Datelor Sintetice și al Halucinațiilor IA 

Pe măsură ce legile privind drepturile de autor se modernizează și mai mulți proprietari de site-uri web ascund conținutul lor de crawlerele web, generarea de seturi de date artificiale va deveni tot mai populară. Organizațiile trebuie să se pregătească pentru a face față amenințării halucinațiilor. 

//trk.rehack.com/r/e/KGmvUGPJ70sxOElV?r=https://rehack.com/"> ReHack, unde puteți citi mai multe dintre lucrările sale.