Inteligență artificială
Modele de scriere generativă bazate pe IA “copiază și lipește” frecvent datele sursă

Dramaturgul și antreprenorul american Wilson Mizner este adesea citat ca spunând “Când furi de la un autor, este plagiat; dacă furi de la mulți, este cercetare”.
Similar, presupunerea despre noua generație de sisteme de scriere creativă bazate pe IA este că cantitățile uriașe de date introduse în acestea în timpul etapei de antrenament au dus la o abstracție reală a conceptelor și ideilor de nivel înalt; că aceste sisteme au la dispoziție înțelepciunea distilată a miilor de autori care contribuie, din care IA poate formula scrieri inovatoare și originale; și că cei care utilizează astfel de sisteme pot fi siguri că nu se implică involuntar în plagiat prin proxy.
Este o presupunere care este contestată de o nouă lucrare de cercetare de la un consorțiu de cercetare (inclusiv diviziile de cercetare IA ale Facebook și Microsoft), care a descoperit că modelele de limbaj generativ bazate pe învățare automată, cum ar fi seria GPT “copiază uneori chiar și pasaje foarte lungi” în output-ul lor supusmente original, fără atribuire.
În unele cazuri, autorii notează, GPT-2 va duplica peste 1.000 de cuvinte din setul de antrenament în output-ul său.
Lucrarea paper se intitulează Cât de mult modelele de limbaj copiază din datele de antrenament? Evaluarea novei lingvistice în generarea de text utilizând RAVEN și este o colaborare între Universitatea Johns Hopkins, Microsoft Research, Universitatea din New York și Facebook AI Research.
RAVEN
Studiul utilizează o abordare nouă numită RAVEN (RAtingVErbalNovelty), un acronim care a fost întors într-un mod amuzant pentru a reflecta personajul malefic al unui poem clasic:
‘Acest acronim se referă la “The Raven” de Edgar Allan Poe, în care naratorul întâlnește un corb misterios care strigă în mod repetat, “Niciodată!” Naratorul nu poate spune dacă corbul repetă doar ceva pe care l-a auzit de la un om sau dacă construiește propriile sale enunțuri (poate prin combinarea niciodată și mai mult)—aceeași ambiguitate de bază pe care o abordează lucrarea noastră.’
Rezultatele din noua lucrare vin în contextul unei creșteri majore a sistemelor de scriere de conținut bazate pe IA care încearcă să înlocuiască “simplele” sarcini de editare și chiar să scrie conținut integral. Un astfel de sistem a primit 21 de milioane de dolari în finanțare de serie A în această săptămână.
Cercetătorii notează că ‘GPT-2 uneori duplică pasaje de antrenament care sunt de peste 1.000 de cuvinte lungi.‘ (accentul lor), și că sistemele generative de limbaj propagă erorile lingvistice din datele sursă.
Modelele de limbaj studiate sub RAVEN au fost seria de lansări GPT până la GPT-2 (autorii nu au avut acces la GPT-3 la momentul respectiv), un Transformer, Transformer-XL și un LSTM.
Noutate
Lucrarea notează că GPT-2 inventează inflecții în stilul lui Bush 2, cum ar fi ‘șșwissificat’, și derivate cum ar fi ‘IKEA-ness’, creând astfel de cuvinte noi (care nu apar în datele de antrenament ale GPT-2) pe principii lingvistice derivate din spații de dimensiuni superioare stabilite în timpul antrenamentului.
Rezultatele arată, de asemenea, că ‘74% din propozițiile generate de Transformer-XL au o structură sintactică pe care nicio propoziție de antrenament nu o are’, indicând, după cum afirmă autorii, ‘modelele de limbaj neuronale nu se limitează la memorizare; în schimb, ele folosesc procese productive care le permit să combine părți familiare în moduri noi.’
Deci, din punct de vedere tehnic, generalizarea și abstracția ar trebui să producă text inovator și nou.
Duplicarea datelor poate fi problema
Lucrarea teorizează că citatele lungi și verbatim produse de sistemele de generare de limbaj natural (NLG) pot deveni “coapte” în întregime în modelul IA, deoarece textul sursă original este repetat de mai multe ori în seturile de date care nu au fost suficient de deduplicate.
Deși un alt proiect de cercetare a descoperit că duplicarea completă a textului poate apărea chiar și dacă textul sursă apare o singură dată în setul de date, autorii notează că proiectul are arhitecturi conceptuale diferite de sistemele obișnuite de generare de conținut bazate pe IA.
Autorii observă, de asemenea, că modificarea componentei de decodificare în sistemele de generare de limbaj poate crește noutatea, dar au constatat în testele efectuate că acest lucru se întâmplă în detrimentul calității output-ului.
Probleme suplimentare apar pe măsură ce seturile de date care alimentează algoritmii de generare de conținut devin din ce în ce mai mari. Pe lângă faptul că agravează problemele legate de fezabilitatea și viabilitatea prelucrării datelor, precum și asigurarea calității și deduplicarea datelor, multe erori de bază rămân în datele sursă, care apoi sunt propagate în output-ul de conținut generat de IA.
Autorii notează*:
‘Creșterile recente ale dimensiunilor seturilor de antrenament fac ca este mai important să verificăm noutatea, deoarece magnitudinea acestor seturi de antrenament poate rupe intuițiile noastre despre ceea ce se poate aștepta să se întâmple în mod natural. De exemplu, o lucrare notabilă în limbaj dobândire se bazează pe presupunerea că formele regulate ale verbelor neregulate (de exemplu, becomed, teached) nu apar în experiența unui învățăcel, astfel încât, dacă un învățăcel produce astfel de cuvinte, ele trebuie să fie noi pentru învățăcel.’
‘Cu toate acestea, se dovedește că, pentru toate cele 92 de verbe neregulate de bază din limba engleză, forma regulată incorectă apare în setul de antrenament al GPT-2.’
Mai multă curățenie a datelor este necesară
Lucrarea susține că trebuie să se acorde mai multă atenție novei în formularea sistemelor de limbaj generativ, cu accent deosebit pe asigurarea faptului că partea “reținută” a datelor (partea datelor sursă care este pusă deoparte pentru testarea modului în care algoritmul final a evaluat corpul principal de date antrenate) este potrivită pentru sarcină.
‘În învățarea automată, este esențial să evaluăm modelele pe un set de test reținut. Din cauza naturii deschise a generării de text, textul generat de un model poate fi copiat din setul de antrenament, în care caz nu este reținut—prin urmare, utilizarea acestor date pentru evaluarea modelului (de exemplu, pentru coerență sau gramaticalitate) nu este valabilă.’
Autorii susțin, de asemenea, că trebuie să se acorde mai multă grijă în producerea de modele de limbaj, din cauza efectului Eliza, un sindrom identificat în 1966 care a identificat “susceptibilitatea oamenilor de a citi mult mai multă înțelegere decât este justificat în șiruri de simboluri—în special cuvinte—aranjate de computere”.
* Conversia mea a citatelor inline în legături












