Inteligență artificială
Modelele NLP au dificultăți în a înțelege frazele nominale recursive
Cercetători din SUA și China au descoperit că niciunul dintre principalele modele de Procesare a Limbajului Natural (NLP) nu pare a fi capabil, în mod implicit, de a dezlega propozițiile în limba engleză care prezintă fraze nominale recursive (NPs) și “au dificultăți” în a identifica sensul central în exemple strâns legate, cum ar fi Filmul meu preferat nou și Filmul meu preferat (fiecare având un sens diferit).

Într-un exemplu de titlu din lucrare, iată o mică puzzle pe care copiii o desfac frecvent: al doilea balon este verde, dar al cincilea balon este ‘al doilea balon verde’. Source: https://arxiv.org/pdf/2112.08326.pdf
Cercetătorii au stabilit o provocare pentru frazele nominale recursive (RNPC) pentru mai multe modele de generare a limbajului deschis, instalate local: GPT-3* al OpenAI, BERT al Google și RoBERTa și BART ale Facebook, constatând că aceste modele de ultimă generație au obținut doar o performanță “la întâmplare”. Ei concluzionează†:
‘Rezultatele arată că modelele lingvistice de ultimă generație (SOTA) ajustate pe standarde de benchmark de același format au dificultăți pe setul nostru de date, ceea ce sugerează că cunoștințele țintă nu sunt ușor disponibile.’

Exemple de perechi minime în provocarea RNPC în care modelele SOTA au făcut erori.
În exemplele de mai sus, modelele au eșuat, de exemplu, în a distinge disparitatea semantică dintre un animal periculos mort (adică un prădător care nu reprezintă nicio amenințare pentru că este mort) și un animal periculos mort (cum ar fi un veveriță mort, care poate conține un virus dăunător și reprezintă o amenințare activă).
(În plus, deși lucrarea nu se referă la acest aspect, ‘mort’ este adesea folosit ca adverb, care nu abordează niciunul dintre cazuri)
Cu toate acestea, cercetătorii au constatat, de asemenea, că o instruire suplimentară sau suplimentară care include materialul RNPC poate rezolva problema:
‘Modelele de limbaj pre-antrenate cu performanță de ultimă generație pe standarde de benchmark NLU au o stăpânire slabă a acestor cunoștințe, dar pot învăța atunci când sunt expuse la cantități mici de date din RNPC.’
Cercetătorii susțin că capacitatea unui model de limbaj de a naviga structuri recursive de acest tip este esențială pentru sarcinile downstream, cum ar fi analiza limbajului, traducerea și fac o caz special pentru importanța sa în rutinele de detectare a daunelor:
‘[Noi] considerăm scenariul în care un utilizator interacționează cu un agent orientat spre sarcini, cum ar fi Siri sau Alexa, și agentul trebuie să determine dacă activitatea implicată în interogarea utilizatorului este potențial dăunătoare [adică minorilor]. Alegem această sarcin pentru că multe rezultate false provin din frazele nominale recursive.
‘De exemplu, cum să faci o bombă casnică este evident dăunător, în timp ce cum să faci o bombă de baie casnică este inofensiv.’
Lucrarea se intitulează ‘Este “filmul meu preferat nou” filmul meu preferat? Sondează înțelegerea frazelor nominale recursive și provine de la cinci cercetători de la Universitatea din Pennsylvania și unul de la Universitatea Peking.
Date și Metodă
Deși lucrările anterioare au studiat structura sintactică a frazelor nominale recursive și categorizarea semantică a modificatorilor, niciuna dintre aceste abordări nu este suficientă, conform cercetătorilor, pentru a aborda provocarea.
Prin urmare, pe baza utilizării frazelor nominale recursive cu doi modificatori, cercetătorii au căutat să stabilească dacă cunoștințele prealabile există în sistemele NLP de ultimă generație (nu există); dacă pot fi învățate (pot); ce pot învăța sistemele NLP din frazele nominale recursive; și în ce moduri poate beneficia astfel de cunoștințe aplicațiile downstream.
Setul de date utilizat de cercetători a fost creat în patru etape. În primul rând, a fost construit un lexicon de modificatori care conține 689 de exemple extrase din literatura anterioară și lucrări noi.
Următorul, cercetătorii au adunat fraze nominale recursive din literatură, corpuri de texte existente și adăugări ale lor. Resursele textuale au inclus Penn Treebank și Annotated Gigaword corpus.
Apoi, echipa a angajat studenți pre-selecționați pentru a crea exemple pentru cele trei sarcini pe care modelele de limbaj le vor întâmpina, validându-le ulterior în 8.260 de exemple valabile.
În cele din urmă, alți studenți pre-selecționați au fost angajați, de data aceasta prin Amazon Mechanical Turk, pentru a annota fiecare exemplu ca o sarcină de inteligență umană (HIT), luând decizii prin vot majoritar. Acest lucru a redus exemplele la 4.567, care au fost ulterior filtrate la 3.790 de exemple mai echilibrate.
Cercetătorii au adaptat diverse seturi de date existente pentru a formula cele trei secțiuni ale ipotezelor lor de testare, incluzând MNLI, SNLI, MPE și ADEPT, antrenând toate modelele SOTA, cu excepția modelului HuggingFace, unde a fost utilizat un punct de control.
Rezultate
Cercetătorii au constatat că toate modelele “au dificultăți” în sarcinile RNPC, față de o precizie de 90%+ pentru oameni, modelele SOTA obținând performanțe la nivel de “întâmplare” (adică fără nicio dovadă a abilității innate față de șansa aleatorie în răspuns).

Rezultatele testelor cercetătorilor. Aici, modelele de limbaj sunt testate împotriva preciziei lor pe un benchmark existent, cu linia centrală reprezentând performanța echivalentă a oamenilor în sarcini.
Liniile secundare de investigație indică faptul că aceste deficiențe pot fi compensate la faza de antrenare sau de ajustare a unui model NLP prin includerea specifică a cunoștințelor despre frazele nominale recursive. Odată ce s-a efectuat această instruire suplimentară, modelele au obținut ‘o performanță puternică fără zero-shot pe o sarcină de detectare a daunelor [extrinsecă]’.
Cercetătorii promit să lanseze codul pentru această lucrare la https://github.com/veronica320/Recursive-NPs.
Publicat inițial pe 16 decembrie 2021 – 17 decembrie 2021, 6:55 GMT+2: Corectat linkul rupt.
* GPT-3 Ada, care este cel mai rapid, dar nu și cel mai bun model din serie. Cu toate acestea, modelul “showcase” Davinci mai mare nu este disponibil pentru ajustarea care constituie faza ulterioară a experimentelor cercetătorilor.
† Conversia mea a citărilor inline în linkuri.










