Inteligență artificială
Crearea de Turci Mecanici Artificiali Cu Modele de Limbaj Preantrenate

O parte semnificativă a dezvoltării sistemelor de învățare automată depinde de etichetarea datelor, unde sute, chiar mii de întrebări (cum ar fi Este această imagine a unui pisic? și Este acest text ofensator?) trebuie să fie stabilite pentru a dezvolta seturi de date autoritative pe care sistemele de inteligență artificială vor fi antrenate.
Deși noi toți contribuim la acest proces la un moment dat, majoritatea acestor sarcini de etichetare sunt efectuate pentru bani de lucrători umani în cadrul unor platforme precum Amazon Mechanical Turk, unde annotatorii completează sarcini de clasificare minoră într-o economie de tip piece-work.
Dezvoltarea modelului ar fi mai ieftină dacă modelele de limbaj preantrenate (PLM) ar putea să îndeplinească ele însele unele dintre sarcinile mai de bază de inteligență umană (HIT) care sunt în prezent externalizate la AMT și platforme similare.
Cercetări recente din Germania și Huawei propun acest lucru, în articolul LMTurk: Învățători cu puține exemple ca lucrători de crowdsourcing.
Modele de limbaj care efectuează învățarea cu puține exemple
Autorii sugerează că straturile mai simple de sarcini care sunt de obicei îndreptate către (lucrători umani) Turci sunt analoge învățării cu puține exemple, unde un cadru automatizat trebuie să decidă o mini-sarcină pe baza unui număr mic de exemple furnizate.
Ei propun, prin urmare, că sistemele de inteligență artificială pot învăța eficient din modelele de limbaj preantrenate existente care au fost inițial antrenate de lucrători de crowdsourcing – că cunoașterea de bază transmisă de la oameni la mașini a fost deja realizată în mod efectiv și că, acolo unde o astfel de cunoaștere este relativ imutabilă sau empirică într-un anumit fel, cadrul de model de limbaj automatizat poate să îndeplinească aceste sarcini în sine.
‘Ideea noastră de bază este că, pentru o sarcină de NLP T, tratăm învățătorii cu puține exemple ca lucrători non-experți, asemănători cu lucrătorii de crowdsourcing care anotează resurse pentru tehnologia limbajului uman. Suntem inspirați de faptul că putem considera un lucrător de crowdsourcing ca un tip de învățător cu puține exemple.’
Implicațiile includ posibilitatea ca multe dintre adevărurile de bază pe care sistemele de inteligență artificială ale viitorului depind de ele să fi fost derivate de la oameni cu câțiva ani mai devreme, după care să fie tratate ca informații prevalidate și exploatabile care nu mai necesită intervenție umană.
Locuri de muncă pentru modele de limbaj de nivel mediu, semi-performante
Pe lângă motivarea de a reduce costul oamenilor din buclă, cercetătorii sugerează că utilizarea modelelor de limbaj preantrenate de nivel mediu ca adevărați Turci mecanici oferă un loc de muncă util pentru aceste sisteme “și rămași”, care sunt din ce în ce mai mult umbrite de modele de limbaj cu scară largă și costisitoare, cum ar fi GPT-3, care sunt prea scumpe și supradimensionate pentru astfel de sarcini.
‘Scopul nostru în acest articol este de a concepe metode care să facă uz mai eficient de învățătorii cu puține exemple actuali. Acest lucru este crucial, deoarece un număr tot mai mare de învățători cu puține exemple gigantici sunt antrenați; cum să-i utilizăm în mod eficient este, prin urmare, o întrebare importantă. În special, dorim o alternativă la modelele uriașe greu de implementat.’
‘În același timp, dorim să valorificăm pe deplin punctele forte ale PLM-urilor: Versatilitatea lor asigură o aplicabilitate largă în sarcini; vasta lor cunoaștere despre limbaj și lume (învățată în preantrenare) se manifestă în eficiența datelor a învățătorilor cu puține exemple, reducând consumul de muncă și timp în anotarea datelor.’
Până în prezent, autorii argumentează, învățătorii cu puține exemple în NLP au fost tratați ca etape interstițiale descartabile pe drumul către sisteme de limbaj natural de nivel înalt, care sunt mult mai intensive din punct de vedere al resurselor, și că un astfel de lucru a fost efectuat în mod abstract și fără a lua în considerare utilitatea posibilă a acestor sisteme.
Metodă
Autorii oferă LMTurk (Model de limbaj ca turc mecanic), într-un flux de lucru în care intrarea din acest HIT automatizat oferă etichete pentru un model de NLP de nivel mediu.

Un model conceptual de bază pentru LMTurk. Sursa: https://arxiv.org/pdf/2112.07522.pdf
Această primă iterație se bazează pe date “aur” etichetate de om, cu puține exemple, unde “carnea” Turcilor a anotat etichete pentru un număr limitat de sarcini, și etichetele au fost evaluate bine, fie prin supraveghere umană directă, fie prin votul de consens.
Implicația pentru această schemă este că ramurile sau dezvoltările din acest punct de plecare uman nu pot necesita intrări umane suplimentare pe viitor.
Deși autorii sugerează experimente suplimentare cu modele hibride ulterioare (în care intrarea umană ar fi prezentă, dar puternic redusă), ei nu au făcut acest lucru pentru scopurile cercetării lor, comparând modelele LMTurk cu rezultate echivalente de la lucrători de HIT umani, considerând că datele “aur” etichetate sunt ele însele “intrări umane”.
Modelul de limbaj preantrenat proiectat pentru a efectua operațiuni de turc a fost adaptat pentru sarcină prin P-Tuning, o metodă publicată de cercetători din China în 2021, care a propus încorporări de prompt continuu antrenabile pentru a îmbunătăți performanța modelului GPT-3 pe sarcini de înțelegere a limbajului natural (NLU).
![P-Tuning încearcă să adâncească puterea predictivă a unui model de tip GPT și aparența înțelegerii conceptuale a limbajului, prin încorporarea de pseudo-prompturi încorporate. În acest caz, întrebarea de start este 'Capitala Marii Britanii este un [x]'. Sursa: https://arxiv.org/pdf/2103.10385.pdf](https://www.unite.ai/wp-content/uploads/2021/12/p-tuning.jpg)
P-Tuning încearcă să adâncească puterea predictivă a unui model de tip GPT și aparența înțelegerii conceptuale a limbajului, prin încorporarea de pseudo-prompturi încorporate. În acest caz, întrebarea de start este ‘Capitala Marii Britanii este un [x]’. Sursa: https://arxiv.org/pdf/2103.10385.pdf












