ciot Cercetătorii Google descoperă o problemă de subspecificare care împiedică multe modele AI - Unite.AI
Conectează-te cu noi

Inteligenta Artificiala

Cercetătorii Google descoperă o problemă de subspecificare care împiedică multe modele AI

mm
Actualizat on

Recent, o echipă de cercetători de la Google a identificat o cauză comună a eșecurilor modelelor AI, indicând subspecificarea drept unul dintre motivele principale pentru care modelele de învățare automată funcționează adesea destul de diferit în lumea reală decât în ​​timpul testării și dezvoltării.

Modelele de învățare automată eșuează adesea atunci când abordează sarcini într-un cadru real, chiar dacă modelele funcționează optim în laborator. Există multe motive pentru care apare nepotrivirea între antrenament/dezvoltare și performanța din lumea reală. Unul dintre cele mai comune motive pentru care modelele AI eșuează în timpul sarcinilor din lumea reală este un concept cunoscut sub numele de transfer de date. Deplasarea datelor se referă la o diferență fundamentală între tipul de date utilizate pentru a dezvolta un model de învățare automată și datele introduse în model în timpul aplicării. De exemplu, modelele de viziune computerizată instruite pe date de imagine de înaltă calitate vor avea dificultăți să performeze atunci când sunt alimentate cu date capturate de camere de calitate scăzută găsite în mediul de zi cu zi al modelului.

Potrivit MIT Technology Review, o echipă de 40 de cercetători diferiți de la Google a identificat un alt motiv pentru care performanța unui model de învățare automată poate varia atât de drastic. Problema este „subspecificarea”, un concept statistic care descrie probleme în care fenomenele observate au multe cauze posibile, nu toate fiind luate în considerare de model. Potrivit liderului studiului Alex D'Amour, problema este observată în multe modele de învățare automată spunând că fenomenul „se întâmplă peste tot”.

Metoda tipică de antrenare a unui model de învățare automată implică alimentarea modelului cu o cantitate mare de date din care poate analiza și extrage modele relevante. Ulterior, modelul primește exemple pe care nu le-a văzut și i se cere să prezică natura acelor exemple pe baza caracteristicilor pe care le-a învățat. Odată ce modelul a atins un anumit nivel de precizie, antrenamentul este de obicei considerat complet.

Potrivit echipei de cercetare Google, trebuie făcut mai multe pentru a se asigura că modelele se pot generaliza cu adevărat la date care nu sunt de antrenament. Metoda clasică de formare a modelelor de învățare automată va produce diverse modele care ar putea trece toate testele, dar aceste modele vor diferi în mici moduri care par nesemnificative, dar nu sunt. Diferitele noduri din modele vor avea diferite valori aleatorii atribuite lor, sau datele de antrenament ar putea fi selectate sau reprezentate în moduri diferite. Aceste variații sunt mici și adesea arbitrare și, dacă nu au un impact uriaș asupra modului în care modelele performează în timpul antrenamentului, sunt ușor de trecut cu vederea. Cu toate acestea, atunci când impactul tuturor acestor mici schimbări se acumulează, ele pot duce la variații majore ale performanței din lumea reală.

Această subspecificare este problematică deoarece înseamnă că, chiar dacă procesul de instruire este capabil să producă modele bune, poate produce și un model slab, iar diferența nu va fi descoperită până când modelul a ieșit din producție și a intrat în uz.

Pentru a evalua impactul subspecificării, echipa de cercetare a examinat o serie de modele diferite. Fiecare model a fost antrenat folosind același proces de antrenament, iar apoi modelele au fost supuse unei serii de teste pentru a evidenția diferențele de performanță. Într-un caz, 50 de versiuni diferite ale unui sistem de recunoaștere a imaginilor au fost instruite pe setul de date ImageNet. Modelele au fost toate la fel, cu excepția valorilor rețelei neuronale pe care le-au fost atribuite aleatoriu în timpul începerii antrenamentului. Testele de stres utilizate pentru a determina diferențele dintre modele au fost efectuate folosind ImageNet-C, o variație a setului de date original constând din imagini modificate prin ajustarea contrastului sau a luminozității. Modelele au fost testate și pe ObjectNet, o serie de imagini care prezintă obiecte de zi cu zi în orientări și contexte neobișnuite. Chiar dacă toate cele 50 de modele au avut aproximativ aceeași performanță pe setul de date de antrenament, performanța a fluctuat foarte mult atunci când modelele au trecut prin testele de stres.

Echipa de cercetare a descoperit că au avut loc rezultate similare atunci când au antrenat și au testat două sisteme NLP diferite, precum și atunci când au testat diverse alte modele de viziune computerizată. În fiecare caz, modelele s-au separat în mod sălbatic unele de altele, chiar dacă procesul de antrenament pentru toate modelele a fost același.

Potrivit lui D'Amour, cercetătorii și inginerii de învățare automată trebuie să facă mult mai multe teste de stres înainte de a lansa modele în sălbăticie. Acest lucru poate fi greu de realizat, având în vedere că testele de stres trebuie adaptate la sarcini specifice folosind date din lumea reală, date care pot fi greu de găsit pentru anumite sarcini și contexte. O posibilă soluție la problema subspecificării este de a produce mai multe modele simultan și apoi de a testa modelele pe o serie de sarcini din lumea reală, alegând modelul care arată în mod constant cele mai bune rezultate. Dezvoltarea modelelor în acest fel necesită mult timp și resurse, dar compromisul ar putea merita, mai ales pentru modelele AI utilizate în contexte medicale sau în alte domenii în care siguranța este o preocupare primordială. După cum a explicat D'Amour prin MIT Technology Review:

„Trebuie să fim mai buni în a specifica exact care sunt cerințele noastre pentru modelele noastre. Pentru că adesea ceea ce se întâmplă este că descoperim aceste cerințe numai după ce modelul a eșuat în lume.”