Conectează-te cu noi

Inteligența artificială

Google face formarea AI cu 28% mai rapidă prin utilizarea SLM-urilor ca profesori

mm

Pregătire modele de limbaj mari (LLM) a devenit inaccesibil pentru majoritatea organizatiilor. Cu costurile care se ridică la milioane și cerințele de calcul care ar face să transpire un supercomputer, dezvoltarea AI a rămas blocată în spatele ușilor giganților tehnologiei. Dar Google tocmai a răsturnat această poveste cu o abordare atât de simplă încât te face să te întrebi de ce nimeni nu s-a gândit la asta mai devreme: folosind modele AI mai mici ca profesori.

Cum funcționează SALT: O nouă abordare a antrenării modelelor AI

Într-o lucrare de cercetare recentă intitulată „Un mic ajutor merge foarte mult: formare eficientă LLM prin valorificarea LM-urilor mici,” Google Research și DeepMind au introdus SALT (Small model Aided Large model Training). Aceasta este metoda nouă care provoacă abordarea noastră tradițională de a forma LLM.

De ce este semnificativă această cercetare? În prezent, antrenarea modelelor mari de IA este ca și cum ai încerca să înveți pe cineva tot ce trebuie să știe despre un subiect dintr-o dată – este ineficient, costisitor și adesea limitat la organizațiile cu resurse de calcul masive. SALT ia o cale diferită, introducând un proces de formare în două etape, care este atât inovator, cât și practic.

Detalierea modului în care funcționează de fapt SARE:

Etapa 1: Distilarea cunoștințelor

  • A model de limbaj mai mic (SLM) acţionează ca un profesor, împărtăşindu-şi înţelegerea cu modelul mai larg
  • Modelul mai mic se concentrează pe transferul „cunoștințelor învățate” prin ceea ce cercetătorii numesc „etichete soft”
  • Gândiți-vă la asta ca la un asistent didactic care manipulează concepte fundamentale înainte ca un student să treacă la subiecte avansate
  • Această etapă este deosebit de eficientă în regiunile „ușoare” de învățare – domenii în care modelul mai mic are o încredere predictivă puternică

Etapa 2: Învățare auto-supravegheată

  • Modelul mare trece la învățarea independentă
  • Se concentrează pe stăpânirea tiparelor complexe și a sarcinilor provocatoare
  • Aici modelul dezvoltă capacități dincolo de ceea ce ar putea oferi „profesorul” său mai mic
  • Tranziția între etape folosește strategii concepute cu atenție, inclusiv dezintegrarea liniară și degradarea raportului liniar al pierderii de greutate prin distilare

În termeni non-tehnici, iImaginează că modelul AI mai mic este ca un tutore util care ghidează modelul mai mare în etapele inițiale ale antrenamentului. Acest tutore oferă informații suplimentare împreună cu răspunsurile lor, indicând cât de încrezători sunt în fiecare răspuns. Aceste informații suplimentare, cunoscute sub numele de „etichete soft”, ajută modelul mai mare să învețe mai rapid și mai eficient.

Acum, pe măsură ce modelul AI mai mare devine mai capabil, trebuie să treacă de la bazarea pe tutore la învățarea independentă. Aici intră în joc „decăderea liniară” și „degradarea raportului liniar”.
Gândește-te la aceste tehnici ca la reducerea treptată a influenței tutorelui în timp:
  • Dezintegrare liniară: Este ca și cum ai reduce treptat volumul vocii tutorelui. Îndrumarea tutorelui devine mai puțin proeminentă cu fiecare pas, permițând modelului mai amplu să se concentreze mai mult pe învățarea din datele brute în sine.
  • Dezintegrarea raportului liniar: Este ca și cum ai ajusta echilibrul dintre sfaturile tutorelui și sarcina reală. Pe măsură ce instruirea progresează, accentul se mută mai mult pe sarcina inițială, în timp ce contribuția tutorelui devine mai puțin dominantă.
Scopul ambelor tehnici este de a asigura o tranziție lină pentru modelul AI mai mare, prevenind orice schimbări bruște în comportamentul său de învățare. 

Rezultatele sunt convingătoare. Când cercetătorii Google au testat SALT folosind un SLM cu parametri de 1.5 miliarde pentru a antrena un LLM cu parametri de 2.8 miliarde pe Adunați setul de date, au văzut:

  • O reducere cu 28% a timpului de antrenament în comparație cu metodele tradiționale
  • Îmbunătățiri semnificative ale performanței după reglaj fin:
    • Precizia problemelor de matematică a crescut la 34.87% (comparativ cu 31.84% valoarea de referință)
    • Înțelegerea lecturii a atins o acuratețe de 67% (în creștere de la 63.7%)

Însă ceea ce face ca SALT să fie cu adevărat inovator este cadrul său teoretic. Cercetătorii au descoperit că până și un model de profesor „mai slab” poate îmbunătăți performanța elevului prin realizarea a ceea ce ei numesc un „compromis favorabil între bias și varianță”. În termeni mai simpli, modelul mai mic îl ajută pe cel mai mare să învețe tipare fundamentale mai eficient, creând o bază mai solidă pentru învățarea avansată.

De ce SALT ar putea remodela câmpul de joc pentru dezvoltarea AI

Îți amintești când s-a transformat cloud computing cine ar putea înființa o companie de tehnologie? SALT ar putea face același lucru pentru dezvoltarea AI.

Urmăresc inovațiile de formare AI de ani de zile, iar cele mai multe descoperiri au beneficiat în principal giganților tehnologiei. Dar SARE este diferit.

Iată ce ar putea însemna pentru viitor:

Pentru organizațiile cu resurse limitate:

  • Este posibil să nu mai aveți nevoie de o infrastructură de calcul masivă pentru a dezvolta modele AI capabile
  • Laboratoarele de cercetare și companiile mai mici ar putea experimenta dezvoltarea modelelor personalizate
  • Reducerea cu 28% a timpului de instruire se traduce direct în costuri de calcul mai mici
  • Mai important, ați putea începe cu resurse de calcul modeste și, în continuare, puteți obține rezultate profesionale

Pentru peisajul dezvoltării AI:

  • Mai mulți jucători ar putea intra pe teren, ceea ce duce la soluții AI mai diverse și specializate
  • Universitățile și instituțiile de cercetare ar putea desfășura mai multe experimente cu resursele lor existente
  • Bariera de intrare pentru cercetarea AI scade semnificativ
  • S-ar putea să vedem noi aplicații în domenii care anterior nu își permiteau dezvoltarea AI

Ce înseamnă asta pentru viitor

Folosind modele mici ca profesori, nu facem doar formarea AI mai eficientă, ci și schimbăm fundamental cine poate participa la dezvoltarea AI. Implicațiile merg dincolo de doar îmbunătățirile tehnice.

Recomandări cheie de reținut:

  • Reducerea timpului de antrenament cu 28% este diferența dintre demararea unui proiect AI sau considerarea lui inaccesibil
  • Îmbunătățirile performanței (34.87% la matematică, 67% la sarcinile de citire) arată că accesibilitatea nu înseamnă întotdeauna compromiterea calității
  • Abordarea SALT dovedește că uneori cele mai bune soluții vin din regândirea fundamentelor, mai degrabă decât din simpla adăugare a puterii de calcul.

La ce să urmărești:

  1. Fiți cu ochii pe organizațiile mai mici care încep să dezvolte modele personalizate de IA
  2. Urmăriți aplicații noi în domenii care anterior nu își permiteau dezvoltarea AI
  3. Căutați inovații în modul în care modelele mai mici sunt utilizate pentru sarcini specializate

Amintiţi-vă: Valoarea reală a SALT constă în modul în care ar putea remodela cine poate inove în AI. Indiferent dacă conduceți un laborator de cercetare, gestionați o echipă de tehnologie sau doar sunteți interesat de dezvoltarea AI, acesta este genul de descoperire care ar putea face posibilă următoarea idee mare.

Poate începe să te gândești la acel proiect AI pe care l-ai crezut că nu este la îndemână. S-ar putea să fie mai posibil decât ți-ai imaginat.

Alex McFarland este jurnalist și scriitor AI care explorează cele mai recente evoluții în inteligența artificială. A colaborat cu numeroase startup-uri și publicații AI din întreaga lume.