Inteligență artificială
Giganți distilați: De ce trebuie să reevaluăm dezvoltarea inteligenței artificiale mici
În ultimii ani, cursa pentru dezvoltarea modelelor de inteligență artificială din ce în ce mai mari a capturat industria tehnologică. Aceste modele, cu miliarde de parametri, promit progrese revoluționare în diverse domenii, de la prelucrarea limbajului natural la recunoașterea imaginilor. Cu toate acestea, această urmărire neîncetată a mărimii vine cu dezavantaje semnificative sub forma unor costuri ridicate și a unui impact semnificativ asupra mediului. În timp ce inteligența artificială mică oferă o alternativă promițătoare, oferind eficiență și un consum mai mic de energie, abordarea actuală de construire a acesteia necesită încă resurse substanțiale. Pe măsură ce ne străduim pentru inteligența artificială mică și mai durabilă, explorarea unor strategii noi care să abordeze aceste limitări în mod eficient este crucială.
Inteligența artificială mică: O soluție durabilă pentru costuri ridicate și cerințe de energie
Dezvoltarea și întreținerea modelelor de inteligență artificială mari este o întreprindere scumpă. Estimările sugerează că antrenarea GPT-3 costă peste 4 milioane de dolari, iar modelele mai avansate pot ajunge la zeci de milioane de dolari. Aceste costuri, inclusiv hardware-ul necesar, stocarea, puterea de calcul și resursele umane, sunt prohibitive pentru multe organizații, în special pentru întreprinderile mici și instituțiile de cercetare. Această barieră financiară creează un teren de joc inegal, limitând accesul la tehnologia de inteligență artificială de ultimă generație și împiedicând inovația.
Mai mult, cerințele de energie asociate antrenării modelelor de inteligență artificială mari sunt uluitoare. De exemplu, antrenarea unui model de limbaj mare, cum ar fi GPT-3, este estimată a consuma aproape 1.300 de megawati-oră (MWh) de electricitate – echivalent cu consumul anual de energie al a 130 de case din Statele Unite. În ciuda acestui cost de antrenare semnificativ, fiecare cerere ChatGPT implică un cost de inferență de 2,9 wați-oră. Agenția Internațională a Energiei estimează că cerința colectivă de energie a inteligenței artificiale, a centrelor de date și a criptomonedelor a reprezentat aproape 2% din cerința globală de energie. Această cerință se estimează că va dubla până în 2026, ajungând la consumul total de electricitate al Japoniei. Consumul ridicat de energie nu numai că crește costurile operaționale, dar contribuie și la amprenta de carbon, agravând criza mediului. Pentru a pune lucrurile în perspectivă, cercetătorii estimează că antrenarea unui singur model de inteligență artificială mare poate emite peste 626.000 de lire de CO2, echivalent cu emisiile a cinci mașini pe durata de viață a acestora.
În mijlocul acestor provocări, inteligența artificială mică oferă o soluție practică. Este proiectată pentru a fi mai eficientă și mai scalabilă, necesitând mult mai puține date și putere de calcul. Acest lucru reduce costurile totale și face tehnologia de inteligență artificială avansată mai accesibilă pentru organizații mici și echipe de cercetare. Mai mult, modelele de inteligență artificială mică au cerințe de energie mai mici, ceea ce ajută la reducerea costurilor operaționale și la diminuarea impactului asupra mediului. Prin utilizarea algoritmilor și metodelor optimizate, cum ar fi învățarea transferului, inteligența artificială mică poate atinge performanțe ridicate cu mai puține resurse. Această abordare nu numai că face inteligența artificială mai accesibilă, dar sprijină și durabilitatea prin minimizarea atât a consumului de energie, cât și a emisiilor de carbon.
Cum sunt construite modelele de inteligență artificială mică astăzi
Recunoscând avantajele inteligenței artificiale mici, companii mari de tehnologie precum Google, OpenAI și Meta s-au concentrat din ce în ce mai mult pe dezvoltarea de modele compacte. Acest schimbare a condus la evoluția modelelor precum Gemini Flash, GPT-4o Mini și Llama 7B. Aceste modele mai mici sunt dezvoltate în principal utilizând o tehnică numită distilare a cunoștințelor.
La bază, distilarea implică transferul cunoștințelor unui model complex și mare într-un model mai mic și mai eficient. În acest proces, un model “învățător” – model de inteligență artificială mare – este antrenat pe seturi de date extinse pentru a învăța modele complexe și nuanțe. Acest model generează apoi predicții sau “etichete moi” care cuprind înțelegerea sa profundă.
Modelul “elev”, care este modelul de inteligență artificială mică, este antrenat pentru a replica aceste etichete moi. Prin imitarea comportamentului învățătorului, modelul elev capturează o mare parte din cunoștințele și performanța acestuia, funcționând cu parametri semnificativ mai puțini.
De ce trebuie să mergem dincolo de distilarea inteligenței artificiale mari
În timp ce distilarea inteligenței artificiale mari în versiuni mai mici și mai manevrabile a devenit o abordare populară pentru construirea inteligenței artificiale mici, există mai multe motive convingătoare pentru care această abordare nu poate fi o soluție pentru toate provocările din dezvoltarea inteligenței artificiale mari.
- Dependență continuă de modele mari: Deși distilarea creează modele de inteligență artificială mai mici și mai eficiente și îmbunătățește eficiența computațională și energetică la momentul inferenței, aceasta se bazează încă puternic pe antrenarea inițială a modelelor de inteligență artificială mari. Acest lucru înseamnă că construirea modelelor de inteligență artificială mică necesită încă resurse computaționale și energetice semnificative, conducând la costuri ridicate și impact asupra mediului, chiar înainte de a avea loc distilarea. Nevoia de a antrena în mod repetat modele mari pentru distilare transferă povara resurselor, în loc să o elimine. Deși distilarea își propune să reducă dimensiunea și costul modelelor de inteligență artificială, nu elimină costurile inițiale semnificative asociate cu antrenarea modelelor “învățător” mari. Aceste cheltuieli inițiale pot fi deosebit de provocatoare pentru organizații mici și grupuri de cercetare. Mai mult, impactul asupra mediului al antrenării acestor modele mari poate nega unele dintre beneficiile utilizării modelelor mai mici și mai eficiente, deoarece amprenta de carbon din faza inițială de antrenare rămâne considerabilă.
- Inovație limitată: Dependența de distilare poate limita inovația prin concentrarea asupra replicării modelelor mari existente, în loc de explorarea unor abordări noi. Acest lucru poate încetini dezvoltarea de arhitecturi sau metode noi de inteligență artificială care ar putea oferi soluții mai bune pentru anumite probleme. Dependența de inteligența artificială mare restricționează dezvoltarea inteligenței artificiale mici în mâinile câtorva companii bogate în resurse. Ca urmare, beneficiile inteligenței artificiale mici nu sunt distribuite în mod uniform, ceea ce poate împiedica progresul tehnologic mai larg și limita oportunitățile de inovație.
- Provocări de generalizare și adaptare: Modelele de inteligență artificială mică create prin distilare se confruntă adesea cu dificultăți atunci când se confruntă cu date noi și neîntâlnite. Acest lucru se întâmplă deoarece procesul de distilare poate nu capta pe deplin capacitatea modelului mai mare de a generaliza. Ca urmare, deși aceste modele mai mici pot performa bine pe sarcini familiare, ele se confruntă adesea cu dificultăți atunci când se confruntă cu situații noi. Mai mult, adaptarea modelelor distilate la noi modalități sau seturi de date implică adesea reantrenarea sau reglarea modelului mai mare. Acest proces iterativ poate fi complex și consumator de resurse, făcând dificilă adaptarea rapidă a modelelor de inteligență artificială mică la nevoi tehnologice în evoluție sau la aplicații noi.
Concluzia
În timp ce distilarea modelelor de inteligență artificială mari în versiuni mai mici poate părea o soluție practică, aceasta continuă să se bazeze pe costurile ridicate ale antrenării modelelor mari. Pentru a face progrese reale în dezvoltarea inteligenței artificiale mici, trebuie să explorăm practici mai inovatoare și durabile. Acest lucru înseamnă crearea de modele proiectate pentru aplicații specifice, îmbunătățirea metodelor de antrenare pentru a fi mai eficiente din punct de vedere al costurilor și al energiei și concentrarea asupra durabilității mediului. Prin urmărirea acestor strategii, putem avansa dezvoltarea inteligenței artificiale într-un mod care este atât responsabil, cât și benefic pentru industrie și planeta noastră.












