Artificiell intelligens

Destillerade jättar: Varför vi måste tänka om när det gäller utveckling av små AI-modeller

Published August 7, 2024

Updated April 27, 2026

Dr. Tehseen Zia

Under de senaste åren har kapplöpningen för att utveckla allt större AI-modeller fascinerat techindustrin. Dessa modeller, med sina miljarder parametrar, lovar banbrytande framsteg inom olika områden, från naturlig språkbehandling till bildigenkänning. Men denna obevekliga jakt på storlek medför betydande nackdelar i form av höga kostnader och betydande miljöpåverkan. Medan små AI-modeller erbjuder ett lovande alternativ, som tillhandahåller effektivitet och lägre energiförbrukning, kräver den nuvarande metoden för att bygga dem fortfarande betydande resurser. När vi strävar efter små och mer hållbara AI-modeller är det avgörande att utforska nya strategier som effektivt hanterar dessa begränsningar.

Små AI-modeller: En hållbar lösning för höga kostnader och energibehov

Att utveckla och underhålla stora AI-modeller är en dyrbart företag. Uppskattningar tyder på att utbildning av GPT-3 kostar över 4 miljoner dollar, med mer avancerade modeller som potentiellt når höga ensiffriga miljoner. Dessa kostnader, inklusive nödvändig hårdvara, lagring, beräkningskraft och mänskliga resurser, är förbjudande för många organisationer, särskilt mindre företag och forskningsinstitutioner. Denna finansiella barriär skapar en ojämn spelplan, som begränsar tillgången till banbrytande AI-teknik och hämmar innovation.

Dessutom är energibehoven förknippade med utbildning av stora AI-modeller förbluffande. Till exempel beräknas utbildning av en stor språkmodell som GPT-3 förbruka nästan 1 300 megawattimmar (MWh) el – motsvarande den årliga elförbrukningen för 130 amerikanska hushåll. Trots denna betydande utbildningskostnad medför varje ChatGPT-förfrågan en inferencekostnad på 2,9 wattimmar. IEA uppskattar att den kollektiva energibehovet av AI, datacenter och kryptovalutor stod för nästan 2 procent av den globala energibehovet. Denna efterfrågan förväntas fördubblas till 2026, vilket närmar sig den totala elförbrukningen i Japan. Den höga energiförbrukningen ökar inte bara driftskostnaderna utan bidrar också till koldioxidavtrycket, vilket förvärrar den miljörelaterade krisen. För att sätta detta i perspektiv uppskattar forskare att utbildning av en enda stor AI-modell kan släppa ut över 626 000 pund koldioxid, motsvarande utsläppen från fem bilar under deras livstid.

Mitt i dessa utmaningar erbjuder små AI-modeller en praktisk lösning. De är utformade för att vara mer effektiva och skalbara, och kräver mycket mindre data och beräkningskraft. Detta minskar de totala kostnaderna och gör avancerad AI-teknik mer tillgänglig för mindre organisationer och forskningsteam. Dessutom har små AI-modeller lägre energibehov, vilket hjälper till att minska driftskostnaderna och deras miljöpåverkan. Genom att använda optimerade algoritmer och metoder som överföringsinlärning kan små AI-modeller uppnå hög prestanda med färre resurser. Denna metod gör inte bara AI mer överkomlig utan stöder också hållbarhet genom att minimera både energiförbrukning och koldioxidutsläpp.

Hur små AI-modeller byggs idag

Med erkännandet av fördelarna med små AI-modeller har stora techföretag som Google, OpenAI och Meta alltmer fokuserat på att utveckla kompakta modeller. Denna förändring har lett till utvecklingen av modeller som Gemini Flash, GPT-4o Mini och Llama 7B. Dessa mindre modeller utvecklas främst med hjälp av en teknik som kallas kunskapsdestillering.

I dess kärna innebär destillering överföring av en stor, komplex modells kunskap till en mindre, mer effektiv version. I denna process utbildas en “lärar”-modell – en stor AI-modell – på omfattande datamängder för att lära sig intrikata mönster och nyanser. Denna modell genererar sedan förutsägelser eller “mjuka etiketter” som innehåller dess djupa förståelse.

“Eleven”-modellen, som är en liten AI-modell, utbildas för att replikera dessa mjuka etiketter. Genom att imitera lärarens beteende fångar eleven-modellen upp mycket av dess kunskap och prestanda medan den fungerar med betydligt färre parametrar.

Varför vi måste gå utöver destillering av stora AI-modeller

Medan destillering av stora AI-modeller till mindre, mer hanterbara versioner har blivit en populär metod för att bygga små AI-modeller, finns det flera övertygande skäl till varför denna metod kanske inte är en lösning för alla utmaningar i utvecklingen av stora AI-modeller.

Fortsatt beroende av stora modeller: Medan destillering skapar mindre, mer effektiva AI-modeller och förbättrar beräknings- och energieffektivitet under inferenstiden, beror den fortfarande tungt på utbildning av stora AI-modeller initialt. Detta innebär att bygga små AI-modeller fortfarande kräver betydande beräkningsresurser och energi, vilket leder till höga kostnader och miljöpåverkan även före destilleringen. Behovet av att upprepa utbildning av stora modeller för destillering flyttar resursbördan snarare än att eliminera den. Även om destillering syftar till att minska storleken och kostnaden för AI-modeller, eliminerar den inte de betydande initiala kostnaderna förknippade med utbildning av de stora “lärar”-modellerna. Dessa initiala utgifter kan vara särskilt utmanande för mindre organisationer och forskargrupper. Dessutom kan den miljöpåverkan från utbildning av dessa stora modeller negativt påverka fördelarna med att använda mindre, mer effektiva modeller, eftersom koldioxidavtrycket från den initiala utbildningsfasen förblir betydande.
Begränsad innovationspotential: Att förlita sig på destillering kan begränsa innovationen genom att fokusera på att replikera befintliga stora modeller snarare än att utforska nya tillvägagångssätt. Detta kan sakta ner utvecklingen av nya AI-arkitekturer eller metoder som kan tillhandahålla bättre lösningar för specifika problem. Beroendet av stora AI-modeller begränsar utvecklingen av små AI-modeller i händerna på ett fåtal resursrika företag. Som ett resultat fördelas fördelarna med små AI-modeller inte jämnt, vilket kan hämma bredare teknisk framsteg och begränsa möjligheter för innovation.
Utmaningar med generalisering och anpassning: Små AI-modeller skapade genom destillering kämpar ofta med ny, osett data. Detta beror på att destilleringprocessen kanske inte fullständigt fångar den stora modellens förmåga att generalisera. Som ett resultat kan dessa mindre modeller fungera bra på bekanta uppgifter, men de möter ofta svårigheter när de ställs inför nya situationer. Dessutom kräver anpassning av destillerade modeller till nya modaliteter eller datamängder ofta omutbildning eller finjustering av den stora modellen först. Denna iterativa process kan vara komplex och resurskrävande, vilket gör det svårt att snabbt anpassa små AI-modeller till snabbt utvecklande tekniska behov eller nya tillämpningar.

Slutsatsen

Medan destillering av stora AI-modeller till mindre kan tyckas vara en praktisk lösning, fortsätter den att bero på de höga kostnaderna för utbildning av stora modeller. För att verkligen göra framsteg inom små AI-modeller måste vi utforska mer innovativa och hållbara metoder. Detta innebär att skapa modeller utformade för specifika tillämpningar, förbättra utbildningsmetoder för att göra dem mer kostnads- och energieffektiva, och fokusera på miljöhållbarhet. Genom att följa dessa strategier kan vi främja AI-utveckling på ett sätt som är både ansvarsfullt och fördelaktigt för branschen och planeten.

Dr. Tehseen Zia

Dr. Tehseen Zia är en fast anställd biträdande professor vid COMSATS University Islamabad, med en doktorsexamen i AI från Vienna University of Technology, Österrike. Specialiserad på artificiell intelligens, maskinlärning, datavetenskap och datorseende, har han gjort betydande bidrag med publikationer i ansedda vetenskapliga tidskrifter. Dr. Tehseen har också lett olika industriprojekt som huvudutredare och tjänstgjort som AI-konsult.

Unite.AI

Destillerade jättar: Varför vi måste tänka om när det gäller utveckling av små AI-modeller

Små AI-modeller: En hållbar lösning för höga kostnader och energibehov

Hur små AI-modeller byggs idag

Varför vi måste gå utöver destillering av stora AI-modeller

Slutsatsen

You may like