stub Vad är Meta-Learning? - Unite.AI
Anslut dig till vårt nätverk!

AI 101

Vad är Meta-Learning?

mm
Uppdaterad on

Vad är Meta-Learning?

Ett av de snabbast växande forskningsområdena inom maskininlärning är området metalärande. Meta-lärande, i maskininlärningssammanhang, är användningen av maskininlärningsalgoritmer för att hjälpa till med träning och optimering av andra maskininlärningsmodeller. Eftersom meta-lärande blir mer och mer populärt och fler meta-lärande tekniker utvecklas, är det fördelaktigt att ha en förståelse för vad meta-lärande är och att ha en känsla för de olika sätten det kan tillämpas på. Låt oss undersöka idéerna bakom meta-lärande, typer av meta-lärande, liksom några av sätten som meta-lärande kan användas på.

Termen meta-lärande myntades av Donald Maudsley för att beskriva en process genom vilken människor börjar forma vad de lär sig, och blir "allt bättre kontroll över vanor av perception, undersökning, lärande och tillväxt som de har internaliserat". Senare skulle kognitiva vetenskapsmän och psykologer beskriva meta-lärande som "lära sig hur man lär sig".

För maskininlärningsversionen av meta-inlärning tillämpas den allmänna idén om att "lära sig hur man lär sig" på AI-system. I AI-bemärkelse är meta-inlärning förmågan hos en artificiellt intelligent maskin att lära sig att utföra olika komplexa uppgifter, ta principerna den använde för att lära sig en uppgift och tillämpa den på andra uppgifter. AI-system måste vanligtvis tränas för att utföra en uppgift genom att bemästra många små deluppgifter. Denna utbildning kan ta lång tid och AI-agenter överför inte lätt den kunskap som lärts under en uppgift till en annan. Att skapa meta-inlärningsmodeller och -tekniker kan hjälpa AI att lära sig att generalisera inlärningsmetoder och förvärva nya färdigheter snabbare.

Typer av meta-lärande

Optimizer Meta-Learning

Meta-inlärning används ofta för att optimera prestandan hos ett redan existerande neuralt nätverk. Optimizer-meta-inlärningsmetoder fungerar vanligtvis genom att justera hyperparametrarna för ett annat neuralt nätverk för att förbättra prestandan hos det neurala basnätverket. Resultatet är att målnätverket ska bli bättre på att utföra uppgiften det utbildas på. Ett exempel på en meta-inlärningsoptimerare är användningen av ett nätverk för att förbättra lutning nedstigning resultat.

Få-Shots Meta-Learning

En meta-inlärningsmetod med få skott är en där ett djupt neuralt nätverk konstrueras som kan generalisera från träningsdatauppsättningarna till osynliga datauppsättningar. En instans av få-shot-klassificering liknar en normal klassificeringsuppgift, men istället är dataproverna hela datamängder. Modellen är tränad på många olika inlärningsuppgifter/dataset och sedan är den optimerad för toppprestanda på mängden träningsuppgifter och osynliga data. I detta tillvägagångssätt delas ett enda träningsprov upp i flera klasser. Detta innebär att varje träningsprov/datauppsättning potentiellt kan bestå av två klasser, för totalt 4 skott. I det här fallet kan den totala träningsuppgiften beskrivas som en 4-skotts 2-klass klassificeringsuppgift.

Vid inlärning med få skott är tanken att de individuella träningsproverna är minimalistiska och att nätverket kan lära sig att identifiera objekt efter att bara ha sett några bilder. Det här är ungefär som hur ett barn lär sig att särskilja föremål efter att ha sett bara ett par bilder. Detta tillvägagångssätt har använts för att skapa tekniker som engångsgenerativa modeller och minnesförstärkta neurala nätverk.

Metriskt meta-lärande

Metrisk baserad meta-inlärning är användningen av neurala nätverk för att avgöra om ett mått används effektivt och om nätverket eller nätverken träffar målmåttet. Metrisk meta-inlärning liknar få-shot-inlärning genom att bara några få exempel används för att träna nätverket och få det att lära sig det metriska utrymmet. Samma måttenhet används över den olika domänen och om nätverken avviker från måtten anses de misslyckas.

Återkommande Model Meta-Learning

Återkommande meta-inlärning är tillämpningen av meta-inlärningstekniker på återkommande neurala nätverk och liknande långtidskorttidsminnesnätverk. Denna teknik fungerar genom att träna RNN/LSTM-modellen för att sekventiellt lära sig en datauppsättning och sedan använda denna tränade modell som bas för en annan elev. Meta-läraren tar ombord den specifika optimeringsalgoritmen som användes för att träna den initiala modellen. Den ärvda parametriseringen av meta-läraren gör det möjligt för den att snabbt initiera och konvergera, men ändå kunna uppdatera för nya scenarier.

Hur fungerar meta-lärande?

Det exakta sättet som meta-lärande bedrivs på varierar beroende på modellen och typen av uppgiften. Men i allmänhet en meta-lärande uppgift innebär att man kopierar över parametrarna av det första nätverket till parametrarna för det andra nätverket/optimeraren.

Det finns två utbildningsprocesser inom meta-lärande. Meta-inlärningsmodellen tränas vanligtvis efter att flera steg av träning på basmodellen har genomförts. Efter stegen framåt, bakåt och optimering som tränar basmodellen, genomförs träningspasset framåt för optimeringsmodellen. Till exempel, efter tre eller fyra steg av träning på basmodellen, beräknas en metaförlust. Efter att metaförlusten har beräknats, beräknas gradienterna för varje metaparameter. Efter att detta inträffat uppdateras metaparametrarna i optimeraren.

En möjlighet för att beräkna metaförlusten är att avsluta framträningspasset för den initiala modellen och sedan kombinera de förluster som redan har beräknats. Meta-optimeraren kan till och med vara en annan meta-lärare, men vid en viss tidpunkt måste en diskret optimerare som ADAM eller SGD användas.

Många modeller för djupinlärning kan ha hundratusentals eller till och med miljontals parametrar. Att skapa en meta-lärare som har en helt ny uppsättning parametrar skulle vara beräkningsmässigt dyrt, och av denna anledning används vanligtvis en taktik som kallas koordinatdelning. Koordinatdelning involverar att konstruera meta-läraren/optimeraren så att den lär sig en enda parameter från basmodellen och sedan bara klona den parametern istället för alla andra parametrar. Resultatet är att parametrarna som optimeraren besitter inte beror på modellens parametrar.

Bloggare och programmerare med specialiteter inom Maskininlärning och Deep Learning ämnen. Daniel hoppas kunna hjälpa andra att använda kraften i AI för socialt bästa.