Kunstig intelligens
Forskere opdager højeffektive undernetværk inden for deep Learning neurale netværk

Deep learning neurale netværk er ofte massive og kræver enorme mængder computerkraft, men en ny opdagelse viser, hvordan dette kan skæres ned for at udføre opgaver mere effektivt. Jonathan Frankle og hans team fra MIT er kommet med "lotteriseddelhypoteserne", som viser, hvordan der er slankere undernetværk inden for de større neurale netværk. Disse undernetværk kan fuldføre opgaven mere effektivt med mindre påkrævet computerkraft, hvor en af ​​de største udfordringer er at finde disse undernetværk eller at vinde lotterisedler, som holdet henviser til dem.
Holdet opdagede disse undernetværk inden for BERT, den bedste maskinlæringsteknik til naturlig sprogbehandling (NLP). NLP, som er et underområde af kunstig intelligens (AI), er ansvarlig for at dechifrere og analysere menneskeligt sprog, og det bruges til applikationer som prædiktiv tekstgenerering og chatbots.
BERT er dog stor og kræver supercomputerkraft, som er utilgængelig for de fleste brugere. Med den nye opdagelse af disse undernetværk kan det åbne op for denne adgang, så flere brugere kan bruge teknologien til at udvikle NLP-værktøjer.
"Vi er ved at nå det punkt, hvor vi bliver nødt til at gøre disse modeller slankere og mere effektive," siger Frankle.
Ifølge ham kunne denne udvikling "reducere adgangsbarrierer" for NLP.
BERT – “obskønt dyrt”
BERT er grundlæggende for ting som Googles søgemaskine og har fået meget opmærksomhed siden Google udgav den i 2018. Det er en metode til at skabe neurale netværk og trænes ved at forsøge mange gange at udfylde den tomme passage af skrivestykker. En af de mest imponerende funktioner ved BERT er dets massive indledende træningsdatasæt.
Det kan så tunes af brugere til specifikke opgaver, såsom kundeservice chatbots, men endnu en gang kræver det massive mængder processorkraft, med mulighed for at parametre når op på 1 mia.
"En standard BERT-model i disse dage - havevarianten - har 340 millioner parametre," siger Frankle. "Det her er bare uanstændigt dyrt. Dette er langt ud over din eller mig's computerevne."
Ifølge hovedforfatter Tianlong Chen fra University of Texas i Austin, lider modeller som BERT af enorm netværksstørrelse, men takket være den nye forskning, "lader lodseddelhypotesen til at være en løsning."
Effektive undernetværk
Chen og holdet ledte efter en mindre model placeret i BERT, og de sammenlignede de opdagede undernetværks ydeevne med den originale BERT-model. Dette blev testet på en række forskellige NLP-opgaver, herunder besvarelse af spørgsmål og udfyldning af tomme ord i en sætning.
Holdet opdagede succesrige undernetværk, der var imponerende 40 til 90 procent slankere end den originale BERT-model, med den faktiske procentdel afhængig af opgaven. Oven i dette kunne de identificere dem før opgavespecifik finjustering, hvilket resulterer i endnu mere reducerede computeromkostninger. En anden fordel var, at nogle af de undernetværk, der blev valgt til en specifik opgave, så kunne genbruges til en anden.
"Jeg var lidt chokeret over, at dette endda virkede," siger Frankle. "Det er ikke noget, jeg tog for givet. Jeg forventede et meget mere rodet resultat, end vi fik."
Ifølge Ari Morcos, en videnskabsmand ved Facebook AI Research, er denne opdagelse "overbevisende", og "Disse modeller bliver stadig mere udbredte. Så det er vigtigt at forstå, om lottoseddelhypotesen holder.”
Morcos siger også, at hvis disse undernetværk kunne køre ved at bruge drastisk mindre computerkraft, så ville dette "være meget virkningsfuldt, da disse ekstremt store modeller i øjeblikket er meget dyre at køre."
"Jeg ved ikke, hvor meget større vi kan blive ved at bruge disse supercomputer-lignende beregninger," tilføjer Frankle. "Vi bliver nødt til at reducere adgangsbarrieren."
"Håbet er, at dette vil sænke omkostningerne, at dette vil gøre det mere tilgængeligt for alle ... for de små fyre, der bare har en bærbar," afslutter han.
Forskningen skal præsenteres kl Konference om neurale informationsbehandlingssystemer.