Følg os

Kunstig intelligens

Google Research identificerer en flaskehals i hyperskalatilgange til kunstig intelligens

mm

Et nyt papir fra Google Research indikerer, at den nuværende tendens til kuration af datasæt med meget store mængder kan være kontraproduktivt i forhold til at udvikle effektive kunstig intelligens-systemer. Faktisk tyder forskningen på, at bedre maskinlæringsprodukter kan opstå ved at blive trænet på mindre nøjagtige (dvs. teknisk 'værre') datasæt.

Hvis de principper, som forskerne har opnået, er gyldige, betyder det, at 'hyperskala' datasæt som f.eks nyligt udgivet LAION-400M (som indeholder 400 millioner tekst/billede-par) og dataene bag den neurale sprogmotor GPT-3 (indeholder 175 milliarder parametre) er potentielt underlagt en slags 'termisk grænse' i traditionelle og populære maskinlæringsarkitekturer og metoder, hvorved den store mængde data "mætter" downstream-applikationer og forhindrer dem i at generalisere på en nyttig måde.

Forskerne foreslår også alternative metoder til at gentænke hyperskala datasætarkitektur for at rette op på ubalancen.

Papiret siger:

'Når vi dykker dybere ned for at forstå årsagerne, der giver anledning til disse fænomener, viser vi, at den mætningsadfærd, vi observerer, er tæt forbundet med den måde, som repræsentationer udvikler sig gennem modellernes lag. Vi fremviser et endnu mere ekstremt scenarie, hvor ydeevne på upstream og downstream er i modstrid med hinanden. Det vil sige, at for at have en bedre downstream ydeevne, er vi nødt til at skade upstream nøjagtigheden.'

studere er titlen Udforsk grænserne for fortræning i stor skala, og kommer fra fire forfattere hos Google Research.

Undersøgelse af 'mætning'

Forfatterne udfordrer de fremherskende antagelser om maskinlæring>datarelationer i hyperskaladataalderen: at skaleringsmodeller og datastørrelse forbedrer ydeevnen (en tro, der er blevet cementeret i hypen over GPT-3 siden lanceringen); og at denne forbedrede ydeevne 'passer igennem' til downstream-opgaver på en lineær (dvs. ønskelig) måde, så de on-device algoritmer, der til sidst lanceres på markedet, afledt af de ellers ustyrligt enorme datasæt og udestillerede trænede modeller, får fuld fordel af indsigten i de opstrømsarkitekturer i fuld størrelse.

'Disse synspunkter' konstaterer forskerne 'Foreslår, at det ville betale sig at bruge beregnings- og forskningsindsats på at forbedre ydeevnen på ét massivt korpus, fordi det ville gøre os i stand til at løse mange downstream-opgaver næsten gratis.'

Men papiret hævder, at mangel på computerressourcer og de efterfølgende 'økonomiske' metoder til modelevaluering bidrager til et forkert indtryk af sammenhængsdynamikken mellem datavolumen og nyttige AI-systemer. Forfatterne identificerer denne vane som 'en stor mangel', da forskersamfundet typisk antager, at lokale (positive) resultater vil omsættes til nyttige senere implementeringer:

"På grund af beregningsbegrænsninger rapporteres ydeevne for forskellige valg af hyperparameterværdier ikke. Skaleringsplot virker mere gunstige, hvis hyperparameteren valgt for hver skala er fast eller bestemt af en simpel skaleringsfunktion.'

Forskerne udtaler endvidere, at mange skaleringsundersøgelser ikke måles i forhold til absolutte skalaer, men som trinvise forbedringer i forhold til det nyeste (SotA), idet de observerer, at "der er ingen grund, a priori, til at skaleringen holder uden for det undersøgte område«.

Fortræning

Papiret omhandler praksis med 'fortræning', en foranstaltning designet til at spare computerressourcer og skære ned på de ofte forfærdelige tidsskalaer, der er nødvendige for at træne en model på data i stor målestok fra nul. Snapshots inden for træning håndterer 'ABC'erne' for den måde, data inden for ét domæne bliver generaliseret under træning og bruges almindeligvis i en række maskinlæringssektorer og specialer, fra Natural Language Processing (NLP) til deepfakes.

Tidligere akademisk forskning har fundet at præ-træning især kan forbedre modellens robusthed og nøjagtighed, men det nye papir antyder, at kompleksiteten af ​​funktioner, selv i relativt kort trænede præ-træningsskabeloner, kan være til større gavn, hvis de flyttes ned til senere processer i pipelinen .

Dette kan dog ikke ske, hvis forskere fortsætter med at være afhængige af præ-trænede modeller, der bruger nuværende bedste praksis i anvendelsen af ​​læringsrater, hvilket, konkluderer forskningen, især kan påvirke den ultimative nøjagtighed af de endelige anvendelser af arbejdet. I denne henseende bemærker forfatterne, at 'man ikke kan håbe på at finde ét fortrænet kontrolpunkt, der fungerer godt på alle mulige downstream-opgaver'.

Studiet

For at fastslå mætningseffekten gennemførte forfatterne 4800 eksperimenter på Vision Transformers, ResNets og MLP-Mixers, hver med et varierende antal parametre, fra 10 millioner til 10 milliarder, alle trænet på de datasæt med højeste volumen, der er tilgængelige i de respektive sektorer, inklusive ImageNet21K og Googles egen JFT-300M.

Resultaterne, hævder avisen, viser det datadiversitet bør betragtes som en ekstra akse, når man forsøger at 'skalere' data, modelparametre og beregningstid. Som det ser ud, sprænger den store koncentration af træningsressourcer (og forskeropmærksomhed) på opstrømssektionen af ​​en AI-pipeline effektivt nedstrømsapplikationer med en lavine af parametre op til et "mætningspunkt", hvilket sænker de implementerede algoritmers evne til at navigere gennem funktioner og udføre slutnings- eller effekttransformationer.

Papiret konkluderer:

'Gennem en omfattende undersøgelse fastslår vi, at når vi forbedrer udførelsen af ​​opstrømsopgaven enten ved at opskalere eller hyperparameter- og arkitektoniske valg, viser udførelsen af ​​downstream-opgaver en mættende adfærd. Derudover giver vi stærk empirisk dokumentation for, at skalering i modsætning til den gængse fortælling ikke fører til en løsning, der passer til alle.'

 

Forfatter på maskinlæring, domænespecialist i menneskelig billedsyntese. Tidligere leder af forskningsindhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-mail beskyttet]
Twitter: @manders_ai