Connect with us

Kunstmatige intelligentie

Hoe Google AI-trainingsvereisten met 10.000x verlaagde

mm

De kunstmatige intelligentie-industrie staat voor een fundamenteel paradox. Terwijl machines nu data op enorme schaal kunnen verwerken, blijft het leren verrassend inefficiënt, met het probleem van afnemende rendementen. Traditionele machine learning-benaderingen vereisen enorme, gelabelde datasets die miljoenen dollars kunnen kosten en jaren in beslag kunnen nemen. Deze benaderingen werken meestal onder de veronderstelling dat meer data tot betere AI-modellen leidt. however, Google-onderzoekers hebben onlangs een innovatieve methode geïntroduceerd die deze langdurige overtuiging in twijfel trekt. Zij demonstreren dat vergelijkbare AI-prestaties kunnen worden bereikt met tot 10.000 keer minder trainingsdata. Deze ontwikkeling heeft het potentieel om fundamenteel te veranderen hoe we AI benaderen. In dit artikel zullen we onderzoeken hoe Google-onderzoekers deze doorbraak bereikten, het potentieel toekomstige effect van de ontwikkeling en de uitdagingen en richtingen voor de toekomst.

De grote data-uitdaging in AI

Gedurende decennia heeft het mantra “meer data is beter AI” de aanpak van de industrie voor AI gedreven. Grote taalmodellen zoals GPT-4 verbruiken triljoenen tokens tijdens de training. Deze data-hongerige benadering creëert een aanzienlijke barrière voor organisaties die geen uitgebreide middelen of gespecialiseerde datasets hebben. Ten eerste is de kosten van menselijke labeling aanzienlijk hoog. Expert-annotators rekenen hoge tarieven, en de enorme hoeveelheid benodigde data maakt projecten duur. Ten tweede is de meeste verzamelde data vaak redundant en kan geen cruciale rol spelen in het leerproces. De traditionele methode worstelt ook met veranderende vereisten. Wanneer beleidsveranderingen optreden of nieuwe soorten problematische inhoud verschijnen, moeten bedrijven het labelingsproces van scratch beginnen. Dit proces creëert een constante cyclus van dure data-verzameling en model-hertraining.

Het aanpakken van grote data-uitdagingen met actief leren

Een van de bekende manieren waarop we deze data-uitdagingen kunnen aanpakken, is door actief leren te empoweren. Deze benadering is gebaseerd op een zorgvuldige curatieproces dat de meest waardevolle trainingsvoorbeelden voor menselijke labeling identificeert. Het onderliggende idee is dat modellen het beste leren van voorbeelden die ze het meest verwarrend vinden, in plaats van passief alle beschikbare data te consumeren. In tegenstelling tot traditionele AI-methoden, die grote datasets vereisen, neemt actief leren een meer strategische benadering door zich te concentreren op het verzamelen van alleen de meest informatieve voorbeelden. Deze benadering helpt om de inefficiëntie van het labelen van voor de hand liggende of redundante data te vermijden die weinig waarde toevoegt aan het model. In plaats daarvan richt actief leren zich op randgevallen en onzekere voorbeelden die een aanzienlijke verbetering van de modelprestaties kunnen opleveren.

Door de inspanningen van experts te concentreren op deze sleutelvoorbeelden, laat actief leren modellen sneller en effectiever leren met veel minder datapunten. Deze benadering heeft het potentieel om zowel de data-bottleneck als de inefficiëntie van traditionele machine learning-benaderingen aan te pakken.

Google’s actief leren-benadering

Google’s onderzoeksteam heeft deze paradigma met succes toegepast. Hun nieuwe actief leren-methode toont aan dat zorgvuldig gecureerde, hoge kwaliteit voorbeelden enorme hoeveelheden gelabelde data kunnen vervangen. Bijvoorbeeld, zij laten zien dat modellen getraind op minder dan 500 expert-gelabelde voorbeelden de prestaties van systemen getraind op 100.000 traditionele labels evenaren of overtreffen.

Het proces werkt via wat Google een “LLM-as-Scout”-systeem noemt. Het grote taalmodel scant eerst door enorme hoeveelheden ongelabelde data, en identificeert gevallen waarin het model het meest onzeker is. Deze grensgevallen vertegenwoordigen precies de scenario’s waarin het model menselijke leiding nodig heeft om zijn besluitvorming te verbeteren. Het proces begint met een initiële model dat grote datasets labelt met behulp van basisprompts. Het systeem clusterd vervolgens voorbeelden op basis van hun voorspelde classificaties en identificeert regio’s waarin het model verwarring tussen verschillende categorieën vertoont. Deze overlappende clusters onthullen de precieze punten waarop menselijke expertise het meest waardevol kan zijn.

De methode richt zich expliciet op paren van voorbeelden die het dichtst bij elkaar liggen maar verschillende labels hebben. Deze grensgevallen vertegenwoordigen precies de scenario’s waarin menselijke expertise het meest van belang is. Door expert-labeling-inspanningen te concentreren op deze verwarrende voorbeelden, bereikt het systeem opmerkelijke efficiëntiegewinnen.

Kwaliteit boven kwantiteit

Het onderzoek onthult een belangrijke bevinding met betrekking tot datakwaliteit die een algemene veronderstelling in AI in twijfel trekt. Het toont aan dat expertlabels, met hun hoge geloofwaardigheid, consistent beter presteren dan grote schaal crowdsourced annotaties. Zij maten dit met behulp van Cohen’s Kappa, een statistisch instrument dat beoordeelt hoe goed de voorspellingen van het model overeenkomen met expertmeningen, buiten wat zou gebeuren door toeval. In Google’s experimenten bereikten expert-annotators Cohen’s Kappa-scores boven 0,8, wat aanzienlijk beter is dan wat crowdsourcing typisch biedt.

Deze hogere consistentie stelt modellen in staat om effectief te leren van veel minder voorbeelden. In tests met Gemini Nano-1 en Nano-2, evenaarden modellen of overtroffen expert-alignment met slechts 250-450 zorgvuldig geselecteerde voorbeelden in vergelijking met ongeveer 100.000 willekeurige crowdsourced labels. Dat is een reductie van drie tot vier ordes van grootte. Echter, de voordelen zijn niet alleen beperkt tot het gebruik van minder data. Modellen getraind met deze benadering presteren vaak beter dan die getraind met traditionele methoden. Voor complexe taken en grotere modellen bereikten prestatieverbeteringen 55-65% boven de baseline, wat een meer substantiële en betrouwbare overeenstemming met beleidsexperts toont.

Waarom deze doorbraak nu belangrijk is

Deze ontwikkeling komt op een kritiek moment voor de AI-industrie. Terwijl modellen groter en geavanceerder worden, is de traditionele benadering van het schalen van trainingsdata steeds minder houdbaar geworden. De milieukosten van het trainen van enorme modellen blijven groeiende, en de economische toegangsbarrières blijven hoog voor veel organisaties.

Google’s methode pakt meerdere industrie-uitdagingen tegelijk aan. De dramatische reductie in labelkosten maakt AI-ontwikkeling toegankelijker voor kleinere organisaties en onderzoeksteams. De snellere iteratiecycli ermöglichen snelle aanpassing aan veranderende vereisten, wat essentieel is in dynamische domeinen zoals contentmoderatie of cybersecurity.

De benadering heeft ook bredere implicaties voor AI-veiligheid en betrouwbaarheid. Door zich te concentreren op de gevallen waarin modellen het meest onzeker zijn, identificeert de methode natuurlijk potentiële foutmodi en randgevallen. Dit proces creëert robuustere systemen die beter hun beperkingen begrijpen.

De bredere implicaties voor AI-ontwikkeling

Deze doorbraak suggereert dat we mogelijk een nieuwe fase van AI-ontwikkeling ingaan waarin efficiëntie belangrijker is dan schaal. De traditionele “hoe groter, hoe beter”-benadering van trainingsdata kan plaatsmaken voor meer geavanceerde methoden die datakwaliteit en strategische selectie prioriteren.

De milieugevolgen alleen al zijn aanzienlijk. Het trainen van grote AI-modellen vereist momenteel enorme computationele middelen en energieverbruik. Als vergelijkbare prestaties kunnen worden bereikt met aanzienlijk minder data, kan de koolstofvoetafdruk van AI-ontwikkeling aanzienlijk afnemen.

Het democratiserende effect kan even belangrijk zijn. Kleine onderzoeksteams en organisaties die eerder geen toegang hadden tot enorme data-verzamelingsefforts, hebben nu een pad naar concurrerende AI-systemen. Deze ontwikkeling kan innovatie versnellen en meer diverse perspectieven in AI-ontwikkeling creëren.

Beperkingen en overwegingen

Ondanks de veelbelovende resultaten, staat de methode voor verschillende praktische uitdagingen. De vereiste voor expert-annotators met Cohen’s Kappa-scores boven 0,8 kan de toepasbaarheid in domeinen beperken met onvoldoende expertise of duidelijke evaluatiecriteria. Het onderzoek richt zich voornamelijk op classificatie-taken en content-veiligheids-toepassingen. Of dezelfde dramatische verbeteringen van toepassing zijn op andere soorten AI-taken zoals taalgeneratie of redenering, moet nog worden onderzocht.

De iteratieve aard van actief leren introduceert complexiteit in vergelijking met traditionele batch-verwerkingbenaderingen. Organisaties moeten nieuwe workflows en infrastructuur ontwikkelen om de vraag-antwoordcycli te ondersteunen die continue modelverbetering mogelijk maken.

Toekomstig onderzoek zal waarschijnlijk geautomatiseerde benaderingen onderzoeken voor het behouden van expertniveau annotatiekwaliteit en domeinspecifieke adaptaties van de kernmethode ontwikkelen. De integratie van actief leren-principes met andere efficiëntietechnieken, zoals parameter-efficient fine-tuning, kan aanvullende prestatieverbeteringen opleveren.

De bottom line

Google’s onderzoek toont aan dat gerichte, hoge kwaliteit data effectiever kan zijn dan enorme datasets. Door zich te concentreren op het labelen van alleen de meest waardevolle voorbeelden, verlaagden zij de trainingsbehoeften met tot 10.000 keer, terwijl de prestaties verbeterden. Deze benadering verlaagt de kosten, versnelt de ontwikkeling, vermindert de milieugevolgen en maakt geavanceerde AI toegankelijker. Het markeert een significante verschuiving naar efficiënte en duurzame AI-ontwikkeling.

Dr. Tehseen Zia is een gewaardeerd associate professor aan de COMSATS University Islamabad, met een PhD in AI van de Vienna University of Technology, Oostenrijk. Hij specialiseert zich in Artificial Intelligence, Machine Learning, Data Science en Computer Vision, en heeft significante bijdragen geleverd met publicaties in gerenommeerde wetenschappelijke tijdschriften. Dr. Tehseen heeft ook verschillende industriële projecten geleid als hoofdonderzoeker en heeft gediend als AI-consultant.