Thought leaders
Hoe worden machine learning-modellen getraind?

Veel mensen associëren machine learning (ML) met AI, of ze het nu herkennen of niet. ML is een van de meest spannende en veelbelovende deelgebieden op dit gebied en het draait allemaal om de training van machine learning-modellen.
Als je een algoritme wilt laten antwoorden op vragen of zelfstandig wilt laten werken, moet je het eerst leren om patronen te herkennen. Dit proces wordt training genoemd en is waarschijnlijk de belangrijkste stap in de machine learning-reis. Training legt de basis voor de toekomstige gebruikscases van ML-modellen en is de oorzaak van hun succes of falen. Hieronder volgt een nadere beschouwing van hoe het werkt.
De basis van machine learning-modeltraining
Machine learning-training begint in veel gevallen met data mining. Dit is de bron waarmee je je algoritme leert, dus betrouwbare training begint met het verzamelen van relevante, nauwkeurige informatie. Datawetenschappers beginnen vaak met datasets waar ze vertrouwd mee zijn om onnauwkeurigheden te helpen opsporen en problemen verderop in het proces te voorkomen. Onthoud dat je ML-model alleen zo effectief kan zijn als de informatie nauwkeurig en schoon is.
Vervolgens kiezen datawetenschappers een model dat past bij de patroonherkenning die ze willen. Deze variëren in complexiteit, maar het komt allemaal neer op het vinden van overeenkomsten en verschillen in datasets. Je geeft het model enkele regels voor het identificeren van verschillende patronen of typen informatie, en past het vervolgens aan totdat het deze trends nauwkeurig kan herkennen.
Vanaf dat moment is het trainingsproces een lange reeks van trial en error. Je geeft het algoritme nog meer data, ziet hoe het deze interpreteert en past het vervolgens aan om het nauwkeuriger te maken. Naarmate het proces voortduurt, zou het model steeds betrouwbaarder moeten worden en complexere problemen aankunnen.
ML-traintechnieken
De basis van ML-training blijft grotendeels hetzelfde tussen methoden, maar specifieke benaderingen variëren sterk. Hieronder volgen enkele van de meest voorkomende machine learning-traintechnieken die je vandaag zult zien.
1. Gestructureerd leren
De meeste ML-technieken vallen in twee hoofdcategorieën: gestructureerd of ongestructureerd leren. Gestructureerde benaderingen gebruiken gelabelde datasets om hun nauwkeurigheid te verbeteren. Gelabelde invoer en uitvoer bieden een basis voor het model om zijn prestaties tegen te meten, waardoor het in de loop van de tijd kan leren.
Gestructureerd leren dient doorgaans een van twee taken: classificatie, die data in categorieën onderverdeelt, of regressie, die de relaties tussen verschillende variabelen analyseert en vaak voorspellingen doet op basis van deze inzichten. In beide gevallen bieden gestructureerde modellen een hoge nauwkeurigheid, maar vereisen ze veel inspanning van datawetenschappers om ze te labelen.
2. Ongestructureerd leren
In tegenstelling tot gestructureerde benaderingen van machine learning, gebruiken ongestructureerde benaderingen geen gelabelde data. Als gevolg daarvan vereisen ze minimaal menselijke inmenging, vandaar de titel “ongestructureerd”. Dat kan handig zijn, gezien de groeiende tekort aan datawetenschappers, maar omdat ze op een andere manier werken, zijn deze modellen beter geschikt voor andere taken.
Gestructureerde ML-modellen zijn goed in het acteren op relaties in een dataset, terwijl ongestructureerde modellen deze verbindingen onthullen. Ongestructureerd is de manier om te gaan als je een model moet trainen om inzicht te verkrijgen uit data, zoals in afwijkingsdetectie of procesoptimalisatie.
3. Gedistribueerde training
Gedistribueerde training is een specifiekere techniek in ML-modeltraining. Het kan zowel gestructureerd als ongestructureerd zijn en deelt workloads over meerdere processors om het proces te versnellen. In plaats van één dataset tegelijk door een model te laten lopen, gebruikt deze benadering gedistribueerde computing om meerdere datasets tegelijk te verwerken.
Omdat het meer tegelijk verwerkt, kan gedistribueerde training de tijd die nodig is om een model te trainen aanzienlijk verkorten. Deze snelheid stelt je ook in staat om meer accurate algoritmen te creëren, omdat je meer kunt doen om ze binnen hetzelfde tijdsbestek te verfijnen.
4. Multitask-leren
Multitask-leren is een andere type ML-training die meerdere dingen tegelijk doet. Bij deze technieken leer je een model meerdere gerelateerde taken tegelijk in plaats van nieuwe dingen een voor een. Het idee is dat deze gegroepeerde benadering betere resultaten oplevert dan enig individueel onderdeel apart.
Multitask-leren is handig wanneer je twee problemen hebt met overlap tussen hun datasets. Als de ene minder gelabelde informatie heeft dan de andere, kan wat het model leert van de meer uitgebreide set helpen om de kleinere set te begrijpen. Je zult deze technieken vaak zien in algoritmes voor natuurlijke taalverwerking (NLP).
5. Transferleren
Transferleren is vergelijkbaar, maar neemt een meer lineaire benadering. Deze techniek leert een model één taak, en gebruikt deze vervolgens als basis om iets gerelateerds te leren. Als gevolg daarvan kan het algoritme steeds nauwkeuriger worden en complexere problemen aan.
Veel diepe leer-algoritmes gebruiken transferleren, omdat het een goede manier is om op te bouwen naar steeds moeilijkere, complexere taken. Gezien het feit dat diepe leer 40% van de jaarlijkse waarde van alle data-analyse vertegenwoordigt, is het de moeite waard om te weten hoe deze modellen tot stand komen.
Machine learning-modeltraining is een breed veld
Deze vijf technieken zijn slechts een voorbeeld van hoe je een machine learning-model kunt trainen. De basisprincipes blijven hetzelfde over verschillende benaderingen, maar ML-modeltraining is een uitgebreid en gevarieerd gebied. Nieuwe leermethoden zullen ontstaan naarmate de technologie verbetert, waardoor dit veld nog verder zal gaan.












