stub Hvad er Federated Learning? - Unite.AI
Følg os

AI 101

Hvad er fødereret læring?

mm
Opdateret on

Hvad er fødereret læring?

Den traditionelle metode til træning af AI-modeller involverer opsætning af servere, hvor modeller trænes på data, ofte ved brug af en cloud-baseret computerplatform. Men i løbet af de sidste par år er der opstået en alternativ form for modelskabelse, kaldet fødereret læring. Fødereret læring bringer maskinlæringsmodeller til datakilden i stedet for at bringe dataene til modellen. Fødereret læring forbinder flere beregningsenheder til et decentraliseret system, der gør det muligt for de individuelle enheder, der indsamler data, at hjælpe med at træne modellen.

I et fødereret læringssystem har de forskellige enheder, der er en del af læringsnetværket, hver en kopi af modellen på enheden. De forskellige enheder/klienter træne deres egen kopi af modellen ved hjælp af klientens lokale data, og derefter sendes parametrene/vægtene fra de enkelte modeller til en masterenhed, eller server, der aggregerer parametrene og opdaterer den globale model. Denne træningsproces kan derefter gentages, indtil et ønsket niveau af nøjagtighed er opnået. Kort sagt er ideen bag fødereret læring, at ingen af ​​træningsdataene nogensinde overføres mellem enheder eller mellem parter, kun opdateringerne relateret til modellen er det.

Fødereret læring kan opdeles i tre forskellige trin eller faser. Fødereret læring starter typisk med en generisk model, der fungerer som en baseline og trænes på en central server. I første trin sendes denne generiske model ud til applikationens klienter. Disse lokale kopier trænes derefter på data genereret af klientsystemerne, lærer og forbedrer deres ydeevne.

I det andet trin sender klienterne alle deres indlærte modelparametre til den centrale server. Dette sker med jævne mellemrum efter en fastlagt tidsplan.

I det tredje trin samler serveren de lærte parametre, når den modtager dem. Efter at parametrene er aggregeret, opdateres den centrale model og deles igen med kunderne. Hele processen gentages derefter.

fordel ved at have en kopi af modellen på de forskellige enheder er, at netværksforsinkelser reduceres eller elimineres. Omkostningerne forbundet med at dele data med serveren er også elimineret. Andre fordele ved fødererede læringsmetoder omfatter det faktum, at fødererede læringsmodeller bevares privatlivets fred, og modelsvar er tilpasset til brugeren af ​​enheden.

Eksempler på fødererede læringsmodeller omfatter anbefalingsmotorer, modeller for registrering af bedrageri og medicinske modeller. Medieanbefalingsmotorer, af den type, der bruges af Netflix eller Amazon, kunne trænes på data indsamlet fra tusindvis af brugere. Klientenhederne ville træne deres egne separate modeller, og den centrale model ville lære at lave bedre forudsigelser, selvom de individuelle datapunkter ville være unikke for de forskellige brugere. Tilsvarende kan modeller for afsløring af svindel, der bruges af banker, trænes i aktivitetsmønstre fra mange forskellige enheder, og en håndfuld forskellige banker kunne samarbejde om at træne en fælles model. Med hensyn til en medicinsk fødereret læringsmodel kunne flere hospitaler slå sig sammen for at træne en fælles model, der kunne genkende potentielle tumorer gennem medicinske scanninger.

Typer af fødereret læring

Fødererede læringsskemaer falder typisk i en af ​​to forskellige klasser: flerpartisystemer og enkeltpartssystemer. Enkeltparts fødererede læringssystemer kaldes "single-party", fordi kun en enkelt enhed er ansvarlig for at overvåge opsamling og flow af data på tværs af alle klientenheder i læringsnetværket. De modeller, der findes på klientenhederne, er trænet på data med samme struktur, selvom datapunkterne typisk er unikke for de forskellige brugere og enheder.

I modsætning til enkeltpartssystemer administreres flerpartssystemer af to eller flere enheder. Disse enheder samarbejder om at træne en delt model ved at bruge de forskellige enheder og datasæt, de har adgang til. Parametrene og datastrukturerne er typisk ens på tværs af enheder, der tilhører de flere enheder, men de behøver ikke at være helt ens. I stedet forbearbejdes der for at standardisere modellens input. En neutral enhed kan anvendes til at aggregere de vægte, der er etableret af de enheder, der er unikke for de forskellige enheder.

Rammer for fødereret læring

Populære rammer, der bruges til fødereret læring omfatter Tensorflow Federated, Federated AI Technology Enabler (FATE)og PySyft. PySyft er et open source fødereret læringsbibliotek baseret på deep learning-biblioteket PyTorch. PySyft er beregnet til at sikre privat, sikker dyb læring på tværs af servere og agenter ved hjælp af krypteret beregning. I mellemtiden er Tensorflow Federated en anden open source-ramme bygget på Googles Tensorflow-platform. Ud over at gøre det muligt for brugere at oprette deres egne algoritmer, giver Tensorflow Federated brugere mulighed for at simulere en række inkluderede fødererede læringsalgoritmer på deres egne modeller og data. Endelig er FATE også open source-ramme designet af Webank AI, og det er beregnet til at give det fødererede AI-økosystem en sikker computerramme.

Federated Learning Challenges

Da fødereret læring stadig er ret begyndende, en række udfordringer skal stadig forhandles for at opnå sit fulde potentiale. Uddannelsesmulighederne for edge-enheder, datamærkning og standardisering og modelkonvergens er potentielle vejspærringer for fødererede læringstilgange.

Edge-enhedernes beregningsevner, når det kommer til lokal træning, skal overvejes, når man designer fødererede læringstilgange. Mens de fleste smartphones, tablets og andre IoT-kompatible enheder er i stand til at træne maskinlæringsmodeller, hæmmer dette typisk enhedens ydeevne. Der skal indgås kompromiser mellem modellens nøjagtighed og enhedens ydeevne.

Mærkning og standardisering af data er en anden udfordring, som fødererede læringssystemer skal overvinde. Overvågede læringsmodeller kræver træningsdata, der er tydeligt og konsekvent mærket, hvilket kan være svært at gøre på tværs af de mange klientenheder, der er en del af systemet. Af denne grund er det vigtigt at udvikle modeldatapipelines, der automatisk anvender etiketter på en standardiseret måde baseret på hændelser og brugerhandlinger.

Modelkonvergenstid er en anden udfordring for fødereret læring, da fødererede læringsmodeller typisk tager længere tid at konvergere end lokalt trænede modeller. Antallet af enheder involveret i træningen tilføjer et element af uforudsigelighed til modeltræningen, da forbindelsesproblemer, uregelmæssige opdateringer og endda forskellige applikationsbrugstider kan bidrage til øget konvergenstid og nedsat pålidelighed. Af denne grund er fødererede læringsløsninger typisk mest nyttige, når de giver meningsfulde fordele i forhold til central træning af en model, såsom tilfælde, hvor datasæt er ekstremt store og distribuerede.

Foto: Jeromemetronome via Wikimedia Commons, CC By SA 4.0 (https://en.wikipedia.org/wiki/File:Federated_learning_process_central_case.png)

Blogger og programmør med speciale i Maskinelæring , Deep Learning emner. Daniel håber at kunne hjælpe andre med at bruge AI's kraft til socialt gode.