stub Mis on liitõpe? - Ühendage.AI
Ühenda meile

AI 101

Mis on liitõpe?

mm
Ajakohastatud on

Mis on liitõpe?

Traditsiooniline tehisintellektimudelite koolitamise meetod hõlmab serverite seadistamist, kus mudeleid õpetatakse andmetele, sageli pilvepõhise andmetöötlusplatvormi abil. Kuid viimastel aastatel on tekkinud alternatiivne mudeli loomise vorm, mida nimetatakse liitõppeks. Liitõpe toob masinõppemudelid andmeallikasse, mitte ei too andmeid mudelisse. Födereeritud õpe ühendab mitu arvutusseadet detsentraliseeritud süsteemiks, mis võimaldab andmeid koguvatel üksikutel seadmetel mudelit koolitada.

Liitõppesüsteemis on erinevatel õppevõrku kuuluvatel seadmetel seadmes mudeli koopia. Erinevad seadmed/kliendid koolitada oma mudeli koopiat kasutades kliendi kohalikke andmeid ja seejärel saadetakse üksikute mudelite parameetrid/kaalud põhiseadmesse või serverisse, mis koondab parameetrid ja värskendab globaalset mudelit. Seda treeningprotsessi saab seejärel korrata, kuni saavutatakse soovitud täpsustase. Lühidalt öeldes seisneb liitõppe idee selles, et treeningandmeid ei edastata kunagi seadmete või osapoolte vahel, vaid ainult mudeliga seotud uuendused.

Liitõppe võib jagada kolmeks erinevaks etapiks või faasiks. Liitõpe algab tavaliselt üldisest mudelist, mis toimib lähtealusena ja mida koolitatakse keskserveris. Esimeses etapis saadetakse see üldine mudel rakenduse klientidele. Seejärel koolitatakse neid kohalikke koopiaid kliendisüsteemide genereeritud andmete põhjal, õppides ja parandades nende toimivust.

Teises etapis saadavad kõik kliendid oma õpitud mudeli parameetrid keskserverisse. See juhtub perioodiliselt, kindla ajakava järgi.

Kolmandas etapis koondab server õpitud parameetrid nende vastuvõtmisel. Pärast parameetrite koondamist värskendatakse keskmudelit ja jagatakse seda veel kord klientidega. Seejärel kordub kogu protsess.

. koopia omamisest on kasu mudeli eri seadmetes on see, et võrgu latentsusaega vähendatakse või see kõrvaldatakse. Samuti jäävad ära kulud, mis on seotud andmete jagamisega serveriga. Liitõppemeetodite muud eelised hõlmavad asjaolu, et ühendatud õppemudelite privaatsus on säilinud ja mudeli vastused on seadme kasutaja jaoks isikupärastatud.

Ühendatud õppemudelite näideteks on soovitusmootorid, pettuste tuvastamise mudelid ja meditsiinilised mudelid. Netflixi või Amazoni kasutatavaid meediasoovitusmootoreid saab koolitada tuhandetelt kasutajatelt kogutud andmete põhjal. Kliendiseadmed treeniksid oma eraldi mudeleid ja keskmudel õpiks tegema paremaid ennustusi, kuigi üksikud andmepunktid oleksid erinevate kasutajate jaoks ainulaadsed. Samamoodi saab pankade kasutatavaid pettuste tuvastamise mudeleid koolitada paljude erinevate seadmete tegevusmustrite järgi ning ühise mudeli väljaõpetamiseks võiksid teha koostööd käputäis erinevaid panku. Meditsiinilise ühendatud õppemudeli osas võiksid mitu haiglat ühineda, et koolitada välja ühine mudel, mis suudaks meditsiiniliste skaneeringute abil ära tunda potentsiaalsed kasvajad.

Liitõppe tüübid

Ühendatud õppeskeemid jagunevad tavaliselt ühte kahest erinevast klassist: mitme osapoole süsteemid ja ühe osapoole süsteemid. Ühe osapoole ühendatud õppesüsteeme nimetatakse "ühe osapoolega", kuna ainult üks üksus vastutab andmete kogumise ja voo jälgimise eest kõigis õppevõrgu klientseadmetes. Kliendiseadmetes olevad mudelid on õpetatud kasutama sama struktuuriga andmeid, kuigi andmepunktid on tavaliselt erinevate kasutajate ja seadmete jaoks ainulaadsed.

Erinevalt ühe osapoole süsteemidest haldavad mitme osapoole süsteeme kaks või enam üksust. Need üksused teevad koostööd jagatud mudeli väljaõpetamiseks, kasutades erinevaid seadmeid ja andmekogumeid, millele neil on juurdepääs. Parameetrid ja andmestruktuurid on tavaliselt mitmesse üksusesse kuuluvates seadmetes sarnased, kuid need ei pea olema täpselt samad. Selle asemel tehakse mudeli sisendite standardiseerimiseks eeltöötlus. Erinevate üksuste jaoks ainulaadsete seadmete poolt määratud kaalude koondamiseks võib kasutada neutraalset olemit.

Födereeritud õppe raamistikud

Ühisõppe jaoks kasutatavad populaarsed raamistikud hõlmavad järgmist Tensorflow Federated, Federated AI Technology Enabler (FATE)ja PySyft. PySyft on avatud lähtekoodiga ühendatud õppeteek, mis põhineb süvaõppe raamatukogul PyTorch. PySyft on mõeldud privaatse ja turvalise süvaõppe tagamiseks serverite ja agentide vahel, kasutades krüpteeritud arvutusi. Samal ajal on Tensorflow Federated veel üks avatud lähtekoodiga raamistik, mis on ehitatud Google'i Tensorflow platvormile. Lisaks sellele, et kasutajad saavad luua oma algoritme, võimaldab Tensorflow Federated kasutajatel simuleerida mitmeid kaasatud ühendatud õppealgoritme oma mudelite ja andmete põhjal. Lõpuks on FATE ka avatud lähtekoodiga raamistik, mille on välja töötanud Webbank AI ja mille eesmärk on pakkuda Federated AI ökosüsteemile turvaline andmetöötlusraamistik.

Ühendatud õppimise väljakutsed

Kuna liitõpe on alles üsna tekkimas, mitmeid väljakutseid selle täieliku potentsiaali saavutamiseks tuleb veel läbi rääkida. Servaseadmete koolitusvõimalused, andmete märgistamine ja standardimine ning mudelite ühtlustamine on potentsiaalsed takistused liitõppele.

Piiratud õppemeetodite kavandamisel tuleb kohaliku koolituse puhul arvestada ääreseadmete arvutusvõimega. Kuigi enamik nutitelefone, tahvelarvuteid ja muid asjade internetiga ühilduvaid seadmeid on võimelised treenima masinõppemudeleid, pärsib see tavaliselt seadme jõudlust. Mudeli täpsuse ja seadme jõudluse vahel tuleb teha kompromisse.

Andmete märgistamine ja standardiseerimine on veel üks väljakutse, mille liitõppesüsteemid peavad ületama. Järelevalvega õppemudelid nõuavad selgelt ja järjepidevalt märgistatud koolitusandmeid, mida võib paljudes süsteemi kuuluvates klientseadmetes olla keeruline teha. Sel põhjusel on oluline välja töötada mudelandmekonveierid, mis rakendavad silte automaatselt standardiseeritud viisil sündmuste ja kasutajatoimingute põhjal.

Mudeli lähenemisaeg on ühine õppe jaoks veel üks väljakutse, kuna liitõppe mudelite lähenemine võtab tavaliselt kauem aega kui kohalikult koolitatud mudelitel. Koolitusse kaasatud seadmete arv lisab mudelikoolitusele ettearvamatuse elemendi, kuna ühenduse probleemid, ebaregulaarsed värskendused ja isegi erinevad rakenduste kasutusajad võivad kaasa aidata lähenemisaja pikenemisele ja töökindluse vähenemisele. Sel põhjusel on ühendatud õppelahendused tavaliselt kõige kasulikumad, kui need pakuvad mudeli keskse väljaõppe ees olulisi eeliseid, näiteks juhtudel, kui andmestikud on äärmiselt suured ja hajutatud.

Foto: Jeromemetronome Wikimedia Commonsi kaudu, CC By SA 4.0 (https://en.wikipedia.org/wiki/File:Federated_learning_process_central_case.png)

Erialadega blogija ja programmeerija Masinõpe ja Sügav õppimine teemasid. Daniel loodab aidata teistel kasutada tehisintellekti jõudu sotsiaalseks hüvanguks.