stub Ubers fiber er et nytt distribuert AI Model Training Framework - Unite.AI
Kontakt med oss

Kunstig intelligens

Ubers fiber er et nytt distribuert AI Model Training Framework

mm
oppdatert on

Ifølge VentureBeat, har AI-forskere ved Uber nylig lagt ut et papir til Arxiv skisserer en ny plattform beregnet på å hjelpe til med å lage distribuerte AI-modeller. Plattformen heter Fiber, og den kan brukes til å drive både forsterkende læringsoppgaver og befolkningsbasert læring. Fiber er designet for å gjøre storskala parallellberegning mer tilgjengelig for ikke-eksperter, slik at de kan dra nytte av kraften til distribuerte AI-algoritmer og -modeller.

Fiber har nylig blitt gjort åpen kildekode på GitHub, og den er kompatibel med Python 3.6 eller nyere, med Kubernetes som kjører på et Linux-system og kjører i et skymiljø. Ifølge teamet av forskere er plattformen i stand til enkelt å skalere opp til hundrevis eller tusenvis av individuelle maskiner.

Forskerteamet fra Uber forklarer at mange av de nyeste og mest relevante fremskrittene innen kunstig intelligens har vært drevet av større modeller og flere algoritmer som trenes ved hjelp av distribuerte treningsteknikker. Å lage befolkningsbaserte modeller og forsterkningsmodeller er imidlertid fortsatt en vanskelig oppgave for distribuerte opplæringsordninger, siden de ofte har problemer med effektivitet og fleksibilitet. Fiber gjør det distribuerte systemet mer pålitelig og fleksibelt ved å kombinere klyngeadministrasjonsprogramvare med dynamisk skalering og la brukere flytte jobbene sine fra én maskin til et stort antall maskiner sømløst.

Fiber er laget av tre forskjellige komponenter: en API, en backend og et klyngelag. API-laget gjør det mulig for brukere å lage ting som køer, ledere og prosesser. Backend-laget til Fiber lar brukeren opprette og avslutte jobber som administreres av forskjellige klynger, og klyngelaget administrerer de enkelte klyngene selv sammen med ressursene deres, som i stor grad er antallet elementer som Fiber må holde styr på.

Fiber gjør det mulig å sette jobber i kø og kjøre eksternt på én lokal maskin eller mange forskjellige maskiner, ved å bruke konseptet med jobbstøttede prosesser. Fiber bruker også beholdere for å sikre at ting som inndata og avhengige pakker er selvstendige. Fiber-rammeverket inkluderer til og med innebygd feilhåndtering, slik at hvis en arbeider krasjer, kan den raskt gjenopplives. FIber er i stand til å gjøre alt dette mens de samhandler med klyngeadministratorer, og lar Fiber-apper kjøre som om de var vanlige apper som kjører på en gitt datamaskinklynge.

Eksperimentelle resultater viste at Fibers responstid i gjennomsnitt var noen få millisekunder, og at den også skaleres opp bedre enn grunnleggende AI-teknikker når den ble bygget med 2,048 prosessorkjerner/arbeidere. Tiden som kreves for å fullføre jobber, avtok gradvis etter hvert som det angitte antallet arbeidere økte. IPyParallel fullførte 50 iterasjoner med trening på omtrent 1400 sekunder, mens Fiber var i stand til å fullføre de samme 50 iterasjonene med trening på omtrent 50 sekunder med 512 arbeidere tilgjengelig.

Medforfatterne av Fiber-papiret forklare at Fiber er i stand til å oppnå flere mål som dynamisk skalering av algoritmer og bruk av store mengder datakraft:

"[Vårt arbeid viser] at Fiber oppnår mange mål, inkludert effektiv utnyttelse av en stor mengde heterogen datamaskinvare, dynamisk skalering av algoritmer for å forbedre ressursbrukseffektiviteten, redusere ingeniørbyrden som kreves for å få [forsterkningslæring] og populasjonsbaserte algoritmer til å fungere på dataklynger, og raskt tilpasse seg ulike datamiljøer for å forbedre forskningseffektiviteten. Vi forventer at det vil muliggjøre videre fremgang i å løse vanskelige [forsterkningslæring]-problemer med [forsterkningslæring]-algoritmer og populasjonsbaserte metoder ved å gjøre det lettere å utvikle disse metodene og trene dem i de skalaene som er nødvendige for å virkelig se dem skinne."