stomp Uber's Fiber is een nieuw gedistribueerd AI-modeltrainingskader - Unite.AI
Verbind je met ons

Artificial Intelligence

Uber's Fiber is een nieuw gedistribueerd AI-modeltrainingskader

mm
Bijgewerkt on

Volgens VentureBeat, hebben AI-onderzoekers van Uber onlangs gepost een papier aan Arxiv schetsen van een nieuw platform dat bedoeld is om te helpen bij het maken van gedistribueerde AI-modellen. Het platform wordt genoemd Glasvezel, en het kan worden gebruikt om zowel versterkende leertaken als populatiegebaseerd leren aan te sturen. Fiber is ontworpen om grootschalige parallelle berekeningen toegankelijker te maken voor niet-experts, zodat ze kunnen profiteren van de kracht van gedistribueerde AI-algoritmen en -modellen.

Glasvezel is onlangs open-source gemaakt op GitHub en is compatibel met Python 3.6 of hoger, waarbij Kubernetes op een Linux-systeem draait en in een cloudomgeving draait. Volgens het team van onderzoekers is het platform in staat om gemakkelijk op te schalen naar honderden of duizenden individuele machines.

Het team van onderzoekers van Uber legt uit dat veel van de meest recente en relevante ontwikkelingen op het gebied van kunstmatige intelligentie zijn aangestuurd door grotere modellen en meer algoritmen die zijn getraind met behulp van gedistribueerde trainingstechnieken. Het creëren van op populatie gebaseerde modellen en versterkingsmodellen blijft echter een moeilijke taak voor gedistribueerde opleidingsprogramma's, omdat ze vaak problemen hebben met efficiëntie en flexibiliteit. Glasvezel maakt het gedistribueerde systeem betrouwbaarder en flexibeler door clusterbeheersoftware te combineren met dynamisch schalen en gebruikers hun taken naadloos van één machine naar een groot aantal machines te laten verplaatsen.

Glasvezel bestaat uit drie verschillende componenten: een API, een backend en een clusterlaag. Met de API-laag kunnen gebruikers zaken als wachtrijen, managers en processen maken. Met de backend-laag van Fiber kan de gebruiker taken maken en beëindigen die door verschillende clusters worden beheerd, en de clusterlaag beheert de individuele clusters zelf samen met hun bronnen, wat het aantal items dat Fiber in de gaten moet houden enorm vergroot.

Dankzij glasvezel kunnen taken in de wachtrij worden geplaatst en op afstand worden uitgevoerd op één lokale computer of op veel verschillende machines, waarbij gebruik wordt gemaakt van het concept van door taken ondersteunde processen. Glasvezel maakt ook gebruik van containers om ervoor te zorgen dat zaken als invoergegevens en afhankelijke pakketten op zichzelf staan. Het Fiber-framework bevat zelfs ingebouwde foutafhandeling, zodat als een werknemer crasht, deze snel weer tot leven kan worden gewekt. FIber kan dit allemaal doen terwijl het communiceert met clusterbeheerders, waardoor Fiber-apps kunnen werken alsof het normale apps zijn die op een bepaald computercluster draaien.

Experimentele resultaten toonden aan dat de responstijd van Fiber gemiddeld enkele milliseconden was en dat het ook beter opschaalde dan basis-AI-technieken wanneer gebouwd met 2,048 processorcores/werkers. De tijd die nodig was om taken te voltooien, nam geleidelijk af naarmate het ingestelde aantal werknemers toenam. IPyParallel voltooide 50 iteraties van training in ongeveer 1400 seconden, terwijl Fiber dezelfde 50 iteraties van training in ongeveer 50 seconden kon voltooien met 512 beschikbare werknemers.

De co-auteurs van het Fiber-papier verklaren dat Fiber in staat is om meerdere doelen te bereiken, zoals het dynamisch schalen van algoritmen en het gebruik van grote hoeveelheden rekenkracht:

"[Ons werk laat zien] dat glasvezel veel doelen bereikt, waaronder het efficiënt benutten van een grote hoeveelheid heterogene computerhardware, het dynamisch opschalen van algoritmen om de efficiëntie van het gebruik van hulpbronnen te verbeteren, het verminderen van de technische last die nodig is om [reinforcement learning] en populatiegebaseerde algoritmen te laten werken aan computerclusters en snelle aanpassing aan verschillende computeromgevingen om de onderzoeksefficiëntie te verbeteren. We verwachten dat het verdere vooruitgang mogelijk zal maken bij het oplossen van harde [reinforcement learning] problemen met [reinforcement learning] algoritmen en op populatie gebaseerde methoden door het gemakkelijker te maken om deze methoden te ontwikkelen en ze te trainen op de schaal die nodig is om ze echt te zien schitteren.

Blogger en programmeur met specialiteiten in Machine leren en Diepe leren onderwerpen. Daniel hoopt anderen te helpen de kracht van AI te gebruiken voor maatschappelijk welzijn.