stub Uber's Fibre to nowa platforma szkoleniowa dotycząca rozproszonego modelu sztucznej inteligencji — Unite.AI
Kontakt z nami

Artificial Intelligence

Uber's Fibre to nowa platforma szkoleniowa dotycząca rozproszonego modelu sztucznej inteligencji

mm
Zaktualizowano on

Według VentureBeat, opublikowali niedawno badacze sztucznej inteligencji w Uberze pismo do Arxiv zarys nowej platformy, która ma pomóc w tworzeniu rozproszonych modeli sztucznej inteligencji. Platforma nazywa się Włóknoi można go używać do kierowania zarówno zadaniami związanymi z uczeniem się przez wzmacnianie, jak i uczeniem się w oparciu o populację. Światłowód zaprojektowano tak, aby obliczenia równoległe na dużą skalę były bardziej dostępne dla osób niebędących ekspertami, umożliwiając im wykorzystanie mocy rozproszonych algorytmów i modeli sztucznej inteligencji.

Fibre został niedawno udostępniony jako open source w GitHub i jest kompatybilny z Pythonem 3.6 lub nowszym, a Kubernetes działa w systemie Linux i działa w środowisku chmury. Według zespołu badaczy platformę można łatwo skalować do setek lub tysięcy pojedynczych maszyn.

Zespół badaczy z Ubera wyjaśnia, że ​​wiele z najnowszych i istotnych osiągnięć w dziedzinie sztucznej inteligencji wynika z większych modeli i większej liczby algorytmów szkolonych przy użyciu technik uczenia rozproszonego. Jednak tworzenie modeli opartych na populacji i modeli wzmacniania pozostaje trudnym zadaniem w przypadku rozproszonych programów szkoleniowych, ponieważ często mają one problemy z wydajnością i elastycznością. Światłowód sprawia, że ​​rozproszony system jest bardziej niezawodny i elastyczny, łącząc oprogramowanie do zarządzania klastrami z dynamicznym skalowaniem i umożliwiając użytkownikom płynne przenoszenie zadań z jednej maszyny na dużą liczbę maszyn.

Światłowód składa się z trzech różnych komponentów: interfejsu API, zaplecza i warstwy klastra. Warstwa API umożliwia użytkownikom tworzenie kolejek, menedżerów i procesów. Warstwa zaplecza Fiber umożliwia użytkownikowi tworzenie i kończenie zadań zarządzanych przez różne klastry, natomiast warstwa klastrów zarządza pojedynczymi klastrami wraz z ich zasobami, co w dużym stopniu oznacza liczbę elementów, które Fibre musi mieć pod kontrolą.

Fibre umożliwia kolejkowanie zadań i ich zdalne uruchamianie na jednej lokalnej maszynie lub na wielu różnych maszynach, wykorzystując koncepcję procesów wspieranych przez zadania. Fiber wykorzystuje również kontenery, aby zapewnić niezależność danych wejściowych i pakietów zależnych. Framework Fibre zawiera nawet wbudowaną obsługę błędów, dzięki czemu w przypadku awarii procesu roboczego można go szybko przywrócić. FIber jest w stanie to wszystko zrobić podczas interakcji z menedżerami klastrów, pozwalając aplikacjom Fibre działać tak, jakby były normalnymi aplikacjami działającymi w danym klastrze komputerów.

Wyniki eksperymentów wykazały, że średni czas reakcji światłowodu wynosił kilka milisekund, a jego skalowanie było lepsze w porównaniu z podstawowymi technikami sztucznej inteligencji w przypadku budowy z 2,048 rdzeniami procesorów/procesorami roboczymi. Czas potrzebny na wykonanie pracy zmniejszał się stopniowo wraz ze wzrostem ustalonej liczby pracowników. IPyParallel ukończył 50 iteracji szkolenia w około 1400 sekund, podczas gdy Fibre był w stanie ukończyć te same 50 iteracji szkolenia w około 50 sekund przy dostępności 512 pracowników.

Współautorzy artykułu Fibre wyjaśniać które Fibre jest w stanie osiągnąć wiele celów, takich jak dynamiczne skalowanie algorytmów i wykorzystanie dużych ilości mocy obliczeniowej:

„[Nasza praca pokazuje], że Fibre osiąga wiele celów, w tym efektywnie wykorzystuje dużą ilość heterogenicznego sprzętu komputerowego, dynamicznie skaluje algorytmy w celu poprawy efektywności wykorzystania zasobów, zmniejsza obciążenie inżynieryjne wymagane do [uczenia się przez wzmacnianie] oraz algorytmy oparte na populacji działają na klastry komputerowe i szybkie dostosowywanie się do różnych środowisk obliczeniowych w celu poprawy efektywności badań. Oczekujemy, że w dalszym ciągu umożliwi postęp w rozwiązywaniu trudnych problemów [uczenia się przez wzmacnianie] za pomocą algorytmów [uczenia się przez wzmacnianie] i metod opartych na populacji, ułatwiając opracowywanie tych metod i trenowanie ich w skali niezbędnej, aby naprawdę błyszczały”.