stub Badania Google identyfikują wąskie gardło w hiperskalowych podejściach do sztucznej inteligencji – Unite.AI
Kontakt z nami

Artificial Intelligence

Badania Google identyfikują wąskie gardło w hiperskalowych podejściach do sztucznej inteligencji

mm
Zaktualizowano on

Nowy artykuł Google Research wskazuje, że obecna tendencja do przeglądania bardzo dużych zbiorów danych może przynieść efekt przeciwny do zamierzonego w rozwoju skutecznych systemów sztucznej inteligencji. W rzeczywistości badanie wskazuje, że w wyniku szkolenia mogą pojawić się lepsze produkty do uczenia maszynowego mniej dokładne (tj. technicznie „gorsze”) zbiory danych.

Jeśli zasady uzyskane przez badaczy są słuszne, oznacza to, że zbiory danych „hiperskalowych”, takie jak niedawno wydany LAION-400M (zawierający 400 milionów par tekst/obraz) oraz dane stojące za silnikiem języka neuronowego GPT-3 (zawierającym 175 miliardów parametrów) potencjalnie podlegają swego rodzaju „ograniczeniu termicznemu” w tradycyjnych i popularnych architekturach uczenia maszynowego i metodologie, w ramach których sama ilość danych „nasyca” dalsze aplikacje i zapobiega ich uogólnianiu w użyteczny sposób.

Badacze proponują także alternatywne metody ponownego przemyślenia architektury hiperskalowych zbiorów danych w celu przywrócenia równowagi.

Artykuł stwierdza:

„Zagłębiając się w zrozumienie przyczyn tych zjawisk, pokazujemy, że obserwowane przez nas zachowanie nasycenia jest ściśle powiązane ze sposobem, w jaki reprezentacje ewoluują poprzez warstwy modeli. Przedstawiamy jeszcze bardziej ekstremalny scenariusz, w którym wydajność na wyższym i niższym szczeblu łańcucha dostaw jest ze sobą sprzeczna. Oznacza to, że aby uzyskać lepszą wydajność w dalszej części procesu, musimy pogorszyć dokładność w fazie początkowej.

Połączenia „The Puzzle of Monogamous Marriage” jest zatytułowany Odkrywanie ograniczeń szkolenia wstępnego na dużą skalęi pochodzi od czterech autorów z Google Research.

Badanie „nasycenia”

Autorzy kwestionują dominujące założenia dotyczące uczenia maszynowego>relacji danych w erze danych hiperskalowych: że skalowanie modeli i rozmiaru danych w znaczący sposób poprawia wydajność (przekonanie, które ugruntowało się w szumie wokół GPT-3 od czasu jego premiery); oraz że ta poprawiona wydajność „przechodzi” na dalsze zadania w sposób liniowy (tj. pożądany), tak że algorytmy na urządzeniu, które ostatecznie zostaną wprowadzone na rynek, wywodzące się z niemożliwych do opanowania ogromnych zbiorów danych i niewydestylowanych wytrenowanych modeli, w pełni skorzystają z spostrzeżenia dotyczące pełnowymiarowych architektur wyższego szczebla.

„Te widoki” zauważają badacze „sugerują, że wydatkowanie wysiłków obliczeniowych i badawczych na poprawę wydajności jednego ogromnego korpusu opłaciłoby się, ponieważ umożliwiłoby nam to rozwiązanie wielu dalszych zadań niemal za darmo”.

W artykule stwierdzono jednak, że brak zasobów obliczeniowych i wynikające z tego „ekonomiczne” metody oceny modelu przyczyniają się do fałszywego wrażenia na temat dynamiki relacji między ilością danych a użytecznymi systemami sztucznej inteligencji. Autorzy identyfikują ten nawyk jako „główną wadę”, ponieważ społeczność badawcza zazwyczaj zakłada, że ​​lokalne (pozytywne) wyniki przełożą się na przydatne późniejsze wdrożenia:

„[Z powodu] ograniczeń obliczeniowych nie jest raportowana wydajność dla różnych wyborów wartości hiperparametrów. Wykresy skalowania wydają się korzystniejsze, jeśli hiperparametr wybrany dla każdej skali jest stały lub określony przez prostą funkcję skalowania.

Naukowcy stwierdzają ponadto, że wiele badań nad skalowaniem mierzy się nie w oparciu o skale bezwzględne, ale jako stopniowe udoskonalenia w stosunku do aktualnego stanu wiedzy (SotA), zauważając, że „nie ma a priori powodu, aby skalowanie miało obowiązywać poza badanego zakresu”.

Trening wstępny

W artykule omówiono praktykę „uczenia wstępnego”, środka mającego na celu oszczędzanie zasobów obliczeniowych i skrócenie często straszliwych ram czasowych potrzebnych do uczenia modelu na danych o dużej skali od zera. Migawki przedtreningowe obsługują „ABC” sposobu, w jaki dane w jednej domenie zostaną uogólnione podczas szkolenia i są powszechnie stosowane w różnych sektorach i specjalnościach uczenia maszynowego, od przetwarzania języka naturalnego (NLP) po deepfakes.

Wcześniejsze badania akademickie znaleziono że wstępne uczenie może znacząco poprawić solidność i dokładność modelu, ale nowy artykuł sugeruje, że złożoność funkcji, nawet w stosunkowo krótko wytrenowanych szablonach przedtreningowych, może przynieść większe korzyści, jeśli zostanie przeniesiona do późniejszych procesów w przygotowaniu .

Nie będzie to jednak możliwe, jeśli badacze w dalszym ciągu będą polegać na wstępnie wyszkolonych modelach, które wykorzystują aktualne najlepsze praktyki w zakresie stosowania współczynników uczenia się, co – jak wynika z badania – może w szczególności wpłynąć na ostateczną dokładność końcowych zastosowań pracy. W tym względzie autorzy zauważają, że „nie można mieć nadziei na znalezienie jednego wstępnie przeszkolonego punktu kontrolnego, który dobrze poradzi sobie ze wszystkimi możliwymi zadaniami dalszych etapów”.

Badania

Aby ustalić efekt nasycenia, autorzy przeprowadzili 4800 eksperymentów na transformatorach wizyjnych, sieciach ResNet i mikserach MLP, każdy z różną liczbą parametrów, od 10 milionów do 10 miliardów, a wszystkie zostały przeszkolone w oparciu o zbiory danych o największej objętości dostępne w odpowiednich sektorach. w tym ImageNet21K i Google JFT-300M.

Wyniki, jak twierdzi gazeta, pokazują to różnorodność danych należy traktować jako dodatkową oś przy próbie „skalowania” danych, parametrów modelu i czasu obliczeń. W obecnej sytuacji duża koncentracja zasobów szkoleniowych (i uwagi badaczy) na górnym odcinku rurociągu AI skutecznie zasypuje aplikacje znajdujące się na niższym szczeblu łańcucha dostaw lawiną parametrów aż do punktu „nasycenia”, obniżając zdolność wdrożonych algorytmów do nawigacji poprzez funkcje i przeprowadzać wnioskowanie lub transformacje efektów.

Artykuł kończy się następująco:

„W wyniku szeroko zakrojonych badań ustaliliśmy, że w miarę poprawiania wydajności zadań nadrzędnych poprzez zwiększanie skali lub dokonywanie wyborów dotyczących hiperparametrów i architektury, wykonywanie zadań końcowych wykazuje nasycanie. Ponadto dostarczamy mocnych dowodów empirycznych na to, że wbrew powszechnej opinii skalowanie nie prowadzi do rozwiązania w postaci jednego modelu pasującego do wszystkich”.