Sztuczna inteligencja
Naukowcy odkrywają wysoce wydajne podsieci w głębokich sieciach neuronowych

Głębokie sieci neuronowe często są ogromne i wymagają ogromnych ilości mocy obliczeniowej, ale nowe odkrycie pokazuje, jak można to zmniejszyć, aby wykonywać zadania bardziej efektywnie. Jonathan Frankle i jego zespół z MIT opracowali hipotezę “losowego biletu”, która pokazuje, że istnieją lżejsze podsieci w ramach większych sieci neuronowych. Te podsieci mogą wykonywać zadanie bardziej efektywnie, przy mniejszej wymaganej mocy obliczeniowej, a jednym z największych wyzwań jest znalezienie tych podsieci, czyli tzw. wygranych losów.
Zespół odkrył te podsieci w ramach BERT, najnowocześniejszej techniki maszynowego uczenia się do przetwarzania języka naturalnego (NLP). NLP, która jest podpolem sztucznej inteligencji (AI), jest odpowiedzialna za odczytywanie i analizowanie języka ludzkiego i jest używana w aplikacjach takich jak generowanie tekstu predykcyjnego i czatboty.
Jednak BERT jest duży i wymaga mocy obliczeniowej superkomputera, która jest niedostępna dla większości użytkowników. Z nowym odkryciem tych podsieci, może to otworzyć dostęp do tej technologii, umożliwiając większej liczbie użytkowników rozwijanie narzędzi NLP.
„Dotykamy punktu, w którym będziemy musieli uczynić te modele lżejszymi i bardziej efektywnymi”, mówi Frankle.
Według niego, ten rozwój może „zmniejszyć bariery wejścia” do NLP.
BERT – „Oszczędnie drogi”
BERT jest podstawą dla rzeczy takich jak wyszukiwarka Google i zyskał dużą uwagę od momentu, gdy Google wydał go w 2018 roku. Jest to metoda tworzenia sieci neuronowych i jest szkolony przez wielokrotne próby wypełniania luk w pasażach pisarskich. Jedną z najbardziej imponujących cech BERT jest jego ogromny początkowy zestaw danych szkoleniowych.
Później może być dostosowany przez użytkowników do konkretnych zadań, takich jak czatboty do obsługi klienta, ale ponownie, wymaga ogromnych ilości mocy obliczeniowej, z możliwością osiągnięcia 1 miliarda parametrów.
„Standardowy model BERT – tzw. ogrodowy – ma 340 milionów parametrów”, mówi Frankle. „To jest po prostu oszczędnie drogie. To jest daleko poza możliwościami obliczeniowymi ciebie lub mnie.”
Według głównego autora Tianlong Chen z Uniwersytetu Teksasu w Austin, modele takie jak BERT „cierpią z powodu ogromnego rozmiaru sieci”, ale dzięki nowemu badaniu, „hipoteza losowego biletu wydaje się być rozwiązaniem”.
Wydajne podsieci
Chen i zespół szukali mniejszego modelu w ramach BERT i porównali wyniki odkrytych podsieci z oryginalnym modelem BERT. To było przetestowane na różnych zadaniach NLP, w tym odpowiedzi na pytania i wypełnianie luk w zdaniach.
Zespół odkrył udane podsieci, które były o 40 do 90 procent lżejsze niż oryginalny model BERT, z rzeczywistym procentem zależnym od zadania. Ponadto, mogli je zidentyfikować przed zadaniem specyficznym dla fine-tuningu, co wynika w jeszcze mniejszych kosztach obliczeniowych. Inną zaletą było to, że niektóre z podsieci wybrane dla konkretnego zadania mogły być ponownie wykorzystane do innego.
„Byłem trochę zaskoczony, że to w ogóle działa”, mówi Frankle. „To nie jest coś, co brałem za pewnik. Oczekiwałem znacznie bardziej chaotycznego wyniku niż ten, który otrzymaliśmy.”
Według Ari Morcos, naukowca w Facebook AI Research, to odkrycie jest „przekonywujące”, a „te modele stają się coraz bardziej powszechne. Więc jest ważne, aby zrozumieć, czy hipoteza losowego biletu jest prawdziwa.”
Morcos dodaje, że jeśli te podsieci mogą działać przy użyciu znacznie mniejszej mocy obliczeniowej, to „będzie to bardzo wpływowe, biorąc pod uwagę, że te ogromne modele są obecnie bardzo drogie w uruchomieniu.”
„Nie wiem, jak dużo większe możemy iść, używając tych superkomputerowych obliczeń”, dodaje Frankle. „Będziemy musieli zmniejszyć barierę wejścia.”
„Nadzieja jest taka, że to zmniejszy koszty, że to uczyni to bardziej dostępnym dla wszystkich… dla małych firm, które mają tylko laptop”, kończy.
Badanie ma być przedstawione na Konferencji o przetwarzaniu informacji neuronowej.












