Connect with us

Sztuczna inteligencja

Google sprawia, że szkolenie AI jest o 28% szybsze, używając SLM jako nauczycieli

mm

Szkolenie dużych modeli językowych (LLM) stało się niedostępne dla większości organizacji. Z kosztami sięgającymi milionów i wymaganiami obliczeniowymi, które sprawiłyby, że superkomputer zapociłby się, rozwój AI pozostał zamknięty za drzwiami gigantów technologicznych. Ale Google właśnie odwróciło tę historię o 180 stopni dzięki podejściu tak prostemu, że aż dziw, że nikt wcześniej na to nie wpadł: używając mniejszych modeli AI jako nauczycieli.

Jak działa SALT: nowe podejście do szkolenia modeli AI

W niedawnym artykule badawczym pt. “A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs,” Google Research i DeepMind przedstawiły SALT (Small model Aided Large model Training). To nowatorskie metody wyzwania naszego tradycyjnego podejścia do szkolenia LLM.

Dlaczego to badanie jest istotne? Obecnie szkolenie dużych modeli AI jest jak próba nauczenia kogoś wszystkiego, co potrzebne, na raz – jest niewydajne, drogie i często ograniczone do organizacji z ogromnymi zasobami obliczeniowymi. SALT przyjmuje inny ślad, wprowadzając dwuetapowy proces szkolenia, który jest zarówno innowacyjny, jak i praktyczny.

Rozbicie, jak SALT działa:

Etap 1: Destylacja wiedzy

  • Mniejszy model językowy (SLM) działa jako nauczyciel, dzieląc się swoim zrozumieniem z większym modelem
  • Mniejszy model koncentruje się na przeniesieniu swojej “nabytej wiedzy” za pomocą tego, co badacze nazywają “miękkimi etykietami”
  • Wyobraź sobie to jak asystent dydaktyczny zajmujący się podstawowymi pojęciami, zanim student przejdzie do zaawansowanych tematów
  • Ten etap jest szczególnie skuteczny w “łatwych” obszarach uczenia – obszarach, w których mniejszy model ma silną pewność predykcyjną

Etap 2: Samouczne uczenie

  • Duży model przechodzi do niezależnego uczenia
  • Koncentruje się na opanowaniu złożonych wzorców i wyzwaniach
  • To jest miejsce, w którym model rozwija możliwości poza tym, co mógłby zapewnić jego mniejszy “nauczyciel”
  • Przejście między etapami wykorzystuje starannie opracowane strategie, w tym liniowy spadek i liniowy spadek współczynnika straty destylacji

W nie technicznych słowach, wyobraź sobie, że mniejszy model AI jest jak pomocny tutor, który prowadzi większy model w początkowych etapach szkolenia. Ten tutor dostarcza dodatkowe informacje wraz z odpowiedziami, wskazując, jak pewny jest co do każdej odpowiedzi. Te dodatkowe informacje, znane jako “miękkie etykiety”, pomagają większemu modelowi uczyć się szybciej i skuteczniej.

Teraz, gdy większy model AI staje się bardziej zdolny, musi przejść od polegania na tutorze do samodzielnego uczenia. To jest miejsce, w którym “liniowy spadek” i “liniowy spadek współczynnika” zaczynają grać.
Wyobraź sobie te techniki jako stopniowe zmniejszanie wpływu tutora w czasie:
  • Liniowy spadek: To jak powolne zmniejszanie głośności głosu tutora. Wskazówki tutora stają się mniej wyraźne z każdym krokiem, pozwalając większemu modelowi skoncentrować się bardziej na uczeniu się z samych danych.
  • Liniowy spadek współczynnika: To jak dostosowanie balansu między wskazówkami tutora a samym zadaniem. W miarę postępu szkolenia, nacisk przenosi się bardziej na oryginalne zadanie, podczas gdy wpływ tutora staje się mniej dominujący.
Celem obu technik jest zapewnienie gładkiego przejścia dla większego modelu AI, uniemożliwiając jakiekolwiek nagłe zmiany w jego zachowaniu podczas uczenia. 

Wyniki są przekonywujące. Gdy badacze Google przetestowali SALT, używając 1,5-miliardowego parametru SLM do szkolenia 2,8-miliardowego parametru LLM na zestawie danych Pile, zobaczyli:

  • 28% redukcję czasu szkolenia w porównaniu z tradycyjnymi metodami
  • Znaczące polepszenia wyników po dalszym szkoleniu:
    • Dokładność rozwiązywania problemów matematycznych skoczyła do 34,87% (w porównaniu z 31,84% bazowym)
    • Zrozumienie czytania osiągnęło 67% dokładności (wzrost z 63,7%)

Ale to, co sprawia, że SALT jest naprawdę innowacyjne, to jego teoretyczna ramka. Badacze odkryli, że nawet “słabszy” model nauczyciela może poprawić wyniki ucznia, osiągając to, co nazywają “korzystnym kompromisem między biasem a wariancją”. W prostszych słowach, mniejszy model pomaga większemu modelowi nauczyć się podstawowych wzorców bardziej wydajnie, tworząc silniejszą podstawę dla zaawansowanego uczenia.

Dlaczego SALT może zmienić pole rozgrywki w rozwoju AI

Pamiętaj, kiedy chmura obliczeniowa zmieniła, kto mógł założyć firmę technologiczną? SALT może zrobić to samo dla rozwoju AI.

Obserwuję innowacje w szkoleniu AI od lat, a większość przełomów przyniosła głównie korzyści gigantom technologicznym. Ale SALT jest inny.

Oto, co to może oznaczać dla przyszłości:

Dla organizacji o ograniczonych zasobach:

  • Możesz już nie potrzebować ogromnej infrastruktury obliczeniowej, aby rozwijać zdolne modele AI
  • Mniejsze laboratoria badawcze i firmy mogą eksperymentować z rozwojem niestandardowych modeli
  • 28% redukcja czasu szkolenia przekłada się bezpośrednio na niższe koszty obliczeniowe
  • Co więcej, możesz zacząć od skromnych zasobów obliczeniowych i nadal osiągać profesjonalne wyniki

Dla pejzażu rozwoju AI:

  • Więcej graczy może wejść na rynek, prowadząc do bardziej zróżnicowanych i wyspecjalizowanych rozwiązań AI
  • Uniwersytety i instytucje badawcze mogą prowadzić więcej eksperymentów ze swoimi istniejącymi zasobami
  • Bariera wejścia do badań AI spada znacząco
  • Możemy zobaczyć nowe zastosowania w dziedzinach, które wcześniej nie mogły sobie pozwolić na rozwój AI

Co to oznacza dla przyszłości

Używając mniejszych modeli jako nauczycieli, nie tylko sprawiamy, że szkolenie AI staje się bardziej wydajne – zmieniamy również fundamentalnie, kto może uczestniczyć w rozwoju AI. Wnioski idą daleko poza same ulepszenia techniczne.

Kluczowe punkty do zapamiętania:

  • Redukcja czasu szkolenia o 28% to różnica między rozpoczęciem projektu AI a uznaniem go za niedostępny
  • Ulepszenia wyników (34,87% w matematyce, 67% w zadaniach czytania) pokazują, że dostępność nie zawsze oznacza kompromis w jakości
  • Podejście SALT dowodzi, że czasem najlepsze rozwiązania pochodzą z ponownego rozważenia podstaw, a nie tylko dodania większej mocy obliczeniowej

Co obserwować:

  1. Zwróć uwagę na mniejsze organizacje, które zaczynają rozwijać niestandardowe modele AI
  2. Obserwuj nowe zastosowania w dziedzinach, które wcześniej nie mogły sobie pozwolić na rozwój AI
  3. Szukaj innowacji w tym, jak mniejsze modele są używane do specjalistycznych zadań

Pamiętaj: Prawdziwa wartość SALT leży w tym, jak może zmienić, kto innowuje w AI. Niezależnie od tego, czy prowadzisz laboratorium badawcze, zarządzasz zespołem technicznym, czy po prostu interesujesz się rozwojem AI, ten przełom może sprawić, że Twoja następna wielka idea stanie się możliwa.

Może zacznij myśleć o tym projekcie AI, który wydawał się niedostępny. Może jest bardziej możliwy, niż się wydaje.

Alex McFarland jest dziennikarzem i pisarzem zajmującym się sztuczną inteligencją, który bada najnowsze rozwoje w dziedzinie sztucznej inteligencji. Współpracował z licznymi startupami i wydawnictwami związanymi z sztuczną inteligencją na całym świecie.