Sztuczna inteligencja

Destylowane Giganci: Dlaczego Musimy Przebudować Rozwój Małych Modeli AI

mm

W ostatnich latach wyścig w rozwoju coraz większych modeli AI zauroczył branżę technologiczną. Te modele, z ich miliardami parametrów, obiecują przełomowe postępy w różnych dziedzinach, od przetwarzania języka naturalnego do rozpoznawania obrazów. Jednakże, ten nieustanny pościg za wielkością wiąże się z znaczącymi wadami w postaci wysokich kosztów i znacznego wpływu na środowisko. Podczas gdy małe modele AI oferują obiecującą alternatywę, zapewniając wydajność i niższe zużycie energii, obecny sposób budowania ich wciąż wymaga znacznych zasobów. Podczas gdy będziemy dążyć do małych i bardziej zrównoważonych modeli AI, ważne jest, abyśmy zbadali nowe strategie, które skutecznie rozwiążą te ograniczenia.

Małe Modele AI: Zrównoważone Rozwiązanie Wysokich Kosztów i Wymagań Energetycznych

Rozwój i utrzymanie dużych modeli AI jest drogim przedsięwzięciem. Szacunki wskazują, że trening GPT-3 kosztuje ponad 4 miliony dolarów, a bardziej zaawansowane modele mogą osiągnąć wysokie, pojedyncze miliony. Te koszty, w tym niezbędne urządzenia, przechowywanie, moc obliczeniowa i zasoby ludzkie, są ograniczającymi dla wielu organizacji, szczególnie mniejszych przedsiębiorstw i instytucji badawczych. Ta bariera finansowa tworzy nierówny podział, ograniczając dostęp do najnowocześniejszej technologii AI i utrudniając innowacje.

Co więcej, wymagania energetyczne związane z treningiem dużych modeli AI są oszałamiające. Na przykład, trening dużego modelu językowego, takiego jak GPT-3, szacuje się, że zużywa prawie 1,300 megawatogodzin (MWh) energii elektrycznej – co odpowiada rocznemu zużyciu energii przez 130 amerykańskich gospodarstw domowych. Pomimo tego znacznego kosztu treningu, każde żądanie ChatGPT powoduje koszt inferencji 2,9 watogodzin. Międzynarodowa Agencja Energetyczna (IEA) szacuje, że łączne zapotrzebowanie na energię AI, centrów danych i kryptowalut stanowiło prawie 2 procent globalnego zapotrzebowania na energię. To zapotrzebowanie ma się podwoić do 2026 roku, zbliżając się do całkowitego zużycia energii elektrycznej w Japonii. Wysokie zużycie energii nie tylko zwiększa koszty operacyjne, ale także przyczynia się do śladu węglowego, pogarszając kryzys środowiskowy. Aby to uwidocznić, naukowcy szacują, że trening jednego dużego modelu AI może emitować ponad 626 000 funtów dwutlenku węgla, co odpowiada emisjom pięciu samochodów przez cały ich okres eksploatacji.

W obliczu tych wyzwań, Małe Modele AI zapewniają praktyczne rozwiązanie. Są one zaprojektowane, aby być bardziej wydajne i skalowalne, wymagając znacznie mniej danych i mocy obliczeniowej. To redukuje ogólne koszty i sprawia, że zaawansowana technologia AI staje się bardziej dostępna dla mniejszych organizacji i zespołów badawczych. Co więcej, małe modele AI mają niższe wymagania energetyczne, co pomaga obniżyć koszty operacyjne i zmniejsza ich wpływ na środowisko. Poprzez wykorzystanie zoptymalizowanych algorytmów i metod, takich jak transfer learning, małe modele AI mogą osiągnąć wysoką wydajność przy użyciu mniejszych zasobów. Ten podejście nie tylko sprawia, że AI staje się bardziej przystępne, ale także wspiera zrównoważoność, minimalizując zarówno zużycie energii, jak i emisje dwutlenku węgla.

Jak Budowane Są Dzisiaj Małe Modele AI

Rozpoznając zalety małych modeli AI, główne firmy technologiczne, takie jak Google, OpenAI i Meta, coraz bardziej koncentrują się na tworzeniu kompaktowych modeli. To przesunięcie doprowadziło do ewolucji modeli, takich jak Gemini Flash, GPT-4o Mini i Llama 7B. Te mniejsze modele są głównie opracowywane przy użyciu techniki zwanej destylacją wiedzy.

W swojej istocie, destylacja polega na przeniesieniu wiedzy dużego, złożonego modelu do mniejszego, bardziej wydajnego. W tym procesie model “nauczyciel” – duży model AI – jest trenowany na obszernych zbiorach danych, aby nauczyć się skomplikowanych wzorców i niuansów. Ten model następnie generuje predykcje lub “miękkie etykiety”, które ujmują jego głębokie zrozumienie.

Model “uczeń”, który jest małym modelem AI, jest trenowany, aby odtworzyć te miękkie etykiety. Poprzez naśladownictwo zachowania modelu nauczyciela, model ucznia przechwytuje znaczną część jego wiedzy i wydajności, przy jednoczesnym funkcjonowaniu z znacznie mniejszą liczbą parametrów.

Dlaczego Musimy Wyjść Poza Destylację Dużych Modeli AI

Chociaż destylacja dużych modeli AI w mniejsze, bardziej zarządzalne wersje stała się popularnym podejściem do tworzenia małych modeli AI, istnieją kilka przekonywujących powodów, dla których ten podejście może nie być rozwiązaniem wszystkich wyzwań w rozwoju dużych modeli AI.

  • Nadal Zależność od Dużych Modeli: Chociaż destylacja tworzy mniejsze, bardziej wydajne modele AI i poprawia efektywność obliczeniową i energetyczną w czasie inferencji, nadal silnie opiera się na treningu dużych modeli AI początkowo. To oznacza, że tworzenie małych modeli AI wciąż wymaga znacznych zasobów obliczeniowych i energii, prowadząc do wysokich kosztów i wpływu na środowisko, nawet przed destylacją. Konieczność wielokrotnego treningu dużych modeli do destylacji przenosi ciężar zasobów, zamiast go eliminować. Chociaż destylacja ma na celu zredukowanie rozmiaru i kosztów modeli AI, nie eliminuje znacznych początkowych kosztów związanych z treningiem dużych modeli “nauczycieli”. Te wstępne wydatki mogą być szczególnie trudne dla mniejszych organizacji i grup badawczych. Co więcej, wpływ na środowisko związany z treningiem tych dużych modeli może negować niektóre korzyści z używania mniejszych, bardziej wydajnych modeli, ponieważ ślad węglowy z fazy treningu początkowego pozostaje znaczący.
  • Ograniczony Zakres Innowacji: Uznawanie destylacji może ograniczyć innowacje, koncentrując się na replikowaniu istniejących dużych modeli, zamiast na badaniu nowych podejść. To może spowolnić rozwój nowych architektur AI lub metod, które mogą zapewnić lepsze rozwiązania dla konkretnych problemów. Zależność od dużych modeli AI ogranicza rozwój małych modeli AI w rękach kilku zasobowo bogatych firm. W rezultacie, korzyści z małych modeli AI nie są równo rozłożone, co może utrudniać szerszy postęp technologiczny i ograniczać możliwości innowacji.
  • Wyzwania z Uogólnieniem i Adaptacją: Małe modele AI tworzone za pomocą destylacji często mają trudności z nowymi, nieznanymi danymi. To się dzieje, ponieważ proces destylacji może nie w pełni uchwycić zdolności większego modelu do uogólnienia. W rezultacie, chociaż te mniejsze modele mogą działać dobrze w znanych zadaniach, często napotykają trudności, gdy spotykają nowe sytuacje. Co więcej, adaptacja destylowanych modeli do nowych modalności lub zbiorów danych często wymaga ponownego treningu lub dostrajania większego modelu najpierw. Ten iteracyjny proces może być złożony i wymagający zasobów, co utrudnia szybką adaptację małych modeli AI do szybko ewoluujących potrzeb technologicznych lub nowych zastosowań.

Podsumowanie

Chociaż destylacja dużych modeli AI w mniejsze może się wydawać praktycznym rozwiązaniem, nadal opiera się na wysokich kosztach treningu dużych modeli. Aby naprawdę postąpić w rozwoju małych modeli AI, musimy zbadać bardziej innowacyjne i zrównoważone praktyki. To oznacza tworzenie modeli zaprojektowanych dla konkretnych zastosowań, poprawę metod treningu, aby były bardziej efektywne pod względem kosztów i energii, oraz koncentrowanie się na zrównoważoności środowiskowej. Poprzez realizację tych strategii, możemy rozwijać technologie AI w sposób odpowiedzialny i korzystny zarówno dla przemysłu, jak i planety.

Dr. Tehseen Zia jest profesorem nadzwyczajnym w COMSATS University Islamabad, posiada tytuł doktora w dziedzinie sztucznej inteligencji na Vienna University of Technology, Austria. Specjalizując się w sztucznej inteligencji, uczeniu maszynowym, nauce o danych i widzeniu komputerowym, wniósł znaczący wkład poprzez publikacje w renomowanych czasopismach naukowych. Dr. Tehseen Zia również kierował różnymi projektami przemysłowymi jako główny badacz i pełnił funkcję konsultanta ds. sztucznej inteligencji.