Artificial Intelligence

Gemma: Google udostępnia zaawansowane możliwości sztucznej inteligencji za pośrednictwem oprogramowania Open Source

Opublikowany

3 miesięcy temu

29 lutego 2024 r.

W ostatnich latach w dziedzinie sztucznej inteligencji (AI) nastąpił ogromny postęp, w dużej mierze napędzany postępem w dziedzinie sztucznej inteligencji głęboka nauka i przetwarzanie języka naturalnego (NLP). Na czele tych postępów znajdują się duże modele językowe (LLM) – systemy sztucznej inteligencji szkolone na ogromnych ilościach danych tekstowych, które mogą generować tekst podobny do ludzkiego i angażować się w zadania konwersacyjne.

Narzędzia LLM, takie jak PaLM firmy Google, Claude firmy Anthropic i Gopher firmy DeepMind, wykazały niezwykłe możliwości, od kodowania po zdroworozsądkowe rozumowanie. Jednak większość tych modeli nie została udostępniona publicznie, co ogranicza ich dostęp do badań, rozwoju i korzystnych zastosowań.

Zmieniło się to wraz z niedawnym otwartym pozyskiwaniem Gemmy – rodziny LLM z Google DeepMind, opartej na ich potężnych, zastrzeżonych modelach Gemini. W tym poście na blogu zagłębimy się w Gemmę, analizując jej architekturę, proces szkolenia, wydajność i odpowiedzialne wydawanie.

Przegląd Gemmy

W lutym 2023 r. DeepMind otwarte źródła dwa rozmiary modeli Gemma – wersja o 2 miliardach parametrów zoptymalizowana pod kątem wdrażania na urządzeniu oraz większa wersja o 7 miliardach parametrów, przeznaczona do wykorzystania GPU/TPU.

Gemma wykorzystuje architekturę opartą na transformatorach i metodologię szkolenia podobną do wiodących modeli Gemini firmy DeepMind. Został wytrenowany na maksymalnie 6 bilionach tokenów tekstu z dokumentów internetowych, matematyki i kodu.

Firma DeepMind udostępniła zarówno surowe, wstępnie wyszkolone punkty kontrolne Gemmy, jak i wersje dopracowane pod kątem nadzorowanego uczenia się i informacji zwrotnych od ludzi w celu zwiększenia możliwości w obszarach takich jak dialog, wykonywanie instrukcji i kodowanie.

Pierwsze kroki z Gemmą

Otwarta wersja Gemmy udostępnia zaawansowane możliwości sztucznej inteligencji programistom, badaczom i entuzjastom. Oto krótki przewodnik na początek:

Wdrożenie niezależne od platformy

Kluczową zaletą Gemmy jest jej elastyczność – można ją uruchomić na procesorach, procesorach graficznych lub TPU. W przypadku procesora użyj TensorFlow Lite lub HuggingFace Transformers. Aby uzyskać przyspieszoną wydajność na GPU/TPU, użyj TensorFlow. Usługi w chmurze, takie jak Vertex AI firmy Google Cloud, również zapewniają płynne skalowanie.

Uzyskaj dostęp do wstępnie wyszkolonych modeli

Gemma jest dostępna w różnych, wstępnie przeszkolonych wariantach, w zależności od Twoich potrzeb. Modele 2B i 7B oferują od razu po wyjęciu z pudełka duże możliwości generatywne. Idealnym punktem wyjścia do precyzyjnego dostrajania są modele 2B-FT i 7B-FT.

Twórz ekscytujące aplikacje

Za pomocą Gemmy możesz tworzyć różnorodne aplikacje, takie jak generowanie historii, tłumaczenie językowe, odpowiadanie na pytania i tworzenie kreatywnych treści. Kluczem jest wykorzystanie mocnych stron Gemmy poprzez dostrojenie własnych zbiorów danych.

Architektura

Gemma wykorzystuje architekturę transformatora obsługującą wyłącznie dekoder, opierając się na postępach takich jak uwaga oparta na wielu zapytaniach i obrotowe osadzanie pozycyjne:

Transformatory: Wprowadzona w 2017 roku architektura transformatorowa oparta wyłącznie na mechanizmach uwagi stała się wszechobecna w NLP. Gemma dziedziczy zdolność transformatora do modelowania zależności dalekiego zasięgu w tekście.
Tylko dekoder: W przeciwieństwie do modeli koder-dekoder, takich jak BART czy T5, Gemma używa wyłącznie stosu dekodera transformatorowego. Zapewnia to silne możliwości generatywne do zadań takich jak generowanie tekstu.
Uwaga dotycząca wielu zapytań: Gemma w swoim większym modelu wykorzystuje uwagę wielozadaniową, umożliwiając każdej głowie uwagi równoległe przetwarzanie wielu zapytań w celu szybszego wnioskowania.
Obrotowe osadzania pozycyjne: Gemma reprezentuje informacje o położeniu przy użyciu osadzania obrotowego zamiast kodowania położenia bezwzględnego. Technika ta zmniejsza rozmiar modelu, zachowując jednocześnie informacje o położeniu.

Zastosowanie technik takich jak uwaga oparta na wielu zapytaniach i obrotowe osadzanie pozycyjne umożliwiają modelom Gemma osiągnięcie optymalnego kompromisu pomiędzy wydajnością, szybkością wnioskowania i rozmiarem modelu.

Dane i proces szkoleniowy

Gemma została przeszkolona na maksymalnie 6 bilionach tokenów danych tekstowych, głównie w języku angielskim. Obejmowało to dokumenty internetowe, tekst matematyczny i kod źródłowy. Firma DeepMind włożyła wiele wysiłku w filtrowanie danych i usuwanie toksycznych lub szkodliwych treści za pomocą klasyfikatorów i heurystyki.

Szkolenie przeprowadzono przy użyciu infrastruktury Google TPUv5, przy czym do szkolenia Gemma-4096B wykorzystano aż 7 TPU. Wydajne techniki modelowania i równoległości danych umożliwiły szkolenie ogromnych modeli przy użyciu standardowego sprzętu.

Zastosowano szkolenia etapowe, stale dostosowując dystrybucję danych, aby skupić się na wysokiej jakości, odpowiednim tekście. W końcowych etapach dostrajania wykorzystano mieszankę generowanych przez człowieka i syntetycznych przykładów postępowania zgodnie z instrukcjami w celu zwiększenia możliwości.

Wydajność modelu

Firma DeepMind rygorystycznie oceniła modele Gemma na podstawie szerokiego zestawu ponad 25 testów porównawczych obejmujących odpowiadanie na pytania, rozumowanie, matematykę, kodowanie, zdrowy rozsądek i możliwości dialogu.

Gemma osiąga najnowocześniejsze wyniki w porównaniu z modelami open source o podobnej wielkości w większości testów porównawczych. Niektóre najważniejsze informacje:

matematyka: Gemma przoduje w testach rozumowania matematycznego, takich jak GSM8K i MATH, przewyższając modele takie jak Codex i Claude firmy Anthropic o ponad 10 punktów.
Kodowanie: Gemma dorównuje lub przewyższa wydajność Codexu w testach programistycznych takich jak MBPP, mimo że nie została specjalnie przeszkolona w zakresie kodu.
Dialog: Gemma wykazuje duże zdolności konwersacyjne, uzyskując w testach preferencji ludzi współczynnik zwycięstw wynoszący 51.7% w porównaniu z Mistral-7B firmy Anthropic.
Rozumowanie: W zadaniach wymagających wnioskowania, takich jak ARC i Winogrande, Gemma przewyższa inne modele 7B o 5-10 punktów.

Wszechstronność Gemmy w różnych dyscyplinach pokazuje jej duże możliwości w zakresie inteligencji ogólnej. Chociaż nadal istnieją luki w wydajności na poziomie ludzkim, Gemma stanowi krok naprzód w NLP typu open source.

Bezpieczeństwo i odpowiedzialność

Udostępnienie wersji open source dużych modeli stwarza wyzwania związane z celowym niewłaściwym użyciem i nieodłącznymi błędami modeli. DeepMind podjął kroki w celu ograniczenia ryzyka:

Filtrowanie danych: Potencjalnie toksyczny, nielegalny lub stronniczy tekst został usunięty z danych szkoleniowych przy użyciu klasyfikatorów i heurystyki.
sprzężenia zwrotnego: Gemma została przetestowana w ponad 30 testach porównawczych wybranych w celu oceny bezpieczeństwa, uczciwości i solidności. Dorównywał lub przewyższał inne modele.
Strojenie: Dostrajanie modelu skupione na poprawie możliwości bezpieczeństwa, takich jak filtrowanie informacji i odpowiednie zachowania zabezpieczające/odmowy.
Warunki korzystania: Warunki użytkowania zabraniają obraźliwego, nielegalnego lub nieetycznego stosowania modeli Gemma. Egzekwowanie przepisów pozostaje jednak wyzwaniem.
Karty modeli: Aby promować przejrzystość, wydano karty szczegółowo opisujące możliwości modelu, ograniczenia i uprzedzenia.

Chociaż istnieje ryzyko związane z otwartym sourcingiem, DeepMind stwierdził, że wydanie Gemmy zapewnia korzyści społeczne netto w oparciu o jej profil bezpieczeństwa i umożliwienie badań. Jednakże czujne monitorowanie potencjalnych szkód nadal będzie miało kluczowe znaczenie.

Umożliwianie kolejnej fali innowacji w zakresie sztucznej inteligencji

Wypuszczenie Gemmy jako rodziny modeli open source oznacza odblokowanie postępu w społeczności AI:

Dostępność: Gemma zmniejsza bariery, jakie stoją przed organizacjami w budowaniu rozwiązań dzięki najnowocześniejszemu NLP, które wcześniej borykały się z wysokimi kosztami obliczeń/danych w związku ze szkoleniem własnych menedżerów LLM.
Nowe aplikacje: Dzięki wstępnie przeszkolonym i dostrojonym punktom kontrolnym typu open source DeepMind umożliwia łatwiejsze tworzenie korzystnych aplikacji w obszarach takich jak edukacja, nauka i dostępność.
Dostosowywanie: Programiści mogą dalej dostosowywać Gemmę do zastosowań branżowych lub specyficznych dla danej domeny poprzez ciągłe szkolenia w zakresie zastrzeżonych danych.
Badania: Otwarte modele, takie jak Gemma, sprzyjają większej przejrzystości i audytowi obecnych systemów NLP, rzucając światło na przyszłe kierunki badań.
Innowacja: Dostępność solidnych modeli bazowych, takich jak Gemma, przyspieszy postęp w obszarach takich jak łagodzenie uprzedzeń, faktyczność i bezpieczeństwo sztucznej inteligencji.

Udostępniając wszystkim możliwości Gemmy poprzez otwarte pozyskiwanie zasobów, DeepMind ma nadzieję pobudzić odpowiedzialny rozwój sztucznej inteligencji dla dobra społecznego.

Droga przed nami

Z każdym krokiem w dziedzinie sztucznej inteligencji zbliżamy się do modeli, które we wszystkich dziedzinach dorównują ludzkiej inteligencji lub ją przewyższają. Systemy takie jak Gemma podkreślają, jak szybki postęp w modelach samonadzorujących odblokowuje coraz bardziej zaawansowane zdolności poznawcze.

Pozostaje jednak praca nad poprawą niezawodności, interpretowalności i sterowalności sztucznej inteligencji – obszarów, w których ludzka inteligencja nadal króluje. Dziedziny takie jak matematyka podkreślają te utrzymujące się luki, przy czym Gemma uzyskała 64% wyniku w MMLU w porównaniu z szacunkowymi 89% wydajności człowieka.

Zapełnienie tych luk przy jednoczesnym zapewnieniu bezpieczeństwa i etyki coraz wydajniejszych systemów sztucznej inteligencji będzie głównym wyzwaniem w nadchodzących latach. Znalezienie właściwej równowagi między otwartością a ostrożnością będzie miało kluczowe znaczenie, ponieważ celem DeepMind jest demokratyzacja dostępu do korzyści płynących ze sztucznej inteligencji przy jednoczesnym zarządzaniu pojawiającymi się zagrożeniami.

Inicjatywy promujące bezpieczeństwo sztucznej inteligencji – takie jak ANC Dario Amodei, zespół ds. etyki i społeczeństwa DeepMind oraz konstytucyjna sztuczna inteligencja firmy Anthropic – sygnalizują rosnące uznanie tej potrzeby niuansów. Znaczący postęp będzie wymagał otwartego, opartego na dowodach dialogu między badaczami, programistami, decydentami i społeczeństwem.

Jeśli nawigacja odbywa się w sposób odpowiedzialny, Gemma nie stanowi szczytu sztucznej inteligencji, ale bazę dla następnego pokolenia badaczy sztucznej inteligencji, podążających śladami DeepMind w kierunku sprawiedliwej, korzystnej sztucznej inteligencji ogólnej.

Wnioski

Wypuszczenie modeli Gemma przez DeepMind oznacza nową erę sztucznej inteligencji typu open source – taką, która wykracza poza wąskie standardy w kierunku uogólnionych możliwości inteligencji. Szeroko przetestowana pod kątem bezpieczeństwa i szeroko dostępna, Gemma wyznacza nowy standard odpowiedzialnego otwartego pozyskiwania zasobów w sztucznej inteligencji.

Kierując się duchem rywalizacji połączonym z wartościami współpracy, dzielenie się przełomowymi osiągnięciami, takimi jak Gemma, podnosi poziom wszystkich łodzi w ekosystemie sztucznej inteligencji. Cała społeczność ma teraz dostęp do wszechstronnej rodziny LLM, która może prowadzić lub wspierać ich inicjatywy.

Chociaż ryzyko pozostaje, techniczna i etyczna staranność DeepMind daje pewność, że korzyści Gemmy przewyższają potencjalne szkody. W miarę jak możliwości sztucznej inteligencji stają się coraz bardziej zaawansowane, utrzymanie tego niuansu między otwartością a ostrożnością będzie miało kluczowe znaczenie.

Gemma przybliża nas o krok do sztucznej inteligencji, która przynosi korzyści całej ludzkości. Jednak na drodze do życzliwej sztucznej inteligencji ogólnej wciąż czeka na nas wiele wielkich wyzwań. Jeśli badaczom sztucznej inteligencji, programistom i całemu społeczeństwu uda się utrzymać wspólny postęp, Gemma może pewnego dnia być postrzegana jako historyczna baza, a nie ostateczny szczyt.

Powiązane tematy:DeepMind Pączek LLM

W przyszłym

Sztuczna inteligencja w marketingu: spostrzeżenia z konferencji MWC

Nie przegap

Luki w zabezpieczeniach i zagrożenia bezpieczeństwa stojące przed modelami wielkojęzykowymi

Aayush Mittal

Ostatnie pięć lat spędziłem zanurzając się w fascynującym świecie uczenia maszynowego i głębokiego uczenia się. Moja pasja i wiedza sprawiły, że uczestniczyłem w ponad 50 różnorodnych projektach z zakresu inżynierii oprogramowania, ze szczególnym uwzględnieniem AI/ML. Moja ciągła ciekawość przyciągnęła mnie również w stronę przetwarzania języka naturalnego – dziedziny, którą chcę dalej zgłębiać.