Artificial Intelligence

Odkrywamy Gemini 1.5: Jak najnowszy multimodalny model sztucznej inteligencji Google podnosi poziom sztucznej inteligencji w porównaniu z poprzednikiem

Opublikowany 20 lutego 2024 r.

dr Tehseen Zia

W szybko zmieniającym się krajobrazie sztucznej inteligencji Google nadal przoduje dzięki swoim pionierskim rozwiązaniom multimodalna sztuczna inteligencja technologie. Krótko po debiucie Gemini 1.0, ich najnowocześniejsza wersja multimodalny model dużego języka, Google właśnie zaprezentowało Gemini 1.5. Ta iteracja nie tylko zwiększa wydajność ustaloną przez Gemini 1.0 ale także wprowadza znaczące usprawnienia w metodologii Google'a dotyczącej przetwarzania i integracji danych multimodalnych. Niniejszy artykuł omawia Gemini 1.5, rzucając światło na jego innowacyjne podejście i wyróżniające go cechy.

Bliźnięta 1.0: Kładzenie fundamentów

Wprowadzony na rynek przez Google DeepMind i Google Research 6 grudnia 2023 r. Gemini 1.0 wprowadził nowy rodzaj multimodalnych modeli sztucznej inteligencji zdolnych do rozumienia i generowania treści w różnych formatach, takich jak tekst, dźwięk, obrazy i wideo. Oznaczało to znaczący krok w dziedzinie sztucznej inteligencji, poszerzając zakres zarządzania różnorodnymi typami informacji.

Wyróżniającą cechą Gemini jest jego zdolność do płynnego łączenia wielu typów danych. W przeciwieństwie do konwencjonalnych modeli sztucznej inteligencji, które mogą specjalizować się w jednym formacie danych, Gemini integruje tekst, grafikę i dźwięk. Ta integracja umożliwia mu wykonywanie zadań, takich jak analizowanie odręcznych notatek lub odszyfrowywanie złożonych diagramów, rozwiązując w ten sposób szerokie spektrum złożonych wyzwań.

Rodzina Gemini oferuje modele do różnych zastosowań: model Ultra do złożonych zadań, model Pro zapewniający szybkość i skalowalność na głównych platformach, takich jak Google Bard, oraz modele Nano (Nano-1 i Nano-2) z 1.8 miliarda i 3.25 miliarda parametrów przeznaczone odpowiednio do integracji z urządzeniami takimi jak smartfon Google Pixel 8 Pro.

Skok do Bliźniąt 1.5

Najnowsza wersja Google, Gemini 1.5, zwiększa funkcjonalność i wydajność operacyjną swojego poprzednika, Gemini 1.0. W tej wersji zastosowano nowatorski Mieszanka ekspertów (MoE), odejście od ujednoliconego podejścia opartego na dużych modelach, znanego z poprzednika. Architektura ta obejmuje zbiór mniejszych, wyspecjalizowanych modele transformatorów, z których każdy jest specjalistą w zarządzaniu określonymi segmentami danych lub odrębnymi zadaniami. Taka konfiguracja umożliwia Gemini 1.5 dynamiczne angażowanie najodpowiedniejszego eksperta na podstawie przychodzących danych, usprawniając zdolność modelu do uczenia się i przetwarzania informacji.

To innowacyjne podejście znacząco zwiększa efektywność szkolenia i wdrażania modelu, angażując do zadań wyłącznie niezbędnych ekspertów. W rezultacie Gemini 1.5 jest w stanie szybko radzić sobie ze złożonymi zadaniami i dostarczać wysokiej jakości wyniki wydajniej niż modele konwencjonalne. Takie udoskonalenia pozwalają zespołom badawczym Google przyspieszyć rozwój i ulepszanie modelu Gemini, rozszerzając możliwości w dziedzinie sztucznej inteligencji.

Rozszerzanie możliwości

Istotnym udoskonaleniem w Gemini 1.5 są rozszerzone możliwości przetwarzania informacji. Okno kontekstowe modelu, czyli ilość danych użytkownika, które może on analizować w celu generowania odpowiedzi, obejmuje teraz nawet milion tokenów – co stanowi znaczny wzrost w porównaniu z 1 32,000 tokenów w Gemini 1.0. To ulepszenie oznacza, że Gemini 1.5 Pro może jednocześnie przetwarzać ogromne ilości danych, takie jak godzina materiału wideo, jedenaście godzin nagrań audio, duże bazy kodu i dokumenty tekstowe. Został on również pomyślnie przetestowany z wykorzystaniem nawet 10 milionów tokenów, co dowodzi jego wyjątkowej zdolności do rozumienia i interpretowania ogromnych zbiorów danych.

Rzut oka na możliwości Gemini 1.5

Udoskonalenia architektoniczne Gemini 1.5 i rozszerzone okno kontekstowe umożliwiają przeprowadzanie zaawansowanych analiz dużych zbiorów informacji. Niezależnie od tego, czy chodzi o zagłębianie się w zawiłe szczegóły misji Apollo 11, transkrypcje lub interpretując niemy film, Gemini 1.5 demonstruje niezrównane możliwości rozwiązywania problemów, szczególnie w przypadku długich bloków kodu.

Opracowany w oparciu o zaawansowane akceleratory TPUv4 firmy Google, Gemini 1.5 Pro został wytrenowany na zróżnicowanym zbiorze danych, obejmującym różne dziedziny i obejmującym treści multimodalne i wielojęzyczne. Ta szeroka baza treningowa, w połączeniu z precyzyjnym dostrajaniem opartym na danych o preferencjach użytkownika, gwarantuje, że wyniki Gemini 1.5 Pro dobrze rezonują z ludzką percepcją.

Przez rygorystyczne testy porównawcze w obliczu mnóstwa zadań Gemini 1.5 Pro nie tylko przewyższa swojego poprzednika w zdecydowanej większości ocen, ale także dorównuje większemu modelowi Gemini 1.0 Ultra. Gemini 1.5 Pro wykazuje silne możliwości „uczenia się w kontekście”, skutecznie zdobywając nową wiedzę na podstawie szczegółowych podpowiedzi, bez konieczności dalszych dostosowań. Było to szczególnie widoczne podczas występu na Tłumaczenie maszynowe z jednej książki (MTOB), w ramach którego przetłumaczono z angielskiego na kalamang – język używany przez niewielką liczbę osób – z biegłością porównywalną z umiejętnością uczenia się człowieka, co podkreśla jego zdolność adaptacji i efektywność uczenia się.

Ograniczony dostęp do podglądu

Gemini 1.5 Pro jest teraz dostępny w ograniczonej wersji zapoznawczej dla programistów i klientów korporacyjnych Studio AI oraz Wierzchołek AI, z planami szerszej wersji i konfigurowalnymi opcjami na horyzoncie. Ta faza podglądu oferuje wyjątkową okazję do zapoznania się z rozszerzonym oknem kontekstowym i przewidywaną poprawą szybkości przetwarzania. Programiści i klienci korporacyjni zainteresowani Gemini 1.5 Pro mogą zarejestrować się za pośrednictwem AI Studio lub skontaktować się z zespołami ds. kont Vertex AI w celu uzyskania dalszych informacji.

Bottom Line

Gemini 1.5 to znaczący krok naprzód w rozwoju multimodalnej sztucznej inteligencji. Bazując na fundamentach Gemini 1.0, ta nowa wersja oferuje ulepszone metody przetwarzania i integracji różnych typów danych. Wprowadzenie nowatorskiego podejścia architektonicznego i rozbudowanych możliwości przetwarzania danych podkreśla ciągłe dążenie Google do udoskonalania technologii sztucznej inteligencji. Dzięki potencjałowi w zakresie wydajniejszego przetwarzania zadań i zaawansowanego uczenia się, Gemini 1.5 ukazuje ciągłą ewolucję sztucznej inteligencji. Dostępna obecnie dla wybranej grupy deweloperów i klientów korporacyjnych, zwiastuje ekscytujące możliwości dla przyszłości sztucznej inteligencji, z szerszą dostępnością i dalszymi postępami na horyzoncie.

W przyszłym

Wzmocnienie możliwości dużych modeli wizyjnych (LVM) w zadaniach specyficznych dla domeny poprzez uczenie się transferowe

Nie przegap

Co do tej pory wiemy o Sorze z OpenAI

dr Tehseen Zia

Dr Tehseen Zia jest profesorem nadzwyczajnym na Uniwersytecie COMSATS w Islamabadzie oraz posiada tytuł doktora w dziedzinie sztucznej inteligencji uzyskany na Politechnice Wiedeńskiej w Austrii. Specjalizuje się w sztucznej inteligencji, uczeniu maszynowym, nauce danych i wizji komputerowej, wniósł znaczący wkład w postaci publikacji w renomowanych czasopismach naukowych. Dr Tehseen kierował także różnymi projektami przemysłowymi jako główny badacz i pełnił funkcję konsultanta ds. sztucznej inteligencji.