Artificial Intelligence

Odkrywamy Gemini 1.5: Jak najnowszy multimodalny model sztucznej inteligencji Google podnosi poziom sztucznej inteligencji w porównaniu z poprzednikiem

Opublikowany

3 miesięcy temu

20 lutego 2024 r.

W szybko zmieniającym się krajobrazie sztucznej inteligencji Google nadal przoduje dzięki swoim pionierskim rozwiązaniom multimodalna sztuczna inteligencja technologie. Krótko po debiucie Gemini 1.0, ich najnowocześniejsza wersja multimodalny model dużego języka, Google właśnie zaprezentowało Gemini 1.5. Ta iteracja nie tylko zwiększa wydajność ustaloną przez Gemini 1.0 ale także przynosi znaczne ulepszenia metodologii Google w zakresie przetwarzania i integracji danych multimodalnych. W tym artykule omówiono Gemini 1.5, rzucając światło na jego innowacyjne podejście i charakterystyczne cechy.

Bliźnięta 1.0: Kładzenie fundamentów

Wprowadzony na rynek przez Google DeepMind i Google Research 6 grudnia 2023 r. Gemini 1.0 wprowadził nowy rodzaj multimodalnych modeli sztucznej inteligencji zdolnych do rozumienia i generowania treści w różnych formatach, takich jak tekst, dźwięk, obrazy i wideo. Oznaczało to znaczący krok w dziedzinie sztucznej inteligencji, poszerzając zakres zarządzania różnorodnymi typami informacji.

Wyjątkowa cecha Gemini jest jego zdolność do płynnego łączenia wielu typów danych. W przeciwieństwie do konwencjonalnych modeli sztucznej inteligencji, które mogą specjalizować się w jednym formacie danych, Gemini integruje tekst, grafikę i dźwięk. Ta integracja umożliwia mu wykonywanie zadań, takich jak analizowanie odręcznych notatek lub odszyfrowywanie złożonych diagramów, rozwiązując w ten sposób szerokie spektrum złożonych wyzwań.

Rodzina Gemini oferuje modele do różnych zastosowań: model Ultra do złożonych zadań, model Pro zapewniający szybkość i skalowalność na głównych platformach, takich jak Google Bard, oraz modele Nano (Nano-1 i Nano-2) z 1.8 miliarda i 3.25 miliarda parametrów przeznaczone odpowiednio do integracji z urządzeniami takimi jak smartfon Google Pixel 8 Pro.

Skok do Bliźniąt 1.5

Najnowsza wersja Google, Gemini 1.5, zwiększa funkcjonalność i wydajność operacyjną swojego poprzednika, Gemini 1.0. Ta wersja przyjmuje powieść Mieszanka ekspertów (MoE), odejście od ujednoliconego podejścia opartego na dużych modelach, znanego z poprzednika. Architektura ta obejmuje zbiór mniejszych, wyspecjalizowanych modele transformatorów, z których każdy jest specjalistą w zarządzaniu określonymi segmentami danych lub odrębnymi zadaniami. Taka konfiguracja umożliwia Gemini 1.5 dynamiczne angażowanie najodpowiedniejszego eksperta na podstawie przychodzących danych, usprawniając zdolność modelu do uczenia się i przetwarzania informacji.

To innowacyjne podejście znacznie podnosi efektywność szkolenia i wdrażania modelu poprzez aktywowanie do zadań wyłącznie niezbędnych ekspertów. W rezultacie Gemini 1.5 jest w stanie szybko wykonywać złożone zadania i dostarczać wyniki wysokiej jakości wydajniej niż konwencjonalne modele. Takie postępy pozwalają zespołom badawczym Google przyspieszyć rozwój i udoskonalanie modelu Gemini, rozszerzając możliwości w domenie AI.

Rozszerzanie możliwości

Godnym uwagi postępem w Gemini 1.5 są rozszerzone możliwości przetwarzania informacji. Okno kontekstowe modelu, czyli ilość danych użytkownika, które może przeanalizować w celu wygenerowania odpowiedzi, rozciąga się teraz do 1 miliona tokenów, co stanowi znaczny wzrost w porównaniu z 32,000 1.0 tokenów w Gemini 1.5. To ulepszenie oznacza, że Gemini 10 Pro może jednocześnie przetwarzać ogromne ilości danych, takie jak godzina treści wideo, jedenaście godzin dźwięku lub duże bazy kodów i dokumenty tekstowe. Został również pomyślnie przetestowany z maksymalnie XNUMX milionami tokenów, co wykazało jego wyjątkową zdolność do rozumienia i interpretowania ogromnych zbiorów danych.

Rzut oka na możliwości Gemini 1.5

Ulepszenia architektury Gemini 1.5 i rozszerzone okno kontekstowe umożliwiają przeprowadzanie zaawansowanych analiz dużych zbiorów informacji. Niezależnie od tego, czy chodzi o zagłębianie się w zawiłe szczegóły misji Apollo 11 transkrypcje lub interpretując niemy film, Gemini 1.5 demonstruje niezrównane możliwości rozwiązywania problemów, szczególnie w przypadku długich bloków kodu.

Opracowany w oparciu o zaawansowane akceleratory TPUv4 firmy Google, Gemini 1.5 Pro został przeszkolony na zróżnicowanym zestawie danych obejmującym różne domeny i zawierający treści multimodalne i wielojęzyczne. Ta szeroka baza szkoleniowa w połączeniu z precyzyjnym dostrojeniem opartym na danych dotyczących preferencji ludzkich gwarantuje, że wyniki Gemini 1.5 Pro dobrze odpowiadają ludzkiej percepcji.

Przez rygorystyczne testy porównawcze w obliczu mnóstwa zadań Gemini 1.5 Pro nie tylko przewyższa swojego poprzednika w zdecydowanej większości ocen, ale także dorównuje większemu modelowi Gemini 1.0 Ultra. Gemini 1.5 Pro wykazuje silne możliwości „uczenia się w kontekście”, skutecznie zdobywając nową wiedzę na podstawie szczegółowych podpowiedzi, bez konieczności dalszych dostosowań. Było to szczególnie widoczne podczas występu na Tłumaczenie maszynowe z jednej książki (MTOB), w ramach którego przetłumaczono z angielskiego na kalamang – język używany przez niewielką liczbę osób – z biegłością porównywalną z umiejętnością uczenia się człowieka, co podkreśla jego zdolność adaptacji i efektywność uczenia się.

Ograniczony dostęp do podglądu

Gemini 1.5 Pro jest teraz dostępny w ograniczonej wersji zapoznawczej dla programistów i klientów korporacyjnych Studio AI i Wierzchołek AI, z planami szerszej wersji i konfigurowalnymi opcjami na horyzoncie. Ta faza podglądu oferuje wyjątkową okazję do zapoznania się z rozszerzonym oknem kontekstowym i przewidywaną poprawą szybkości przetwarzania. Programiści i klienci korporacyjni zainteresowani Gemini 1.5 Pro mogą zarejestrować się za pośrednictwem AI Studio lub skontaktować się z zespołami ds. kont Vertex AI w celu uzyskania dalszych informacji.

Bottom Line

Gemini 1.5 stanowi znaczący krok naprzód w rozwoju multimodalnej sztucznej inteligencji. Opierając się na fundamentach Gemini 1.0, nowa wersja zapewnia ulepszone metody przetwarzania i integrowania różnych typów danych. Wprowadzenie nowatorskiego podejścia do architektury i rozszerzonych możliwości przetwarzania danych podkreśla ciągłe wysiłki Google na rzecz ulepszania technologii sztucznej inteligencji. Dzięki swojemu potencjałowi w zakresie bardziej wydajnej obsługi zadań i zaawansowanego uczenia się Gemini 1.5 ukazuje ciągłą ewolucję sztucznej inteligencji. Obecnie dostępny dla wybranej grupy programistów i klientów korporacyjnych, sygnalizuje ekscytujące możliwości dla przyszłości sztucznej inteligencji, z szerszą dostępnością i dalszymi postępami na horyzoncie.

W przyszłym

Wzmocnienie możliwości dużych modeli wizyjnych (LVM) w zadaniach specyficznych dla domeny poprzez uczenie się transferowe

Nie przegap

Co do tej pory wiemy o Sorze z OpenAI

dr Tehseen Zia

Dr Tehseen Zia jest profesorem nadzwyczajnym na Uniwersytecie COMSATS w Islamabadzie oraz posiada tytuł doktora w dziedzinie sztucznej inteligencji uzyskany na Politechnice Wiedeńskiej w Austrii. Specjalizuje się w sztucznej inteligencji, uczeniu maszynowym, nauce danych i wizji komputerowej, wniósł znaczący wkład w postaci publikacji w renomowanych czasopismach naukowych. Dr Tehseen kierował także różnymi projektami przemysłowymi jako główny badacz i pełnił funkcję konsultanta ds. sztucznej inteligencji.