Sztuczna inteligencja
Odkrywanie Dużych Modeli Multimodalnych: Kształtowanie Krajobrazu Modeli Językowych w 2024

Podczas doświadczania świata, nasze zmysły (wzrok, dźwięki, zapachy) dostarczają zróżnicowanego zakresu informacji, a wyrażamy się za pomocą różnych metod komunikacji, takich jak wyrażenia twarzy i gesty. Te zmysły i metody komunikacji są zbiorczo nazywane modalnościami, reprezentującymi różne sposoby, w jakie postrzegamy i komunikujemy. Czerpiąc inspirację z tej ludzkiej zdolności, duży model multimodalny (LMM), połączenie generatywnego i sztucznej inteligencji multimodalnej, są rozwijane w celu zrozumienia i tworzenia treści przy użyciu różnych typów, takich jak tekst, obrazy i dźwięk. W tym artykule, zagłębiamy się w ten nowo powstający obszar, badając, co to są LMM (Duże Modele Multimodalne), jak są konstruowane, istniejące przykłady, wyzwania, których doświadczają, i potencjalne zastosowania.
Ewolucja Sztucznej Inteligencji Generatywnej w 2024: Od Dużych Modeli Językowych do Dużych Modeli Multimodalnych
W swoim najnowszym raporcie, McKinsey wyznaczył 2023 jako rok przełomowy dla sztucznej inteligencji generatywnej, prowadząc do wielu postępów w tym obszarze. Świadkami jesteśmy znacznego wzrostu popularności dużych modeli językowych (LLM) zdolnych do zrozumienia i wygenerowania ludzkiego języka. Ponadto, modele generowania obrazów znacznie ewoluowały, demonstrując swoją zdolność do tworzenia wizualizacji z podpowiedziami tekstowymi. Jednakże, pomimo znacznego postępu w poszczególnych modalnościach, takich jak tekst, obrazy lub dźwięk, sztuczna inteligencja generatywna napotkała wyzwania w łączeniu tych modalności w procesie generowania. Ponieważ świat jest z natury multimodalny, jest kluczowe, aby sztuczna inteligencja radziła sobie z informacjami multimodalnymi. Jest to niezbędne do znaczącego zaangażowania z ludźmi i pomyślnego działania w rzeczywistych scenariuszach.
W związku z tym, wielu badaczy sztucznej inteligencji przewiduje wzrost LMM jako następny kierunek badań i rozwoju w 2024. Ten ewoluujący kierunek koncentruje się na zwiększeniu możliwości sztucznej inteligencji generatywnej do przetwarzania i wytwarzania zróżnicowanych danych wyjściowych, obejmujących tekst, obrazy, dźwięk, wideo i inne modalności. Jest istotne, aby podkreślić, że nie wszystkie systemy multimodalne kwalifikują się jako LMM. Modele takie jak Midjourney i Stable Diffusion, pomimo bycia multimodalnymi, nie mieszczą się w kategorii LMM głównie dlatego, że brakuje im obecności LLM, które są podstawowym składnikiem LMM. Innymi słowy, możemy opisać LMM jako rozszerzenie LLM, zapewniając im możliwość sprawnego radzenia sobie z różnymi modalnościami.
Jak Działają LMM?
Podczas gdy badacze zbadali różne podejścia do konstruowania LMM, zwykle obejmują one trzy podstawowe składniki i operacje. Po pierwsze, stosuje się kodery dla każdej modalności danych w celu wygenerowania reprezentacji danych (nazywanych osadzeniami) specyficznych dla tej modalności. Po drugie, stosuje się różne mechanizmy do wyrównywania osadzeń z różnych modalności w zunifikowaną przestrzeń multimodalną. Po trzecie, dla modeli generatywnych, stosuje się LLM do generowania odpowiedzi tekstowych. Ponieważ dane wejściowe mogą składać się z tekstu, obrazów, wideo i dźwięku, badacze pracują nad nowymi sposobami, aby językowe modele uwzględniały różne modalności podczas udzielania odpowiedzi.
Rozwój LMM w 2023
Poniżej, krótko przedstawiłem niektóre z najbardziej znaczących LMM opracowanych w 2023.
- LLaVA to model LMM o otwartym kodzie źródłowym, wspólnie opracowany przez Uniwersytet Wisconsin-Madison, Microsoft Research i Uniwersytet Kolumbii. Model ten ma na celu zapewnienie wersji o otwartym kodzie źródłowym dla multimodalnego GPT4. Wykorzystując Meta’s Llama LLM, włącza CLIP kodery wizualne dla solidnego zrozumienia wizualnego. Wariant LLaVA skierowany do opieki zdrowotnej, nazwany LLaVA-Med, może odpowiedzieć na pytania związane z obrazami biomedycznymi.
- ImageBind to model o otwartym kodzie źródłowym stworzony przez Meta, naśladujący zdolność ludzkiej percepcji do powiązania danych multimodalnych. Model ten integruje sześć modalności — tekst, obrazy/wideo, dźwięk, pomiary 3D, dane temperatury i dane ruchu — ucząc zunifikowaną reprezentację w różnych typach danych. ImageBind może połączyć obiekty na zdjęciach z atrybutami, takimi jak dźwięk, kształty 3D, temperatura i ruch. Model ten może być wykorzystany, na przykład, do generowania sceny z tekstu lub dźwięku.
- SeamlessM4T to model multimodalny zaprojektowany przez Meta w celu ułatwienia komunikacji między społecznościami wielojęzycznymi. SeamlessM4T wyróżnia się w zadaniach tłumaczeń i transkrypcji, obsługując tłumaczenia mowy na mowę, mowy na tekst, tekstu na mowę i tekstu na tekst. Model ten wykorzystuje dekoder tekstowy do wykonywania tych tłumaczeń. Ulepszona wersja, SeamlessM4T v2, stanowi podstawę dla modeli takich jak SeamlessExpressive i SeamlessStreaming, podkreślając zachowanie ekspresji w różnych językach i dostarczając tłumaczenia z minimalnym opóźnieniem.
- GPT4, uruchomiony przez OpenAI, jest rozwojem jego poprzednika, GPT3.5. Chociaż szczegółowe informacje architektoniczne nie są w pełni ujawnione, GPT4 jest znany ze swojej gładkiej integracji modeli tylko tekstowych, wizualnych i dźwiękowych. Model ten może generować tekst z podpowiedzi tekstowych i graficznych. Wyróżnia się w różnych zadaniach, w tym w opisie humoru w obrazach, streszczeniu tekstu z zrzutów ekranu i odpowiednim reagowaniu na pytania egzaminacyjne zawierające diagramy. GPT4 jest również rozpoznawany za swoją elastyczność w skutecznym przetwarzaniu szerokiego zakresu formatów danych wejściowych.
- Gemini, stworzony przez Google DeepMind, wyróżnia się tym, że jest wewnętrznie multimodalny, umożliwiając płynne interakcje w różnych zadaniach bez polegania na łączeniu komponentów jednej modalności. Ten model bezproblemowo radzi sobie zarówno z tekstem, jak i różnymi danymi audio-wizualnymi, demonstrując swoją zdolność do generowania danych wyjściowych w postaci tekstu i obrazu.
Wyzwania Dużych Modeli Multimodalnych
- Włączanie Większej Ilości Modalności: Większość istniejących LMM działa z tekstem i obrazami. Jednak LMM muszą ewoluować poza tekst i obrazy, obejmując modalności takie jak wideo, muzyka i 3D.
- Dostępność Zróżnicowanych Zbiorów Danych: Jednym z kluczowych wyzwań w tworzeniu i szkoleniu modeli sztucznej inteligencji generatywnej jest potrzeba dużych i zróżnicowanych zbiorów danych, które obejmują wiele modalności. Na przykład, aby nauczyć model generowania tekstu i obrazów razem, zbiór danych musi zawierać zarówno dane wejściowe tekstowe, jak i obrazowe, które są ze sobą powiązane.
- Generowanie Wielomodalnych Danych Wyjściowych: Chociaż LMM mogą radzić sobie z wielomodalnymi danymi wejściowymi, generowanie zróżnicowanych danych wyjściowych, takich jak łączenie tekstu z grafiką lub animacjami, pozostaje wyzwaniem.
- Przestrzeganie Instrukcji: LMM stają w obliczu wyzwania opanowania dialogu i zadań przestrzegania instrukcji, idąc poza zwykłe uzupełnienie.
- Wielomodalne Rozumowanie: Chociaż bieżące LMM wyróżniają się w transformowaniu jednej modalności w inną, płynna integracja danych multimodalnych do złożonych zadań rozumnienia, takich jak rozwiązywanie zapisanych słownie problemów na podstawie instrukcji słuchowych, pozostaje wyzwaniem.
- Kompresja LMM: Źródłowe właściwości LMM stanowią znaczącą przeszkodę, czyniąc je niepraktycznymi dla urządzeń krawędziowych o ograniczonych zasobach obliczeniowych. Kompresja LMM w celu poprawy wydajności i uczynienia ich odpowiednimi do wdrożenia na urządzeniach o ograniczonych zasobach jest kluczowym obszarem bieżących badań.
Potencjalne Zastosowania
- Edukacja: LMM mają potencjał przekształcić edukację, generując zróżnicowane i angażujące materiały edukacyjne, które łączą tekst, obrazy i dźwięk. LMM zapewniają kompleksujące informacje zwrotne na zadania, promują platformy edukacyjne i rozwijają umiejętności poprzez interaktywne symulacje i przykłady z życia wzięte.
- Ochrona Zdrowia: W przeciwieństwie do tradycyjnych systemów diagnostyki sztucznej inteligencji, które koncentrują się na jednej modalności, LMM poprawiają diagnostykę medyczną, integrując wiele modalności. Wspierają również komunikację między barierami językowymi między dostawcami opieki zdrowotnej i pacjentami, działając jako scentralizowana baza dla różnych aplikacji sztucznej inteligencji w szpitalach.
- Generowanie Sztuki i Muzyki: LMM mogą wyróżniać się w tworzeniu sztuki i muzyki, łącząc różne modalności dla unikalnych i wyrazistych danych wyjściowych. Na przykład, model sztuki LMM może połączyć elementy wizualne i słuchowe, zapewniając immersyjne doświadczenie. Podobnie, model muzyki LMM może zintegrować instrumenty i wokale, prowadząc do dynamicznych i wyrazistych kompozycji.
- Personalizowane Rekomendacje: LMM mogą analizować preferencje użytkowników w różnych modalnościach, aby zapewnić personalizowane rekomendacje dla konsumpcji treści, takich jak filmy, muzyka, artykuły lub produkty.
- Przewidywanie Pogody i Monitorowanie Środowiska: LMM mogą analizować różne modalności danych, takie jak obrazy satelitarne, warunki atmosferyczne i historyczne wzorce, aby poprawić dokładność przewidywania pogody i monitorowania środowiska.
Podsumowanie
Krajobraz Dużych Modeli Multimodalnych (LMM) stanowi znaczący przełom w sztucznej inteligencji generatywnej, obiecując postępy w różnych dziedzinach. Podczas gdy te modele płynnie integrują różne modalności, takie jak tekst, obrazy i dźwięk, ich rozwój otwiera drzwi do transformacyjnych zastosowań w ochronie zdrowia, edukacji, sztuce i personalizowanych rekomendacjach. Jednak wyzwania, w tym włączanie większej ilości modalności i kompresja zasobowo-intensywnych modeli, podkreślają potrzebę dalszych badań niezbędnych do pełnego zrealizowania potencjału LMM.












