Artificial Intelligence
Odsłonięcie dużych modeli multimodalnych: kształtowanie krajobrazu modeli językowych w roku 2024

Kiedy doświadczamy świata, nasze zmysły (wzrok, dźwięki, zapachy) dostarczają różnorodnych informacji i wyrażamy siebie za pomocą różnych metod komunikacji, takich jak mimika i gesty. Te zmysły i metody komunikacji nazywane są łącznie modalnościami i reprezentują różne sposoby, w jakie postrzegamy i komunikujemy się. Czerpiąc inspirację z tych ludzkich możliwości, duży model multimodalny (LMM), połączenie generatywnego i multimodalna sztuczna inteligencja, są opracowywane w celu zrozumienia i tworzenia treści przy użyciu różnych typów, takich jak tekst, obrazy i dźwięk. W tym artykule zagłębiamy się w tę nowo powstającą dziedzinę, badając, czym są LMM (duże modele multimodalne), jak są zbudowane, istniejące przykłady, stojące przed nimi wyzwania i potencjalne zastosowania.
Ewolucja generatywnej sztucznej inteligencji w 2024 r.: od dużych modeli językowych do dużych modeli multimodalnych
W swoim najnowszym raporcie McKinsey wyznaczył rok 2023 jako rok przełomowy dla generatywna sztuczna inteligencja, co doprowadziło do wielu postępów w tej dziedzinie. Jesteśmy świadkami znacznego wzrostu częstości występowania tzw duże modele językowe (LLM) biegły w rozumieniu i tworzeniu języka podobnego do ludzkiego. Ponadto, modele generowania obrazu uległy znacznej ewolucji, wykazując zdolność do tworzenia wizualizacji na podstawie podpowiedzi tekstowych. Jednak pomimo znacznego postępu w zakresie poszczególnych modalności, takich jak tekst, obrazy czy dźwięk, generatywna sztuczna inteligencja napotkała wyzwania w zakresie płynnego łączenia tych modalności w procesie generowania. Ponieważ świat jest z natury wielomodalny, dla sztucznej inteligencji niezwykle ważne jest radzenie sobie z informacjami multimodalnymi. Jest to niezbędne do znaczącego kontaktu z ludźmi i skutecznego działania w rzeczywistych scenariuszach.
W związku z tym wielu badaczy sztucznej inteligencji przewiduje pojawienie się LMM jako kolejnego pioniera w badaniach i rozwoju sztucznej inteligencji w 2024 r. Ta ewoluująca granica koncentruje się na zwiększaniu zdolności generatywnej sztucznej inteligencji do przetwarzania i tworzenia różnorodnych wyników, obejmujących tekst, obrazy, dźwięk, wideo i inne modalności. Należy podkreślić, że nie wszystkie systemy multimodalne kwalifikują się jako LMM. Modele lubią W połowie drogi i Stabilna dyfuzja, mimo że są multimodalne, nie mieszczą się w kategorii LMM głównie ze względu na brak w nich LLM, które są podstawowym składnikiem LMM. Innymi słowy, możemy opisać LMM jako rozszerzenie LLM, zapewniające im możliwość sprawnego radzenia sobie z różnymi modalnościami.
Jak działają LMM?
Podczas gdy naukowcy badali różne podejścia do konstruowania LMM zazwyczaj obejmują trzy podstawowe komponenty i operacje. Po pierwsze, dla każdej modalności danych wykorzystywane są kodery w celu generowania reprezentacji danych (zwanych osadzaniami) specyficznych dla tej modalności. Po drugie, stosowane są różne mechanizmy do wyrównywania osadzania z różnych modalności w ujednoliconą multimodalną przestrzeń osadzania. Po trzecie, w przypadku modeli generatywnych do generowania odpowiedzi tekstowych wykorzystuje się LLM. Ponieważ dane wejściowe mogą składać się z tekstu, obrazów, filmów i plików audio, badacze pracują nad nowymi sposobami, aby modele językowe uwzględniały różne modalności podczas udzielania odpowiedzi.
Rozwój LMM w 2023 roku
Poniżej pokrótce opisałem niektóre z godnych uwagi LMM opracowanych w 2023 roku.
- LLaVA to LMM typu open source, opracowany wspólnie przez Uniwersytet Wisconsin-Madison, Microsoft Research i Columbia University. Model ma na celu zaoferowanie wersji multimodalnej o otwartym kodzie źródłowym GPT4. Wykorzystywanie Meta's Lama LLM, zawiera CLIP koder wizualny zapewniający solidne zrozumienie wizualne. Wariant LLaVa ukierunkowany na opiekę zdrowotną, określany jako LLaVA-Med, może odpowiedzieć na zapytania związane z obrazami biomedycznymi.
- powiązanie obrazu to model o otwartym kodzie źródłowym stworzony przez firmę Meta, emulujący zdolność ludzkiej percepcji do powiązania danych multimodalnych. Model integruje sześć modalności — tekst, obrazy/wideo, dźwięk, pomiary 3D, dane o temperaturze i dane o ruchu — ucząc się jednolitej reprezentacji tych różnorodnych typów danych. ImageBind może łączyć obiekty na zdjęciach z atrybutami takimi jak dźwięk, kształty 3D, temperatura i ruch. Model można wykorzystać np. do wygenerowania sceny z tekstu lub dźwięków.
- BezszwoweM4T to model multimodalny zaprojektowany przez Meta w celu wspierania komunikacji między społecznościami wielojęzycznymi. SeamlessM4T przoduje w zadaniach związanych z tłumaczeniem i transkrypcją, obsługując tłumaczenia mowy na mowę, mowy na tekst, tekstu na mowę i tekstu na tekst. Do wykonania tych tłumaczeń model wykorzystuje nieautoregresywny dekoder tekstu na jednostkę. Ulepszona wersja, BezszwoweM4T v2, stanowi podstawę dla modeli takich jak BezszwowyEkspresyjny i Bezproblemowe przesyłanie strumieniowe, kładąc nacisk na zachowanie ekspresji w różnych językach i dostarczając tłumaczenia z minimalnym opóźnieniem.
- GPT4, uruchomiony przez OpenAI, jest rozwinięciem swojego poprzednika, GPT3.5. Chociaż szczegółowe specyfikacje architektoniczne nie są w pełni ujawnione, GPT4 jest dobrze ceniony za płynną integrację modeli tekstowych, tylko wizualnych i tylko audio. Model może generować tekst zarówno na podstawie danych pisanych, jak i graficznych. Doskonale radzi sobie z różnymi zadaniami, takimi jak opisywanie humoru obrazami, podsumowywanie tekstu ze zrzutów ekranu i umiejętne odpowiadanie na pytania egzaminacyjne z diagramami. GPT4 jest również doceniany za swoje możliwości adaptacyjne w efektywnym przetwarzaniu szerokiego zakresu formatów danych wejściowych.
- Gemini, stworzony przez Google DeepMind, wyróżnia się tym, że jest z natury multimodalny, umożliwiając płynną interakcję między różnymi zadaniami bez polegania na łączeniu komponentów jednomodalnych. Model ten bez trudu zarządza zarówno tekstem, jak i różnorodnymi danymi audiowizualnymi, demonstrując jego zdolność do generowania wyników zarówno w formacie tekstowym, jak i graficznym.
Wyzwania dużych modeli multimodalnych
- Uwzględnianie większej liczby modalności danych: Większość istniejących LMM działa z tekstem i obrazami. Jednak LMM muszą ewoluować poza tekst i obrazy, uwzględniając takie modalności, jak wideo, muzyka i 3D.
- Dostępność różnorodnych zbiorów danych: Jednym z kluczowych wyzwań w opracowywaniu i szkoleniu multimodalnych modeli generatywnej sztucznej inteligencji jest potrzeba posiadania dużych i różnorodnych zbiorów danych obejmujących wiele modalności. Na przykład, aby wytrenować model w celu jednoczesnego generowania tekstu i obrazów, zestaw danych musi zawierać powiązane ze sobą dane wejściowe, tekst i obraz.
- Generowanie wyjść multimodalnych: Chociaż LMM mogą obsługiwać dane wejściowe multimodalne, generowanie różnorodnych wyników, takich jak łączenie tekstu z grafiką lub animacjami, pozostaje wyzwaniem.
- Postępując zgodnie z instrukcjami: LMM stoją przed wyzwaniem opanowania dialogu i wykonywania zadań zgodnych z instrukcjami, wykraczając poza zwykłe ukończenie.
- Rozumowanie multimodalne: Chociaż obecne LMM przodują w przekształcaniu jednej modalności w drugą, płynna integracja danych multimodalnych na potrzeby złożonych zadań rozumowania, takich jak rozwiązywanie problemów ze słowem pisanym w oparciu o instrukcje słuchowe, pozostaje trudnym przedsięwzięciem.
- Kompresja LMM: Zasobochłonny charakter LMM stanowi poważną przeszkodę, czyniąc je niepraktycznymi w przypadku urządzeń brzegowych o ograniczonych zasobach obliczeniowych. Kompresja LMM w celu zwiększenia wydajności i dostosowania ich do wdrożenia na urządzeniach o ograniczonych zasobach jest kluczowym obszarem ciągłych badań.
Potencjalne przypadki użycia
- Edukacja: LMM mają potencjał, aby przekształcić edukację, generując różnorodne i wciągające materiały edukacyjne, które łączą tekst, obrazy i dźwięk. LMM zapewniają kompleksową informację zwrotną na temat zadań, promują platformy uczenia się opartego na współpracy i usprawniają rozwój umiejętności poprzez interaktywne symulacje i przykłady z rzeczywistego świata.
- Zdrowie: W przeciwieństwie do tradycyjnych systemów diagnostycznych AI, które skupiają się na jednej modalności, LMM usprawniają diagnostykę medyczną poprzez integrację wielu modalności. Wspierają także komunikację ponad barierami językowymi między podmiotami świadczącymi opiekę zdrowotną a pacjentami, pełniąc funkcję scentralizowanego repozytorium różnych zastosowań sztucznej inteligencji w szpitalach.
- Pokolenie sztuki i muzyki: LMM mogłyby przodować w tworzeniu dzieł sztuki i muzyki, łącząc różne modalności w celu uzyskania unikalnych i wyrazistych wyników. Na przykład artystyczny LMM może łączyć elementy wizualne i dźwiękowe, zapewniając wciągające wrażenia. Podobnie muzyczny LMM może integrować elementy instrumentalne i wokalne, tworząc dynamiczne i ekspresyjne kompozycje.
- Spersonalizowane rekomendacje: LMM mogą analizować preferencje użytkowników na różne sposoby, aby zapewnić spersonalizowane rekomendacje dotyczące konsumpcji treści, takich jak filmy, muzyka, artykuły lub produkty.
- Prognozowanie pogody i monitorowanie środowiska: LMM mogą analizować różne rodzaje danych, takie jak zdjęcia satelitarne, warunki atmosferyczne i wzorce historyczne, aby poprawić dokładność przewidywania pogody i monitorowania środowiska.
Bottom Line
Krajobraz dużych modeli multimodalnych (LMM) stanowi znaczący przełom w generatywnej sztucznej inteligencji, obiecując postęp w różnych dziedzinach. Ponieważ modele te płynnie integrują różne modalności, takie jak tekst, obrazy i dźwięk, ich rozwój otwiera drzwi do rewolucyjnych zastosowań w opiece zdrowotnej, edukacji, sztuce i spersonalizowanych rekomendacjach. Jednakże wyzwania, w tym przyjęcie większej liczby modalności danych i kompresja modeli wymagających dużych zasobów, podkreślają trwające wysiłki badawcze potrzebne do pełnego wykorzystania potencjału LMM.