Umělá inteligence

Odhalení velkých multimodálních modelů: Tvarování krajiny jazykových modelů v roce 2024

Publikováno 8. ledna 2024

Aktualizováno 22. května 2026

Dr. Tehseen Zia

Když zažíváme svět, naše smysly (zrak, zvuky, pachy) poskytují rozmanitý soubor informací, a vyjadřujeme se pomocí různých komunikačních metod, jako jsou mimika a gesta. Tyto smysly a komunikační metody se společně nazývají modality, reprezentující různé způsoby, kterými vnímáme a komunikujeme. Čerpajíce inspiraci z této lidské schopnosti, velké multimodální modely (LMM), kombinace generativních a multimodálních AI, jsou vyvíjeny pro pochopení a tvorbu obsahu pomocí různých typů, jako je text, obrázky a audio. V tomto článku se budeme zabývat touto nově se vyvíjející oblastí, zkoumající, co jsou LMM (Velké Multimodální Modely), jak jsou konstruovány, existující příklady, výzvy, kterým čelí, a potenciální aplikace.

Evolve generativní AI v roce 2024: Od velkých jazykových modelů k velkým multimodálním modelům

V své nejnovější zprávě McKinsey označil rok 2023 jako rok průlomu pro generativní AI, což vedlo k mnoha pokrokům v této oblasti. Svědky jsme významného vzestupu prevalence velkých jazykových modelů (LLM) schopných porozumět a generovat lidsky podobný jazyk. Kromě toho modely generování obrázků jsou významně vyvinuty, demonstrujíce svou schopnost vytvářet vizuály z textových vstupů. Nicméně, navzdory významnému pokroku v jednotlivých modalitách, jako je text, obrázky nebo audio, generativní AI narazila na výzvy při kombinaci těchto modalit v procesu generování. Jelikož svět je přirozeně multimodální, je důležité, aby AI zvládla multimodální informace. To je nezbytné pro smysluplnou interakci s lidmi a úspěšné fungování v reálných scénářích.

Následkem toho mnoho výzkumníků AI očekává vzestup LMM jako další hranice výzkumu a vývoje AI v roce 2024. Tato se vyvíjející hranice se zaměřuje na zlepšení kapacity generativní AI zpracovávat a produkovat rozmanité výstupy, sahající od textu, obrázků, audio, videa a dalších modalit. Je důležité zdůraznit, že ne všechny multimodální systémy kvalifikují jako LMM. Modely, jako je Midjourney a Stable Diffusion, navzdory tomu, že jsou multimodální, se nevejdou do kategorie LMM, především proto, že postrádají přítomnost LLM, která je základním komponentem LMM. Jinými slovy, můžeme LMM popsat jako rozšíření LLM, poskytující jim schopnost zvládnout různé modality.

Jak fungují LMM?

Zatímco výzkumníci prozkoumali různé přístupy ke konstrukci LMM, typicky zahrnují tři základní komponenty a operace. První, kódéry jsou použity pro každou datovou modalitu, aby generovaly datové reprezentace (označované jako vložené) specifické pro tuto modalitu. Druhé, různé mechanismy jsou použity pro zarovnání vložených reprezentací z různých modalit do jednotného multimodálního vloženého prostoru. Třetí, pro generativní modely, je LLM použita pro generování textových odpovědí. Vstupní data mohou sestávat z textu, obrázků, videí a audia, výzkumníci pracují na nových způsobech, jak nechat jazykové modely zohledňovat různé modality při poskytování odpovědí.

Vývoj LMM v roce 2023

Níže jsem stručně popsala některé pozoruhodné LMM vyvinuté v roce 2023.

LLaVA je open-source LMM, vyvinutý společně Univerzitou Wisconsin-Madison, Microsoft Research a Kolumbijskou univerzitou. Model má za cíl nabídnout open-source verzi multimodálního GPT4. Díky Meta’s Llama LLM, zahrnuje CLIP vizuální kódér pro robustní vizuální pochopení. Zdravotnická varianta LLaVa, nazvaná LLaVA-Med, může odpovědět na dotazy související s biomedicínskými obrázky.
ImageBind je open-source model vytvořený Meta, napodobující schopnost lidského vnímání spojit multimodální data. Model integruje šest modalit — text, obrázky/videa, audio, 3D měření, teplotní data a pohybová data — učí se jednotné reprezentace napříč těmito rozmanitými datovými typy. ImageBind může propojit objekty na fotografiích s atributy, jako je zvuk, 3D tvary, teplota a pohyb. Model lze použít, například, pro generování scény z textu nebo zvuků.
SeamlessM4T je multimodální model navržen Meta pro podporu komunikace mezi multijazyčnými komunitami. SeamlessM4T vyniká v překladu a přepisu úkolu, podporuje řeč na řeč, řeč na text, text na řeč a text na text překlad. Model používá neautoregresivní text-na-jednotku dekodér pro provedení těchto překladů. Vylepšená verze, SeamlessM4T v2, tvoří základ pro modely, jako je SeamlessExpressive a SeamlessStreaming, zdůrazňující zachování výrazu napříč jazyky a poskytující překlady s minimální latencí.
GPT4, spuštěný OpenAI, je pokrokem od jeho předchůdce, GPT3.5. Ačkoli nejsou detailní architektonické specifikace plně zveřejněny, GPT4 je dobře hodnocen pro jeho bezproblémovou integraci text-only, vision-only a audio-only modelů. Model může generovat text z obou textových a grafických vstupů. Vyniká v různých úkolech, včetně humoru popisu v obrazech, souhrnu textu z obrazovek a odpovídajících adekvátně na zkouškové otázky s diagramy. GPT4 je také uznáván pro svou adaptabilitu při efektivní zpracování širokého spektra formátů vstupních dat.
Gemini, vytvořený Google DeepMind, se odlišuje tím, že je vrozeně multimodální, umožňující bezproblémovou interakci napříč různými úkoly bez spoléhání se na spojení jednotlivých modalit. Tento model snadno zvládá jak text, tak rozmanité audio-vizuální vstupy, demonstruje svou schopnost generovat výstupy v obou textových a obrazových formátech.

Výzvy velkých multimodálních modelů

Zahrnutí více datových modalit: Většina stávajících LMM funguje s textem a obrázky. Nicméně, LMM potřebují vyvinout se za text a obrázky, zahrnovat modality, jako videa, hudbu a 3D.
Různorodost dostupných dat: Jednou z hlavních výzev při vývoji a trénování multimodálních generativních AI modelů je potřeba velkých a rozmanitých dat, která zahrnují více modalit. Například, pro trénování modelu, který generuje text a obrázky společně, dataset musí zahrnovat jak textové, tak obrazové vstupy, které jsou navzájem související.
Generování multimodálních výstupů: Zatímco LMM mohou zpracovat multimodální vstupy, generování rozmanitých výstupů, jako je kombinace textu s grafikou nebo animacemi, zůstává výzvou.
Dodržování pokynů: LMM čelí výzvě zvládnutí dialogu a úkolů, které vyžadují dodržování pokynů, přesahující pouhé dokončení.
Multimodální uvažování: Zatímco současné LMM vynikají v transformaci jedné modality do druhé, bezproblémová integrace multimodálních dat pro komplexní úkoly uvažování, jako je řešení psaných slovních problémů na základě zvukových pokynů, zůstává náročným úkolem.
Komprese LMM: Náročné využití zdrojů LMM představuje významnou překážku, činí je nepraktickými pro hraniční zařízení s omezenými výpočetními zdroji. Komprese LMM pro zlepšení efektivity a přizpůsobení se pro nasazení na zařízení s omezenými zdroji je kritickou oblastí pokračujícího výzkumu.

Potenciální použití

Vzdělávání: LMM mají potenciál transformovat vzdělávání generováním rozmanitých a interaktivních vzdělávacích materiálů, které kombinují text, obrázky a audio. LMM poskytují komplexní zpětnou vazbu na úkoly, podporují spolupráci na vzdělávacích platformách a zlepšují rozvoj dovedností prostřednictvím interaktivních simulací a reálných příkladů.
Zdravotnictví: Na rozdíl od tradičních AI diagnostických systémů, které se zaměřují na jednu modalitu, LMM zlepšují lékařskou diagnostiku integrací více modalit. Také podporují komunikaci přes jazykové bariéry mezi zdravotnickými pracovníky a pacienty, fungují jako centralizovaná databáze pro různé AI aplikace uvnitř nemocnic.
Generování umění a hudby: LMM by mohly vyniknout v tvorbě umění a hudby kombinací různých modalit pro unikátní a expresivní výstupy. Například umělecký LMM může spojit vizuální a zvukové prvky, poskytující imerzivní zážitek. Podobně, hudební LMM může integrovat instrumentální a vokální prvky, vedoucí k dynamickým a expresivním skladbám.
Personalizované doporučení: LMM mohou analyzovat uživatelské preference napříč různými modality, aby poskytly personalizovaná doporučení pro spotřebu obsahu, jako jsou filmy, hudba, články nebo produkty.

Předpověď počasí a environmentální monitoring: LMM mohou analyzovat různé modality dat, jako jsou satelitní snímky, atmosférické podmínky a historické vzorce, aby zlepšily přesnost předpovědi počasí a environmentálního monitoringu.

Závěrečné shrnutí

Krajina velkých multimodálních modelů (LMM) představuje významný průlom v generativní AI, slibující pokroky v různých oblastech. Jak tyto modely bezproblémově integrují různé modality, jako je text, obrázky a audio, jejich vývoj otevírá dveře k transformačním aplikacím ve zdravotnictví, vzdělávání, umění a personalizovaných doporučeních. Nicméně, výzvy, jako je zahrnutí více datových modalit a komprese náročných modelů, zdůrazňují pokračující výzkumné úsilí potřebné pro plné využití potenciálu LMM.