Umělá inteligence
Odhalení velkých multimodálních modelů: Utváření krajiny jazykových modelů v roce 2024

Když zažíváme svět, naše smysly (zrak, zvuky, vůně) poskytují rozmanité množství informací a vyjadřujeme se pomocí různých komunikačních metod, jako jsou výrazy obličeje a gesta. Tyto smysly a komunikační metody se souhrnně nazývají modality, které představují různé způsoby, jak vnímáme a komunikujeme. Čerpat inspiraci z této lidské schopnosti, velký multimodální model (LMM), kombinace generativního a multimodální AI, jsou vyvíjeny pro porozumění a vytváření obsahu pomocí různých typů, jako je text, obrázky a zvuk. V tomto článku se ponoříme do této nově vznikající oblasti a prozkoumáme, co jsou LMM (velké multimodální modely), jak jsou konstruovány, existující příklady, výzvy, kterým čelí, a potenciální aplikace.
Evoluce generativní umělé inteligence v roce 2024: Od velkých jazykových modelů k velkým multimodálním modelům
Ve své nejnovější zprávě McKinsey označen 2023 jako zlomový rok pro generativní AI, což vede k mnoha pokrokům v oboru. Byli jsme svědky výrazného nárůstu prevalence velké jazykové modely (LLM) zběhlý v porozumění a vytváření lidského jazyka. dále modely generování obrazu se výrazně vyvinuli a prokázali svou schopnost vytvářet vizuály z textových výzev. Navzdory značnému pokroku v jednotlivých modalitách, jako je text, obrázky nebo zvuk, se generativní umělá inteligence potýkala s problémy při bezproblémovém kombinování těchto modalit v procesu generování. Vzhledem k tomu, že svět je svou podstatou multimodální, je pro AI zásadní, aby se potýkala s multimodálními informacemi. To je nezbytné pro smysluplné zapojení lidí a úspěšné fungování ve scénářích reálného světa.
V důsledku toho mnoho výzkumníků umělé inteligence očekává vzestup LMM jako další hranice ve výzkumu a vývoji umělé inteligence v roce 2024. Tato vyvíjející se hranice se zaměřuje na zvýšení kapacity generativní umělé inteligence zpracovávat a produkovat různé výstupy, zahrnující text, obrázky, zvuk, video a jiné modality. Je nezbytné zdůraznit, že ne všechny multimodální systémy se kvalifikují jako LMM. Modelky jako Střední cesta si Stabilní difúze, přestože jsou multimodální, nezapadají do kategorie LMM hlavně proto, že postrádají přítomnost LLM, které jsou základní složkou LMM. Jinými slovy, LMM můžeme popsat jako rozšíření LLM, které jim poskytuje schopnost kvalifikovaně zvládat různé modality.
Jak LMM fungují?
Zatímco výzkumníci prozkoumali různé přístupy při konstrukci LMM obvykle zahrnují tři základní komponenty a operace. Nejprve se pro každou datovou modalitu použijí kodéry pro generování datových reprezentací (označovaných jako vložení) specifických pro tuto modalitu. Za druhé, pro zarovnání vložení z různých modalit do jednotného multimodálního prostoru pro vložení se používají různé mechanismy. Za třetí, u generativních modelů se pro generování textových odpovědí používá LLM. Protože vstupy mohou sestávat z textu, obrázků, videí a zvuků, výzkumníci pracují na nových způsobech, jak přimět jazykové modely, aby při poskytování odpovědí zvážily různé modality.
Vývoj LMM v roce 2023
Níže jsem stručně nastínil některé z pozoruhodných LMM vyvinutých v roce 2023.
- LLaVA je open source LMM, který společně vyvinuly University of Wisconsin-Madison, Microsoft Research a Columbia University. Cílem modelu je nabídnout multimodální verzi s otevřeným zdrojovým kódem GPT4. Pákový efekt Meta's Llama LLM, to zahrnuje CLIP vizuální kodér pro robustní vizuální porozumění. Varianta LLaVa zaměřená na zdravotní péči, nazývaná jako LLaVA-Med, může odpovídat na dotazy týkající se biomedicínských snímků.
- imagebind je model s otevřeným zdrojovým kódem vytvořený společností Meta, který napodobuje schopnost lidského vnímání spojovat multimodální data. Model integruje šest modalit – text, obrázky/videa, zvuk, 3D měření, teplotní data a pohybová data – a učí se jednotné reprezentaci napříč těmito různými datovými typy. ImageBind dokáže spojit objekty na fotografiích s atributy, jako je zvuk, 3D tvary, teplota a pohyb. Model lze použít například pro generování scény z textu nebo zvuků.
- Bezešvé M4T je multimodální model navržený společností Meta k podpoře komunikace mezi vícejazyčnými komunitami. SeamlessM4T vyniká v úlohách překladu a přepisu, podporuje převody řeči na řeč, řeči na text, převod textu na řeč a převod textu na text. Model využívá k provádění těchto překladů neautoregresivní dekodér textu na jednotku. Vylepšená verze, SeamlessM4T v2, tvoří základ pro modely jako BezešvéExpresivní si Bezproblémové streamování, klade důraz na zachování výrazu napříč jazyky a poskytuje překlady s minimální latencí.
- GPT4, spuštěný OpenAI, je pokrokem svého předchůdce, GPT3.5. Ačkoli podrobná architektonická specifika nejsou zcela zveřejněna, GPT4 je dobře hodnocen pro svou hladkou integraci pouze textových, pouze vizuálních a zvukových modelů. Model umí generovat text z písemných i grafických vstupů. Vyniká v různých úkolech, včetně popisu humoru v obrázcích, shrnutí textu ze snímků obrazovky a obratné reakce na zkušební otázky obsahující diagramy. GPT4 je také uznáván pro svou přizpůsobivost při efektivním zpracování široké škály formátů vstupních dat.
- Blíženci, vytvořený společností Google DeepMind, se vyznačuje tím, že je ze své podstaty multimodální, což umožňuje bezproblémovou interakci napříč různými úkoly, aniž by se spoléhalo na spojování jednotlivých komponent. Tento model bez námahy zvládá textové i různé audiovizuální vstupy a předvádí svou schopnost generovat výstupy v textových i obrazových formátech.
Výzvy velkých multimodálních modelů
- Začlenění dalších datových modalit: Většina stávajících LMM pracuje s textem a obrázky. LMM se však musí vyvinout mimo text a obrázky a přizpůsobit se modalitám, jako jsou videa, hudba a 3D.
- Dostupnost různých datových sad: Jednou z klíčových výzev při vývoji a výcviku multimodálních generativních modelů umělé inteligence je potřeba velkých a různorodých datových sad, které zahrnují více modalit. Chcete-li například trénovat model pro společné generování textu a obrázků, musí datová sada obsahovat textové i obrazové vstupy, které spolu souvisejí.
- Generování multimodálních výstupů: Zatímco LMM zvládnou multimodální vstupy, generování různorodých výstupů, jako je kombinace textu s grafikou nebo animacemi, zůstává výzvou.
- Následující pokyny: LMM čelí výzvě zvládnutí dialogu a úkolů souvisejících s instrukcemi, které přesahují pouhé dokončení.
- Multimodální uvažování: Zatímco současné LMM vynikají v transformaci jedné modality na druhou, bezproblémová integrace multimodálních dat pro komplexní logické úlohy, jako je řešení písemných slovních úloh na základě sluchových instrukcí, zůstává náročným úsilím.
- Komprese LMM: Povaha LMM náročná na zdroje představuje významnou překážku, která je činí nepraktickými pro okrajová zařízení s omezenými výpočetními zdroji. Komprese LMM za účelem zvýšení efektivity a přizpůsobení se nasazení na zařízeních s omezenými zdroji je klíčovou oblastí probíhajícího výzkumu.
Případy potenciálního použití
- Vzdělání: LMM mají potenciál transformovat vzdělávání vytvářením různorodých a poutavých výukových materiálů, které kombinují text, obrázky a zvuk. LMM poskytují komplexní zpětnou vazbu k úkolům, podporují platformy pro spolupráci a zlepšují rozvoj dovedností prostřednictvím interaktivních simulací a příkladů z reálného světa.
- Zdravotní péče: Na rozdíl od tradičních diagnostických systémů AI, které se zaměřují na jedinou modalitu, LMM zlepšují lékařskou diagnostiku integrací více modalit. Podporují také komunikaci přes jazykové bariéry mezi poskytovateli zdravotní péče a pacienty a fungují jako centralizované úložiště pro různé aplikace umělé inteligence v nemocnicích.
- Umění a hudební generace: LMM by mohly vynikat v umělecké a hudební tvorbě kombinací různých modalit pro jedinečné a expresivní výstupy. Například umělecký LMM může kombinovat vizuální a sluchové prvky a poskytnout pohlcující zážitek. Podobně může hudební LMM integrovat instrumentální a vokální prvky, což vede k dynamickým a výrazným kompozicím.
- Personalizovaná doporučení: LMM mohou analyzovat uživatelské preference napříč různými modalitami a poskytovat personalizovaná doporučení pro konzumaci obsahu, jako jsou filmy, hudba, články nebo produkty.
- Předpověď počasí a monitorování životního prostředí: LMM mohou analyzovat různé modality dat, jako jsou satelitní snímky, atmosférické podmínky a historické vzory, aby se zlepšila přesnost předpovědí počasí a monitorování životního prostředí.
Bottom Line
Krajina velkých multimodálních modelů (LMM) představuje významný průlom v generativní umělé inteligenci a slibuje pokrok v různých oblastech. Protože tyto modely hladce integrují různé modality, jako je text, obrázky a zvuk, jejich vývoj otevírá dveře transformačním aplikacím ve zdravotnictví, vzdělávání, umění a personalizovaným doporučením. Výzvy, včetně přizpůsobení většímu množství datových modalit a komprimace modelů náročných na zdroje, však podtrhují pokračující výzkumné úsilí potřebné k plné realizaci potenciálu LMM.