Artificiell intelligens
Avtäckning av stora multimodala modeller: Shaping the Landscape of Language Models 2024

När vi upplever världen ger våra sinnen (syn, ljud, lukter) en mångfald av information, och vi uttrycker oss med olika kommunikationsmetoder, såsom ansiktsuttryck och gester. Dessa sinnen och kommunikationsmetoder kallas gemensamt för modaliteter, som representerar de olika sätt vi uppfattar och kommunicerar. Att hämta inspiration från denna mänskliga förmåga, stor multimodal modell (LMM), en kombination av generativ och multimodal AI, utvecklas för att förstå och skapa innehåll med hjälp av olika typer som text, bilder och ljud. I den här artikeln fördjupar vi oss i detta nyligen framväxande fält, och utforskar vad LMM (Large Multimodal Models) är, hur de är konstruerade, befintliga exempel, utmaningarna de står inför och potentiella tillämpningar.
Utveckling av generativ AI 2024: Från stora språkmodeller till stora multimodala modeller
I sin senaste rapport, McKinsey utsågs till 2023 som ett utbrottsår för generativ AI, vilket leder till många framsteg inom området. Vi har sett en anmärkningsvärd ökning av förekomsten av stora språkmodeller (LLM) skicklig på att förstå och skapa människoliknande språk. Dessutom, bildgenereringsmodeller är avsevärt utvecklade, vilket visar deras förmåga att skapa visuella bilder från textuppmaningar. Men trots betydande framsteg i individuella modaliteter som text, bilder eller ljud, har generativ AI stött på utmaningar med att sömlöst kombinera dessa modaliteter i genereringsprocessen. Eftersom världen till sin natur är multimodal till sin natur är det avgörande för AI att brottas med multimodal information. Detta är viktigt för ett meningsfullt engagemang med människor och framgångsrik verksamhet i verkliga scenarier.
Följaktligen förutser många AI-forskare uppkomsten av LMM som nästa frontlinje inom AI-forskning och -utveckling 2024. Denna utvecklande frontier fokuserar på att förbättra kapaciteten hos generativ AI att bearbeta och producera olika utdata, som spänner över text, bilder, ljud, video och andra modaliteter. Det är viktigt att betona att inte alla multimodala system kvalificerar sig som LMM. Modeller som midjourney och Stabil diffusion, trots att de är multimodala, passar de inte in i LMM-kategorin främst eftersom de saknar närvaron av LLM, som är en grundläggande komponent i LMM. Med andra ord kan vi beskriva LMM som en förlängning av LLM, vilket ger dem förmågan att skickligt hantera olika modaliteter.
Hur fungerar LMM?
Medan forskare har utforskat olika tillvägagångssätt för att konstruera LMMs involverar de vanligtvis tre väsentliga komponenter och operationer. För det första används kodare för varje datamodalitet för att generera datarepresentationer (refererade till som inbäddningar) specifika för den modaliteten. För det andra används olika mekanismer för att anpassa inbäddningar från olika modaliteter till ett enhetligt multimodalt inbäddningsutrymme. För det tredje, för generativa modeller, används en LLM för att generera textsvar. Eftersom indata kan bestå av text, bilder, videor och ljud, arbetar forskare på nya sätt att få språkmodeller att överväga olika modaliteter när de ger svar.
Utveckling av LMM 2023
Nedan har jag kort beskrivit några av de anmärkningsvärda LMM som utvecklades 2023.
- LLaVA är en öppen källkod LMM, gemensamt utvecklad av University of Wisconsin-Madison, Microsoft Research och Columbia University. Modellen syftar till att erbjuda en öppen källkodsversion av multimodal GPT4. Utnyttja Metas Llama LLM, innehåller den KLÄMMA visuell kodare för robust visuell förståelse. Den sjukvårdsinriktade varianten av LLaVa, benämnd som LLaVA-Med, kan svara på förfrågningar relaterade till biomedicinska bilder.
- bildbind är en öppen källkodsmodell skapad av Meta, som emulerar mänsklig perceptions förmåga att relatera multimodal data. Modellen integrerar sex modaliteter – text, bilder/videor, ljud, 3D-mätningar, temperaturdata och rörelsedata – och lär sig en enhetlig representation över dessa olika datatyper. ImageBind kan koppla ihop objekt i foton med attribut som ljud, 3D-former, temperatur och rörelse. Modellen kan till exempel användas för att generera scen från text eller ljud.
- SeamlessM4T är en multimodal modell designad av Meta för att främja kommunikation mellan flerspråkiga samhällen. SeamlessM4T utmärker sig i översättnings- och transkriptionsuppgifter, stöder tal-till-tal, tal-till-text, text-till-tal och text-till-text översättningar. Modellen använder icke-autoregressiv text-till-enhet-avkodare för att utföra dessa översättningar. Den förbättrade versionen, SeamlessM4T v2, ligger till grund för modeller som SeamlessExpressive och Sömlös strömning, betonar bevarandet av uttryck över språk och levererar översättningar med minimal latens.
- GPT4, lanserad av OpenAI, är ett framsteg av sin föregångare, GPT3.5. Även om detaljerade arkitektoniska detaljer inte avslöjas fullständigt, är GPT4 väl ansedd för sin smidiga integration av endast text-, vision- och endast ljudmodeller. Modellen kan generera text från både skriftliga och grafiska input. Den utmärker sig i olika uppgifter, inklusive humorbeskrivningar i bilder, sammanfattning av text från skärmdumpar och att svara skickligt på tentamensfrågor med diagram. GPT4 är också känt för sin anpassningsförmåga för att effektivt bearbeta ett brett utbud av indataformat.
- tvillingarna, skapad av Google DeepMind, utmärker sig genom att vara i sig multimodal, vilket möjliggör sömlös interaktion över olika uppgifter utan att förlita sig på att sy ihop komponenter med en enda modalitet. Den här modellen hanterar enkelt både text och olika audiovisuella ingångar, vilket visar upp dess förmåga att generera utdata i både text- och bildformat.
Stora multimodala modellers utmaningar
- Inkludera fler datamodaliteter: De flesta befintliga LMM:er arbetar med text och bilder. Däremot måste LMM:er utvecklas bortom text och bilder, och rymma modaliteter som videor, musik och 3D.
- Olika datauppsättningstillgänglighet: En av de viktigaste utmaningarna för att utveckla och träna multimodala generativa AI-modeller är behovet av stora och olika datauppsättningar som inkluderar flera modaliteter. Till exempel, för att träna en modell att generera text och bilder tillsammans, måste datasetet innehålla både text- och bildindata som är relaterade till varandra.
- Generera multimodala utgångar: Medan LMM:er kan hantera multimodala ingångar, är det fortfarande en utmaning att generera olika utdata, som att kombinera text med grafik eller animationer.
- Följande instruktioner: LMM:er står inför utmaningen att bemästra dialog och instruktionsföljande uppgifter, som går bortom enbart slutförande.
- Multimodalt resonemang: Medan nuvarande LMM:er utmärker sig på att omvandla en modalitet till en annan, förblir den sömlösa integrationen av multimodala data för komplexa resonemangsuppgifter, som att lösa problem med skrivna ord baserat på auditiva instruktioner, en utmanande strävan.
- Komprimera LMM:er: LMMs resurskrävande natur utgör ett betydande hinder, vilket gör dem opraktiska för edge-enheter med begränsade beräkningsresurser. Att komprimera LMM:er för att öka effektiviteten och göra dem lämpliga för utplacering på resursbegränsade enheter är ett avgörande område av pågående forskning.
Fall med potentiell användning
- Utbildning: LMM:er har potential att förändra utbildning genom att skapa mångsidigt och engagerande läromedel som kombinerar text, bilder och ljud. LMM:er ger omfattande feedback på uppdrag, främjar plattformar för samarbetande lärande och förbättrar kompetensutveckling genom interaktiva simuleringar och verkliga exempel.
- Sjukvård: Till skillnad från traditionella AI-diagnostiksystem som riktar sig mot en enda modalitet, förbättrar LMM:er medicinsk diagnostik genom att integrera flera modaliteter. De stöder också kommunikation över språkbarriärer mellan vårdgivare och patienter, och fungerar som ett centraliserat arkiv för olika AI-applikationer inom sjukhus.
- Generation av konst och musik: LMMs skulle kunna utmärka sig i konst- och musikskapande genom att kombinera olika modaliteter för unika och uttrycksfulla resultat. Till exempel kan en konst LMM blanda visuella och auditiva element, vilket ger en uppslukande upplevelse. På samma sätt kan en musik-LMM integrera instrumentala och vokala element, vilket resulterar i dynamiska och uttrycksfulla kompositioner.
- Personliga rekommendationer: LMM:er kan analysera användarpreferenser över olika modaliteter för att ge personliga rekommendationer för innehållskonsumtion, såsom filmer, musik, artiklar eller produkter.
- Väderprognoser och miljöövervakning: LMM:er kan analysera olika datamodaliteter, såsom satellitbilder, atmosfäriska förhållanden och historiska mönster, för att förbättra noggrannheten i väderförutsägelser och miljöövervakning.
The Bottom Line
Landskapet med stora multimodala modeller (LMM) markerar ett betydande genombrott inom generativ AI, och lovar framsteg inom olika områden. Eftersom dessa modeller sömlöst integrerar olika modaliteter, såsom text, bilder och ljud, öppnar deras utveckling dörrar till transformativa tillämpningar inom hälsovård, utbildning, konst och personliga rekommendationer. Men utmaningar, inklusive att ta emot fler datamodaliteter och komprimera resurskrävande modeller, understryker de pågående forskningsinsatser som krävs för att LMM:s potential ska kunna förverkligas fullt ut.

