stub Afsløring af store multimodale modeller: Shaping the Landscape of Language Models in 2024 - Unite.AI
Følg os

Kunstig intelligens

Afsløring af store multimodale modeller: Shaping the Landscape of Language Models i 2024

mm
Opdateret on

Når vi oplever verden, giver vores sanser (syn, lyde, lugte) en bred vifte af information, og vi udtrykker os selv ved hjælp af forskellige kommunikationsmetoder, såsom ansigtsudtryk og gestik. Disse sanser og kommunikationsmetoder kaldes tilsammen modaliteter, der repræsenterer de forskellige måder, vi opfatter og kommunikerer på. Henter inspiration fra denne menneskelige evne, stor multimodal model (LMM), en kombination af generativ og multimodal AI, udvikles til at forstå og skabe indhold ved hjælp af forskellige typer som tekst, billeder og lyd. I denne artikel dykker vi ned i dette nye felt, hvor vi undersøger, hvad LMM'er (Large Multimodal Models) er, hvordan de er konstrueret, eksisterende eksempler, de udfordringer, de står over for, og potentielle anvendelser.

Udvikling af generativ kunstig intelligens i 2024: Fra store sprogmodeller til store multimodale modeller

I sin seneste rapport, McKinsey udpeget til 2023 som udbrudsår for generativ AI, hvilket fører til mange fremskridt på området. Vi har set en markant stigning i udbredelsen af store sprogmodeller (LLM'er) dygtig til at forstå og skabe menneskelignende sprog. Desuden, billedgenereringsmodeller er markant udviklet, hvilket demonstrerer deres evne til at skabe visuals ud fra tekstuelle prompter. På trods af betydelige fremskridt inden for individuelle modaliteter som tekst, billeder eller lyd, har generativ AI dog stødt på udfordringer med problemfrit at kombinere disse modaliteter i genereringsprocessen. Da verden i sagens natur er multimodal, er det afgørende for AI at kæmpe med multimodal information. Dette er afgørende for meningsfuldt engagement med mennesker og succesfuld drift i scenarier i den virkelige verden.

Som følge heraf forventer mange AI-forskere fremkomsten af ​​LMM'er som den næste grænse inden for AI-forskning og -udvikling i 2024. Denne udviklende grænse fokuserer på at forbedre kapaciteten af ​​generativ AI til at behandle og producere forskellige output, der spænder over tekst, billeder, lyd, video og andre modaliteter. Det er vigtigt at understrege, at ikke alle multimodale systemer kvalificeres som LMM'er. Modeller som midt på rejsen og Stabil diffusion, på trods af at de er multimodale, passer de ikke ind i LMM-kategorien, primært fordi de mangler tilstedeværelsen af ​​LLM'er, som er en grundlæggende komponent i LMM'er. Med andre ord kan vi beskrive LMM'er som en forlængelse af LLM'er, hvilket giver dem mulighed for dygtigt at håndtere forskellige modaliteter.

Hvordan fungerer LMM'er?

Mens forskere har udforsket forskellige tilgange til at konstruere LMM'er involverer de typisk tre væsentlige komponenter og operationer. For det første anvendes indkodere for hver datamodalitet til at generere datarepræsentationer (benævnt indlejringer), der er specifikke for denne modalitet. For det andet bruges forskellige mekanismer til at tilpasse indlejringer fra forskellige modaliteter til et samlet multimodalt indlejringsrum. For det tredje, for generative modeller, anvendes en LLM til at generere tekstsvar. Da input kan bestå af tekst, billeder, videoer og lyd, arbejder forskere på nye måder at få sprogmodeller til at overveje forskellige modaliteter, når de giver svar.

Udvikling af LMM'er i 2023

Nedenfor har jeg kort skitseret nogle af de bemærkelsesværdige LMM'er udviklet i 2023.

  • LLaVA er en open source LMM, udviklet i fællesskab af University of Wisconsin-Madison, Microsoft Research og Columbia University. Modellen sigter mod at tilbyde en open source-version af multimodal GPT4. Udnyttelse Metas Llama LLM, inkorporerer den CLIP visuel encoder for robust visuel forståelse. Den sundhedsfokuserede variant af LLaVa, betegnet som LLaVA-Med, kan besvare henvendelser relateret til biomedicinske billeder.
  • billedbind er en open source-model lavet af Meta, der emulerer menneskelig perceptions evne til at relatere multimodale data. Modellen integrerer seks modaliteter – tekst, billeder/videoer, lyd, 3D-målinger, temperaturdata og bevægelsesdata – og lærer en samlet repræsentation på tværs af disse forskellige datatyper. ImageBind kan forbinde objekter på fotos med attributter som lyd, 3D-former, temperatur og bevægelse. Modellen kan f.eks. bruges til at generere scene fra tekst eller lyde.
  • Sømløs M4T er en multimodal model designet af Meta til at fremme kommunikation mellem flersprogede samfund. SeamlessM4T udmærker sig i oversættelses- og transskriptionsopgaver og understøtter tale-til-tale, tale-til-tekst, tekst-til-tale og tekst-til-tekst-oversættelser. Modellen anvender ikke-autoregressiv tekst-til-enhed-dekoder til at udføre disse oversættelser. Den forbedrede version, SeamlessM4T v2, danner grundlag for modeller som SeamlessExpressive og Sømløs streaming, der understreger bevarelsen af ​​udtryk på tværs af sprog og leverer oversættelser med minimal latenstid.
  • GPT4, lanceret af OpenAI, er et fremskridt af sin forgænger, GPT3.5. Selvom detaljerede arkitektoniske specifikationer ikke er fuldt ud afsløret, er GPT4 velanset for sin glatte integration af kun tekst-, vision- og kun lyd-modeller. Modellen kan generere tekst fra både skriftlige og grafiske input. Det udmærker sig i forskellige opgaver, herunder humorbeskrivelse i billeder, opsummering af tekst fra skærmbilleder og dygtig besvarelse af eksamensspørgsmål med diagrammer. GPT4 er også anerkendt for sin tilpasningsevne til effektivt at behandle en lang række inputdataformater.
  • Gemini, skabt af Google DeepMind, udmærker sig ved at være iboende multimodal, hvilket muliggør sømløs interaktion på tværs af forskellige opgaver uden at være afhængig af at sammenføje enkeltmodalitetskomponenter. Denne model håndterer ubesværet både tekst og diverse audiovisuelle input, hvilket viser dens evne til at generere output i både tekst- og billedformater.

Udfordringer ved store multimodale modeller

  • Inkorporering af flere datamodaliteter: De fleste eksisterende LMM'er opererer med tekst og billeder. Men LMM'er skal udvikle sig ud over tekst og billeder og rumme modaliteter som videoer, musik og 3D.
  • Diverse datasæt tilgængelighed: En af de vigtigste udfordringer ved udvikling og træning af multimodale generative AI-modeller er behovet for store og forskellige datasæt, der inkluderer flere modaliteter. For at træne en model til at generere tekst og billeder sammen, skal datasættet for eksempel indeholde både tekst- og billedinput, der er relateret til hinanden.
  • Generering af multimodale output: Mens LMM'er kan håndtere multimodale input, er det stadig en udfordring at generere forskellige output, såsom at kombinere tekst med grafik eller animationer.
  • Følgende instruktioner: LMM'er står over for udfordringen med at mestre dialog og instruktionsfølgende opgaver, der går videre end blot færdiggørelse.
  • Multimodal ræsonnement: Mens nuværende LMM'er udmærker sig ved at transformere en modalitet til en anden, er den sømløse integration af multimodale data til komplekse ræsonnementopgaver, som at løse skrevne ordproblemer baseret på auditive instruktioner, stadig en udfordrende bestræbelse.
  • Komprimering af LMM'er: Den ressourcekrævende natur af LMM'er udgør en betydelig hindring, hvilket gør dem upraktiske for edge-enheder med begrænsede beregningsressourcer. Komprimering af LMM'er for at øge effektiviteten og gøre dem egnede til udrulning på ressourcebegrænsede enheder er et afgørende område af igangværende forskning.

Potentielle anvendelsestilfælde

  • Uddannelse: LMM'er har potentialet til at transformere uddannelse ved at generere forskelligartede og engagerende læringsmaterialer, der kombinerer tekst, billeder og lyd. LMM'er giver omfattende feedback på opgaver, fremmer kollaborative læringsplatforme og forbedrer kompetenceudvikling gennem interaktive simuleringer og eksempler fra den virkelige verden.
  • Medicinal: I modsætning til traditionelle AI-diagnosesystemer, der er målrettet mod en enkelt modalitet, forbedrer LMM'er medicinsk diagnostik ved at integrere flere modaliteter. De understøtter også kommunikation på tværs af sprogbarrierer blandt sundhedsudbydere og patienter, og fungerer som et centraliseret lager for forskellige AI-applikationer på hospitaler.
  • Kunst- og musikgeneration: LMM'er kunne udmærke sig i kunst- og musikskabelse ved at kombinere forskellige modaliteter til unikke og udtryksfulde output. For eksempel kan en kunst LMM blande visuelle og auditive elementer, hvilket giver en fordybende oplevelse. Ligeledes kan en musik-LMM integrere instrumentale og vokale elementer, hvilket resulterer i dynamiske og udtryksfulde kompositioner.
  • Personlige anbefalinger: LMM'er kan analysere brugerpræferencer på tværs af forskellige modaliteter for at give personlige anbefalinger til indholdsforbrug, såsom film, musik, artikler eller produkter.
  • Vejrudsigt og miljøovervågning: LMM'er kan analysere forskellige modaliteter af data, såsom satellitbilleder, atmosfæriske forhold og historiske mønstre, for at forbedre nøjagtigheden i vejrudsigelse og miljøovervågning.

The Bottom Line

Landskabet af store multimodale modeller (LMM'er) markerer et betydeligt gennembrud inden for generativ kunstig intelligens, der lover fremskridt på forskellige områder. Da disse modeller problemfrit integrerer forskellige modaliteter, såsom tekst, billeder og lyd, åbner deres udvikling døre til transformative applikationer inden for sundhedspleje, uddannelse, kunst og personlige anbefalinger. Udfordringer, herunder at imødekomme flere datamodaliteter og komprimere ressourcekrævende modeller, understreger imidlertid den igangværende forskningsindsats, der er nødvendig for den fulde realisering af LMM'ers potentiale.

Dr. Tehseen Zia er fast lektor ved COMSATS University Islamabad og har en ph.d. i kunstig intelligens fra Wiens teknologiske universitet, Østrig. Med speciale i kunstig intelligens, maskinlæring, datavidenskab og computersyn har han ydet betydelige bidrag med publikationer i velrenommerede videnskabelige tidsskrifter. Dr. Tehseen har også ledet forskellige industrielle projekter som Principal Investigator og fungeret som AI-konsulent.