Refresh

This website www.unite.ai/sl/unveiling-of-large-multimodal-models-shaping-the-landscape-of-language-models-in-2024/ is currently offline. Cloudflare's Always Online™ shows a snapshot of this web page from the Internet Archive's Wayback Machine. To check for the live version, click Refresh.

Povežite se z nami

Umetna inteligenca

Razkritje velikih multimodalnih modelov: Oblikovanje krajine jezikovnih modelov leta 2024

mm
Posodobljeno on

Ko doživljamo svet, naši čuti (vid, zvoki, vonji) zagotavljajo raznoliko paleto informacij, izražamo pa se z različnimi komunikacijskimi metodami, kot so obrazna mimika in kretnje. Ta čutila in komunikacijske metode se skupaj imenujejo modalitete in predstavljajo različne načine, kako zaznavamo in komuniciramo. Črpanje navdiha iz te človeške sposobnosti, velik multimodalni model (LMM), kombinacija generativnega in multimodalni AI, se razvijajo za razumevanje in ustvarjanje vsebin z uporabo različnih vrst, kot so besedilo, slike in zvok. V tem članku se poglobimo v to na novo nastajajoče področje in raziskujemo, kaj so LMM (veliki multimodalni modeli), kako so zgrajeni, obstoječe primere, izzive, s katerimi se soočajo, in možne aplikacije.

Razvoj generativne umetne inteligence leta 2024: od velikih jezikovnih modelov do velikih multimodalnih modelov

V svojem zadnjem poročilu je McKinsey je označil 2023 kot prelomno leto za generativni AI, kar vodi do številnih napredkov na tem področju. Priča smo opaznemu porastu razširjenosti veliki jezikovni modeli (LLM) spreten pri razumevanju in ustvarjanju človeškega jezika. Poleg tega modeli za ustvarjanje slik so se znatno razvili in dokazujejo svojo sposobnost ustvarjanja vizualnih podob iz besedilnih pozivov. Kljub znatnemu napredku pri posameznih modalitetah, kot so besedilo, slike ali zvok, pa je generativni AI naletel na izzive pri brezhibnem združevanju teh modalitet v procesu generiranja. Ker je svet sam po sebi multimodalen, je ključnega pomena, da se umetna inteligenca spopada z multimodalnimi informacijami. To je bistveno za smiselno sodelovanje z ljudmi in uspešno delovanje v realnih scenarijih.

Posledično mnogi raziskovalci umetne inteligence pričakujejo vzpon LMM kot naslednjo mejo v raziskavah in razvoju umetne inteligence leta 2024. Ta razvijajoča se meja se osredotoča na izboljšanje zmogljivosti generativne umetne inteligence za obdelavo in ustvarjanje različnih rezultatov, ki obsegajo besedilo, slike, zvok, video in druge modalitete. Bistveno je poudariti, da se vsi multimodalni sistemi ne štejejo za LMM. Modeli kot vmesna pot in Stabilna difuzija, kljub temu da so multimodalni, ne spadajo v kategorijo LMM predvsem zato, ker nimajo prisotnosti LLM, ki so temeljna sestavina LMM. Z drugimi besedami, LMM-je lahko opišemo kot razširitev LLM-jev, ki jim zagotavljajo sposobnost za strokovno obvladovanje različnih modalitet.

Kako delujejo LMM?

Medtem ko so raziskovalci raziskovali različne pristope za izdelavo LMM običajno vključujejo tri bistvene komponente in operacije. Prvič, kodirniki se uporabljajo za vsako podatkovno modalnost, da ustvarijo predstavitve podatkov (imenovane vdelave), specifične za to modalnost. Drugič, različni mehanizmi se uporabljajo za usklajevanje vdelav iz različnih modalitet v enoten multimodalni prostor vdelave. Tretjič, za generativne modele se LLM uporablja za ustvarjanje besedilnih odgovorov. Ker so vnosi lahko sestavljeni iz besedila, slik, videoposnetkov in zvoka, raziskovalci delajo na novih načinih, kako bi jezikovni modeli upoštevali različne modalitete pri dajanju odgovorov.

Razvoj LMM v 2023

Spodaj sem na kratko opisal nekaj pomembnih LMM, razvitih leta 2023.

  • LLaVA je odprtokodni LMM, ki so ga skupaj razvili Univerza Wisconsin-Madison, Microsoft Research in Univerza Columbia. Cilj modela je ponuditi odprtokodno različico multimodalnega GPT4. Vzvod Meta Llama LLM, vključuje CLIP vizualni kodirnik za zanesljivo vizualno razumevanje. Različica LLaVa, osredotočena na zdravstveno varstvo, imenovana kot LLaVA-Med, lahko odgovori na vprašanja v zvezi z biomedicinskimi slikami.
  • imagebind je odprtokodni model, ki ga je izdelala Meta in posnema sposobnost človeškega zaznavanja, da poveže večmodalne podatke. Model združuje šest modalitet – besedilo, slike/videoposnetke, zvok, 3D meritve, podatke o temperaturi in podatke o gibanju – s čimer se nauči enotne predstavitve v teh različnih vrstah podatkov. ImageBind lahko povezuje predmete na fotografijah z atributi, kot so zvok, 3D oblike, temperatura in gibanje. Model je mogoče uporabiti na primer za ustvarjanje scene iz besedila ali zvokov.
  • Brezhibno M4T je multimodalni model, ki ga je oblikovala Meta za spodbujanje komunikacije med večjezičnimi skupnostmi. SeamlessM4T je odličen pri nalogah prevajanja in prepisovanja, saj podpira prevode iz govora v govor, govora v besedilo, besedila v govor in besedila v besedilo. Model za izvajanje teh prevodov uporablja neavtoregresivni dekoder besedila v enoto. Izboljšana različica, Brezhibno M4T v2, je osnova za modele, kot je SeamlessExpressive in Brezšivno pretakanje, s poudarkom na ohranjanju izražanja med jeziki in zagotavljanju prevodov z minimalno zakasnitvijo.
  • GPT4, ki ga je lansiral OpenAI, je napredek svojega predhodnika, GPT3.5. Čeprav podrobne arhitekturne posebnosti niso v celoti razkrite, je GPT4 dobro cenjen zaradi gladke integracije modelov samo z besedilom, samo s sliko in samo z zvokom. Model lahko ustvari besedilo iz pisnih in grafičnih vnosov. Odličen je pri različnih nalogah, vključno z opisom humorja v slikah, povzemanjem besedila iz posnetkov zaslona in spretnim odzivom na izpitna vprašanja z diagrami. GPT4 je prepoznaven tudi po svoji prilagodljivosti pri učinkoviti obdelavi širokega nabora formatov vhodnih podatkov.
  • Gemini, ki ga je ustvaril Google DeepMind, se odlikuje po tem, da je sam po sebi multimodalen in omogoča brezhibno interakcijo med različnimi nalogami, ne da bi se zanašal na sestavljanje komponent ene same modalnosti. Ta model brez truda upravlja besedilne in različne avdio-vizualne vnose, pri čemer prikazuje svojo zmožnost ustvarjanja izhodov v besedilnih in slikovnih formatih.

Izzivi velikih multimodalnih modelov

  • Vključitev več modalitet podatkov: Večina obstoječih LMM deluje z besedilom in slikami. Vendar pa se morajo LMM-ji razviti izven besedila in slik ter se prilagoditi načinom, kot so videoposnetki, glasba in 3D.
  • Razpoložljivost različnih naborov podatkov: Eden od ključnih izzivov pri razvoju in usposabljanju večmodalnih generativnih modelov umetne inteligence je potreba po velikih in raznolikih naborih podatkov, ki vključujejo več modalitet. Če želite na primer usposobiti model za skupno ustvarjanje besedila in slik, mora nabor podatkov vključevati tako besedilne kot slikovne vnose, ki so med seboj povezani.
  • Ustvarjanje multimodalnih rezultatov: Medtem ko lahko LMM obravnavajo multimodalne vnose, ustvarjanje raznolikih izhodov, kot je kombiniranje besedila z grafiko ali animacijami, ostaja izziv.
  • Naslednja navodila: LMM se soočajo z izzivom obvladovanja dialoga in nalog, ki sledijo navodilom, ter presegajo zgolj dokončanje.
  • Multimodalno sklepanje: Medtem ko trenutni LMM blestijo pri preoblikovanju ene modalitete v drugo, brezhibna integracija večmodalnih podatkov za zapletene naloge razmišljanja, kot je reševanje pisnih besednih težav na podlagi slušnih navodil, ostaja izziv.
  • Stiskanje LMM: Narava LMM-jev, ki zahtevajo veliko virov, predstavlja veliko oviro, zaradi česar so nepraktični za robne naprave z omejenimi računalniškimi viri. Stiskanje LMM za izboljšanje učinkovitosti in njihovo primernost za uporabo na napravah z omejenimi viri je ključno področje tekočih raziskav.

Primeri potencialne uporabe

  • Izobraževanje: LMM imajo potencial za preoblikovanje izobraževanja z ustvarjanjem raznolikih in privlačnih učnih gradiv, ki združujejo besedilo, slike in zvok. LMM zagotavljajo celovite povratne informacije o nalogah, spodbujajo sodelovalne učne platforme in izboljšujejo razvoj spretnosti z interaktivnimi simulacijami in primeri iz resničnega sveta.
  • Zdravstveno varstvo: V nasprotju s tradicionalnimi diagnostičnimi sistemi umetne inteligence, ki ciljajo na eno samo modalnost, LMM izboljšujejo medicinsko diagnostiko z integracijo več modalitet. Podpirajo tudi komunikacijo prek jezikovnih ovir med ponudniki zdravstvenega varstva in bolniki ter delujejo kot centralizirano skladišče za različne aplikacije umetne inteligence v bolnišnicah.
  • Umetniška in glasbena generacija: LMM bi se lahko izkazali v umetniškem in glasbenem ustvarjanju s kombiniranjem različnih modalitet za edinstvene in ekspresivne rezultate. Na primer, umetniški LMM lahko združuje vizualne in slušne elemente, kar zagotavlja poglobljeno izkušnjo. Podobno lahko glasbeni LMM združuje instrumentalne in vokalne elemente, kar povzroči dinamične in ekspresivne kompozicije.
  • Prilagojena priporočila: LMM lahko analizirajo uporabniške nastavitve v različnih modalitetah, da zagotovijo prilagojena priporočila za uporabo vsebine, kot so filmi, glasba, članki ali izdelki.
  • Vremenska napoved in spremljanje okolja: LMM lahko analizirajo različne modalitete podatkov, kot so satelitske slike, atmosferske razmere in zgodovinski vzorci, da izboljšajo natančnost pri napovedovanju vremena in spremljanju okolja.

Bottom Line

Pokrajina velikih multimodalnih modelov (LMM) pomeni pomemben preboj v generativni AI, ki obeta napredek na različnih področjih. Ker ti modeli brez težav integrirajo različne modalitete, kot so besedilo, slike in zvok, njihov razvoj odpira vrata transformativnim aplikacijam v zdravstvu, izobraževanju, umetnosti in prilagojenim priporočilom. Vendar pa izzivi, vključno s prilagajanjem več modalitet podatkov in stiskanjem modelov, ki zahtevajo veliko virov, poudarjajo stalna raziskovalna prizadevanja, potrebna za popolno uresničitev potenciala LMM.

Dr. Tehseen Zia je redni izredni profesor na Univerzi COMSATS v Islamabadu in ima doktorat iz umetne inteligence na Tehnološki univerzi na Dunaju v Avstriji. Specializiral se je za umetno inteligenco, strojno učenje, podatkovno znanost in računalniški vid, pomembno pa je prispeval z objavami v uglednih znanstvenih revijah. Dr. Tehseen je vodil tudi različne industrijske projekte kot glavni raziskovalec in deloval kot svetovalec za umetno inteligenco.