Liity verkostomme!

Tekoäly

Suurten multimodaalisten mallien esittely: Kielimallien maiseman muotoilu vuonna 2024

mm

Kun koemme maailmaa, aistimme (näkemys, äänet, haju) tarjoavat monipuolista tietoa ja ilmaisemme itseämme erilaisilla viestintämenetelmillä, kuten ilmeillä ja eleillä. Näitä aisteja ja kommunikaatiomenetelmiä kutsutaan yhteisesti modaliteeteiksi, jotka edustavat erilaisia ​​tapoja, joilla havaitsemme ja kommunikoimme. Haemme inspiraatiota tästä inhimillisestä kyvystä, suuri multimodaalinen malli (LMM), yhdistelmä generatiivisia ja multimodaalinen AI, kehitetään ymmärtämään ja luomaan sisältöä käyttämällä erilaisia ​​tyyppejä, kuten tekstiä, kuvia ja ääntä. Tässä artikkelissa perehdymme tähän uuteen nousevaan alaan ja tutkimme, mitä LMM:t (Large Multimodal Models) ovat, miten ne rakennetaan, olemassa olevia esimerkkejä, niiden kohtaamia haasteita ja mahdollisia sovelluksia.

Generatiivisen tekoälyn kehitys vuonna 2024: suurista kielimalleista suuriin multimodaalimalleihin

Uusimmassa raportissaan McKinsey nimesi vuodeksi 2023 läpimurtovuodeksi generatiivinen tekoäly, mikä johtaa monia edistysaskeleita alalla. Olemme todistaneet esiintyvyyden huomattavaa nousua suuret kielimallit (LLM) taitava ymmärtämään ja luomaan ihmisen kaltaista kieltä. Lisäksi, kuvan generointimallit ovat kehittyneet merkittävästi, mikä osoittaa kykynsä luoda visuaalista tekstiä tekstikehotteista. Huolimatta yksittäisten menetelmien, kuten tekstin, kuvien tai äänen, merkittävästä edistymisestä, luova tekoäly on kohdannut haasteita näiden modaliteettien saumattomassa yhdistämisessä luontiprosessissa. Koska maailma on luonteeltaan multimodaalinen, tekoälyn on ratkaisevan tärkeää painiskella multimodaalisen tiedon kanssa. Tämä on välttämätöntä mielekkäälle ihmissuhteelle ja onnistuneelle toiminnalle tosielämän skenaarioissa.

Tämän seurauksena monet tekoälytutkijat odottavat LMM:ien nousua tekoälytutkimuksen ja -kehityksen seuraavaksi rajana vuonna 2024. Tämä kehittyvä raja keskittyy parantamaan generatiivisen tekoälyn kykyä käsitellä ja tuottaa erilaisia ​​tuloksia, jotka kattavat tekstiä, kuvia, ääntä, videota ja muut tavat. On tärkeää korostaa, että kaikki multimodaaliset järjestelmät eivät kelpaa LMM:iksi. Mallit kuten Keskimatka ja Vakaa diffuusioVaikka ne ovat multimodaalisia, ne eivät sovi LMM-luokkaan pääasiassa siksi, että niistä puuttuu LLM:itä, jotka ovat LMM:n peruskomponentti. Toisin sanoen voimme kuvata LMM:itä LLM:iden jatkeeksi, joka tarjoaa niille kyvyn käsitellä taitavasti erilaisia ​​​​modaliteetteja.

Miten LMM:t toimivat?

Samalla kun tutkijat ovat tutkineet erilaisia ​​lähestymistapoja LMM:ien rakentamiseen, ne sisältävät tyypillisesti kolme olennaista komponenttia ja toimintoa. Ensinnäkin kullekin datamodaliteetille käytetään koodereita generoimaan kyseiselle modaalille spesifisiä dataesityksiä (kutsutaan upotuksiksi). Toiseksi käytetään erilaisia ​​mekanismeja eri modaliteettien upotusten kohdistamiseen yhtenäiseksi multimodaaliksi upotustilaksi. Kolmanneksi generatiivisissa malleissa LLM:ää käytetään tekstivastausten luomiseen. Koska syötteet voivat koostua tekstistä, kuvista, videoista ja äänistä, tutkijat etsivät uusia tapoja saada kielimallit huomioimaan erilaisia ​​​​modaliteetteja vastauksissa.

LMM-kehitys vuonna 2023

Alla olen hahmotellut lyhyesti joitakin vuonna 2023 kehitettyjä merkittäviä LMM:itä.

  • LLaVA on avoimen lähdekoodin LMM, jonka ovat kehittäneet Wisconsin-Madisonin yliopisto, Microsoft Research ja Columbia University. Mallin tavoitteena on tarjota avoimen lähdekoodin versio multimodaalista GPT4. Vipuvaikutus Metan laama LLM, se sisältää CLIP visuaalinen kooderi vankkaa visuaalista ymmärtämistä varten. LLaVa:n terveydenhuoltoon keskittyvä muunnos, jota kutsutaan nimellä LLaVA-Med, voi vastata biolääketieteellisiin kuviin liittyviin tiedusteluihin.
  • ImageBind on Metan kehittämä avoimen lähdekoodin malli, joka jäljittelee ihmisen havainnon kykyä suhteuttaa multimodaalista dataa. Malli yhdistää kuusi modaliteettia – tekstiä, kuvia/videoita, ääntä, 3D-mittauksia, lämpötiladataa ja liikedataa – oppien yhtenäisen esityksen näistä erilaisista tietotyypeistä. ImageBind voi yhdistää valokuvien esineitä attribuuttien, kuten äänen, 3D-muotojen, lämpötilan ja liikkeen, avulla. Mallilla voidaan luoda esimerkiksi kohtauksia tekstistä tai äänistä.
  • Saumaton M4T on Metan suunnittelema multimodaalinen malli edistämään kommunikaatiota monikielisten yhteisöjen välillä. SeamlessM4T on erinomainen käännös- ja transkriptiotehtävissä, ja se tukee puheesta puheeksi, puheesta tekstiksi, tekstistä puheeksi ja tekstistä tekstiksi -käännöksiä. Malli käyttää ei-autoregressiivistä tekstistä yksikköön -dekooderia näiden käännösten suorittamiseen. Paranneltu versio, Saumaton M4T v2, muodostaa perustan malleille, kuten Saumaton ilmeinen ja Saumaton suoratoisto, jossa korostetaan ilmaisun säilyttämistä eri kielillä ja toimitetaan käännökset mahdollisimman pienellä viiveellä.
  • GPT4OpenAI:n lanseeraama versio on edeltäjänsä edistysaskel, GPT3.5. Vaikka yksityiskohtaisia ​​arkkitehtonisia yksityiskohtia ei paljasteta täysin, GPT4 on hyvin arvostettu pelkkä teksti-, näyttö- ja äänimallien sujuvan integroinnin ansiosta. Malli voi tuottaa tekstiä sekä kirjallisista että graafisista syötteistä. Se onnistuu erinomaisesti erilaisissa tehtävissä, mukaan lukien huumorikuvaus kuvissa, yhteenveto tekstistä kuvakaappauksista ja vastaaminen taitavasti koekysymyksiin kaavioiden avulla. GPT4 tunnetaan myös sopeutumiskyvystään laajan valikoiman syöttötietomuotojen tehokkaassa käsittelyssä.
  • Kaksoset, jonka on luonut Google DeepMind, erottuu siitä, että se on luonnostaan ​​multimodaalinen, mikä mahdollistaa saumattoman vuorovaikutuksen eri tehtävien välillä ilman, että tarvitsee liittää yhteen yhden modaalin komponentteja. Tämä malli hallitsee vaivattomasti sekä tekstiä että erilaisia ​​audiovisuaalisia tuloja, mikä osoittaa sen kyvyn tuottaa tulosteita sekä teksti- että kuvamuodoissa.

Suurten multimodaalisten mallien haasteet

  • Lisää datamuotoja: Useimmat olemassa olevat LMM:t toimivat tekstin ja kuvien kanssa. LMM:ien on kuitenkin kehitettävä tekstiä ja kuvia pidemmälle ja mukautettava videoita, musiikkia ja 3D:tä.
  • Monipuolinen tietojoukon saatavuus: Yksi multimodaalisten generatiivisten tekoälymallien kehittämisen ja koulutuksen keskeisistä haasteista on tarve suurille ja monipuolisille tietojouksille, jotka sisältävät useita modaliteettia. Esimerkiksi mallin kouluttamiseksi luomaan tekstiä ja kuvia yhdessä, tietojoukon on sisällettävä sekä teksti- että kuvasyötteet, jotka liittyvät toisiinsa.
  • Multimodaalisten tulosten luominen: Vaikka LMM:t voivat käsitellä multimodaalisia syötteitä, erilaisten tulosteiden luominen, kuten tekstin yhdistäminen grafiikkaan tai animaatioihin, on edelleen haaste.
  • Seuraavat ohjeet: LMM:t kohtaavat haasteen hallita vuoropuhelua ja ohjeita seuraavien tehtävien suorittamista pelkkää loppuunsaattamista pidemmälle.
  • Multimodaalinen perustelu: Vaikka nykyiset LMM:t ovat erinomaisia ​​modaliteettien muuntamisessa toiseksi, multimodaalisen datan saumaton integrointi monimutkaisiin päättelytehtäviin, kuten kirjoitettujen tekstiongelmien ratkaisemiseen kuuloohjeiden perusteella, on edelleen haastavaa.
  • LMM:ien pakkaaminen: LMM:ien resurssiintensiivisyys muodostaa merkittävän esteen, mikä tekee niistä epäkäytännöllisiä reunalaitteille, joiden laskentaresurssit ovat rajalliset. LMM:ien pakkaaminen tehokkuuden parantamiseksi ja niiden tekemiseksi soveltuviksi käyttöönotettavaksi resurssirajoitteisissa laitteissa on keskeinen jatkuvan tutkimuksen osa-alue.

Mahdollisia käyttötapauksia

  • Koulutus: LMM:t voivat muuttaa koulutusta luomalla monipuolista ja kiinnostavaa oppimateriaalia, jossa yhdistyvät teksti, kuvat ja ääni. LMM:t antavat kattavaa palautetta tehtävistä, edistävät yhteistyöhön perustuvia oppimisalustoja ja parantavat taitojen kehittämistä interaktiivisten simulaatioiden ja todellisten esimerkkien avulla.
  • Terveydenhuolto: Päinvastoin kuin perinteiset tekoälydiagnostiikkajärjestelmät, jotka kohdistavat yhteen moduuliin, LMM:t parantavat lääketieteellistä diagnostiikkaa integroimalla useita modaliteetteja. Ne tukevat myös kielimuurien ylittävää viestintää terveydenhuollon tarjoajien ja potilaiden välillä toimien keskitettynä tietovarastona erilaisille tekoälysovelluksille sairaaloissa.
  • Taiteen ja musiikin sukupolvi: LMM:t voisivat loistaa taiteen ja musiikin luomisessa yhdistämällä erilaisia ​​menetelmiä ainutlaatuisten ja ilmeikkäiden tuotoksia varten. Esimerkiksi taiteen LMM voi yhdistää visuaalisia ja auditiivisia elementtejä tarjoten mukaansatempaavan kokemuksen. Samoin musiikin LMM voi yhdistää instrumentaali- ja lauluelementtejä, mikä johtaa dynaamisiin ja ilmeikkäisiin sävelluksiin.
  • Henkilökohtaiset suositukset: LMM:t voivat analysoida käyttäjien mieltymyksiä eri muodoissa ja tarjota henkilökohtaisia ​​suosituksia sisällön, kuten elokuvien, musiikin, artikkelien tai tuotteiden, kulutuksesta.
  • Sään ennustaminen ja ympäristön seuranta: LMM:t voivat analysoida erilaisia ​​datamuotoja, kuten satelliittikuvia, ilmakehän olosuhteita ja historiallisia kuvioita, parantaakseen sääennusteen ja ympäristön seurannan tarkkuutta.

Bottom Line

Suurten multimodaalisten mallien (LMM) maisema merkitsee merkittävää läpimurtoa generatiivisessa tekoälyssä ja lupaa edistysaskeleita useilla aloilla. Koska nämä mallit integroivat saumattomasti erilaisia ​​modaliteettia, kuten tekstiä, kuvia ja ääntä, niiden kehitys avaa ovia mullistaville sovelluksille terveydenhuollossa, koulutuksessa, taiteessa ja yksilöllisissä suosituksissa. Haasteet, kuten useampien datamodaliteettien mukauttaminen ja resursseja kuluttavien mallien pakkaaminen, korostavat kuitenkin jatkuvaa tutkimustyötä, jota tarvitaan LMM:ien potentiaalin täysimääräiseen hyödyntämiseen.

Dr. Tehseen Zia on vakinainen apulaisprofessori COMSATS University Islamabadissa, ja hänellä on tekoälyn tohtori Wienin teknillisestä yliopistosta, Itävallasta. Hän on erikoistunut tekoälyyn, koneoppimiseen, tietotieteeseen ja tietokonenäköön, ja hän on tehnyt merkittävän panoksen julkaisuilla arvostetuissa tieteellisissä aikakauslehdissä. Dr. Tehseen on myös johtanut erilaisia ​​teollisia projekteja päätutkijana ja toiminut tekoälykonsulttina.