Tekoäly

Multimodaalinen tekoäly kehittyy, kun ChatGPT saa näkyvyyden GPT-4V:n (ision) avulla

Päivitetty on Lokakuu 9, 2023

Pyrkiessään tekemään tekoälystä enemmän ihmisten kaltaisia, OpenAI:n GPT-mallit ovat jatkuvasti työntäneet rajoja. GPT-4 pystyy nyt hyväksymään sekä tekstiä että kuvia sisältävät kehotteet.

Multimodaalisuus generatiivisessa tekoälyssä ilmaisee mallin kykyä tuottaa erilaisia ulostuloja, kuten tekstiä, kuvia tai ääntä tulon perusteella. Nämä mallit, jotka on koulutettu tiettyyn dataan, oppivat taustalla olevia malleja luodakseen samanlaista uutta dataa, mikä rikastaa tekoälysovelluksia.

Viimeaikaiset askeleet multimodaalisessa tekoälyssä

Viimeaikainen merkittävä harppaus tällä alalla on nähty DALL-E 3:n integroinnissa ChatGPT:hen, joka on merkittävä päivitys OpenAI:n tekstistä kuvaksi -teknologiaan. Tämä sekoitus mahdollistaa sujuvamman vuorovaikutuksen, jossa ChatGPT auttaa luomaan tarkkoja kehotteita DALL-E 3:lle, muuttaen käyttäjien ideat eläväksi tekoälyn luomaksi taiteeksi. Vaikka käyttäjät voivat olla suoraan vuorovaikutuksessa DALL-E 3:n kanssa, ChatGPT:n yhdistelmä tekee tekoälytaiteen luomisesta paljon käyttäjäystävällisempää.

Katso lisää DALL-E 3:sta ja sen integroinnista ChatGPT:n kanssa tätä. Tämä yhteistyö ei ainoastaan esittele edistystä multimodaalisessa tekoälyssä, vaan tekee tekoälytaiteen luomisesta helppoa käyttäjille.

https://openai.com/dall-e-3

Googlen terveys toisaalta käyttöön Med-PaLM M tämän vuoden kesäkuussa. Se on multimodaalinen generatiivinen malli, joka on taitava koodaamaan ja tulkitsemaan erilaisia biolääketieteellisiä tietoja. Tämä saavutettiin hienosäätämällä PaLM-E, kielimalli, joka palvelee lääketieteen alueita käyttämällä avoimen lähdekoodin vertailukohtaa, MultiMedBenchiä. Tämä vertailuarvo koostuu yli miljoonasta näytteestä seitsemästä biolääketieteellisestä tietotyypistä ja 1 tehtävästä, kuten lääketieteellisiin kysymyksiin vastaaminen ja radiologian raporttien luominen.

Useat teollisuudenalat ottavat käyttöön innovatiivisia multimodaalisia tekoälytyökaluja liiketoiminnan laajentamiseen, toimintojen virtaviivaistamiseen ja asiakkaiden sitoutumisen lisäämiseen. Äänen, videon ja tekstin tekoälyominaisuuksien kehitys edistää multimodaalisen tekoälyn kasvua.

Yritykset etsivät multimodaalisia tekoälysovelluksia, jotka pystyvät uudistamaan liiketoimintamalleja ja prosesseja ja avaamaan kasvumahdollisuuksia generatiivisessa tekoälyekosysteemissä datatyökaluista uusiin tekoälysovelluksiin.

GPT-4:n julkaisun jälkeen maaliskuussa jotkin käyttäjät havaitsivat sen vastauslaadun heikkenemisen ajan myötä. Huomattavat kehittäjät ja OpenAI:n foorumeilla toistuivat huolenaiheet. Aluksi OpenAI irtisanoi sen, myöhemmin opiskella vahvisti ongelman. Se paljasti GPT-4:n tarkkuuden putoamisen 97.6 prosentista 2.4 prosenttiin maalis-kesäkuussa, mikä osoittaa vastausten laadun heikkenemisen myöhempien mallipäivitysten myötä.

ChatGPT (sininen) ja tekoäly (punainen) Googlen hakutrendi

Hype ympärillä Avaa tekoäly ChatGPT on nyt palannut. Sen mukana tulee nyt näköominaisuus GPT-4V, jolloin käyttäjät voivat saada GPT-4:n analysoimaan antamiaan kuvia. Tämä on uusin ominaisuus, joka on avattu käyttäjille.

Jotkut pitävät kuva-analyysin lisäämistä suuriin kielimalleihin (LLM), kuten GPT-4, suurena askeleena eteenpäin tekoälytutkimuksessa ja -kehityksessä. Tällainen multimodaalinen LLM avaa uusia mahdollisuuksia ja vie kielimallit tekstin ulkopuolelle tarjoamaan uusia käyttöliittymiä ja ratkaisemaan uudenlaisia tehtäviä, luoden käyttäjille uusia kokemuksia.

GPT-4V:n koulutus päättyi vuonna 2022, ja varhainen käyttöoikeus otettiin käyttöön maaliskuussa 2023. GPT-4V:n visuaalinen ominaisuus on GPT-4-tekniikan tuottama. Koulutusprosessi pysyi samana. Aluksi mallia opetettiin ennustamaan tekstin seuraava sana käyttämällä valtavaa tietojoukkoa sekä tekstiä että kuvia eri lähteistä, mukaan lukien Internetistä.

Myöhemmin sitä hienosäädettiin lisätiedoilla käyttämällä menetelmää nimeltä vahvistusoppiminen ihmispalautteen perusteella (RLHF) ihmisten suosimien tulosteiden luomiseksi.

GPT-4 Vision Mechanics

GPT-4:n huomattavat visiokieliominaisuudet, vaikka ne ovatkin vaikuttavia, sisältävät taustalla olevia menetelmiä, jotka jäävät pinnalle.

Tämän hypoteesin tutkimiseksi uusi visio-kielimalli, miniGPT-4 otettiin käyttöön käyttämällä kehittynyttä LLM-nimistä vikunjan. Tämä malli käyttää visiokooderia, jossa on esiopetetut komponentit visuaalista havaintoa varten, ja se kohdistaa koodatut visuaaliset ominaisuudet Vicuna-kielimalliin yhden projektiokerroksen kautta. MiniGPT-4:n arkkitehtuuri on yksinkertainen mutta tehokas, ja siinä keskitytään visuaalisten ja kieliominaisuuksien kohdistamiseen visuaalisen keskustelukyvyn parantamiseksi.

MiniGPT-4:n arkkitehtuuri sisältää visiokooderin, jossa on esikoulutettu ViT ja Q-Former, yksi lineaarinen projektiokerros ja edistynyt Vicuna-suurkielimalli.

Autoregressiivisten kielimallien trendi visio-kielitehtävissä on myös kasvanut hyödyntäen transmodaalista siirtoa tiedon jakamiseksi kielen ja multimodaalisten alueiden välillä.

MiniGPT-4 yhdistää visuaaliset ja kielialueet kohdistamalla visuaaliset tiedot esikoulutetusta näönkooderista edistyneen LLM:n kanssa. Malli käyttää Vicunaa kielen dekooderina ja noudattaa kaksivaiheista koulutuslähestymistapaa. Aluksi se on koulutettu suurelle kuva-teksti-parien tietojoukolle näkemään näkemyskielen tietämystä, minkä jälkeen sitä on hienosäädetty pienempään, korkealaatuiseen tietojoukkoon sukupolven luotettavuuden ja käytettävyyden parantamiseksi.

Parantaakseen luodun kielen luonnollisuutta ja käytettävyyttä MiniGPT-4:ssä tutkijat kehittivät kaksivaiheisen kohdistusprosessin, joka puuttui riittävien visio-kielen kohdistustietosarjojen puutteeseen. He kuratoivat tähän tarkoitukseen erikoistuneen tietojoukon.

Aluksi malli loi yksityiskohtaisia kuvauksia syötetyistä kuvista, mikä paransi yksityiskohtia käyttämällä Vicuna-kielimallin muotoon kohdistettua keskustelukehotetta. Tässä vaiheessa pyrittiin luomaan kattavampia kuvakuvauksia.

Alkukuvan kuvauskehote:

###Ihmisen: Kuvaile tätä kuvaa yksityiskohtaisesti. Anna mahdollisimman paljon yksityiskohtia. Sano kaikki mitä näet. ###Assistentti:

Tietojen jälkikäsittelyä varten luoduissa kuvauksissa olevat epäjohdonmukaisuudet tai virheet korjattiin ChatGPT:llä, minkä jälkeen suoritettiin manuaalinen tarkistus korkean laadun varmistamiseksi.

Toisen vaiheen hienosäätökehote:

###Ihmisen: ###Assistentti:

Tämä tutkimus avaa ikkunan multimodaalisen generatiivisen tekoälyn, kuten GPT-4:n, mekaniikkaan ymmärtämiseen ja valaisee, kuinka visio- ja kielimodaliteetit voidaan integroida tehokkaasti johdonmukaisten ja kontekstuaalisesti rikkaiden tulosteiden luomiseksi.

GPT-4 Visioniin tutustuminen

Kuvan alkuperän määrittäminen ChatGPT:n avulla

GPT-4 Vision parantaa ChatGPT:n kykyä analysoida kuvia ja paikantaa niiden maantieteellinen alkuperä. Tämä ominaisuus muuttaa käyttäjän vuorovaikutuksen pelkästä tekstistä tekstin ja visuaalisen yhdistelmäksi, ja siitä tulee kätevä työkalu niille, jotka ovat kiinnostuneita eri paikoista kuvatietojen avulla.

ChatGPT:n kysyminen, missä maamerkkikuva on otettu

Monimutkaiset matemaattiset käsitteet

GPT-4 Vision on erinomainen syventyäkseen monimutkaisiin matemaattisiin ideoihin analysoimalla graafisia tai käsinkirjoitettuja lausekkeita. Tämä ominaisuus toimii hyödyllisenä työkaluna henkilöille, jotka haluavat ratkaista monimutkaisia matemaattisia ongelmia, ja se merkitsee GPT-4 Visionin merkittäväksi apuvälineeksi koulutus- ja akateemisilla aloilla.

ChatGPT:n pyytäminen ymmärtämään monimutkaista matematiikkaa

Käsinkirjoitetun syötteen muuntaminen LaTeX-koodeiksi

Yksi GPT-4V:n merkittävistä kyvyistä on sen kyky kääntää käsinkirjoitetut syötteet LaTeX-koodeiksi. Tämä ominaisuus on siunaus tutkijoille, tutkijoille ja opiskelijoille, joiden on usein muutettava käsinkirjoitetut matemaattiset lausekkeet tai muu tekninen tieto digitaaliseen muotoon. Muutos käsinkirjoitetusta LaTeX:iin laajentaa dokumenttien digitoinnin horisonttia ja yksinkertaistaa teknistä kirjoitusprosessia.

$GPT-4V:n kyky muuntaa käsinkirjoitettua syötettä LaTeX-koodeiksi$

GPT-4V:n kyky muuntaa käsinkirjoitettua syötettä LaTeX-koodeiksi

Taulukon tietojen purkaminen

GPT-4V esittelee taitoa poimia yksityiskohtia taulukoista ja vastata niihin liittyviin tiedusteluihin, mikä on tärkeä voimavara tiedon analysoinnissa. Käyttäjät voivat käyttää GPT-4V:tä taulukoiden selaamiseen, tärkeiden oivallusten keräämiseen ja datalähtöisten kysymysten ratkaisemiseen, mikä tekee siitä vankan työkalun dataanalyytikoille ja muille ammattilaisille.

GPT-4V tulkitsee taulukon yksityiskohtia ja vastaa niihin liittyviin kyselyihin

Visuaalisen osoittamisen ymmärtäminen

GPT-4V:n ainutlaatuinen kyky ymmärtää visuaalista osoittamista tuo uuden ulottuvuuden käyttäjän vuorovaikutukseen. Ymmärtämällä visuaalisia vihjeitä GPT-4V voi vastata kyselyihin paremmin kontekstuaalisen ymmärryksen avulla.

GPT-4V-osoittaa-ainutlaatuisen-ymmärryskyvyn-visuaalisen osoittamisen

GPT-4V esittelee selkeän kyvyn ymmärtää visuaalista osoittamista

Yksinkertaisten mallisivustojen luominen piirustuksen avulla

Tästä motivoitunut piipittää, Yritin luoda mallin unite.ai-verkkosivustolle.

Vaikka tulos ei aivan vastannut alkuperäistä näkemystäni, tässä on saavuttamani tulos.

ChatGPT Vision -lähtöinen HTML-käyttöliittymä

GPT-4V(ision) rajoitukset ja puutteet

GPT-4V:n analysoimiseksi Open AI -tiimi teki laadullisia ja määrällisiä arviointeja. Laadulliset testit sisälsivät sisäiset testit ja ulkopuolisten asiantuntijoiden arvioinnit, kun taas kvantitatiiviset mittasivat mallien kieltäytymistä ja tarkkuutta erilaisissa skenaarioissa, kuten haitallisen sisällön tunnistamisessa, demografisessa tunnistuksessa, tietosuojaongelmissa, maantieteellisessä sijainnissa, kyberturvallisuudessa ja multimodaalisissa jailbreakissä.

Malli ei silti ole täydellinen.

- paperi korostaa GPT-4V:n rajoituksia, kuten virheellisiä päätelmiä ja puuttuvaa tekstiä tai merkkejä kuvista. Se voi hallusinoida tai keksiä tosiasioita. Se ei etenkään sovellu vaarallisten aineiden tunnistamiseen kuvista, vaan ne tunnistetaan usein väärin.

Lääketieteellisessä kuvantamisessa GPT-4V voi tarjota epäjohdonmukaisia vastauksia, eikä se ole tietoinen vakiokäytännöistä, mikä johtaa mahdollisiin virhediagnooseihin.

Epäluotettava suorituskyky lääketieteellisiin tarkoituksiin (lähde)

Se ei myöskään ymmärrä tiettyjen vihasymbolien vivahteita ja voi luoda sopimatonta sisältöä visuaalisten syötteiden perusteella. OpenAI ei suosittele GPT-4V:n käyttämistä kriittisiin tulkintoihin, etenkään lääketieteellisissä tai arkaluonteisissa yhteyksissä.

Käärimistä

Luotu Fast Stable Diffusion XL:llä https://huggingface.co/spaces/google/sdxl

GPT-4 Visionin (GPT-4V) saapuminen tuo mukanaan joukon hienoja mahdollisuuksia ja uusia esteitä ylitettäväksi. Ennen sen käyttöönottoa on ponnisteltu paljon sen varmistamiseksi, että riskit, varsinkin kun on kyse ihmiskuvista, otetaan huomioon ja vähennetään. On vaikuttavaa nähdä, kuinka GPT-4V on kehittynyt ja näyttää paljon lupaavia vaikeilla aloilla, kuten lääketiede ja tiede.

Nyt pöydällä on suuria kysymyksiä. Pitäisikö näiden mallien esimerkiksi tunnistaa kuuluisat ihmiset valokuvista? Pitäisikö heidän arvata kuvan perusteella henkilön sukupuoli, rotu tai tunteet? Ja pitäisikö näkövammaisten auttamiseksi tehdä erityisiä säätöjä? Nämä kysymykset avaavat tölkin matoja yksityisyydestä, oikeudenmukaisuudesta ja siitä, kuinka tekoälyn tulisi sopia elämäämme, mikä on asia, johon jokaisen pitäisi saada sanansa.

Liittyvät aiheet:chat gpt DALL-E3 Multimodaalinen AI NOPEA TEKNIIKKA

Seuraavaksi

Midjourney vs Stable Diffusion: The Battle of AI Image Generators

Älä missaa

Esineiden internetistä kaiken internetiin: tekoälyn ja 6G:n lähentyminen yhdistettyä älykkyyttä varten

Aayush Mittal

Olen viettänyt viimeiset viisi vuotta uppoutuen koneoppimisen ja syväoppimisen kiehtovaan maailmaan. Intohimoni ja asiantuntemukseni ovat saaneet minut osallistumaan yli 50:een erilaiseen ohjelmistosuunnitteluprojektiin keskittyen erityisesti tekoälyyn/ML:ään. Jatkuva uteliaisuuteni on myös vetänyt minut kohti luonnollisen kielen käsittelyä, alaa, jota olen innokas tutkimaan lisää.

Unite.AI

Multimodaalinen tekoäly kehittyy, kun ChatGPT saa näkyvyyden GPT-4V:n (ision) avulla

Tekoäly

Multimodaalinen tekoäly kehittyy, kun ChatGPT saa näkyvyyden GPT-4V:n (ision) avulla

Sisällysluettelo