Tekoäly
Multimodaalinen tekoäly kehittyy, kun ChatGPT saa näkyvyyden GPT-4V:n (ision) avulla
Pyrkiessään tekemään tekoälystä enemmän ihmisten kaltaisia, OpenAI:n GPT-mallit ovat jatkuvasti työntäneet rajoja. GPT-4 pystyy nyt hyväksymään sekä tekstiä että kuvia sisältävät kehotteet.
Multimodaalisuus generatiivisessa tekoälyssä ilmaisee mallin kykyä tuottaa erilaisia ulostuloja, kuten tekstiä, kuvia tai ääntä tulon perusteella. Nämä mallit, jotka on koulutettu tiettyyn dataan, oppivat taustalla olevia malleja luodakseen samanlaista uutta dataa, mikä rikastaa tekoälysovelluksia.
Viimeaikaiset askeleet multimodaalisessa tekoälyssä
Viimeaikainen merkittävä harppaus tällä alalla on nähty DALL-E 3:n integroinnissa ChatGPT:hen, joka on merkittävä päivitys OpenAI:n tekstistä kuvaksi -teknologiaan. Tämä sekoitus mahdollistaa sujuvamman vuorovaikutuksen, jossa ChatGPT auttaa luomaan tarkkoja kehotteita DALL-E 3:lle, muuttaen käyttäjien ideat eläväksi tekoälyn luomaksi taiteeksi. Vaikka käyttäjät voivat olla suoraan vuorovaikutuksessa DALL-E 3:n kanssa, ChatGPT:n yhdistelmä tekee tekoälytaiteen luomisesta paljon käyttäjäystävällisempää.
Katso lisää DALL-E 3:sta ja sen integroinnista ChatGPT:n kanssa tätä. Tämä yhteistyö ei ainoastaan esittele edistystä multimodaalisessa tekoälyssä, vaan tekee tekoälytaiteen luomisesta helppoa käyttäjille.
Googlen terveys toisaalta käyttöön Med-PaLM M tämän vuoden kesäkuussa. Se on multimodaalinen generatiivinen malli, joka on taitava koodaamaan ja tulkitsemaan erilaisia biolääketieteellisiä tietoja. Tämä saavutettiin hienosäätämällä PaLM-E, kielimalli, joka palvelee lääketieteen alueita käyttämällä avoimen lähdekoodin vertailukohtaa, MultiMedBenchiä. Tämä vertailuarvo koostuu yli miljoonasta näytteestä seitsemästä biolääketieteellisestä tietotyypistä ja 1 tehtävästä, kuten lääketieteellisiin kysymyksiin vastaaminen ja radiologian raporttien luominen.
Useat teollisuudenalat ottavat käyttöön innovatiivisia multimodaalisia tekoälytyökaluja liiketoiminnan laajentamiseen, toimintojen virtaviivaistamiseen ja asiakkaiden sitoutumisen lisäämiseen. Äänen, videon ja tekstin tekoälyominaisuuksien kehitys edistää multimodaalisen tekoälyn kasvua.
Yritykset etsivät multimodaalisia tekoälysovelluksia, jotka pystyvät uudistamaan liiketoimintamalleja ja prosesseja ja avaamaan kasvumahdollisuuksia generatiivisessa tekoälyekosysteemissä datatyökaluista uusiin tekoälysovelluksiin.
GPT-4:n julkaisun jälkeen maaliskuussa jotkin käyttäjät havaitsivat sen vastauslaadun heikkenemisen ajan myötä. Huomattavat kehittäjät ja OpenAI:n foorumeilla toistuivat huolenaiheet. Aluksi OpenAI irtisanoi sen, myöhemmin opiskella vahvisti ongelman. Se paljasti GPT-4:n tarkkuuden putoamisen 97.6 prosentista 2.4 prosenttiin maalis-kesäkuussa, mikä osoittaa vastausten laadun heikkenemisen myöhempien mallipäivitysten myötä.
Hype ympärillä Avaa tekoäly ChatGPT on nyt palannut. Sen mukana tulee nyt näköominaisuus GPT-4V, jolloin käyttäjät voivat saada GPT-4:n analysoimaan antamiaan kuvia. Tämä on uusin ominaisuus, joka on avattu käyttäjille.
Jotkut pitävät kuva-analyysin lisäämistä suuriin kielimalleihin (LLM), kuten GPT-4, suurena askeleena eteenpäin tekoälytutkimuksessa ja -kehityksessä. Tällainen multimodaalinen LLM avaa uusia mahdollisuuksia ja vie kielimallit tekstin ulkopuolelle tarjoamaan uusia käyttöliittymiä ja ratkaisemaan uudenlaisia tehtäviä, luoden käyttäjille uusia kokemuksia.
GPT-4V:n koulutus päättyi vuonna 2022, ja varhainen käyttöoikeus otettiin käyttöön maaliskuussa 2023. GPT-4V:n visuaalinen ominaisuus on GPT-4-tekniikan tuottama. Koulutusprosessi pysyi samana. Aluksi mallia opetettiin ennustamaan tekstin seuraava sana käyttämällä valtavaa tietojoukkoa sekä tekstiä että kuvia eri lähteistä, mukaan lukien Internetistä.
Myöhemmin sitä hienosäädettiin lisätiedoilla käyttämällä menetelmää nimeltä vahvistusoppiminen ihmispalautteen perusteella (RLHF) ihmisten suosimien tulosteiden luomiseksi.
GPT-4 Vision Mechanics
GPT-4:n huomattavat visiokieliominaisuudet, vaikka ne ovatkin vaikuttavia, sisältävät taustalla olevia menetelmiä, jotka jäävät pinnalle.
Tämän hypoteesin tutkimiseksi uusi visio-kielimalli, miniGPT-4 otettiin käyttöön käyttämällä kehittynyttä LLM-nimistä vikunjan. Tämä malli käyttää visiokooderia, jossa on esiopetetut komponentit visuaalista havaintoa varten, ja se kohdistaa koodatut visuaaliset ominaisuudet Vicuna-kielimalliin yhden projektiokerroksen kautta. MiniGPT-4:n arkkitehtuuri on yksinkertainen mutta tehokas, ja siinä keskitytään visuaalisten ja kieliominaisuuksien kohdistamiseen visuaalisen keskustelukyvyn parantamiseksi.
Autoregressiivisten kielimallien trendi visio-kielitehtävissä on myös kasvanut hyödyntäen transmodaalista siirtoa tiedon jakamiseksi kielen ja multimodaalisten alueiden välillä.
MiniGPT-4 yhdistää visuaaliset ja kielialueet kohdistamalla visuaaliset tiedot esikoulutetusta näönkooderista edistyneen LLM:n kanssa. Malli käyttää Vicunaa kielen dekooderina ja noudattaa kaksivaiheista koulutuslähestymistapaa. Aluksi se on koulutettu suurelle kuva-teksti-parien tietojoukolle näkemään näkemyskielen tietämystä, minkä jälkeen sitä on hienosäädetty pienempään, korkealaatuiseen tietojoukkoon sukupolven luotettavuuden ja käytettävyyden parantamiseksi.
Parantaakseen luodun kielen luonnollisuutta ja käytettävyyttä MiniGPT-4:ssä tutkijat kehittivät kaksivaiheisen kohdistusprosessin, joka puuttui riittävien visio-kielen kohdistustietosarjojen puutteeseen. He kuratoivat tähän tarkoitukseen erikoistuneen tietojoukon.
Aluksi malli loi yksityiskohtaisia kuvauksia syötetyistä kuvista, mikä paransi yksityiskohtia käyttämällä Vicuna-kielimallin muotoon kohdistettua keskustelukehotetta. Tässä vaiheessa pyrittiin luomaan kattavampia kuvakuvauksia.
Alkukuvan kuvauskehote:
###Ihmisen: Kuvaile tätä kuvaa yksityiskohtaisesti. Anna mahdollisimman paljon yksityiskohtia. Sano kaikki mitä näet. ###Assistentti:
Tietojen jälkikäsittelyä varten luoduissa kuvauksissa olevat epäjohdonmukaisuudet tai virheet korjattiin ChatGPT:llä, minkä jälkeen suoritettiin manuaalinen tarkistus korkean laadun varmistamiseksi.
Toisen vaiheen hienosäätökehote:
###Ihmisen: ###Assistentti:
Tämä tutkimus avaa ikkunan multimodaalisen generatiivisen tekoälyn, kuten GPT-4:n, mekaniikkaan ymmärtämiseen ja valaisee, kuinka visio- ja kielimodaliteetit voidaan integroida tehokkaasti johdonmukaisten ja kontekstuaalisesti rikkaiden tulosteiden luomiseksi.
GPT-4 Visioniin tutustuminen
Kuvan alkuperän määrittäminen ChatGPT:n avulla
GPT-4 Vision parantaa ChatGPT:n kykyä analysoida kuvia ja paikantaa niiden maantieteellinen alkuperä. Tämä ominaisuus muuttaa käyttäjän vuorovaikutuksen pelkästä tekstistä tekstin ja visuaalisen yhdistelmäksi, ja siitä tulee kätevä työkalu niille, jotka ovat kiinnostuneita eri paikoista kuvatietojen avulla.
Monimutkaiset matemaattiset käsitteet
GPT-4 Vision on erinomainen syventyäkseen monimutkaisiin matemaattisiin ideoihin analysoimalla graafisia tai käsinkirjoitettuja lausekkeita. Tämä ominaisuus toimii hyödyllisenä työkaluna henkilöille, jotka haluavat ratkaista monimutkaisia matemaattisia ongelmia, ja se merkitsee GPT-4 Visionin merkittäväksi apuvälineeksi koulutus- ja akateemisilla aloilla.
Käsinkirjoitetun syötteen muuntaminen LaTeX-koodeiksi
Yksi GPT-4V:n merkittävistä kyvyistä on sen kyky kääntää käsinkirjoitetut syötteet LaTeX-koodeiksi. Tämä ominaisuus on siunaus tutkijoille, tutkijoille ja opiskelijoille, joiden on usein muutettava käsinkirjoitetut matemaattiset lausekkeet tai muu tekninen tieto digitaaliseen muotoon. Muutos käsinkirjoitetusta LaTeX:iin laajentaa dokumenttien digitoinnin horisonttia ja yksinkertaistaa teknistä kirjoitusprosessia.
Taulukon tietojen purkaminen
GPT-4V esittelee taitoa poimia yksityiskohtia taulukoista ja vastata niihin liittyviin tiedusteluihin, mikä on tärkeä voimavara tiedon analysoinnissa. Käyttäjät voivat käyttää GPT-4V:tä taulukoiden selaamiseen, tärkeiden oivallusten keräämiseen ja datalähtöisten kysymysten ratkaisemiseen, mikä tekee siitä vankan työkalun dataanalyytikoille ja muille ammattilaisille.
Visuaalisen osoittamisen ymmärtäminen
GPT-4V:n ainutlaatuinen kyky ymmärtää visuaalista osoittamista tuo uuden ulottuvuuden käyttäjän vuorovaikutukseen. Ymmärtämällä visuaalisia vihjeitä GPT-4V voi vastata kyselyihin paremmin kontekstuaalisen ymmärryksen avulla.
Yksinkertaisten mallisivustojen luominen piirustuksen avulla
Tästä motivoitunut piipittää, Yritin luoda mallin unite.ai-verkkosivustolle.
Vaikka tulos ei aivan vastannut alkuperäistä näkemystäni, tässä on saavuttamani tulos.
GPT-4V(ision) rajoitukset ja puutteet
GPT-4V:n analysoimiseksi Open AI -tiimi teki laadullisia ja määrällisiä arviointeja. Laadulliset testit sisälsivät sisäiset testit ja ulkopuolisten asiantuntijoiden arvioinnit, kun taas kvantitatiiviset mittasivat mallien kieltäytymistä ja tarkkuutta erilaisissa skenaarioissa, kuten haitallisen sisällön tunnistamisessa, demografisessa tunnistuksessa, tietosuojaongelmissa, maantieteellisessä sijainnissa, kyberturvallisuudessa ja multimodaalisissa jailbreakissä.
Malli ei silti ole täydellinen.
- paperi korostaa GPT-4V:n rajoituksia, kuten virheellisiä päätelmiä ja puuttuvaa tekstiä tai merkkejä kuvista. Se voi hallusinoida tai keksiä tosiasioita. Se ei etenkään sovellu vaarallisten aineiden tunnistamiseen kuvista, vaan ne tunnistetaan usein väärin.
Lääketieteellisessä kuvantamisessa GPT-4V voi tarjota epäjohdonmukaisia vastauksia, eikä se ole tietoinen vakiokäytännöistä, mikä johtaa mahdollisiin virhediagnooseihin.
Se ei myöskään ymmärrä tiettyjen vihasymbolien vivahteita ja voi luoda sopimatonta sisältöä visuaalisten syötteiden perusteella. OpenAI ei suosittele GPT-4V:n käyttämistä kriittisiin tulkintoihin, etenkään lääketieteellisissä tai arkaluonteisissa yhteyksissä.
Käärimistä
GPT-4 Visionin (GPT-4V) saapuminen tuo mukanaan joukon hienoja mahdollisuuksia ja uusia esteitä ylitettäväksi. Ennen sen käyttöönottoa on ponnisteltu paljon sen varmistamiseksi, että riskit, varsinkin kun on kyse ihmiskuvista, otetaan huomioon ja vähennetään. On vaikuttavaa nähdä, kuinka GPT-4V on kehittynyt ja näyttää paljon lupaavia vaikeilla aloilla, kuten lääketiede ja tiede.
Nyt pöydällä on suuria kysymyksiä. Pitäisikö näiden mallien esimerkiksi tunnistaa kuuluisat ihmiset valokuvista? Pitäisikö heidän arvata kuvan perusteella henkilön sukupuoli, rotu tai tunteet? Ja pitäisikö näkövammaisten auttamiseksi tehdä erityisiä säätöjä? Nämä kysymykset avaavat tölkin matoja yksityisyydestä, oikeudenmukaisuudesta ja siitä, kuinka tekoälyn tulisi sopia elämäämme, mikä on asia, johon jokaisen pitäisi saada sanansa.