Tehisintellekt

Multimodaalne tehisintellekt areneb, kuna ChatGPT saab GPT-4V(ision) abil nägemise

Ajakohastatud on Oktoober 9, 2023

Püüdes muuta tehisintellekt rohkem inimeste sarnaseks, on OpenAI GPT mudelid pidevalt piire nihutanud. GPT-4 on nüüd võimeline vastu võtma nii teksti kui ka kujutiste viipasid.

Multimodaalsus generatiivses tehisintellektis tähistab mudeli võimet toota sisendi põhjal erinevaid väljundeid, nagu tekst, pildid või heli. Need mudelid, mis on koolitatud konkreetsete andmete põhjal, õpivad aluseks olevaid mustreid, et luua sarnaseid uusi andmeid, rikastades tehisintellekti rakendusi.

Viimased edusammud multimodaalses AI-s

Hiljutine märkimisväärne hüpe selles valdkonnas on näha DALL-E 3 integreerimisega ChatGPT-sse, mis on OpenAI teksti-pildiks tehnoloogia oluline uuendus. See segu võimaldab sujuvamat suhtlust, kus ChatGPT aitab koostada DALL-E 3 jaoks täpseid viipasid, muutes kasutaja ideed elavaks AI-ga loodud kunstiks. Ehkki kasutajad saavad DALL-E 3-ga otse suhelda, muudab ChatGPT segamine tehisintellekti loomise protsessi palju kasutajasõbralikumaks.

Vaadake lisateavet DALL-E 3 ja selle integreerimise kohta ChatGPT-ga siin. See koostöö ei näita mitte ainult edusamme multimodaalses tehisintellektis, vaid muudab tehisintellekti kunsti loomise kasutajatele imelihtsaks.

https://openai.com/dall-e-3

Google'i tervis teisest küljest tutvustas Med-PaLM M tänavu juunis. See on multimodaalne generatiivne mudel, mis sobib erinevate biomeditsiiniliste andmete kodeerimiseks ja tõlgendamiseks. See saavutati keelemudeli PaLM-E peenhäälestusega, et rahuldada meditsiinivaldkondi, kasutades avatud lähtekoodiga võrdlusalust MultiMedBench. See võrdlusalus koosneb enam kui miljonist proovist 1 biomeditsiinilise andmetüübi kohta ja 7 ülesandest, nagu meditsiinilistele küsimustele vastamine ja radioloogiaaruannete koostamine.

Erinevad tööstusharud võtavad kasutusele uuenduslikke multimodaalseid tehisintellekti tööriistu, et edendada äritegevuse laiendamist, tõhustada toiminguid ja suurendada klientide kaasamist. Hääl-, video- ja teksti-AI võimaluste areng soodustab multimodaalse AI kasvu.

Ettevõtted otsivad multimodaalseid tehisintellekti rakendusi, mis suudavad ärimudeleid ja -protsesse põhjalikult uuendada, avades kasvuteed kogu generatiivse tehisintellekti ökosüsteemis alates andmetööriistadest kuni uute tehisintellekti rakendusteni.

Pärast GPT-4 turuletoomist märtsis täheldasid mõned kasutajad selle vastuse kvaliteedi langust aja jooksul – muret kajastasid tähelepanuväärsed arendajad ja OpenAI foorumid. Algselt vallandas OpenAI, hiljem õppima kinnitas probleemi. See näitas GPT-4 täpsuse langust 97.6%-lt 2.4%-le märtsist juunini, mis viitab vastuse kvaliteedi langusele koos järgnevate mudelivärskendustega.

ChatGPT (sinine) ja tehisintellekt (punane) Google'i otsingutrend

Hoog ümber Avage AI-d ChatGPT on nüüd tagasi. Nüüd on see varustatud nägemisfunktsiooniga GPT-4V, mis võimaldab kasutajatel GPT-4 analüüsida enda antud pilte. See on uusim funktsioon, mis on kasutajatele avatud.

Pildianalüüsi lisamist suurtele keelemudelitele (LLM), nagu GPT-4, peavad mõned suureks sammuks tehisintellekti uurimis- ja arendustegevuses. Selline multimodaalne LLM avab uusi võimalusi, viies keelemudelid tekstist kaugemale, et pakkuda uusi liideseid ja lahendada uut tüüpi ülesandeid, luues kasutajatele värskeid kogemusi.

GPT-4V väljaõpe lõpetati 2022. aastal ja varajane juurdepääs võeti kasutusele 2023. aasta märtsis. GPT-4V visuaalne funktsioon põhineb GPT-4 tehnoloogial. Treeningprotsess jäi samaks. Esialgu õpetati mudelit ennustama tekstis järgmist sõna, kasutades nii teksti kui ka kujutiste tohutut andmekogumit erinevatest allikatest, sealhulgas Internetist.

Hiljem viimistleti seda rohkemate andmetega, kasutades meetodit nimega tugevdav õppimine inimese tagasisidest (RLHF), et genereerida väljundeid, mida inimesed eelistasid.

GPT-4 nägemismehaanika

Kuigi GPT-4 tähelepanuväärsed nägemiskeele võimalused on muljetavaldavad, on nende aluseks olevad meetodid, mis jäävad pinnale.

Selle hüpoteesi uurimiseks kasutati uut visiooni-keele mudelit, miniGPT-4 tutvustati, kasutades täiustatud LLM-i nimega Vicuna. See mudel kasutab visuaalseks tajumiseks eelkoolitatud komponentidega nägemiskodeerijat, joondades kodeeritud visuaalsed omadused Vicuna keelemudeliga ühe projektsioonikihi kaudu. MiniGPT-4 arhitektuur on lihtne, kuid tõhus, keskendudes visuaalsete ja keeleliste funktsioonide joondamisele, et parandada visuaalseid vestlusvõimalusi.

MiniGPT-4 arhitektuur sisaldab eelkoolitatud ViT ja Q-Formeriga nägemiskodeerijat, üht lineaarset projektsioonikihti ja täiustatud Vicuna suure keele mudelit.

Autoregressiivsete keelemudelite suundumus visiooni-keele ülesannetes on samuti kasvanud, kasutades ära ristmodaalset ülekannet, et jagada teadmisi keele ja multimodaalsete domeenide vahel.

MiniGPT-4 ühendab visuaal- ja keelevaldkonnad, joondades visuaalse teabe eelkoolitatud nägemiskooderist täiustatud LLM-iga. Mudel kasutab keeledekoodrina Vicunat ja järgib kaheetapilise koolituse lähenemisviisi. Esialgu on see koolitatud suurel pildi-teksti paaride andmestikul, et mõista nägemust-keeleteadmisi, millele järgneb väiksema ja kvaliteetse andmekogumi peenhäälestus, et suurendada genereerimise usaldusväärsust ja kasutatavust.

MiniGPT-4 loodud keele loomulikkuse ja kasutatavuse parandamiseks töötasid teadlased välja kaheetapilise joondusprotsessi, mis käsitleb piisavate visiooni-keele joondamise andmekogumite puudumist. Nad kureerisid selleks spetsiaalse andmestiku.

Esialgu genereeris mudel sisendpiltide üksikasjalikud kirjeldused, suurendades detaili, kasutades Vicuna keelemudeli vorminguga joondatud vestlusjuhist. Selle etapi eesmärk oli luua põhjalikumaid piltide kirjeldusi.

Esialgse pildi kirjelduse viip:

###Inimene: Kirjeldage seda pilti üksikasjalikult. Esitage võimalikult palju üksikasju. Öelge kõike, mida näete. ###Assistent:

Andmete järeltöötluseks parandati loodud kirjelduste ebakõlad või vead ChatGPT abil, millele järgnes kõrge kvaliteedi tagamiseks käsitsi kontrollimine.

Teise etapi peenhäälestuse viip:

###Inimene: ###Assistent:

See uurimine avab akna multimodaalse generatiivse tehisintellekti, nagu GPT-4, mehaanika mõistmiseks, heidates valgust sellele, kuidas nägemuse ja keele modaalsusi saab tõhusalt integreerida, et luua ühtseid ja kontekstuaalselt rikkalikke väljundeid.

GPT-4 visiooni uurimine

Kujutise päritolu määramine ChatGPT abil

GPT-4 Vision täiustab ChatGPT võimet pilte analüüsida ja nende geograafilist päritolu täpselt kindlaks teha. See funktsioon muudab kasutaja interaktsioonid pelgalt tekstilt teksti ja visuaalide seguks, muutudes mugavaks tööriistaks neile, kes pildiandmete kaudu otsivad erinevaid kohti.

Küsib ChatGPT-lt, kus on maamärgi kujutis tehtud

Keerulised matemaatika mõisted

GPT-4 Vision paistab silma keeruliste matemaatiliste ideede süvenemisel, analüüsides graafilisi või käsitsi kirjutatud väljendeid. See funktsioon toimib kasuliku tööriistana inimestele, kes soovivad lahendada keerulisi matemaatilisi probleeme, märkides GPT-4 Visioni märkimisväärseks abivahendiks haridus- ja akadeemilistes valdkondades.

Paluge ChatGPT-l mõista keerukat matemaatikakontseptsiooni

Käsitsi kirjutatud sisendi teisendamine LaTeX-koodideks

Üks GPT-4V tähelepanuväärsetest võimetest on selle võime tõlkida käsitsi kirjutatud sisendid LaTeX-koodideks. See funktsioon on õnnistuseks teadlastele, akadeemikutele ja üliõpilastele, kellel on sageli vaja käsitsi kirjutatud matemaatilisi avaldisi või muud tehnilist teavet digitaalvormingusse teisendada. Käsitsi kirjutamiselt LaTeX-ile üleminek laiendab dokumentide digiteerimise horisonti ja lihtsustab tehnilist kirjutamisprotsessi.

$GPT-4V võime teisendada käsitsi kirjutatud sisend LaTeX-koodideks$

GPT-4V võime teisendada käsitsi kirjutatud sisend LaTeX-koodideks

Tabeli üksikasjade eraldamine

GPT-4V näitab oskusi tabelitest üksikasjade väljavõtmisel ja seotud päringute lahendamisel, mis on andmeanalüüsi jaoks ülitähtis vara. Kasutajad saavad kasutada GPT-4V-d tabelite sirvimiseks, põhiteabe kogumiseks ja andmepõhiste küsimuste lahendamiseks, muutes selle andmeanalüütikute ja teiste spetsialistide jaoks tugevaks tööriistaks.

GPT-4V tabeli üksikasjade dešifreerimine ja seotud päringutele vastamine

Visuaalse osutamise mõistmine

GPT-4V ainulaadne võime visuaalsest osutamisest aru saada lisab kasutajaga suhtlemisele uue mõõtme. Visuaalsete näpunäidete mõistmisega saab GPT-4V vastata päringutele paremini kontekstuaalse arusaamaga.

GPT-4V-näitab-unikaalset-võimet-mõista-visuaalset-osutamist

GPT-4V esitleb selget võimet mõista visuaalset osutamist

Lihtsate makettide veebisaitide loomine joonise abil

Sellest motiveeritud piiksuma, proovisin luua unite.ai veebisaidi maketti.

Kuigi tulemus ei vastanud päris minu esialgsele nägemusele, on siin saavutatud tulemus.

ChatGPT Visionil põhinev HTML-i väljund

GPT-4V (ision) piirangud ja vead

GPT-4V analüüsimiseks viis Open AI meeskond läbi kvalitatiivsed ja kvantitatiivsed hinnangud. Kvalitatiivsed hõlmasid siseteste ja välisekspertide hinnanguid, samas kui kvantitatiivsed mõõdeti mudelite keeldumisi ja täpsust erinevates stsenaariumides, nagu kahjuliku sisu tuvastamine, demograafiline tuvastamine, privaatsusprobleemid, geolokatsioon, küberturvalisus ja multimodaalsed jailbreakid.

Mudel pole siiski täiuslik.

. paber tõstab esile GPT-4V piirangud, nagu valed järeldused ja puuduv tekst või tähemärgid piltidel. See võib hallutsineerida või fakte välja mõelda. Eelkõige ei sobi see piltidelt ohtlike ainete tuvastamiseks, sageli identifitseerides need valesti.

Meditsiinilises kuvamises võib GPT-4V anda ebajärjekindlaid vastuseid ja puudub teadlikkus tavapärastest tavadest, mis võib põhjustada võimalikke valediagnoose.

Ebausaldusväärne jõudlus meditsiinilistel eesmärkidel (allikas)

Samuti ei suuda see mõista teatud vihasümbolite nüansse ja võib visuaalsete sisendite põhjal luua sobimatut sisu. OpenAI ei soovita GPT-4V kasutamist kriitiliste tõlgenduste jaoks, eriti meditsiinilistes või tundlikes kontekstides.

Pakke Up

Loodud kasutades Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl

GPT-4 Visioni (GPT-4V) saabumine toob kaasa hulga lahedaid võimalusi ja uusi tõkkeid, millest üle hüpata. Enne selle kasutuselevõttu on tehtud palju pingutusi selle nimel, et riskid, eriti inimeste piltide puhul, oleksid hästi läbi vaadatud ja vähendatud. Muljetavaldav on näha, kuidas GPT-4V on arenenud, näidates palju lubadusi sellistes keerulistes valdkondades nagu meditsiin ja teadus.

Nüüd on laual mõned suured küsimused. Näiteks kas need mudelid peaksid suutma fotode järgi kuulsaid inimesi tuvastada? Kas nad peaksid pildi järgi ära arvama inimese soo, rassi või tundeid? Ja kas nägemispuudega inimeste abistamiseks tuleks teha spetsiaalseid näpunäiteid? Need küsimused avavad hulga ussikesi privaatsuse, õigluse ja selle kohta, kuidas AI peaks meie ellu sobituma, milles peaksid kõik kaasa rääkima.

Seotud teemad:vestlus gpt DALL-E3 Multimodaalne AI KIIRE INSENER

Järgmisena

Kesktee vs stabiilne difusioon: AI pildigeneraatorite lahing

Ära jäta

Asjade Internetist kõige Internetini: AI ja 6G lähenemine ühendatud intelligentsuse jaoks

Aayush Mittal

Olen viimased viis aastat veetnud masinõppe ja süvaõppe põnevasse maailma sukeldudes. Minu kirg ja teadmised on pannud mind panustama enam kui 50 erinevasse tarkvaratehnoloogia projekti, keskendudes eelkõige AI/ML-ile. Minu jätkuv uudishimu on tõmmanud mind ka loomuliku keele töötlemise poole, valdkonda, mida ma innukalt edasi uurin.

Ühendage.AI

Multimodaalne tehisintellekt areneb, kuna ChatGPT saab GPT-4V(ision) abil nägemise

Tehisintellekt

Multimodaalne tehisintellekt areneb, kuna ChatGPT saab GPT-4V(ision) abil nägemise

Sisukord