Inteligență artificială
Evoluția Inteligenței Artificiale Multimodale cu GPT-4V(ision)

În efortul continuu de a face inteligența artificială (IA) mai asemănătoare cu oamenii, modelele GPT ale OpenAI au împins mereu limitele. GPT-4 poate accepta acum prompturi atât de text, cât și de imagini.
Multimodalitatea în inteligența artificială generativă denotă capacitatea unui model de a produce ieșiri variate, cum ar fi text, imagini sau audio, pe baza intrărilor. Aceste modele, antrenate pe date specifice, învață modelele subiacente pentru a genera date noi similare, îmbogățind aplicațiile IA.
Progrese Recent în IA Multimodală
Un salt notabil recent în acest domeniu este integrarea DALL-E 3 în ChatGPT, o actualizare semnificativă a tehnologiei text-to-image a OpenAI. Această combinație permite o interacțiune mai fluidă, unde ChatGPT ajută la crearea de prompturi precise pentru DALL-E 3, transformând ideile utilizatorilor în artă vividă generată de IA. Astfel, în timp ce utilizatorii pot interacționa direct cu DALL-E 3, prezența ChatGPT face procesul de creare a artei IA mult mai prietenos cu utilizatorul.
Puteți afla mai multe despre DALL-E 3 și integrarea sa cu ChatGPT aici. Această colaborare nu numai că evidențiază progresele în IA multimodală, dar face și crearea de artă IA o experiență ușoară pentru utilizatori.
Google a introdus, pe de altă parte, Med-PaLM M în luna iunie a acestui an. Acesta este un model generativ multimodal capabil să encodeze și să interpreteze diverse date biomedicale. Acest lucru a fost realizat prin fine-tuning-ul modelului de limbaj PaLM-E pentru a se adapta la domeniile medicale, utilizând un benchmark deschis, MultiMedBench. Acest benchmark constă în peste 1 milion de exemple din 7 tipuri de date biomedicale și 14 sarcini, cum ar fi generarea de rapoarte de radiologie și răspunsuri la întrebări medicale.
În diferite industrii, se adoptă instrumente inovatoare de IA multimodală pentru a stimula extinderea afacerilor, a eficientiza operațiunile și a îmbunătăți implicarea clienților. Progresele în capacitățile de voce, video și text ale IA impulsionează creșterea IA multimodale.
Întreprinderile caută aplicații de IA multimodală capabile să transforme modelele de afaceri și procesele, deschizând noi oportunități de creștere în întregul ecosistem al IA generativă, de la unelte de date la aplicații IA emergente.
În urma lansării GPT-4 în martie, unii utilizatori au observat o scădere a calității răspunsurilor sale în timp, o preocupare reflectată și de dezvoltatori notabili și pe forumurile OpenAI. Inițial, OpenAI a negat această problemă, dar o studiu ulterioară a confirmat problema. Acesta a arătat o scădere a acurateței GPT-4 de la 97,6% la 2,4% între martie și iunie, indicând o scădere a calității răspunsurilor odată cu actualizările ulterioare ale modelului.
Agița în jurul Open AI’s ChatGPT este înapoi acum. Acesta vine acum cu o funcție de vedere GPT-4V, care permite utilizatorilor să analizeze imagini cu GPT-4. Aceasta este cea mai recentă funcție deschisă utilizatorilor.
Adăugarea analizei de imagini la modelele de limbaj mari (LLM) cum ar fi GPT-4 este văzută de unii ca un pas mare înainte în cercetarea și dezvoltarea IA. Acest tip de model LLM multimodal deschide noi posibilități, ducând modelele de limbaj dincolo de text pentru a oferi noi interfețe și a rezolva noi tipuri de sarcini, creând experiențe proaspete pentru utilizatori.
Antrenamentul pentru GPT-4V a fost finalizat în 2022, cu acces timpuriu lansat în martie 2023. Funcția vizuală din GPT-4V este alimentată de tehnologia GPT-4. Procesul de antrenament a rămas același. Inițial, modelul a fost antrenat pentru a prezice următorul cuvânt într-un text, utilizând un set masiv de date de text și imagini din diverse surse, inclusiv internetul.
Ulterior, a fost ajustat cu mai multe date, utilizând o metodă numită învățare prin întărire din feedback uman (RLHF), pentru a genera ieșiri preferate de oameni.
Mecanica Viziunii GPT-4
Capacitățile remarcabile de limbaj și viziune ale GPT-4, deși impresionante, au metode subiacente care rămân la suprafață.
Pentru a explora această ipoteză, a fost introdus un nou model de limbaj și viziune, MiniGPT-4 , care utilizează un model avansat de limbaj numit Vicuna. Acest model folosește un codator de viziune cu componente pre-antrenate pentru percepția vizuală, aliniind caracteristici vizuale codate cu modelul de limbaj Vicuna prin intermediul unei singure straturi de proiecție. Arhitectura MiniGPT-4 este simplă, dar eficientă, cu accent pe alinierea caracteristicilor vizuale și de limbaj pentru a îmbunătăți capacitățile de conversație vizuală.

Arhitectura MiniGPT-4 include un codator de viziune cu ViT și Q-Former pre-antrenate, o singură strat de proiecție liniară și un model avansat de limbaj Vicuna.
Tendința modelelor autoregresive de limbaj în sarcinile de viziune și limbaj a crescut și ea, capitalizând pe transferul intermodal pentru a partaja cunoștințe între domeniile limbajului și multimodale.
MiniGPT-4 face podul între domeniul vizual și cel al limbajului, aliniind informațiile vizuale de la un codator de viziune pre-antrenat cu un model avansat de limbaj. Modelul utilizează Vicuna ca decodator de limbaj și urmează o abordare de antrenament în două etape. Inițial, este antrenat pe un set mare de date de perechi imagine-text pentru a înțelege cunoștințele de viziune și limbaj, urmat de ajustarea pe un set mai mic, de înaltă calitate, pentru a îmbunătăți fiabilitatea și utilitatea generării.
Pentru a îmbunătăți naturalitatea și utilitatea limbajului generat în MiniGPT-4, cercetătorii au dezvoltat un proces de aliniere în două etape, abordând lipsa de seturi de date adecvate pentru alinierea viziune-limbaj. Ei au creat un set de date specializat pentru acest scop.
Inițial, modelul a generat descrieri detaliate ale imaginilor de intrare, îmbunătățind detaliile prin utilizarea unui prompt conversațional aliniat cu formatul modelului de limbaj Vicuna. Această etapă a urmărit generarea de descrieri de imagini mai cuprinzătoare.
Prompt Inițial de Descriere a Imaginii:
###Omul: <Img><CaracteristicaImaginii></Img>Descrieți această imagine în detaliu. Dați cât mai multe detalii posibil. Spuneți tot ceea ce vedeți. ###Asistent:
Pentru post-procesarea datelor, orice inconstistențe sau erori în descrierile generate au fost corectate utilizând ChatGPT, urmate de verificarea manuală pentru a asigura calitatea ridicată.
Prompt de Ajustare a Etapei a Doua:
###Omul: <Img><CaracteristicaImaginii></Img><Instrucțiune>###Asistent:
Această explorare deschide o fereastră spre înțelegerea mecanicii inteligenței artificiale multimodale, cum ar fi GPT-4, aruncând lumină asupra modului în care modalitățile de viziune și limbaj pot fi integrate eficient pentru a genera ieșiri coerente și contextual bogate.
Explorarea Viziunii GPT-4
Determinarea Originea Imaginilor cu ChatGPT
GPT-4 Vision îmbunătățește capacitatea ChatGPT de a analiza imagini și de a identifica originea lor geografică. Această funcție trece interacțiunile utilizatorilor de la text simplu la o combinație de text și imagini, devenind un instrument util pentru cei curioși despre diferite locuri prin date de imagine.
Concepte Matematice Complexe
GPT-4 Vision excelează în a explora idei matematice complexe prin analiza expresiilor grafice sau manuscrise. Această funcție acționează ca un instrument util pentru persoanele care doresc să rezolve probleme matematice intricate, marcând GPT-4 Vision ca o ajutor notabil în domeniile educaționale și academice.
Conversia Intrărilor Manuscrise în Coduri LaTeX
Una dintre capacitățile remarcabile ale GPT-4V este posibilitatea de a traduce intrări manuscrise în coduri LaTeX. Această funcție este un ajutor pentru cercetători, academicieni și studenți care au nevoie adesea să convertească expresii matematice sau informații tehnice manuscrise într-un format digital. Transformarea de la manuscris la LaTeX extinde orizonturile digitizării documentelor și simplifică procesul de scriere tehnică.
Extragerea Detaliilor din Tabele
GPT-4V demonstrează abilitatea de a extrage detalii din tabele și de a răspunde la întrebări legate, o resursă valoroasă în analiza datelor. Utilizatorii pot utiliza GPT-4V pentru a căuta prin tabele, a aduna informații cheie și a rezolva întrebări, făcându-l un instrument robust pentru analiști de date și alți profesioniști.
Înțelegerea Indicatorilor Vizuali
Capacitatea unică a GPT-4V de a înțelege indicatorii vizuali adaugă o nouă dimensiune interacțiunii utilizatorului. Prin înțelegerea semnelor vizuale, GPT-4V poate răspunde la întrebări cu o înțelegere contextuală mai profundă.
Construirea de Site-uri Mock-Up Simple Utilizând o Schiță
Inspirat de acest tweet, am încercat să creez o schiță pentru site-ul unite.ai.
Deși rezultatul nu a fost exact așa cum mi-am imaginat, iată ce am reușit să obțin.
Limitări și Deficiențe ale GPT-4V(ision)
Pentru a analiza GPT-4V, echipa Open AI a efectuat evaluări calitative și cantitative. Evaluările calitative au inclus teste interne și revizuiri ale experților externi, în timp ce evaluările cantitative au măsurat refuzurile modelului și acuratețea în diverse scenarii, cum ar fi identificarea conținutului dăunător, recunoașterea demografică, preocupările legate de confidențialitate, geolocalizarea, securitatea cibernetică și încălcările multimodale.
Cu toate acestea, modelul nu este perfect.
Documentul documentul subliniază limitările GPT-4V, cum ar fi inferențele incorecte și lipsa de text sau caractere în imagini. Poate inventa sau hallucina fapte. În special, nu este potrivit pentru identificarea substanțelor periculoase în imagini, adesea identificându-le greșit.
În imagistica medicală, GPT-4V poate oferi răspunsuri inconsistente și lipsește de conștientizarea practicilor standard, ceea ce poate duce la posibile diagnostice greșite.

Performanță nesigură pentru scopuri medicale (Sursă)
De asemenea, nu reușește să înțeleagă nuanțele anumitor simboluri de ură și poate genera conținut inadecvat pe baza intrărilor vizuale. OpenAI sfătuiește împotriva utilizării GPT-4V pentru interpretări critice, în special în contexte medicale sau sensibile.
Încheiere

Creat utilizând Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl
Sosirea GPT-4 Vision (GPT-4V) aduce o mulțime de posibilități interesante și noi provocări de depășit. Înainte de a fi lansat, s-a depus mult efort pentru a se asigura că riscurile, în special cele legate de imagini cu oameni, sunt bine examinate și reduse. Este impresionant să vezi cum GPT-4V a făcut pași importanți, arătând mult potențial în domenii dificile, cum ar fi medicina și știința.
Acum, există întrebări mari pe masă. De exemplu, ar trebui aceste modele să poată identifica persoane celebre din fotografii? Ar trebui să ghicească sexul, rasa sau sentimentele unei persoane dintr-o imagine? Și ar trebui să existe ajustări speciale pentru a ajuta persoanele cu deficiențe de vedere? Aceste întrebări deschid o cutie cu viermi despre confidențialitate, echitate și despre cum ar trebui să se încadreze IA în viețile noastre, ceea ce este ceva la care ar trebui să aibă cuvântul toată lumea.




















