Umelá inteligencia

Multimodálna AI sa vyvíja, pretože ChatGPT získava zrak s GPT-4V (ision)

Aktualizované on Októbra 9, 2023

V neustálom úsilí o to, aby sa AI podobala ľuďom, modely GPT OpenAI neustále posúvajú hranice. GPT-4 teraz dokáže akceptovať výzvy textu aj obrázkov.

Multimodalita v generatívnej AI označuje schopnosť modelu produkovať rôzne výstupy, ako je text, obrázky alebo zvuk na základe vstupu. Tieto modely, trénované na konkrétnych údajoch, sa učia základné vzorce na generovanie podobných nových údajov, čím obohacujú aplikácie AI.

Nedávne pokroky v multimodálnej AI

Nedávny pozoruhodný skok v tejto oblasti je vidieť s integráciou DALL-E 3 do ChatGPT, čo je významný upgrade technológie OpenAI pre prevod textu na obrázok. Táto zmes umožňuje plynulejšiu interakciu, kde ChatGPT pomáha pri vytváraní presných výziev pre DALL-E 3 a premieňa nápady používateľov na živé umenie generované AI. Takže zatiaľ čo používatelia môžu priamo interagovať s DALL-E 3, vďaka ChatGPT v kombinácii je proces vytvárania umenia AI pre používateľa oveľa príjemnejší.

Pozrite si viac o DALL-E 3 a jeho integrácii s ChatGPT tu. Táto spolupráca nielenže predstavuje pokrok v multimodálnej AI, ale tiež robí z tvorby AI umenia pre používateľov hračku.

https://openai.com/dall-e-3

Google zdravie na druhej strane predstavil Med-PaLM M v júni tohto roku. Je to multimodálny generatívny model, ktorý je schopný kódovať a interpretovať rôzne biomedicínske údaje. Dosiahlo sa to doladením jazykového modelu PaLM-E tak, aby vyhovoval medicínskym oblastiam s využitím benchmarku s otvoreným zdrojom, MultiMedBench. Tento benchmark pozostáva z viac ako 1 milióna vzoriek v rámci 7 typov biomedicínskych údajov a 14 úloh, ako je odpovedanie na lekárske otázky a generovanie rádiologických správ.

Rôzne odvetvia si osvojujú inovatívne multimodálne nástroje AI, aby podporili expanziu podnikania, zefektívnili operácie a zvýšili zapojenie zákazníkov. Pokrok v oblasti hlasových, video a textových schopností AI poháňa rast multimodálnej AI.

Podniky hľadajú multimodálne aplikácie AI schopné prepracovať obchodné modely a procesy, čím sa otvárajú cesty rastu v rámci generatívneho ekosystému AI, od dátových nástrojov až po vznikajúce aplikácie AI.

Po uvedení GPT-4 v marci niektorí používatelia zaznamenali pokles kvality odozvy v priebehu času, čo je obava, ktorú opakovali významní vývojári a na fórach OpenAI. Pôvodne zamietnuté OpenAI, neskôr študovať potvrdil problém. V období medzi marcom a júnom odhalil pokles presnosti GPT-4 z 97.6 % na 2.4 %, čo naznačuje pokles kvality odpovedí s následnými aktualizáciami modelu.

ChatGPT (modrá) a umelá inteligencia (červená) Trend vyhľadávania Google

Ten humbuk okolo Otvorte AI ChatGPT je späť. Teraz prichádza s funkciou videnia GPT-4V, čo používateľom umožňuje, aby GPT-4 analyzovali obrázky, ktoré poskytli. Toto je najnovšia funkcia, ktorá bola sprístupnená používateľom.

Pridanie analýzy obrazu do veľkých jazykových modelov (LLM), ako je GPT-4, niektorí považujú za veľký krok vpred vo výskume a vývoji AI. Tento druh multimodálneho LLM otvára nové možnosti, jazykové modely presahuje rámec textu a ponúka nové rozhrania a rieši nové druhy úloh, čím vytvára nové skúsenosti pre používateľov.

Výcvik GPT-4V bol ukončený v roku 2022 a skorý prístup bol spustený v marci 2023. Vizuálna funkcia v GPT-4V je poháňaná technológiou GPT-4. Tréningový proces zostal rovnaký. Spočiatku bol model trénovaný na predpovedanie nasledujúceho slova v texte pomocou rozsiahleho súboru údajov z textu a obrázkov z rôznych zdrojov vrátane internetu.

Neskôr bol doladený s ďalšími údajmi, využívajúc metódu nazvanú posilnenie učenia z ľudskej spätnej väzby (RLHF), aby sa generovali výstupy, ktoré ľudia preferovali.

GPT-4 Vision Mechanics

Pozoruhodné schopnosti jazyka videnia GPT-4, hoci pôsobivé, majú základné metódy, ktoré zostávajú na povrchu.

Na preskúmanie tejto hypotézy nový model jazyka videnia, miniGPT-4 bol predstavený s využitím pokročilého LLM s názvom Vicuna. Tento model využíva kódovač videnia s vopred pripravenými komponentmi na vizuálne vnímanie, pričom zakódované vizuálne prvky zosúlaďuje s modelom jazyka Vicuna prostredníctvom jedinej projekčnej vrstvy. Architektúra MiniGPT-4 je jednoduchá, ale efektívna, so zameraním na zosúladenie vizuálnych a jazykových funkcií s cieľom zlepšiť možnosti vizuálnej konverzácie.

Architektúra MiniGPT-4 zahŕňa kódovač videnia s vopred vyškolenými ViT a Q-Former, jedinú lineárnu projekčnú vrstvu a pokročilý model veľkého jazyka Vicuna.

Trend autoregresívnych jazykových modelov v úlohách zameraných na jazyk videnia tiež narástol, pričom sa využíva medzimodálny prenos na zdieľanie znalostí medzi jazykovými a multimodálnymi doménami.

MiniGPT-4 premosťuje vizuálnu a jazykovú doménu zosúladením vizuálnych informácií z vopred vyškoleného kódovača videnia s pokročilým LLM. Model využíva Vicunu ako jazykový dekodér a sleduje dvojstupňový tréningový prístup. Spočiatku je trénovaný na veľkom súbore údajov párov obrázok-text, aby sa pochopili znalosti jazyka videnia, po ktorom nasleduje jemné doladenie na menšom vysokokvalitnom súbore údajov, aby sa zvýšila spoľahlivosť a použiteľnosť generovania.

Aby sa zlepšila prirodzenosť a použiteľnosť generovaného jazyka v MiniGPT-4, výskumníci vyvinuli dvojstupňový proces zosúlaďovania, ktorý riešil nedostatok adekvátnych súborov údajov na zosúladenie zraku a jazyka. Na tento účel vytvorili špecializovaný súbor údajov.

Spočiatku model generoval podrobné popisy vstupných obrázkov, pričom detaily vylepšoval pomocou konverzačnej výzvy zosúladenej s formátom jazykového modelu Vicuna. Táto fáza bola zameraná na generovanie komplexnejších popisov obrázkov.

Výzva s popisom úvodného obrázka:

###Človek: Podrobne opíšte tento obrázok. Uveďte čo najviac podrobností. Povedz všetko, čo vidíš. ###Asistent:

Pre následné spracovanie údajov boli všetky nezrovnalosti alebo chyby vo vygenerovaných popisoch opravené pomocou ChatGPT, po čom nasledovalo manuálne overenie, aby sa zabezpečila vysoká kvalita.

Výzva na jemné doladenie v druhej fáze:

###Človek: ###Asistent:

Tento prieskum otvára okno do pochopenia mechaniky multimodálnej generatívnej AI, ako je GPT-4, a osvetľuje, ako možno efektívne integrovať videnie a jazykové modality, aby sa vytvorili koherentné a kontextovo bohaté výstupy.

Skúmanie GPT-4 Vision

Určenie pôvodu obrázkov pomocou ChatGPT

GPT-4 Vision vylepšuje schopnosť ChatGPT analyzovať obrázky a presne určiť ich geografický pôvod. Táto funkcia mení interakcie používateľa z jednoduchého textu na kombináciu textu a vizuálov, čím sa stáva praktickým nástrojom pre tých, ktorí sa zaujímajú o rôzne miesta prostredníctvom obrazových údajov.

Pýtate sa na ChatGPT, kde je nasnímaný orientačný obrázok

Komplexné matematické pojmy

GPT-4 Vision vyniká v ponorení sa do zložitých matematických myšlienok pomocou analýzy grafických alebo ručne písaných výrazov. Táto funkcia funguje ako užitočný nástroj pre jednotlivcov, ktorí chcú riešiť zložité matematické problémy, vďaka čomu je GPT-4 Vision pozoruhodným pomocníkom vo vzdelávacích a akademických oblastiach.

Požiadajte ChatGPT, aby pochopil komplexný matematický koncept

Prevod ručne písaného vstupu na kódy LaTeX

Jednou z pozoruhodných schopností GPT-4V je jeho schopnosť prekladať ručne písané vstupy do kódov LaTeX. Táto funkcia je prínosom pre výskumníkov, akademikov a študentov, ktorí často potrebujú previesť ručne písané matematické výrazy alebo iné technické informácie do digitálneho formátu. Transformácia z ručne písaného textu na LaTeX rozširuje obzory digitalizácie dokumentov a zjednodušuje proces technického písania.

Schopnosť GPT-4V konvertovať ručne písaný vstup do kódov LaTeX

Podrobnosti tabuľky extrahovania

GPT-4V demonštruje zručnosť pri získavaní podrobností z tabuliek a riešení súvisiacich otázok, čo je životne dôležité aktívum pri analýze údajov. Používatelia môžu použiť GPT-4V na preosievanie tabuliek, zhromažďovanie kľúčových poznatkov a riešenie otázok založených na údajoch, čo z neho robí robustný nástroj pre analytikov údajov a iných profesionálov.

GPT-4V dešifruje podrobnosti tabuľky a odpovedá na súvisiace otázky

Pochopenie vizuálneho ukazovania

Jedinečná schopnosť GPT-4V porozumieť vizuálnemu ukazovaniu dodáva interakcii používateľa nový rozmer. Pochopením vizuálnych podnetov môže GPT-4V reagovať na otázky s vyšším kontextovým porozumením.

GPT-4V-ukazuje-jedinečnú-schopnosť-pochopenia-vizuálneho-ukazovania

GPT-4V predstavuje výraznú schopnosť porozumieť vizuálnemu ukazovaniu

Vytváranie jednoduchých mock-up webových stránok pomocou výkresu

Motivovaný týmto tweet, pokúsil som sa vytvoriť maketu pre webovú stránku unite.ai.

Aj keď výsledok úplne nezodpovedal mojej pôvodnej vízii, tu je výsledok, ktorý som dosiahol.

Výstup HTML Frontend založený na ChatGPT Vision

Obmedzenia a chyby GPT-4V (ision)

Na analýzu GPT-4V tím Open AI vykonal kvalitatívne a kvantitatívne hodnotenia. Kvalitatívne testy zahŕňali interné testy a externé odborné posudky, zatiaľ čo kvantitatívne merali modelové odmietnutia a presnosť v rôznych scenároch, ako je identifikácia škodlivého obsahu, demografické rozpoznanie, obavy o súkromie, geolokácia, kybernetická bezpečnosť a multimodálne úteky z väzenia.

Napriek tomu model nie je dokonalý.

papier zdôrazňuje obmedzenia GPT-4V, ako sú nesprávne odvodenia a chýbajúci text alebo znaky v obrázkoch. Môže mať halucinácie alebo si vymýšľať fakty. Najmä nie je vhodný na identifikáciu nebezpečných látok na obrázkoch, často ich identifikuje nesprávne.

V medicínskom zobrazovaní môže GPT-4V poskytovať nekonzistentné reakcie a chýba mu povedomie o štandardných postupoch, čo vedie k potenciálnym nesprávnym diagnózam.

Nespoľahlivý výkon na lekárske účely (zdroj)

Tiež nedokáže pochopiť nuansy určitých symbolov nenávisti a môže vytvárať nevhodný obsah na základe vizuálnych vstupov. OpenAI neodporúča používať GPT-4V na kritické interpretácie, najmä v medicínskych alebo citlivých kontextoch.

Balil

Vytvorené pomocou Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl

Príchod GPT-4 Vision (GPT-4V) so sebou prináša množstvo skvelých možností a nových prekážok, ktoré je potrebné prekonať. Pred uvedením do prevádzky sa vynaložilo veľké úsilie na zabezpečenie toho, aby sa riziká, najmä pokiaľ ide o obrázky ľudí, dobre preskúmali a znížili. Je pôsobivé vidieť, ako sa GPT-4V zintenzívnil a ukázal veľa sľubov v zložitých oblastiach, ako je medicína a veda.

Teraz je na stole niekoľko veľkých otázok. Mali by tieto modelky napríklad vedieť identifikovať známych ľudí z fotografií? Mali by podľa obrázka uhádnuť pohlavie, rasu alebo pocity človeka? A mali by existovať špeciálne vylepšenia na pomoc ľuďom so zrakovým postihnutím? Tieto otázky otvárajú množinu červov o súkromí, férovosti a o tom, ako by AI mala zapadnúť do našich životov, čo je niečo, čo by mal mať každý.

Súvisiace témy:chat gpt DALL-E3 Multimodálna AI RÝCHLE INŽINIERSTVO

Nasledujúci

Midjourney verzus Stable Diffusion: Bitka generátorov obrazu AI

Nenechajte si ujsť

Od internetu vecí k internetu všetkého: Konvergencia AI a 6G pre prepojenú inteligenciu

Aayush Mittal

Posledných päť rokov som strávil ponorením sa do fascinujúceho sveta strojového učenia a hlbokého učenia. Moja vášeň a odborné znalosti ma viedli k tomu, že som prispel k viac ako 50 rôznym projektom softvérového inžinierstva s osobitným zameraním na AI/ML. Moja neustála zvedavosť ma tiež priviedla k spracovaniu prirodzeného jazyka, oblasti, ktorú by som chcel ďalej skúmať.

Spojte sa.AI

Multimodálna AI sa vyvíja, pretože ChatGPT získava zrak s GPT-4V (ision)

Umelá inteligencia

Multimodálna AI sa vyvíja, pretože ChatGPT získava zrak s GPT-4V (ision)

Obsah