Umělá inteligence

Multimodální AI se vyvíjí, protože ChatGPT získává zrak s GPT-4V(ision)

aktualizováno on Října 9, 2023

V neustálém úsilí o to, aby se umělá inteligence podobala lidem, modely GPT OpenAI neustále posouvají hranice. GPT-4 nyní dokáže přijímat výzvy k textu i obrázkům.

Multimodalita v generativní umělé inteligenci označuje schopnost modelu produkovat různé výstupy, jako je text, obrázky nebo zvuk, na základě vstupu. Tyto modely, trénované na konkrétních datech, se učí základní vzorce pro generování podobných nových dat a obohacují aplikace umělé inteligence.

Nedávné pokroky v multimodální umělé inteligenci

Nedávný významný skok v této oblasti je vidět s integrací DALL-E 3 do ChatGPT, což je významný upgrade technologie OpenAI pro převod textu na obrázek. Tato směs umožňuje hladší interakci, kde ChatGPT pomáhá při vytváření přesných výzev pro DALL-E 3 a mění nápady uživatelů na živé umění generované AI. Takže zatímco uživatelé mohou přímo komunikovat s DALL-E 3, díky ChatGPT v mixu je proces vytváření AI art mnohem uživatelsky přívětivější.

Podívejte se na více o DALL-E 3 a jeho integraci s ChatGPT zde. Tato spolupráce nejen předvádí pokrok v multimodální AI, ale také dělá z tvorby AI umění pro uživatele hračku.

https://openai.com/dall-e-3

Google zdraví na druhé straně představil Med-PaLM M v červnu tohoto roku. Jedná se o multimodální generativní model zběhlý v kódování a interpretaci různých biomedicínských dat. Toho bylo dosaženo vyladěním jazykového modelu PaLM-E tak, aby vyhovoval lékařským doménám s využitím open-source benchmarku, MultiMedBench. Tento benchmark se skládá z více než 1 milionu vzorků ze 7 typů biomedicínských dat a 14 úkolů, jako je zodpovězení lékařských otázek a generování radiologických zpráv.

Různá průmyslová odvětví přijímají inovativní multimodální nástroje umělé inteligence, aby podpořily expanzi podnikání, zefektivnili operace a zvýšily zapojení zákazníků. Pokrok ve schopnostech hlasové, video a textové umělé inteligence pohání růst multimodální umělé inteligence.

Podniky hledají multimodální aplikace umělé inteligence schopné přepracovat obchodní modely a procesy a otevřít cesty růstu napříč generativním ekosystémem umělé inteligence, od datových nástrojů po nově vznikající aplikace umělé inteligence.

Po uvedení GPT-4 v březnu někteří uživatelé zaznamenali pokles kvality odezvy v průběhu času, což je obava, kterou opakovali významní vývojáři a na fórech OpenAI. Původně zamítnuto OpenAI, později studovat problém potvrdil. Odhalil pokles přesnosti GPT-4 z 97.6 % na 2.4 % mezi březnem a červnem, což ukazuje na pokles kvality odpovědí s následnými aktualizacemi modelu.

ChatGPT (modrá) a umělá inteligence (červená) Trend vyhledávání Google

Ten humbuk kolem Otevřete AI ChatGPT je nyní zpět. Nyní přichází s funkcí vidění GPT-4V, což uživatelům umožňuje, aby GPT-4 analyzovali obrázky, které poskytli. Toto je nejnovější funkce, která byla zpřístupněna uživatelům.

Přidání analýzy obrazu do velkých jazykových modelů (LLM), jako je GPT-4, někteří považují za velký krok vpřed ve výzkumu a vývoji AI. Tento druh multimodálního LLM otevírá nové možnosti, jazykové modely překračuje text a nabízí nová rozhraní a řeší nové druhy úkolů, čímž uživatelům vytváří nové zkušenosti.

Výuka GPT-4V byla dokončena v roce 2022 a předběžný přístup byl spuštěn v březnu 2023. Vizuální funkce v GPT-4V je poháněna technologií GPT-4. Tréninkový proces zůstal stejný. Zpočátku byl model trénován tak, aby předpovídal další slovo v textu pomocí masivní datové sady jak textu, tak obrázků z různých zdrojů včetně internetu.

Později byl doladěn s dalšími daty, využívající metodu nazvanou posílení učení z lidské zpětné vazby (RLHF), aby generoval výstupy, které lidé preferovali.

Vizuální mechanika GPT-4

Pozoruhodné schopnosti jazyka vidění GPT-4, i když působivé, mají základní metody, které zůstávají na povrchu.

Abychom tuto hypotézu prozkoumali, nový model vizuálního jazyka, MiniGPT-4 byla představena s využitím pokročilého LLM s názvem Vicuna. Tento model používá kodér vidění s předem vyškolenými komponentami pro vizuální vnímání, čímž se zakódované vizuální prvky srovnávají s jazykovým modelem Vicuna prostřednictvím jediné projekční vrstvy. Architektura MiniGPT-4 je jednoduchá, ale efektivní, se zaměřením na sladění vizuálních a jazykových funkcí pro zlepšení schopností vizuální konverzace.

Architektura MiniGPT-4 zahrnuje kodér vidění s předem vyškolenými ViT a Q-Former, jedinou lineární projekční vrstvu a pokročilý model velkého jazyka Vicuna.

Trend autoregresivních jazykových modelů v úlohách vizuálního jazyka také vzrostl, přičemž se využívá mezimodálního přenosu ke sdílení znalostí mezi jazykovými a multimodálními doménami.

MiniGPT-4 přemosťuje vizuální a jazykovou doménu sladěním vizuálních informací z předem vyškoleného kodéru vidění s pokročilým LLM. Model využívá Vicuna jako jazykový dekodér a sleduje dvoufázový tréninkový přístup. Zpočátku je trénován na velké datové sadě párů obrázek-text, aby pochopil znalost jazyka vidění, následuje jemné doladění na menší, vysoce kvalitní datové sadě, aby se zvýšila spolehlivost a použitelnost generace.

Pro zlepšení přirozenosti a použitelnosti generovaného jazyka v MiniGPT-4 vyvinuli výzkumníci dvoufázový proces zarovnání, který řeší nedostatek adekvátních datových sad pro zarovnání jazyka. Pro tento účel vytvořili specializovaný soubor dat.

Zpočátku model vygeneroval podrobné popisy vstupních obrázků, které vylepšily detaily pomocí konverzační výzvy v souladu s formátem jazykového modelu Vicuna. Tato fáze byla zaměřena na generování komplexnějších popisů obrázků.

Výzva pro popis úvodního obrázku:

###Člověk: Popište tento obrázek podrobně. Uveďte co nejvíce podrobností. Řekni vše, co vidíš. ###Asistent:

Pro následné zpracování dat byly všechny nekonzistence nebo chyby ve vygenerovaných popisech opraveny pomocí ChatGPT s následným ručním ověřením, aby byla zajištěna vysoká kvalita.

Výzva pro jemné doladění druhé fáze:

###Člověk: ###Asistent:

Tento průzkum otevírá okno k pochopení mechaniky multimodální generativní umělé inteligence, jako je GPT-4, a vrhá světlo na to, jak lze efektivně integrovat vizuální a jazykové modality za účelem vytváření koherentních a kontextově bohatých výstupů.

Prozkoumání GPT-4 Vision

Určení původu obrázků pomocí ChatGPT

GPT-4 Vision vylepšuje schopnost ChatGPT analyzovat obrázky a určit jejich geografický původ. Tato funkce převádí uživatelské interakce z pouhého textu na kombinaci textu a vizuálů a stává se praktickým nástrojem pro ty, kteří se zajímají o různá místa prostřednictvím obrazových dat.

Zeptejte se ChatGPT, kde je snímek orientačního bodu pořízen

Komplexní matematické pojmy

GPT-4 Vision vyniká v ponoření se do složitých matematických myšlenek analýzou grafických nebo ručně psaných výrazů. Tato funkce funguje jako užitečný nástroj pro jednotlivce, kteří hledají řešení složitých matematických problémů, což znamená, že GPT-4 Vision je pozoruhodným pomocníkem ve vzdělávacích a akademických oblastech.

Požádejte ChatGPT, aby porozuměl složitému matematickému konceptu

Převod ručně psaného vstupu na kódy LaTeX

Jednou z pozoruhodných schopností GPT-4V je jeho schopnost překládat ručně psané vstupy do kódů LaTeXu. Tato funkce je přínosem pro výzkumníky, akademiky a studenty, kteří často potřebují převést ručně psané matematické výrazy nebo jiné technické informace do digitálního formátu. Transformace z ručně psaného textu na LaTeX rozšiřuje obzory digitalizace dokumentů a zjednodušuje proces technického psaní.

Schopnost GPT-4V převádět ručně psaný vstup do kódů LaTeX

Podrobnosti tabulky extrahování

GPT-4V předvádí dovednosti při získávání podrobností z tabulek a řešení souvisejících dotazů, což je zásadní aktivum při analýze dat. Uživatelé mohou GPT-4V využít k procházení tabulek, shromažďování klíčových poznatků a řešení otázek založených na datech, což z něj činí robustní nástroj pro datové analytiky a další profesionály.

GPT-4V dešifruje detaily tabulky a odpovídá na související dotazy

Porozumění vizuálnímu ukazování

Jedinečná schopnost GPT-4V porozumět vizuálnímu ukazování dodává interakci s uživatelem nový rozměr. Díky pochopení vizuálních podnětů může GPT-4V reagovat na dotazy s vyšším kontextovým porozuměním.

GPT-4V-demonstruje-jedinečnou-schopnost-pochopení-vizuálního-ukazování

GPT-4V předvádí výraznou schopnost porozumět vizuálnímu ukazování

Vytváření jednoduchých mock-up webových stránek pomocí výkresu

Motivován tímto tweet, pokusil jsem se vytvořit maketu pro web unite.ai.

I když výsledek zcela neodpovídal mé původní představě, zde je výsledek, kterého jsem dosáhl.

Výstup HTML Frontend založený na ChatGPT Vision

Omezení a chyby GPT-4V(ision)

Pro analýzu GPT-4V provedl tým Open AI kvalitativní a kvantitativní hodnocení. Kvalitativní testy zahrnovaly interní testy a externí odborné posudky, zatímco kvantitativní měřily odmítnutí modelu a přesnost v různých scénářích, jako je identifikace škodlivého obsahu, demografické rozpoznávání, obavy o soukromí, geolokace, kybernetická bezpečnost a multimodální útěk z vězení.

Přesto model není dokonalý.

Projekt papír zdůrazňuje omezení GPT-4V, jako jsou nesprávné závěry a chybějící text nebo znaky v obrázcích. Může mít halucinace nebo si vymýšlet fakta. Zvláště se nehodí pro identifikaci nebezpečných látek na obrázcích, často je identifikuje špatně.

V lékařském zobrazování může GPT-4V poskytovat nekonzistentní odpovědi a postrádá povědomí o standardních postupech, což vede k potenciálním chybným diagnózám.

Nespolehlivý výkon pro lékařské účely (Zdroj)

Také nedokáže pochopit nuance určitých symbolů nenávisti a může generovat nevhodný obsah na základě vizuálních vstupů. OpenAI nedoporučuje používat GPT-4V pro kritické interpretace, zejména v lékařských nebo citlivých kontextech.

Balil

Vytvořeno pomocí Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl

Příchod GPT-4 Vision (GPT-4V) s sebou přináší spoustu skvělých možností a nových překážek, které je třeba překonat. Před jeho spuštěním bylo vynaloženo velké úsilí na zajištění toho, aby rizika, zejména pokud jde o obrázky lidí, byla dobře prozkoumána a snížena. Je působivé vidět, jak se GPT-4V zintenzivnil a ukázal spoustu slibů v komplikovaných oblastech, jako je medicína a věda.

Nyní je na stole několik velkých otázek. Měly by například tyto modely být schopny identifikovat slavné lidi z fotografií? Měli by uhádnout pohlaví, rasu nebo pocity člověka z obrázku? A měly by existovat speciální úpravy, které by pomohly zrakově postiženým jedincům? Tyto otázky otevírají plechovku červů o soukromí, férovosti a o tom, jak by umělá inteligence měla zapadnout do našich životů, což je něco, do čeho by měl mít každý slovo.

Související témata:chat gpt DALL-E3 Multimodální AI RYCHLÉ INŽENÝRSTVÍ

Nahoru Další

Midjourney versus Stable Diffusion: Bitva AI Image Generators

Nenechte si ujít

Od internetu věcí k internetu všeho: Konvergence AI a 6G pro propojenou inteligenci

Aayush Mittal

Posledních pět let jsem strávil ponořením se do fascinujícího světa strojového učení a hlubokého učení. Moje vášeň a odborné znalosti mě vedly k tomu, abych se podílel na více než 50 různých projektech softwarového inženýrství se zvláštním zaměřením na AI/ML. Moje neustálá zvědavost mě také přivedla ke zpracování přirozeného jazyka, což je obor, který bych rád dále prozkoumal.

Unite.AI

Multimodální AI se vyvíjí, protože ChatGPT získává zrak s GPT-4V(ision)

Umělá inteligence

Multimodální AI se vyvíjí, protože ChatGPT získává zrak s GPT-4V(ision)

Obsah