Mesterséges Intelligencia

A multimodális mesterséges intelligencia fejlődik, ahogy a ChatGPT jobban látható a GPT-4V(ision) segítségével

korszerűsített on Október 9, 2023

A folyamatos erőfeszítések során, hogy a mesterséges intelligencia emberhez hasonlóbb legyen, az OpenAI GPT modelljei folyamatosan feszegették a határokat. A GPT-4 mostantól képes szöveges és képi felszólításokat is elfogadni.

A generatív mesterséges intelligencia multimodalitása a modell azon képességét jelöli, hogy a bemenet alapján változatos kimeneteket, például szöveget, képeket vagy hangot hozzon létre. Ezek a konkrét adatokra kiképzett modellek megtanulják a mögöttes mintákat, hogy hasonló új adatokat generáljanak, gazdagítva az AI-alkalmazásokat.

Legutóbbi lépések a multimodális AI-ban

A közelmúltban jelentős ugrás ezen a területen a DALL-E 3 integrálása a ChatGPT-be, ami az OpenAI szöveg-kép technológiájának jelentős fejlesztése. Ez a keverék simább interakciót tesz lehetővé, ahol a ChatGPT segít a DALL-E 3 precíz promptjainak elkészítésében, és a felhasználói ötleteket élénk mesterséges intelligencia által generált művészetté alakítja. Tehát bár a felhasználók közvetlenül kommunikálhatnak a DALL-E 3-mal, a ChatGPT kombinációja sokkal felhasználóbarátabbá teszi az AI-művészet létrehozásának folyamatát.

További információ a DALL-E 3-ról és a ChatGPT-vel való integrációjáról itt. Ez az együttműködés nemcsak a multimodális mesterséges intelligencia fejlődését mutatja be, hanem a mesterséges intelligencia művészeti alkotásait is gyerekjátékká teszi a felhasználók számára.

https://openai.com/dall-e-3

A Google egészségügyi másrészt be Med-PaLM M idén júniusban. Ez egy multimodális generatív modell, amely alkalmas a különféle orvosbiológiai adatok kódolására és értelmezésére. Ezt a PaLM-E nyelvi modell finomhangolásával érték el, hogy az orvosi területeket egy nyílt forráskódú benchmark, a MultiMedBench segítségével szolgálja ki. Ez a benchmark több mint 1 millió mintát tartalmaz 7 orvosbiológiai adattípusban, és 14 feladatot, például orvosi kérdések megválaszolását és radiológiai jelentéskészítést.

Különböző iparágak alkalmaznak innovatív multimodális mesterséges intelligencia eszközöket az üzleti terjeszkedés, a műveletek egyszerűsítése és az ügyfelek elkötelezettségének fokozása érdekében. A hang-, videó- és szöveges mesterségesintelligencia-képességek fejlődése elősegíti a multimodális AI növekedését.

A vállalatok olyan multimodális AI-alkalmazásokat keresnek, amelyek képesek az üzleti modellek és folyamatok átalakítására, növekedési utakat nyitni a generatív AI-ökoszisztémában, az adateszközöktől a feltörekvő AI-alkalmazásokig.

A GPT-4 márciusi bevezetése után néhány felhasználó azt tapasztalta, hogy az idő múlásával romlott a válasz minősége, amit a figyelemre méltó fejlesztők és az OpenAI fórumain is visszhangoztak. Kezdetben egy OpenAI elutasította, később tanulmány megerősítette a kérdést. Felfedte, hogy a GPT-4 pontossága 97.6%-ról 2.4%-ra csökkent március és június között, ami a válaszminőség romlását jelzi a későbbi modellfrissítésekkel.

ChatGPT (kék) és mesterséges intelligencia (piros) Google keresési trend

A hype körül Nyissa meg az AI-t A ChatGPT visszatért. Most látás funkcióval érkezik GPT-4V, amely lehetővé teszi a felhasználók számára, hogy a GPT-4 elemezze az általuk megadott képeket. Ez a legújabb szolgáltatás, amelyet megnyitottak a felhasználók számára.

A képelemzés hozzáadását a nagy nyelvi modellekhez (LLM), például a GPT-4-hez, egyesek nagy előrelépésnek tekintik a mesterséges intelligencia kutatásában és fejlesztésében. Ez a fajta multimodális LLM új lehetőségeket nyit meg, a szövegen túlmutató nyelvi modellekkel új felületeket kínál és újfajta feladatokat old meg, új élményeket teremtve a felhasználók számára.

A GPT-4V képzése 2022-ben fejeződött be, a korai hozzáférést 2023 márciusában vezették be. A GPT-4V vizuális funkcióját a GPT-4 technológia hajtja. A képzési folyamat ugyanaz maradt. Kezdetben a modellt arra képezték ki, hogy megjósolja a szövegben a következő szót egy hatalmas adathalmaz segítségével, amely szövegből és képekből egyaránt származott különböző forrásokból, például az internetről.

Később további adatokkal finomították, az emberi visszacsatolásból való megerősítéses tanulás (RLHF) nevű módszert alkalmazva az emberek által preferált kimenetek generálására.

GPT-4 Vision Mechanics

A GPT-4 figyelemreméltó látásnyelvi képességei, bár lenyűgözőek, vannak mögöttes módszerek, amelyek a felszínen maradnak.

Ennek a hipotézisnek a feltárására egy új látás-nyelvi modell, miniGPT-4 nevű fejlett LLM segítségével vezették be vikunya. Ez a modell egy látáskódolót használ előre betanított komponensekkel a vizuális észleléshez, és egyetlen vetítési rétegen keresztül összehangolja a kódolt vizuális jellemzőket a Vicuna nyelvi modellel. A MiniGPT-4 architektúrája egyszerű, de hatékony, és a vizuális és nyelvi funkciók összehangolására összpontosít a vizuális beszélgetési képességek javítása érdekében.

A MiniGPT-4 architektúrája tartalmaz egy látáskódolót előre betanított ViT-vel és Q-Formerrel, egyetlen lineáris vetítési réteget és egy fejlett Vicuna nagynyelvi modellt.

Az autoregresszív nyelvi modellek trendje a látás-nyelvi feladatokban is erősödött, kihasználva a keresztmodális transzfert a nyelvi és multimodális tartományok közötti tudásmegosztásban.

A MiniGPT-4 áthidalja a vizuális és a nyelvi tartományt azáltal, hogy egy előre betanított látáskódolóból származó vizuális információkat egy fejlett LLM-hez igazítja. A modell a Vicuna-t használja nyelvi dekódolóként, és kétlépcsős képzési megközelítést követ. Kezdetben kép-szöveg párok nagy adatkészletére képezték ki a látás-nyelvi ismeretek megragadásához, majd egy kisebb, jó minőségű adatkészlet finomhangolása a generációs megbízhatóság és használhatóság javítása érdekében.

A MiniGPT-4-ben generált nyelv természetességének és használhatóságának javítása érdekében a kutatók egy kétlépcsős igazítási folyamatot dolgoztak ki, amely a megfelelő látás-nyelv igazítási adatkészletek hiányát kezelte. Erre a célra speciális adatkészletet készítettek.

Kezdetben a modell részletes leírásokat generált a bemeneti képekről, javítva a részleteket a Vicuna nyelvi modell formátumához igazított párbeszédes prompt használatával. Ez a szakasz átfogóbb képleírások generálását célozta.

Kezdeti kép leírása:

###Emberi: Írja le részletesen ezt a képet. Adjon meg minél több részletet. Mondj el mindent, amit látsz. ###Helyettes:

Az adatok utófeldolgozása során a generált leírások esetleges következetlenségeit vagy hibáit ChatGPT segítségével javítottuk, majd manuális ellenőrzést végeztünk a magas minőség biztosítása érdekében.

Második szakasz finomhangolási prompt:

###Emberi: ###Helyettes:

Ez a feltárás ablakot nyit a multimodális generatív mesterséges intelligencia, például a GPT-4 mechanikájának megértésére, rávilágítva arra, hogyan lehet hatékonyan integrálni a látás- és nyelvi modalitásokat koherens és kontextuálisan gazdag kimenetek generálására.

A GPT-4 Vision felfedezése

A képek eredetének meghatározása a ChatGPT segítségével

A GPT-4 Vision javítja a ChatGPT azon képességét, hogy elemezze a képeket és meghatározza azok földrajzi eredetét. Ez a funkció a felhasználói interakciókat csupán szövegről szöveg és látvány keverékére helyezi át, és praktikus eszközzé válik azok számára, akik képadatokon keresztül kíváncsiak a különböző helyekre.

Megkérdezi a ChatGPT-t, hogy hol készült a tájékozódási pont kép

Komplex matematikai fogalmak

A GPT-4 Vision a grafikus vagy kézírásos kifejezések elemzésével kiválóan elmélyül összetett matematikai elképzelésekben. Ez a funkció hasznos eszközként szolgál azoknak az egyéneknek, akik bonyolult matematikai problémákat szeretnének megoldani, és a GPT-4 Visiont az oktatási és akadémiai területeken jelentős segítségnek jelölik.

A ChatGPT megkérése egy összetett matematikai fogalom megértésére

Kézírásos bemenet konvertálása LaTeX kódokká

A GPT-4V egyik figyelemre méltó képessége az, hogy képes a kézzel írt bemeneteket LaTeX kódokká fordítani. Ez a funkció áldás a kutatók, akadémikusok és hallgatók számára, akiknek gyakran kell kézzel írott matematikai kifejezéseket vagy egyéb technikai információkat digitális formátumba konvertálniuk. A kézírásról LaTeX-re történő átalakítás kiterjeszti a dokumentumdigitalizálás horizontját és leegyszerűsíti a technikai írási folyamatot.

$A GPT-4V azon képessége, hogy a kézírásos bemenetet LaTeX kódokká konvertálja$

A GPT-4V azon képessége, hogy a kézírásos bemenetet LaTeX kódokká konvertálja

Táblázat részleteinek kibontása

A GPT-4V a táblázatok részleteinek kinyerésében és a kapcsolódó kérdések megválaszolásában való jártasságot mutat be, ami létfontosságú az adatelemzésben. A felhasználók a GPT-4V segítségével átkutathatják a táblázatokat, összegyűjthetik a kulcsfontosságú információkat, és megoldhatják az adatvezérelt kérdéseket, így ez egy robusztus eszköz adatelemzők és más szakemberek számára.

GPT-4V táblázat részleteinek megfejtése és a kapcsolódó lekérdezések megválaszolása

A vizuális mutatás megértése

A GPT-4V egyedülálló képessége a vizuális mutatások megértésére új dimenziót ad a felhasználói interakciónak. A vizuális jelzések megértésével a GPT-4V a kontextus jobb megértésével válaszolhat a lekérdezésekre.

A GPT-4V bemutatja a vizuális mutatás megértésének sajátos képességét

Egyszerű makett weboldalak készítése rajz segítségével

Ez motiválja csipog, Megpróbáltam makettet készíteni az unite.ai weboldalhoz.

Bár a végeredmény nem igazán felelt meg a kezdeti elképzeléseimnek, itt van az elért eredmény.

ChatGPT Vision alapú kimeneti HTML Frontend

A GPT-4V (ision) korlátai és hibái

A GPT-4V elemzéséhez az Open AI csapata minőségi és mennyiségi értékeléseket végzett. A kvalitatív vizsgálatok a belső teszteket és a külső szakértői értékeléseket tartalmazták, míg a kvantitatívak a modellek elutasítását és a pontosságot mérték különböző forgatókönyvekben, mint például a káros tartalom azonosítása, a demográfiai felismerés, az adatvédelmi aggályok, a földrajzi helymeghatározás, a kiberbiztonság és a multimodális betörések.

Ennek ellenére a modell nem tökéletes.

A papír kiemeli a GPT-4V korlátait, mint például a helytelen következtetéseket és a hiányzó szöveget vagy karaktereket a képekről. Lehet, hogy hallucinál, vagy tényeket talál ki. Különösen nem alkalmas veszélyes anyagok azonosítására a képeken, gyakran tévesen azonosítja őket.

Az orvosi képalkotásban a GPT-4V inkonzisztens válaszokat adhat, és nem ismeri a szokásos gyakorlatokat, ami potenciális téves diagnózisokhoz vezethet.

Megbízhatatlan teljesítmény orvosi célokra (forrás)

Ezenkívül nem képes megragadni bizonyos gyűlölet-szimbólumok árnyalatait, és a vizuális bemenetek alapján nem megfelelő tartalmat generálhat. Az OpenAI nem javasolja a GPT-4V használatát kritikus értelmezésekhez, különösen orvosi vagy kényes kontextusokban.

Csomagolta

Fast Stable Diffusion XL használatával készült https://huggingface.co/spaces/google/sdxl

A GPT-4 Vision (GPT-4V) érkezése egy csomó klassz lehetőséget és új akadályokat kínál, amelyeket át kell ugrani. A bevezetés előtt sok erőfeszítést megtettünk annak biztosítására, hogy a kockázatokat, különösen, ha az emberekről készült képekről van szó, alaposan megvizsgálják és csökkentsék. Lenyűgöző látni, hogy a GPT-4V hogyan fejlődött, és ígéretesnek bizonyult olyan trükkös területeken, mint az orvostudomány és a tudomány.

Most néhány nagy kérdés van az asztalon. Például ezek a modellek képesek-e azonosítani a híres embereket a fényképek alapján? Ki kell találniuk egy kép alapján egy személy nemét, faját vagy érzéseit? És szükség van-e speciális módosításokra a látássérült egyének megsegítésére? Ezek a kérdések férgek konzervdobozát nyitják meg a magánéletről, a méltányosságról és arról, hogy az AI hogyan illeszkedjen az életünkbe, amibe mindenkinek bele kell szólnia.

Kapcsolódó témák:chat gpt DALL-E3 Multimodális AI PROMPT MÉRNÖKI

Up Next

Midjourney vs Stable Diffusion: Az AI képgenerátorok csatája

Ne hagyd ki

A dolgok internetétől a mindenek internetéig: A mesterséges intelligencia és a 6G konvergenciája az összekapcsolt intelligencia érdekében

Aayush Mittal

Az elmúlt öt évet azzal töltöttem, hogy elmerüljek a gépi tanulás és a mélytanulás lenyűgöző világában. Szenvedélyem és szakértelmem késztetett arra, hogy több mint 50 különféle szoftverfejlesztési projektben működjek közre, különös tekintettel az AI/ML-re. Folyamatos kíváncsiságom a természetes nyelvi feldolgozás felé is vonzott, amely terület, amelyet szívesen fedezek fel.

Egyesül.AI

A multimodális mesterséges intelligencia fejlődik, ahogy a ChatGPT jobban látható a GPT-4V(ision) segítségével

Mesterséges Intelligencia

A multimodális mesterséges intelligencia fejlődik, ahogy a ChatGPT jobban látható a GPT-4V(ision) segítségével

Tartalomjegyzék