Mesterséges Intelligencia

A Google multimodális AI Gemini – Technikai mélyrepülés

korszerűsített on December 11, 2023

A Google első multimodális modellje: Gemini

Sundar Pichai, a Google vezérigazgatója, valamint Demis Hassabis a Google DeepMindtől 2023 decemberében mutatta be a Geminit. Ez az új, nagy nyelvi modell a Google termékeinek széles skálájába integrálódik, és olyan fejlesztéseket kínál, amelyek átgyűrűznek a milliók által használt szolgáltatásokba és eszközökbe.

A Gemini, a Google fejlett multimodális AI-ja az egyesített DeepMind és Brain AI-laborok együttműködéséből született. A Gemini az elődei vállán áll, és azt ígéri, hogy egy összekapcsoltabb és intelligensebb alkalmazáscsomagot kínál.

A Google Gemini bejelentése, amely szorosan a Bard, a Duet AI és a PaLM 2 LLM debütálása után történt, a Google egyértelmű szándékát jelzi, hogy ne csak versenyezzen, hanem vezető szerepet töltsön be az AI forradalomban.

A mesterséges intelligencia téléről alkotott elképzelésekkel ellentétben a Gemini megjelenése virágzó mesterséges intelligencia tavaszt sugall, amely tele van potenciállal és növekedéssel. Ahogy visszagondolunk a ChatGPT megjelenése óta eltelt évre, amely maga is úttörő pillanat volt a mesterséges intelligencia számára, a Google lépése azt jelzi, hogy az iparág terjeszkedése még korántsem ért véget; valójában lehet, hogy csak felveszi a tempót.

Mi az Ikrek?

A Google Gemini modellje különféle adattípusok, például szöveg, kép, hang és videó feldolgozására képes. Három változatban kapható -Ultra, perés Nano– mindegyik konkrét alkalmazásokhoz van szabva, az összetett érveléstől az eszközön történő használatig. Az Ultra a sokrétű feladatokban jeleskedik, és elérhető lesz a Bard Advanced-en, míg a Pro a teljesítmény és az erőforrás-hatékonyság egyensúlyát kínálja, már integrálva a Bardba a szöveges promptokhoz. Az eszközön történő telepítésre optimalizált Nano kétféle méretben kapható, és olyan hardveroptimalizálást tartalmaz, mint a 4 bites kvantálás offline használatra olyan eszközökben, mint a Pixel 8 Pro.

A Gemini architektúrája egyedülálló a natív multimodális kimeneti képességében, amely diszkrét képjeleket használ a képalkotáshoz, és integrálja az univerzális beszédmodell audiofunkcióit az árnyalt hangmegértés érdekében. Az a képessége, hogy a videoadatokat szekvenciális képként kezeli, szöveggel vagy hangbemenetekkel átszőve, jól példázza multimodális képességeit.

A Gemini támogatja a szöveges, képi, hang- és videósorozatokat bemenetként

Az Ikrek elérése

A Gemini 1.0 bevezetésre kerül a Google ökoszisztémájában, beleértve a Bardot is, amely most a Gemini Pro kifinomult képességeit élvezi. A Google a Geminit a Search, Ads és Duet szolgáltatásaiba is integrálta, gyorsabb és pontosabb válaszokkal javítva a felhasználói élményt.

Azok számára, akik szívesen kihasználják a Gemini képességeit, a Google AI Studio és a Google Cloud Vertex hozzáférést kínál a Gemini Pro-hoz, amely utóbbi nagyobb testreszabási és biztonsági funkciókat kínál.

A Gemini Pro által hajtott Bard továbbfejlesztett képességeinek megtapasztalásához a felhasználók a következő egyszerű lépéseket tehetik:

Navigáljon a Bardhoz: Nyissa meg a kívánt webböngészőt, és lépjen a Bard webhelyére.
Biztonságos bejelentkezés: A szolgáltatás eléréséhez jelentkezzen be Google-fiókjával, ezzel biztosítva a zökkenőmentes és biztonságos élményt.
Interaktív csevegés: Most már használhatja a Bard-ot, ahol a Gemini Pro speciális funkciói választhatók.

A multimodalitás ereje:

Lényegében a Gemini transzformátor alapú architektúrát használ, hasonlóan a sikeres NLP-modellekhez, mint a GPT-3. A Gemini egyedisége azonban abban rejlik, hogy képes feldolgozni és integrálni többféle módozatból származó információkat, beleértve a szöveget, képeket és kódot. Ezt egy újszerű technikával, az úgynevezett keresztmodális figyelem, amely lehetővé teszi a modell számára, hogy megtanulja a különböző típusú adatok közötti kapcsolatokat és függőségeket.

Íme a Gemini legfontosabb összetevőinek lebontása:

Multimodális kódoló: Ez a modul az egyes modalitásokból származó bemeneti adatokat (pl. szöveg, kép) függetlenül dolgozza fel, kinyeri a releváns jellemzőket és egyedi reprezentációkat generál.
Keresztmodális figyelemhálózat: Ez a hálózat az Ikrek szíve. Lehetővé teszi a modell számára, hogy megtanulja a különböző reprezentációk közötti kapcsolatokat és függőségeket, lehetővé téve számukra, hogy „beszéljenek” egymással és gazdagítsák megértésüket.
Multimodális dekóder: Ez a modul a keresztmodális figyelem-hálózat által generált dúsított reprezentációkat használja fel különféle feladatok elvégzésére, mint például a képfeliratozás, a szövegből képbe generálás és a kódgenerálás.

Az Ikrek-modell nem csupán a szöveg vagy a képek megértéséről szól, hanem a különböző típusú információk integrálásáról is, amely sokkal közelebb áll ahhoz, ahogyan emberekként érzékeljük a világot. Például az Ikrek egy képsorozatot nézhetnek, és meghatározhatják a bennük lévő tárgyak logikai vagy térbeli sorrendjét. Elemezheti a tárgyak tervezési jellemzőit is, hogy döntéseket hozzon, például, hogy a két autó közül melyiknek van aerodinamikusabb alakja.

De az Ikrek tehetsége túlmutat a vizuális megértésen. Egy utasításkészletet kóddá alakíthat, és olyan praktikus eszközöket hozhat létre, mint például egy visszaszámláló, amely nemcsak az utasításoknak megfelelően működik, hanem kreatív elemeket is tartalmaz, például motiváló hangulatjeleket, hogy javítsa a felhasználói interakciót. Ez a kreativitás és a funkcionalitás keverékét igénylő feladatok kezelésének képességét jelzi – olyan készségeket, amelyeket gyakran kifejezetten emberinek tekintenek.

Az Ikrek képességei: Térbeli érvelés (forrás)

A Gemini képességei a programozási feladatok végrehajtására is kiterjednek (forrás)

A Gemini kifinomult dizájnja a neurális hálózatok kutatásának gazdag történetén alapul, és a Google legmodernebb TPU-technológiáját használja fel a képzéshez. A Gemini Ultra különösen új mércét állított fel a mesterséges intelligencia különböző tartományaiban, és figyelemre méltó teljesítménynövekedést mutat be a multimodális érvelési feladatokban.

Az összetett adatok elemzésének és megértésének képességével a Gemini megoldásokat kínál a valós alkalmazásokhoz, különösen az oktatásban. Elemezheti és javíthatja a problémák megoldását, mint a fizikában, a kézzel írt jegyzetek megértésével és pontos matematikai szedésekkel. Az ilyen képességek olyan jövőt sugallnak, ahol a mesterséges intelligencia segít az oktatási környezetben, fejlett eszközöket kínálva a diákoknak és az oktatóknak a tanuláshoz és a problémamegoldáshoz.

A Gemini's-t olyan ügynökök létrehozására használták fel, mint az AlphaCode 2, amely kiváló a versenyprogramozási problémákban. Ez bemutatja a Gemini azon képességét, hogy általános mesterséges intelligenciaként működjön, amely képes összetett, többlépcsős problémák kezelésére.

A Gemini Nano a mesterséges intelligencia erejét hozza el a mindennapi eszközökön, megőrizve lenyűgöző képességeit olyan feladatokban, mint az összegzés és a szövegértés, valamint a kódolás és a STEM-mel kapcsolatos kihívások. Ezeket a kisebb modelleket úgy finomhangolták, hogy kiváló minőségű mesterséges intelligencia funkciókat kínáljanak az alacsonyabb memóriájú eszközökön, így a fejlett mesterséges intelligencia minden eddiginél hozzáférhetőbbé válik.

A Gemini fejlesztése magában foglalta a képzési algoritmusok és az infrastruktúra újításait, a Google legújabb TPU-it használva. Ez hatékony skálázást és robusztus képzési folyamatokat tett lehetővé, biztosítva, hogy a legkisebb modellek is kivételes teljesítményt nyújtsanak.

A Gemini képzési adatkészlete a képességeihez mérten sokrétű, beleértve a webes dokumentumokat, könyveket, kódokat, képeket, hangokat és videókat. Ez a multimodális és többnyelvű adatkészlet biztosítja, hogy a Gemini modellek hatékonyan megértsék és feldolgozzák a tartalomtípusok széles skáláját.

Gemini és GPT-4

Más modellek megjelenése ellenére mindenkiben felmerül a kérdés, hogy a Google Gemini hogyan áll szemben az OpenAI GPT-4-gyel, amely az új LLM-ek iparági etalonja. A Google adatai azt sugallják, hogy míg a GPT-4 remekelhet a józan gondolkodási feladatokban, a Gemini Ultra szinte minden más területen előnyben van.

Gemini VS GPT-4

A fenti benchmarking táblázat bemutatja a Google Gemini AI lenyűgöző teljesítményét különféle feladatokban. Nevezetesen, a Gemini Ultra figyelemre méltó eredményeket ért el az MMLU benchmarkban, 90.04%-os pontossággal, ami azt jelzi, hogy 57 témakörben kiválóan ért a feleletválasztós kérdésekben.

Az általános iskolai matematikai kérdéseket értékelő GSM8K-ban a Gemini Ultra 94.4%-ot ért el, bemutatva fejlett aritmetikai feldolgozási képességeit. A kódolási benchmarkok terén a Gemini Ultra 74.4%-os pontszámot ért el a HumanEval for Python kódgenerálás során, ami azt jelzi, hogy erős a programozási nyelv megértése.

A szövegértést vizsgáló DROP benchmark szerint a Gemini Ultra ismét vezet 82.4%-os eredménnyel. Eközben a HellaSwag józan ész tesztjén a Gemini Ultra csodálatosan teljesít, bár nem haladja meg a GPT-4 által felállított rendkívül magas benchmarkot.

Következtetés

A Gemini egyedülálló architektúrája, amelyet a Google élvonalbeli technológiája hajt, az AI-aréna hatalmas szereplőjeként pozicionálja, megkérdőjelezve a GPT-4-hez hasonló modellek által felállított meglévő mércéket. Verziói – Ultra, Pro és Nano – mindegyik egyedi igényeket elégít ki, az összetett érvelési feladatoktól a hatékony eszközön található alkalmazásokig, bemutatva a Google elkötelezettségét a fejlett mesterséges intelligencia elérhetővé tétele iránt különböző platformokon és eszközökön.

A Gemini integrálása a Google ökoszisztémájába – a Bardtól a Google Cloud Vertexig – rávilágít arra, hogy a szolgáltatások széles skáláján javíthatja a felhasználói élményt. Nemcsak a meglévő alkalmazások finomítását ígéri, hanem új utakat nyit az AI-vezérelt megoldások számára, legyen szó személyre szabott segítségnyújtásról, kreatív törekvésekről vagy üzleti elemzésekről.

Ahogy előre tekintünk, az olyan mesterséges intelligencia modellek folyamatos fejlődése, mint a Gemini, rávilágít a folyamatos kutatás és fejlesztés fontosságára. Az ilyen kifinomult modellek képzésével és etikus és felelősségteljes használatuk biztosításával járó kihívások továbbra is a vita középpontjában állnak.

Kapcsolódó témák:Ikrek generatív ai google GPT

Up Next

Ride the Hype: AI-események Bay Area-ben

Ne hagyd ki

A Google-t félrevezetéssel vádolják a Gemini bejelentési videóval

Aayush Mittal

Az elmúlt öt évet azzal töltöttem, hogy elmerüljek a gépi tanulás és a mélytanulás lenyűgöző világában. Szenvedélyem és szakértelmem késztetett arra, hogy több mint 50 különféle szoftverfejlesztési projektben működjek közre, különös tekintettel az AI/ML-re. Folyamatos kíváncsiságom a természetes nyelvi feldolgozás felé is vonzott, amely terület, amelyet szívesen fedezek fel.