Mesterséges általános intelligencia

A generatív AI fejlődő tája: Felmérés a szakértők keverékéről, a multimodalitásról és az AGI kereséséről

Közzététel:

4 hónap

Január 12, 2024

A mesterséges intelligencia (AI) területe 2023-ban óriási növekedést produkált. A generatív AI, amely a valósághű tartalmak, például képek, hangok, videók és szövegek létrehozására összpontosít, e fejlesztések élére állt. Az olyan modellek, mint a DALL-E 3, a Stable Diffusion és a ChatGPT, új kreatív képességeket mutattak be, de aggályokat is felvetettek az etika, az elfogultság és a helytelen használat miatt.

Ahogy a generatív mesterséges intelligencia továbbra is gyors ütemben fejlődik, úgy tűnik, hogy a szakértők (MoE), a multimodális tanulás és a mesterséges általános intelligencia (AGI) felé irányuló törekvések keverékei formálják a kutatás és az alkalmazások következő határait. Ez a cikk átfogó áttekintést nyújt a generatív mesterséges intelligencia jelenlegi helyzetéről és jövőbeli pályájáról, elemzi, hogy az olyan innovációk, mint a Google Gemini és a várható projektek, mint az OpenAI Q*, hogyan alakítják át a tájat. Megvizsgálja a valós világ következményeit az egészségügyben, a pénzügyekben, az oktatásban és más területeken, miközben szembesül a kutatás minőségével és a mesterséges intelligencia emberi értékekkel való összehangolásával kapcsolatos felmerülő kihívásokkal.

A ChatGPT 2022 végén történő megjelenése kifejezetten új izgalmat és aggodalmat váltott ki a mesterséges intelligencia körül, a lenyűgöző természetes nyelvi képességeitől a téves információk terjesztésének lehetőségéig. Eközben a Google új Gemini modellje lényegesen jobb társalgási képességet mutat az elődeihez, például a LaMDA-hoz képest olyan fejlesztések révén, mint a tüskés-födémes figyelem. A pletykák, mint például az OpenAI Q*, arra utalnak, hogy a társalgási mesterséges intelligencia kombinálható a megerősített tanulással.

Ezek az újítások a multimodális, sokoldalú generatív modellek felé történő eltolódást jelzik. Folytatódik a verseny az olyan vállalatok között is, mint a Google, a Meta, az Anthropic és a Cohere, amelyek azért versengenek a felelősségteljes mesterségesintelligencia-fejlesztés határainak feszegetéséért.

Az AI-kutatás evolúciója

A képességek bővülésével a kutatási trendek és prioritások is megváltoztak, gyakran a technológiai mérföldköveknek megfelelően. A mély tanulás térnyerése újra felkeltette az érdeklődést a neurális hálózatok iránt, míg a természetes nyelvi feldolgozás a ChatGPT-szintű modellekkel fellendült. Mindeközben az etika iránti figyelem a gyors fejlődés közepette is állandó prioritás.

Az olyan preprint adattáraknál, mint az arXiv, szintén exponenciálisan nőtt a mesterséges intelligencia benyújtása, ami gyorsabb terjesztést tesz lehetővé, de csökkenti a szakértői értékelést, és növeli az ellenőrizetlen hibák és torzítások kockázatát. A kutatás és a valós hatások közötti kölcsönhatás továbbra is összetett, ezért összehangoltabb erőfeszítésekre van szükség a haladás irányításához.

MoE és multimodális rendszerek – A generatív AI következő hulláma

A sokoldalúbb, kifinomultabb mesterséges intelligencia lehetővé tétele érdekében a különböző alkalmazásokban két egyre előtérbe kerülő megközelítés a szakértők (MoE) és a multimodális tanulás keveréke.

A MoE architektúrák több speciális neurális hálózati „szakértőt” egyesítenek, amelyeket különböző feladatokra vagy adattípusokra optimalizáltak. A Google Gemini a MoE-t használja a hosszú beszélgetések és a tömör kérdések megválaszolására. A MoE a bemenetek szélesebb körének kezelését teszi lehetővé a modell méretének ballonozása nélkül.

A multimodális rendszerek, mint például a Google Gemini, új mércét állítanak fel a szövegen túlmenően változatos modalitások feldolgozásával. A multimodális mesterséges intelligencia lehetőségeinek felismerése azonban szükségessé teszi a kulcsfontosságú technikai akadályok és etikai kihívások leküzdését.

Ikrek: Referenciák újradefiniálása a multimodalitásban

A Gemini egy multimodális társalgási mesterséges intelligencia, amelyet úgy terveztek, hogy megértse a szöveg, a képek, a hang és a videó közötti kapcsolatokat. Kettős kódoló szerkezete, keresztmodális figyelme és multimodális dekódolása kifinomult kontextuális megértést tesz lehetővé. Úgy gondolják, hogy a Gemini felülmúlja az egyetlen kódolórendszert a szövegfogalmak vizuális régiókhoz való társításában. A strukturált tudás és a speciális képzés integrálásával a Gemini felülmúlja elődeit, mint például a GPT-3 és a GPT-4 az alábbiakban:

A kezelt módok széles skálája, beleértve a hangot és a videót is
Teljesítmény olyan viszonyítási alapokon, mint a hatalmas többfeladatos nyelvértés
Kódgenerálás több programozási nyelven
Méretezhetőség olyan testreszabott verziókon keresztül, mint a Gemini Ultra és a Nano
Átláthatóság a kimenetek indoklásán keresztül

Technikai akadályok a multimodális rendszerekben

A robusztus multimodális mesterséges intelligencia megvalósításához meg kell oldani az adatok sokféleségével, skálázhatóságával, értékelésével és értelmezhetőségével kapcsolatos problémákat. A kiegyensúlyozatlan adatkészletek és a megjegyzések következetlenségei torzításhoz vezetnek. Több adatfolyam feldolgozása megterheli a számítási erőforrásokat, és optimalizált modellarchitektúrákat igényel. Az egymásnak ellentmondó multimodális bemenetek integrálásához a figyelemmechanizmusok és algoritmusok fejlesztésére van szükség. A méretezhetőségi problémák továbbra is fennállnak a kiterjedt számítási többletterhelés miatt. Az értékelési mutatók átfogó benchmarkok segítségével történő finomítása kulcsfontosságú. A felhasználói bizalom megmagyarázható mesterséges intelligencia révén történő növelése szintén létfontosságú. E technikai akadályok kezelése kulcsfontosságú lesz a multimodális mesterséges intelligencia képességeinek felszabadításához.

Az olyan fejlett tanulási technikák, mint az önfelügyelt tanulás, a metatanulás és a finomhangolás, az AI-kutatás élvonalában állnak, fokozva az AI-modellek autonómiáját, hatékonyságát és sokoldalúságát.

Self-Supervised Learning: Autonómia a modellképzésben

Az önfelügyelt tanulás az autonóm modellképzést helyezi előtérbe címkézetlen adatok felhasználásával, ezáltal csökkentve a kézi címkézési erőfeszítéseket és a modell torzításait. Olyan generatív modelleket tartalmaz, mint az autoenkóderek és a GAN-ok az adatelosztás tanulásához és a bemeneti rekonstrukcióhoz, és kontrasztív módszereket, például SimCLR-t és MoCo-t használ a pozitív és negatív mintapárok megkülönböztetésére. Az NLP által ihletett és a legújabb Vision Transformers által továbbfejlesztett önjósló stratégiák jelentős szerepet játszanak az önfelügyelt tanulásban, bemutatva az AI autonóm képzési képességeinek fejlesztésében rejlő potenciált.

Metatanulás

A meta-learning vagy a „tanulás tanulása” arra összpontosít, hogy az AI-modelleket olyan képességgel ruházza fel, hogy korlátozott adatminták felhasználásával gyorsan alkalmazkodjanak az új feladatokhoz. Ez a technika kritikus fontosságú olyan helyzetekben, ahol korlátozott az adatok rendelkezésre állása, így biztosítva, hogy a modellek gyorsan alkalmazkodjanak és elvégezzék a különféle feladatokat. Hangsúlyozza a néhány lépésből álló általánosítást, lehetővé téve az AI számára, hogy a feladatok széles skáláját minimális adatmennyiséggel kezelje, kiemelve fontosságát a sokoldalú és alkalmazkodó AI-rendszerek fejlesztésében.

Finomhangolás: A mesterséges intelligencia testreszabása speciális igényekhez

A finomhangolás magában foglalja az előre betanított modellek speciális tartományokhoz vagy felhasználói preferenciákhoz való igazítását. Két elsődleges megközelítése a végpontok közötti finomhangolás, amely beállítja a kódoló és az osztályozó összes súlyát, valamint a szolgáltatás-kivonat finomhangolása, ahol a kódoló súlyait rögzítik a downstream osztályozáshoz. Ez a technika biztosítja, hogy a generatív modellek hatékonyan igazodjanak a konkrét felhasználói igényekhez vagy a tartományi követelményekhez, javítva azok alkalmazhatóságát a különböző kontextusokban.

Emberi értékek összehangolása: A mesterséges intelligencia összehangolása az etikával

Az emberi értékek összehangolása az AI-modellek emberi etikával és értékekkel való összehangolására összpontosít, biztosítva, hogy döntéseik tükrözzék a társadalmi normákat és etikai normákat. Ez a szempont döntő fontosságú azokban a forgatókönyvekben, ahol a mesterséges intelligencia szorosan együttműködik az emberekkel, például az egészségügyi ellátás és a személyi asszisztensek esetében, annak biztosítása érdekében, hogy az AI-rendszerek etikailag és társadalmilag felelős döntéseket hozzanak.

AGI fejlesztés

Az AGI az emberi kognitív képességekhez igazodó, holisztikus megértés és összetett érvelés képességével rendelkező mesterséges intelligencia fejlesztésére összpontosít. Ez a hosszú távú törekvés folyamatosan feszegeti az AI-kutatás és -fejlesztés határait. Az AGI Safety and Containment foglalkozik a fejlett mesterséges intelligenciarendszerekkel kapcsolatos lehetséges kockázatokkal, hangsúlyozva a szigorú biztonsági protokollok és az emberi értékekhez és társadalmi normákhoz való etikai igazodás szükségességét.

Az innovatív KKM

A Mixture of Experts (MoE) modellarchitektúra jelentős előrelépést jelent a transzformátor alapú nyelvi modellek terén, páratlan skálázhatóságot és hatékonyságot kínálva. A MoE modellek, mint például a Switch Transformer és a Mixtral, gyorsan újradefiniálják a modell skáláját és teljesítményét a különböző nyelvi feladatokban.

Alapvető koncepció

A MoE-modellek ritkaság-vezérelt architektúrát használnak több szakértői hálózattal és egy betanítható kapuzási mechanizmussal, optimalizálva a számítási erőforrásokat és alkalmazkodva a feladatok összetettségéhez. Jelentős előnyöket mutatnak az előképzési sebességben, de kihívásokkal néznek szembe a finomhangolás során, és jelentős memóriát igényelnek a következtetésekhez.

A MoE-modellek kiváló előképzési sebességükről ismertek, az olyan innovációkkal, mint a DeepSpeed-MoE, amely optimalizálja a következtetést a jobb késleltetés és költséghatékonyság elérése érdekében. A közelmúltbeli fejlesztések hatékonyan kezelték a teljes kommunikációs szűk keresztmetszetet, javítva a képzést és a következtetések hatékonyságát.

A mesterséges általános intelligencia építőelemeinek összeállítása

Az AGI azt a hipotetikus lehetőséget képviseli, hogy a mesterséges intelligencia bármely területen megfeleljen vagy meghaladja az emberi intelligenciát. Míg a modern mesterséges intelligencia a szűk feladatokban jeleskedik, az AGI továbbra is távoli és ellentmondásos a lehetséges kockázatai miatt.

Az olyan területeken elért fokozatos fejlődés azonban, mint az átviteli tanulás, a többfeladatos képzés, a társalgási képesség és az absztrakció, közelebb kerül az AGI magasztos elképzeléseihez. Az OpenAI spekulatív Q* projektjének célja a megerősítő tanulás integrálása az LLM-ekbe, újabb előrelépésként.

Etikai határok és az AI-modellek manipulálásának kockázatai

A Jailbreak lehetővé teszi a támadók számára, hogy megkerüljék az AI finomhangolási folyamata során felállított etikai határokat. Ennek eredményeként olyan káros tartalmak keletkeznek, mint a félretájékoztatás, a gyűlöletbeszéd, az adathalász e-mailek és a rosszindulatú kódok, amelyek kockázatot jelentenek az egyénekre, a szervezetekre és a társadalom egészére nézve. Például egy jailbreakelt modell olyan tartalmat hozhat létre, amely megosztó narratívákat hirdet vagy támogatja a kiberbűnözői tevékenységeket. (Bővebben )

Bár még nem érkezett jelentés a jailbreaket használó kibertámadásokról, számos, a koncepciót igazoló jailbreak könnyen elérhető az interneten, és megvásárolható a sötét weben. Ezek az eszközök az AI-modellek (például a ChatGPT) manipulálására szolgáló utasításokat biztosítanak, amelyek potenciálisan lehetővé teszik a hackerek számára, hogy bizalmas információkat szivárogtassanak ki vállalati chatbotokon keresztül. Ezeknek az eszközöknek az olyan platformokon való elterjedése, mint a kiberbűnözés elleni fórumok, rávilágít arra, hogy sürgősen kezelni kell ezt a fenyegetést. (KATT ide)

A Jailbreak kockázatainak csökkentése

E fenyegetések elleni küzdelemhez sokoldalú megközelítésre van szükség:

Robusztus finomhangolás: Különféle adatok bevonása a finomhangolási folyamatba javítja a modell ellenállását az ellenséges manipulációkkal szemben.
Ellenzéki képzés: A kontradiktórius példákkal való képzés javítja a modell azon képességét, hogy felismerje és ellenálljon a manipulált bemeneteknek.
Rendszeres értékelés: A kimenetek folyamatos monitorozása segít észlelni az etikai irányelvektől való eltéréseket.
Emberi felügyelet: Az emberi ellenőrök bevonása további biztonsági szintet jelent.

AI-alapú fenyegetések: A hallucináció kizsákmányolása

A mesterséges intelligencia hallucinációja, ahol a modellek olyan kimeneteket generálnak, amelyek nem a képzési adatokon alapulnak, fegyveressé tehetik. Például a támadók úgy manipulálták a ChatGPT-t, hogy nem létező csomagokat ajánljanak, ami rosszindulatú szoftverek terjedéséhez vezetett. Ez rávilágít arra, hogy folyamatos éberségre és határozott ellenintézkedésekre van szükség az ilyen kizsákmányolás ellen. (Fedezze fel tovább)

Míg az AGI követésének etikája továbbra is tele van, a törekvés továbbra is befolyásolja a generatív mesterségesintelligencia-kutatási irányokat – akár a jelenlegi modellek lépcsõkövekhez, akár az emberi szintû mesterséges intelligencia felé vezető kitérőkhöz hasonlítanak.

Kapcsolódó témák:AGI OM multimodális tanulás

Up Next

Mi az a mesterséges általános intelligencia (AGI) és miért nincs még itt: Valóságellenőrzés az AI-rajongóknak

Ne hagyd ki

Nagy nyelvű modellek Scikit-learn segítségével: Átfogó útmutató a Scikit-LLM-hez

Aayush Mittal

Az elmúlt öt évet azzal töltöttem, hogy elmerüljek a gépi tanulás és a mélytanulás lenyűgöző világában. Szenvedélyem és szakértelmem késztetett arra, hogy több mint 50 különféle szoftverfejlesztési projektben működjek közre, különös tekintettel az AI/ML-re. Folyamatos kíváncsiságom a természetes nyelvi feldolgozás felé is vonzott, amely terület, amelyet szívesen fedezek fel.

Egyesül.AI

A generatív AI fejlődő tája: Felmérés a szakértők keverékéről, a multimodalitásról és az AGI kereséséről

Mesterséges általános intelligencia

A generatív AI fejlődő tája: Felmérés a szakértők keverékéről, a multimodalitásról és az AGI kereséséről

Tartalomjegyzék

Az AI-kutatás evolúciója

MoE és multimodális rendszerek – A generatív AI következő hulláma

Ikrek: Referenciák újradefiniálása a multimodalitásban

Technikai akadályok a multimodális rendszerekben