Mesterséges általános intelligencia
A generatív AI fejlődő tája: Felmérés a szakértők keverékéről, a multimodalitásról és az AGI kereséséről
A mesterséges intelligencia (AI) területe 2023-ban óriási növekedést produkált. A generatív AI, amely a valósághű tartalmak, például képek, hangok, videók és szövegek létrehozására összpontosít, e fejlesztések élére állt. Az olyan modellek, mint a DALL-E 3, a Stable Diffusion és a ChatGPT, új kreatív képességeket mutattak be, de aggályokat is felvetettek az etika, az elfogultság és a helytelen használat miatt.
Ahogy a generatív mesterséges intelligencia továbbra is gyors ütemben fejlődik, úgy tűnik, hogy a szakértők (MoE), a multimodális tanulás és a mesterséges általános intelligencia (AGI) felé irányuló törekvések keverékei formálják a kutatás és az alkalmazások következő határait. Ez a cikk átfogó áttekintést nyújt a generatív mesterséges intelligencia jelenlegi helyzetéről és jövőbeli pályájáról, elemzi, hogy az olyan innovációk, mint a Google Gemini és a várható projektek, mint az OpenAI Q*, hogyan alakítják át a tájat. Megvizsgálja a valós világ következményeit az egészségügyben, a pénzügyekben, az oktatásban és más területeken, miközben szembesül a kutatás minőségével és a mesterséges intelligencia emberi értékekkel való összehangolásával kapcsolatos felmerülő kihívásokkal.
A ChatGPT 2022 végén történő megjelenése kifejezetten új izgalmat és aggodalmat váltott ki a mesterséges intelligencia körül, a lenyűgöző természetes nyelvi képességeitől a téves információk terjesztésének lehetőségéig. Eközben a Google új Gemini modellje lényegesen jobb társalgási képességet mutat az elődeihez, például a LaMDA-hoz képest olyan fejlesztések révén, mint a tüskés-födémes figyelem. A pletykák, mint például az OpenAI Q*, arra utalnak, hogy a társalgási mesterséges intelligencia kombinálható a megerősített tanulással.
Ezek az újítások a multimodális, sokoldalú generatív modellek felé történő eltolódást jelzik. Folytatódik a verseny az olyan vállalatok között is, mint a Google, a Meta, az Anthropic és a Cohere, amelyek azért versengenek a felelősségteljes mesterségesintelligencia-fejlesztés határainak feszegetéséért.
Az AI-kutatás evolúciója
A képességek bővülésével a kutatási trendek és prioritások is megváltoztak, gyakran a technológiai mérföldköveknek megfelelően. A mély tanulás térnyerése újra felkeltette az érdeklődést a neurális hálózatok iránt, míg a természetes nyelvi feldolgozás a ChatGPT-szintű modellekkel fellendült. Mindeközben az etika iránti figyelem a gyors fejlődés közepette is állandó prioritás.
Az olyan preprint adattáraknál, mint az arXiv, szintén exponenciálisan nőtt a mesterséges intelligencia benyújtása, ami gyorsabb terjesztést tesz lehetővé, de csökkenti a szakértői értékelést, és növeli az ellenőrizetlen hibák és torzítások kockázatát. A kutatás és a valós hatások közötti kölcsönhatás továbbra is összetett, ezért összehangoltabb erőfeszítésekre van szükség a haladás irányításához.
MoE és multimodális rendszerek – A generatív AI következő hulláma
A sokoldalúbb, kifinomultabb mesterséges intelligencia lehetővé tétele érdekében a különböző alkalmazásokban két egyre előtérbe kerülő megközelítés a szakértők (MoE) és a multimodális tanulás keveréke.
A MoE architektúrák több speciális neurális hálózati „szakértőt” egyesítenek, amelyeket különböző feladatokra vagy adattípusokra optimalizáltak. A Google Gemini a MoE-t használja a hosszú beszélgetések és a tömör kérdések megválaszolására. A MoE a bemenetek szélesebb körének kezelését teszi lehetővé a modell méretének ballonozása nélkül.
A multimodális rendszerek, mint például a Google Gemini, új mércét állítanak fel a szövegen túlmenően változatos modalitások feldolgozásával. A multimodális mesterséges intelligencia lehetőségeinek felismerése azonban szükségessé teszi a kulcsfontosságú technikai akadályok és etikai kihívások leküzdését.
Ikrek: Referenciák újradefiniálása a multimodalitásban
A Gemini egy multimodális társalgási mesterséges intelligencia, amelyet úgy terveztek, hogy megértse a szöveg, a képek, a hang és a videó közötti kapcsolatokat. Kettős kódoló szerkezete, keresztmodális figyelme és multimodális dekódolása kifinomult kontextuális megértést tesz lehetővé. Úgy gondolják, hogy a Gemini felülmúlja az egyetlen kódolórendszert a szövegfogalmak vizuális régiókhoz való társításában. A strukturált tudás és a speciális képzés integrálásával a Gemini felülmúlja elődeit, mint például a GPT-3 és a GPT-4 az alábbiakban:
- A kezelt módok széles skálája, beleértve a hangot és a videót is
- Teljesítmény olyan viszonyítási alapokon, mint a hatalmas többfeladatos nyelvértés
- Kódgenerálás több programozási nyelven
- Méretezhetőség olyan testreszabott verziókon keresztül, mint a Gemini Ultra és a Nano
- Átláthatóság a kimenetek indoklásán keresztül
Technikai akadályok a multimodális rendszerekben
A robusztus multimodális mesterséges intelligencia megvalósításához meg kell oldani az adatok sokféleségével, skálázhatóságával, értékelésével és értelmezhetőségével kapcsolatos problémákat. A kiegyensúlyozatlan adatkészletek és a megjegyzések következetlenségei torzításhoz vezetnek. Több adatfolyam feldolgozása megterheli a számítási erőforrásokat, és optimalizált modellarchitektúrákat igényel. Az egymásnak ellentmondó multimodális bemenetek integrálásához a figyelemmechanizmusok és algoritmusok fejlesztésére van szükség. A méretezhetőségi problémák továbbra is fennállnak a kiterjedt számítási többletterhelés miatt. Az értékelési mutatók átfogó benchmarkok segítségével történő finomítása kulcsfontosságú. A felhasználói bizalom megmagyarázható mesterséges intelligencia révén történő növelése szintén létfontosságú. E technikai akadályok kezelése kulcsfontosságú lesz a multimodális mesterséges intelligencia képességeinek felszabadításához.
A mesterséges általános intelligencia építőelemeinek összeállítása
Az AGI azt a hipotetikus lehetőséget képviseli, hogy a mesterséges intelligencia bármely területen megfeleljen vagy meghaladja az emberi intelligenciát. Míg a modern mesterséges intelligencia a szűk feladatokban jeleskedik, az AGI továbbra is távoli és ellentmondásos a lehetséges kockázatai miatt.
Az olyan területeken elért fokozatos fejlődés azonban, mint az átviteli tanulás, a többfeladatos képzés, a társalgási képesség és az absztrakció, közelebb kerül az AGI magasztos elképzeléseihez. Az OpenAI spekulatív Q* projektjének célja a megerősítő tanulás integrálása az LLM-ekbe, újabb előrelépésként.
Etikai határok és az AI-modellek manipulálásának kockázatai
A Jailbreak lehetővé teszi a támadók számára, hogy megkerüljék az AI finomhangolási folyamata során felállított etikai határokat. Ennek eredményeként olyan káros tartalmak keletkeznek, mint a félretájékoztatás, a gyűlöletbeszéd, az adathalász e-mailek és a rosszindulatú kódok, amelyek kockázatot jelentenek az egyénekre, a szervezetekre és a társadalom egészére nézve. Például egy jailbreakelt modell olyan tartalmat hozhat létre, amely megosztó narratívákat hirdet vagy támogatja a kiberbűnözői tevékenységeket. (Bővebben )
Bár még nem érkezett jelentés a jailbreaket használó kibertámadásokról, számos, a koncepciót igazoló jailbreak könnyen elérhető az interneten, és megvásárolható a sötét weben. Ezek az eszközök az AI-modellek (például a ChatGPT) manipulálására szolgáló utasításokat biztosítanak, amelyek potenciálisan lehetővé teszik a hackerek számára, hogy bizalmas információkat szivárogtassanak ki vállalati chatbotokon keresztül. Ezeknek az eszközöknek az olyan platformokon való elterjedése, mint a kiberbűnözés elleni fórumok, rávilágít arra, hogy sürgősen kezelni kell ezt a fenyegetést. (KATT ide)
A Jailbreak kockázatainak csökkentése
E fenyegetések elleni küzdelemhez sokoldalú megközelítésre van szükség:
- Robusztus finomhangolás: Különféle adatok bevonása a finomhangolási folyamatba javítja a modell ellenállását az ellenséges manipulációkkal szemben.
- Ellenzéki képzés: A kontradiktórius példákkal való képzés javítja a modell azon képességét, hogy felismerje és ellenálljon a manipulált bemeneteknek.
- Rendszeres értékelés: A kimenetek folyamatos monitorozása segít észlelni az etikai irányelvektől való eltéréseket.
- Emberi felügyelet: Az emberi ellenőrök bevonása további biztonsági szintet jelent.
AI-alapú fenyegetések: A hallucináció kizsákmányolása
A mesterséges intelligencia hallucinációja, ahol a modellek olyan kimeneteket generálnak, amelyek nem a képzési adatokon alapulnak, fegyveressé tehetik. Például a támadók úgy manipulálták a ChatGPT-t, hogy nem létező csomagokat ajánljanak, ami rosszindulatú szoftverek terjedéséhez vezetett. Ez rávilágít arra, hogy folyamatos éberségre és határozott ellenintézkedésekre van szükség az ilyen kizsákmányolás ellen. (Fedezze fel tovább)
Míg az AGI követésének etikája továbbra is tele van, a törekvés továbbra is befolyásolja a generatív mesterségesintelligencia-kutatási irányokat – akár a jelenlegi modellek lépcsõkövekhez, akár az emberi szintû mesterséges intelligencia felé vezető kitérőkhöz hasonlítanak.