Mesterséges Intelligencia
Mély merülés a visszakereséssel bővített generációba az LLM-ben
Képzelje el, hogy Ön elemző, és hozzáférése van egy nagy nyelvű modellhez. Izgatott a munkafolyamatban rejlő kilátások miatt. De aztán megkérdezed a legfrissebb részvényárfolyamokról vagy az aktuális inflációs rátáról, és ezt találod:
„Sajnálom, de nem tudok valós idejű vagy utólagos adatokat szolgáltatni. Az utolsó edzési adataim csak 2022 januárjáig tartanak.
A nagy nyelvi modellek minden nyelvi erejük ellenére nem képesek megragadni aMost'. És a rohanó világban,Most' minden.
A kutatások kimutatták, hogy a nagy előre betanított nyelvi modellek (LLM-ek) a tényszerű tudás tárházai is.
Annyi adatra képezték ki őket, hogy sok tényt és adatot magukba szívtak. Finomhangolással figyelemre méltó eredményeket érhetnek el számos NLP-feladaton.
De itt van a csapás: a képességük, hogy hozzáférjenek és manipulálják ezt a tárolt tudást, időnként nem tökéletesek. Különösen akkor, ha az adott feladat tudásintenzív, ezek a modellek lemaradhatnak a speciálisabb architektúrák mögött. Olyan ez, mintha egy könyvtárban lenne a világ összes könyve, de nincs katalógus, amiben megtalálná, amire szüksége van.
Az OpenAI ChatGPT-je böngészési frissítést kap
Az OpenAI közelmúltbeli bejelentése a ChatGPT böngészési képességéről jelentős ugrás a Retrieval-Augmented Generation (RAG) irányába. Mivel a ChatGPT immár képes az interneten aktuális és hiteles információk után kutatni, tükrözi a RAG-megközelítést, miszerint dinamikusan gyűjti be az adatokat külső forrásokból, hogy gazdagabb válaszokat adjon.
A ChatGPT mostantól böngészhet az interneten, hogy aktuális és hiteles információkat biztosítson, valamint közvetlen forráshivatkozásokat. Már nem korlátozódik a 2021 szeptembere előtti adatokra. pic.twitter.com/pyj8a9HWkB
- OpenAI (@OpenAI) 27. szeptember 2023.
A jelenleg a Plus és Enterprise felhasználók számára elérhető OpenAI azt tervezi, hogy hamarosan minden felhasználó számára elérhetővé teszi ezt a funkciót. A felhasználók ezt a „Böngészés a Binggel” lehetőség kiválasztásával aktiválhatják a GPT-4 opció alatt.
Az azonnali tervezés hatékony, de nem elegendő
A promptok átjáróként szolgálnak az LLM tudásához. Ők irányítják a modellt, irányt adva a válaszadáshoz. A hatékony prompt elkészítése azonban nem a teljes értékű megoldás arra, hogy egy LLM-től megkapja, amit szeretne. Mindazonáltal nézzünk meg néhány jó gyakorlatot, amelyet figyelembe kell venni egy felszólítás írásakor:
- Világosság: A jól meghatározott prompt megszünteti a kétértelműséget. Egyszerűnek kell lennie, biztosítva, hogy a modell megértse a felhasználó szándékát. Ez az egyértelműség gyakran koherensebb és relevánsabb válaszokat eredményez.
- Kontextus: Különösen kiterjedt bemenetek esetén az utasítás elhelyezése befolyásolhatja a kimenetet. Például, ha az utasítást egy hosszú prompt végére helyezi, gyakran jobb eredményeket lehet elérni.
- Precizitás az oktatásban: A kérdés ereje, amelyet gyakran a „ki, mit, hol, mikor, miért, hogyan” keretrendszeren keresztül közvetítenek, a modellt egy fókuszáltabb válasz felé terelheti. Ezenkívül a kívánt kimeneti formátum vagy méret megadása tovább finomíthatja a modell kimenetét.
- A bizonytalanság kezelése: Lényeges, hogy a modellt irányítsa, hogyan reagáljon, ha bizonytalan. Például, ha utasítja a modellt, hogy „nem tudom” választ adjon, ha bizonytalan, megakadályozhatja, hogy pontatlan vagy „hallucinált” válaszol.
- Lépésről lépésre gondolkodás: Összetett utasítások esetén a modell szisztematikus gondolkodásra irányítása vagy a feladat részfeladatokra bontása átfogóbb és pontosabb kimenetekhez vezethet.
A felszólításoknak a ChatGPT irányításában betöltött fontosságával kapcsolatban egy átfogó cikk található a következő címen található cikkben. Unite.ai.
A generatív AI-modellek kihívásai
Az azonnali tervezés magában foglalja a modellnek adott direktívák finomhangolását a teljesítmény javítása érdekében. Ez egy nagyon költséghatékony módszer a Generative AI-alkalmazások pontosságának növelésére, csupán kisebb kódmódosításokat igényel. Bár az azonnali tervezés jelentősen javíthatja a kimeneteket, kulcsfontosságú, hogy megértsük a nagy nyelvi modellek (LLM) eredendő korlátait. Két elsődleges kihívás hallucinációk és a tudáskorlátok.
- Hallucinációk: Ez azokra az esetekre vonatkozik, amikor a modell magabiztosan helytelen vagy kitalált választ ad vissza. Bár a fejlett LLM beépített mechanizmusokkal rendelkezik az ilyen kimenetek felismerésére és elkerülésére.
- Tudáskorlátozások: Minden LLM modellnek van egy képzési befejezési dátuma, amelyről nincs tudomása eseményekről vagy fejleményekről. Ez a korlátozás azt jelenti, hogy a modell tudása lefagy az utolsó képzési időpontban. Például egy 2022-ig kiképzett modell nem ismerné 2023 eseményeit.
Visszakereséssel bővített generáció (RAG) megoldást kínál ezekre a kihívásokra. Lehetővé teszi a modellek számára, hogy hozzáférjenek a külső információkhoz, csökkentve a hallucinációk okozta problémákat azáltal, hogy hozzáférést biztosítanak a védett vagy domain-specifikus adatokhoz. A tudás lehatárolásához a RAG a modell betanítási dátumán túl is hozzáférhet az aktuális információkhoz, biztosítva, hogy a kimenet naprakész legyen.
Azt is lehetővé teszi az LLM számára, hogy valós időben gyűjtsön adatokat különböző külső forrásokból. Ezek lehetnek tudásbázisok, adatbázisok vagy akár az internet hatalmas kiterjedése.
Bevezetés a Retrieval-Augmented Generationbe
A Retrieval-augmented Generation (RAG) egy keretrendszer, nem pedig egy speciális technológia, amely lehetővé teszi a nagy nyelvi modellek számára, hogy olyan adatokhoz nyúljanak, amelyekre nem képezték ki őket. A RAG megvalósításának többféle módja van, és a legjobb illeszkedés az Ön konkrét feladatától és az adatok természetétől függ.
A RAG keretrendszer strukturált módon működik:
Prompt Input
A folyamat a felhasználó bevitelével vagy felszólításával kezdődik. Ez lehet egy kérdés vagy egy nyilatkozat, amely konkrét információkat keres.
Visszakeresés külső forrásokból
Ahelyett, hogy közvetlenül a betanítása alapján választ generálna, a modell egy retriever komponens segítségével külső adatforrásokban keres. Ezek a források a tudásbázisoktól, adatbázisoktól és dokumentumtáraktól az interneten elérhető adatokig terjedhetnek.
A visszakeresés megértése
A visszakeresés lényegében egy keresési műveletet tükröz. Arról van szó, hogy a legrelevánsabb információkat kinyerjük a felhasználó bevitelére válaszul. Ez a folyamat két szakaszra bontható:
- Indexelés: Vitathatatlan, hogy a teljes RAG-út során a legnagyobb kihívást a tudásbázis indexelése jelenti. Az indexelési folyamat nagyjából két fázisra osztható: Betöltés és Felosztás. Az olyan eszközökben, mint a LangChain, ezeket a folyamatokat ""rakodógépek"És"osztók“. A betöltők különféle forrásokból töltenek le tartalmat, legyen az weboldal vagy PDF. A lekérés után az elosztók ezt a tartalmat falatnyi darabokra szegmentálják, optimalizálva őket beágyazásra és keresésre.
- Lekérdezés: Ez a legrelevánsabb tudásrészletek kinyerése egy keresési kifejezés alapján.
Noha a visszakeresés sokféleképpen megközelíthető, az egyszerű szövegegyeztetéstől a keresőmotorok, például a Google használatáig, a modern visszakeresés-bővített generációs (RAG) rendszerek a szemantikus keresésre támaszkodnak. A szemantikai keresés középpontjában a beágyazás fogalma áll.
A beágyazások központi szerepet játszanak abban, hogy a nagy nyelvi modellek (LLM) hogyan értelmezik a nyelvet. Amikor az emberek megpróbálják megfogalmazni, hogyan származtatják jelentésüket a szavakból, a magyarázat gyakran visszakerül a belső megértésig. Kognitív struktúráink mélyén felismerjük, hogy a „gyermek” és a „gyerek” szinonimák, vagy hogy a „piros” és a „zöld” egyaránt színeket jelöl.
A prompt bővítése
A beolvasott információkat ezután kombinálja az eredeti prompttal, és létrehoz egy kiterjesztett vagy kibővített promptot. Ez a kibővített prompt további kontextust biztosít a modellnek, ami különösen akkor hasznos, ha az adatok tartományspecifikusak, vagy nem részei a modell eredeti képzési korpuszának.
A Befejezés generálása
A kiegészített prompt birtokában a modell befejezést vagy választ generál. Ez a válasz nem csak a modell betanításán alapul, hanem a visszakeresett valós idejű adatok alapján is.
Az első RAG LLM építészete
A Meta 2020-ban megjelent kutatási cikke „Retrieval-Augmented Generation tudásintenzív NLP-feladatokhoz” alapos betekintést nyújt ebbe a technikába. A Retrieval-Augmented Generation modell kiegészíti a hagyományos generálási folyamatot egy külső visszakeresési vagy keresési mechanizmussal. Ez lehetővé teszi a modell számára, hogy releváns információkat gyűjtsön le hatalmas adatkorpusokból, javítva a kontextuálisan pontos válaszok generálásának képességét.
Így működik:
- Paraméteres memória: Ez a hagyományos nyelvi modell, például egy seq2seq modell. Hatalmas adatmennyiségre képezték ki, és sokat tud.
- Nem paraméteres memória: Tekintsd ezt keresőmotornak. Ez egy sűrű vektorindex, mondjuk a Wikipédia, amely egy neurális retriever segítségével érhető el.
A kettő kombinálva pontos modellt hoz létre. A RAG-modell először a nem-paraméteres memóriájából kéri le a releváns információkat, majd paraméteres tudását felhasználva koherens választ ad ki.
1. Kétlépcsős folyamat:
A RAG LLM kétlépcsős folyamatban működik:
- visszakeresés: A modell először megkeresi a releváns dokumentumokat vagy részeket egy nagy adatkészletből. Ez egy sűrű visszakeresési mechanizmussal történik, amely beágyazásokat alkalmaz a lekérdezés és a dokumentumok megjelenítéséhez. A beágyazásokat ezután a hasonlósági pontszámok kiszámítására használják, és lekérik a legmagasabb rangú dokumentumokat.
- Generáció: A top k releváns dokumentumot kézben tartva a rendszer a kezdeti lekérdezéssel együtt egy sorozat-sorozat generátorba csatornázza. Ez a generátor ezután elkészíti a végső kimenetet, és kontextust rajzol mind a lekérdezésből, mind a lekért dokumentumokból.
2. Sűrű visszakeresés:
A hagyományos visszakereső rendszerek gyakran olyan ritka ábrázolásokra támaszkodnak, mint a TF-IDF. A RAG LLM azonban sűrű reprezentációkat alkalmaz, ahol mind a lekérdezés, mind a dokumentumok folyamatos vektorterekbe vannak ágyazva. Ez árnyaltabb hasonlóság-összehasonlítást tesz lehetővé, és a szemantikai kapcsolatokat a puszta kulcsszóegyeztetésen túlmenően rögzíti.
3. Sorozatról szekvenciára generálás:
A letöltött dokumentumok kiterjesztett kontextusként szolgálnak a generálási modell számára. Ez a modell, amely gyakran olyan architektúrákon alapul, mint a Transformers, majd generálja a végső kimenetet, biztosítva, hogy koherens és kontextuálisan releváns legyen.
Dokumentum keresés
Dokumentumok indexelése és visszakeresése
A hatékony információkeresés érdekében, különösen nagyméretű dokumentumokból, az adatokat gyakran vektoros adatbázisban tárolják. Minden adat vagy dokumentum egy beágyazási vektor alapján indexelve van, amely megragadja a tartalom szemantikai lényegét. A hatékony indexelés biztosítja a releváns információk gyors visszakeresését a beviteli prompt alapján.
vektoros adatbázisok
Forrás: Feleinek
A vektoradatbázisok, amelyeket néha vektortárolónak is neveznek, testre szabott adatbázisok, amelyek alkalmasak vektoradatok tárolására és lekérésére. A mesterséges intelligencia és a számítástechnika területén a vektorok lényegében számsorok, amelyek egy többdimenziós tér pontjait szimbolizálják. A hagyományos adatbázisokkal ellentétben, amelyek jobban igazodnak a táblázatos adatokhoz, a vektoros adatbázisok remekül kezelik azokat az adatokat, amelyek természetesen illeszkednek a vektorformátumhoz, például az AI-modellek beágyazásához.
Néhány figyelemre méltó vektoradatbázis például az Annoy, Faiss szerző: Meta, Milvusés Fenyőtoboz. Ezek az adatbázisok kulcsfontosságúak az AI-alkalmazásokban, segítve az ajánlási rendszerektől a képkeresésekig terjedő feladatokat. Az olyan platformok, mint az AWS, vektoradatbázis-szükségletekre szabott szolgáltatásokat is kínálnak, mint például az Amazon OpenSearch Service és az Amazon RDS for PostgreSQL. Ezek a szolgáltatások speciális felhasználási esetekre vannak optimalizálva, így biztosítva a hatékony indexelést és lekérdezést.
Feldarabolás a relevanciáért
Tekintettel arra, hogy sok dokumentum terjedelmes lehet, gyakran alkalmazzák a „darabolásnak” nevezett technikát. Ez magában foglalja a nagy dokumentumok kisebb, szemantikailag koherens darabokra bontását. Ezeket a darabokat ezután szükség szerint indexeli és lekéri, így biztosítva, hogy a dokumentum legrelevánsabb részeit használják fel az azonnali kiegészítésre.
Kontextusablak szempontjai
Minden LLM egy kontextusablakon belül működik, ami lényegében az egyszerre figyelembe vehető információ maximális mennyisége. Ha a külső adatforrások olyan információkat szolgáltatnak, amelyek túllépik ezt az ablakot, akkor azokat kisebb részekre kell bontani, amelyek beleférnek a modell környezeti ablakába.
A Retrieval-Augmented Generation használatának előnyei
- Fokozott pontosság: A külső adatforrások felhasználásával a RAG LLM olyan válaszokat tud generálni, amelyek nem csak a betanítási adatain alapulnak, hanem a visszakereső korpuszban elérhető legrelevánsabb és legfrissebb információk alapján is tájékozódhatnak.
- A tudáshiányok leküzdése: A RAG hatékonyan kezeli az LLM eredendő tudáskorlátait, akár a modell képzési korlátai miatt, akár a tartomány-specifikus adatok hiánya miatt a képzési korpuszban.
- Sokoldalúság: A RAG különféle külső adatforrásokkal integrálható, a szervezeten belüli védett adatbázisoktól a nyilvánosan elérhető internetes adatokig. Ezáltal az alkalmazások és iparágak széles körében alkalmazható.
- A hallucinációk csökkentése: Az LLM egyik kihívása a „hallucinációk” vagy a tényszerűen hibás vagy koholt információk generálása. A valós idejű adatkontextus biztosításával a RAG jelentősen csökkentheti az ilyen kimenetek esélyét.
- skálázhatóság: A RAG LLM egyik elsődleges előnye a méretezhetőség. A visszakeresési és generálási folyamatok szétválasztásával a modell hatalmas adathalmazokat képes hatékonyan kezelni, így alkalmas olyan valós alkalmazásokhoz, ahol rengeteg adat van.
Kihívások és megfontolások
- Számítási általános költségek: A kétlépéses folyamat számításigényes lehet, különösen nagy adathalmazok kezelésekor.
- Adatfüggőség: A visszakeresett dokumentumok minősége közvetlenül befolyásolja a generálás minőségét. Ezért kulcsfontosságú egy átfogó és jól gondozott visszakereső korpusz.
Következtetés
A visszakeresési és generálási folyamatok integrálásával a Retrieval-Augmented Generation robusztus megoldást kínál a tudásintenzív feladatokra, biztosítva a tájékozott és a kontextus szempontjából releváns kimeneteket.
A RAG igazi ígérete a potenciális valós alkalmazásokban rejlik. Az olyan ágazatok számára, mint az egészségügy, ahol az időszerű és pontos információ kulcsfontosságú lehet, a RAG lehetőséget kínál arra, hogy zökkenőmentesen nyerjen ki és generáljon betekintést hatalmas orvosi irodalomból. A pénzügyek területén, ahol a piacok percről percre fejlődnek, a RAG valós idejű adatvezérelt betekintést nyújthat, segítve a tájékozott döntéshozatalt. Ezen túlmenően a tudományos életben és a kutatásban a tudósok kihasználhatják a RAG-t az információk hatalmas tárházának átvizsgálására, ami hatékonyabbá teszi a szakirodalmi áttekintéseket és az adatelemzést.