Umělá inteligence

RAFT – Jemné ladění a přístup RAG pro doménově specifické zodpovězení otázek

Published March 29, 2024

Updated April 27, 2026

Aayush Mittal Mittal

Jak se aplikace velkých jazykových modelů rozšiřují do specializovaných domén, stává se stále kritičtějším potřebou efektivních a účinných technik adaptace. Vstoupí RAFT (Retrieval Augmented Fine Tuning), novátorský přístup, který kombinuje silné stránky retrieval-augmented generace (RAG) a jemného ladění, speciálně navrženého pro doménově specifické úkoly zodpovězení otázek.

Výzva doménové adaptace

Zatímco LLM jsou předtrénovány na obrovském množství dat, jejich schopnost dobře fungovat ve specializovaných doménách, jako je lékařský výzkum, právní dokumentace nebo firemní znalostní báze, je často omezená. Tento limit vzniká proto, že předtrénovací data nemusí dostatečně reprezentovat nuance a složitosti těchto specializovaných domén. Aby se této výzvě čelilo, výzkumníci tradičně využívali dvě hlavní techniky: retrieval-augmented generaci (RAG) a jemné ladění.

Retrieval-Augmented Generation (RAG)

RAG

RAG je technika, která umožňuje LLM přístup k externím zdrojům znalostí během inferencingu.

Toho dosahuje integrováním reálného času datového vyhledávání do generativního procesu, čímž se výstupy modelu stávají přesnějšími a aktuálními. RAG se skládá ze tří základních kroků: vyhledávání, kde se shromažďují relevantní dokumenty; generace, kde model produkuje výstup na základě vyhledaných dat; a augmentace, která dále rafinuje výstup.

Vyhledávací proces v RAG začíná dotazem uživatele. LLM analyzují dotaz a načtou relevantní informace z externích databází, předkládají tak sadu dat, ze které může model čerpat pro formulaci svých odpovědí. Generační fáze pak syntetizuje tento vstup do koherentního narativu nebo odpovědi. Augmentační krok dále rafinuje generaci přidáním kontextu nebo úpravou pro koherenci a relevanci.

Modely RAG lze hodnotit pomocí různých metrik, které posuzují jejich schopnost poskytovat přesné, relevantní a aktuální informace.

Jemné ladění

supervised-fine-tuning

Jemné ladění, na druhé straně, zahrnuje adaptaci předtrénovaného LLM na konkrétní úkol nebo doménu pomocí dalšího trénování na menším, úkolově specifickém datasetu. Tento přístup umožňuje modelu naučit se vzorce a sladit své výstupy s požadovaným úkolem nebo doménou. Zatímco jemné ladění může zlepšit výkon modelu, často selhává v efektivní integraci externích zdrojů znalostí nebo při zohlednění vyhledávacích nedokonalostí během inferencingu.

Přístup RAFT

RAFT

RAFT znamená Retrieval-Aware Fine-Tuning, je inovativní tréninková metoda speciálně navržená pro jazykové modely, aby vylepšily jejich výkon v doménově specifických úkolech, zejména pro otevřené knihovní zkoušky. RAFT se liší od standardního jemného ladění přípravou trénovacích dat, která zahrnuje otázky s mixem relevantních a nerelevantních dokumentů, spolu s odpověďmi stylu chain-of-thought odvozenými z relevantních textů. Tato metoda má za cíl zlepšit schopnost modelů nejen vzpomínat informace, ale také rozumět a odvozovat odpovědi z poskytnutého obsahu.

V podstatě RAFT jemně ladí jazykové modely, aby byly více zdatné v úkolech, které zahrnují čtenářské porozumění a extrakci znalostí ze sady dokumentů. Tréninkem s “oracle” dokumenty (které obsahují odpověď) a “distraktor” dokumenty (které ne), model se učí rozlišovat a využívat relevantní informace efektivněji.

Příprava trénovacích dat

Tréninkový proces pod RAFT zahrnuje část dat, která obsahuje “oracle” dokumenty, které přímo souvisejí s odpověďmi, zatímco zbývající data obsahují pouze “distraktor” dokumenty. Jemné ladění podporuje model, aby se naučil, kdy spoléhat na své vnitřní znalosti (podobné pamatování) a kdy extrahovat informace z poskytnutého kontextu.

Tréninkový režim RAFT také zdůrazňuje generování rozumových procesů, které nejen pomáhají při formování odpovědi, ale také citují zdroje, podobně jako by člověk odůvodnil svou odpověď odkazem na materiál, který četl. Tento přístup nejen připravuje model pro nastavení RAG (Retrieval Augmented Generation), kde musí zohlednit top-k vyhledaných dokumentů, ale také zajišťuje, že trénink modelu je nezávislý na použitém vyhledávači, umožňující tak flexibilní aplikaci napříč různými vyhledávacími systémy.

Tento přístup slouží několika účelům:

Učí model identifikovat a využívat relevantní informace z poskytnutého kontextu, napodobujícím tak otevřenou knihovní zkoušku.
Zlepšuje schopnost modelu ignorovat irelevantní informace, kritickou dovednost pro efektivní RAG.
Vystavuje model scénářům, kde odpověď není přítomna v kontextu, podporujícím ho, aby se spoléhal na své vlastní znalosti, když je to nutné.

Dalším klíčovým aspektem RAFT je začlenění chain-of-thought uvažování do tréninkového procesu. Místo toho, aby se poskytly pouze otázky a odpovědi, RAFT generuje podrobné vysvětlení rozumových procesů, které zahrnují doslovné citace z relevantních dokumentů. Tato vysvětlení, prezentovaná v chain-of-thought formátu, vedou model skrze logické kroky nezbytné pro dosažení správné odpovědi.

Tréninkem modelu na těchto rozumových procesech, RAFT podporuje rozvoj silných rozumových schopností a zlepšuje modelovo porozumění, jak efektivně využívat externí zdroje znalostí.

Hodnocení a výsledky

Autoři článku RAFT provedli rozsáhlé hodnocení na různých datech, včetně PubMed (biomedicínský výzkum), HotpotQA (otevřené zodpovězení otázek) a Gorilla APIBench (generování kódu). Jejich výsledky prokázaly, že RAFT konzistentně překonal základní modely, jako je doménově specifické jemné ladění s a bez RAG, stejně jako větší modely jako GPT-3.5 s RAG.

RAFT improves RAG performance

Například na datasetu HuggingFace, RAFT dosáhl přesnosti 74%, což je významné zlepšení o 31,41% ve srovnání s doménově specifickým jemným laděním (DSF) a 44,92% ve srovnání s GPT-3.5 s RAG. Podobně na datasetu HotpotQA, RAFT prokázal zlepšení o 28,9% ve srovnání s DSF.

Jednou z hlavních výhod RAFT je jeho odolnost vůči vyhledávacím nedokonalostem. Tréninkem modelu s mixem relevantních a nerelevantních dokumentů, RAFT zlepšuje schopnost modelu rozlišovat a priorizovat relevantní informace, i když vyhledávací modul vrátí suboptimální výsledky.

Autoři prokázali, že jemné ladění pouze s “oracle” dokumenty často vede k horšímu výkonu ve srovnání s konfiguracemi, které zahrnují “distraktor” dokumenty. Tento objev zdůrazňuje důležitost vystavení modelu různým vyhledávacím scénářům během tréninku, zajišťujícím tak jeho připravenost pro reálné aplikace.

Praktické aplikace a budoucí směry

Technika RAFT má významné implikace pro širokou škálu praktických aplikací, včetně:

Systémy zodpovězení otázek: RAFT lze použít pro stavbu vysoce přesných a doménově specifických systémů zodpovězení otázek, využívajících znalosti modelu i externí zdroje znalostí.
Firemní znalostní management: Organizace s velkými znalostními bázemi mohou využít RAFT pro vývoj přizpůsobených systémů zodpovězení otázek, umožňujících zaměstnancům rychlý přístup a využití relevantních informací.
Lékařský a vědecký výzkum: RAFT může být besonders cenný v oblastech, jako je biomedicínský výzkum, kde přístup k nejnovějším objevům a literatuře je zásadní pro pokrok vědeckého porozumění.
Právní a finanční služby: RAFT může pomoci profesionálům v těchto oblastech poskytováním přesných a kontextově aware odpovědí založených na relevantních právních dokumentech nebo finančních zprávách.

Jak výzkum v této oblasti pokračuje, můžeme očekávat další pokroky a úpravy techniky RAFT. Potenciální budoucí směry zahrnují:

Prozkoumání efektivnějších a účinnějších vyhledávacích modulů, přizpůsobených pro konkrétní domény nebo struktury dokumentů.
Integraci multimodálních informací, jako jsou obrázky nebo tabulky, do rámce RAFT pro vylepšené kontextové porozumění.
Vývoj specializovaných rozumových architektur, které mohou lépe využít chain-of-thought vysvětlení generovaná během tréninku.
Adaptaci RAFT na další úkoly zpracování přirozeného jazyka, jako je shrnutí, překlad nebo dialogové systémy.

Závěr

RAFT představuje významný skok vpřed v oblasti doménově specifického zodpovězení otázek s jazykovými modely. Harmonicky kombinujíc silné stránky retrieval-augmented generace a jemného ladění, RAFT vybavuje LLM schopností efektivně využívat externí zdroje znalostí, zatímco také sladění svých výstupů s doménově specifickými vzorci a preferencemi.

Prostřednictvím své inovativní přípravy trénovacích dat, začlenění chain-of-thought uvažování a odolnosti vůči vyhledávacím nedokonalostem, RAFT nabízí silné řešení pro organizace a výzkumníky, kteří hledají zpřístupnit plný potenciál LLM v specializovaných doménách.

Jak poptávka po doménově specifických schopnostech zpracování přirozeného jazyka pokračuje, techniky jako RAFT budou hrát zásadní roli při umožnění více přesných, kontextově aware a adaptivních jazykových modelů, připravujících cestu pro budoucnost, kde komunikace mezi lidmi a stroji se stane skutečně bezproblémovou a doménově nezávislou.

Aayush Mittal

Já jsem strávil posledních pět let ponořen do fascinujícího světa Machine Learning a Deep Learning. Moje vášeň a odbornost mě vedly k tomu, abych přispěl k více než 50 různým softwarovým inženýrským projektům, se zvláštním zaměřením na AI/ML. Moje pokračující zvědavost mě také táhne směrem k Natural Language Processing, oblasti, kterou jsem ochoten dále prozkoumat.