Umělá inteligence
Méně je více: Proč načítání méně dokumentů může zlepšit odpovědi AI

Retrieval-Augmented Generation (RAG) je přístup k budování systémů umělé inteligence, který kombinuje jazykový model s externím zdrojem znalostí. Jednoduše řečeno, AI nejprve vyhledá relevantní dokumenty (jako jsou články nebo webové stránky) související s dotazem uživatele a poté tyto dokumenty použije ke generování přesnější odpovědi. Tato metoda byla oslavována jako pomoc velké jazykové modely (LLM) zůstaňte faktičtí a omezte halucinace tím, že své odpovědi založíte na skutečných datech.
Intuitivně by se mohlo zdát, že čím více dokumentů AI získá, tím lépe informovaná bude její odpověď. Nedávný výzkum však naznačuje překvapivý obrat: pokud jde o poskytování informací AI, někdy méně je více.
Méně dokumentů, lepší odpovědi
A Nová studie vědci z Hebrejské univerzity v Jeruzalémě zkoumali, jak číslo dokumentů předávaných systému RAG ovlivňuje jeho výkon. Podstatné je, že udrželi konstantní celkový objem textu – to znamená, že pokud bylo poskytnuto méně dokumentů, byly tyto dokumenty mírně rozšířeny, aby zaplnily stejnou délku jako mnoho dokumentů. Tímto způsobem lze jakékoli rozdíly ve výkonu přičíst množství dokumentů, nikoli pouze kratšímu vstupu.
Výzkumníci použili datovou sadu pro zodpovězení otázek (MuSiQue) s triviálními otázkami, z nichž každá byla původně spárována s 20 odstavci Wikipedie (pouze několik z nich skutečně obsahuje odpověď, zbytek jsou rozptylovače). Snížením počtu dokumentů z 20 na pouhé 2–4 skutečně relevantní – a doplněním těch o trochu dalšího kontextu, aby byla zachována konzistentní délka – vytvořili scénáře, ve kterých měla AI méně materiálů ke zvážení, ale stále zhruba stejný celkový počet slov ke čtení.
Výsledky byly zarážející. Ve většině případů modely AI odpovídaly přesněji, když jim bylo dáno méně dokumentů než celá sada. Výkon se výrazně zlepšil – v některých případech až o 10 % v přesnosti (skóre F1), když systém místo velké sbírky používal pouze hrstku podpůrných dokumentů. Toto kontraintuitivní posílení bylo pozorováno u několika různých modelů open source jazyků, včetně variant Meta's Llama a dalších, což naznačuje, že tento jev není vázán na jediný model umělé inteligence.
Jeden model (Qwen-2) byla výrazná výjimka, která zpracovávala více dokumentů bez poklesu skóre, ale téměř všechny testované modely fungovaly celkově lépe s menším počtem dokumentů. Jinými slovy, přidání dalšího referenčního materiálu nad rámec klíčových relevantních kusů ve skutečnosti jejich výkon častěji poškodilo, než pomohlo.

Zdroj: Levy et al.
Proč je to takové překvapení? Typicky jsou systémy RAG navrženy za předpokladu, že získání širšího okruhu informací může AI pouze pomoci – koneckonců, pokud odpověď není v několika prvních dokumentech, může to být v desátém nebo dvacátém.
Tato studie tento scénář převrací a ukazuje, že bezohledné hromadění dalších dokumentů může mít opačný účinek. I když byla celková délka textu konstantní, pouhá přítomnost mnoha různých dokumentů (každý se svým vlastním kontextem a zvláštnostmi) činila úkol zodpovězení otázek pro AI náročnější. Zdá se, že za určitým bodem každý další dokument vnesl více šumu než signálu, čímž model zmátl a zhoršil jeho schopnost extrahovat správnou odpověď.
Proč méně může být více v RAG
Tento výsledek „méně je více“ dává smysl, jakmile zvážíme, jak jazykové modely AI zpracovávají informace. Když AI dostane pouze ty nejrelevantnější dokumenty, kontext, který vidí, je soustředěný a bez rušivých vlivů, podobně jako student, kterému byly dány ty správné stránky ke studiu.
Ve studii si modely vedly výrazně lépe, když jim byly poskytnuty pouze podpůrné dokumenty s odstraněným nepodstatným materiálem. Zbývající kontext byl nejen kratší, ale i čistší – obsahoval fakta, která přímo směřovala k odpovědi a nic jiného. S menším počtem dokumentů ke žonglování mohl model věnovat plnou pozornost relevantním informacím, takže je méně pravděpodobné, že se dostane na vedlejší kolej nebo bude zmaten.
Na druhou stranu, když bylo získáno mnoho dokumentů, AI musela probírat směs relevantního a nepodstatného obsahu. Tyto další dokumenty byly často „podobné, ale nesouvisející“ – mohly sdílet téma nebo klíčová slova s dotazem, ale ve skutečnosti neobsahovaly odpověď. Takový obsah může model uvést v omyl. Umělá inteligence může plýtvat úsilím při propojování dokumentů, které ve skutečnosti nevedou ke správné odpovědi, nebo v horším případě může nesprávně sloučit informace z více zdrojů. To zvyšuje riziko halucinací – případů, kdy AI generuje odpověď, která zní věrohodně, ale není založena na žádném jediném zdroji.
V zásadě může přivádění příliš velkého množství dokumentů do modelu rozmělnit užitečné informace a zavést protichůdné detaily, což ztíží AI rozhodnutí, co je pravda.
Je zajímavé, že vědci zjistili, že pokud byly další dokumenty zjevně irelevantní (například náhodný nesouvisející text), modely je lépe ignorovaly. Skutečný problém pochází z rušivých dat, která vypadají relevantní: když jsou všechny načtené texty na podobná témata, AI předpokládá, že by je měla použít všechny, a může mít potíže s určením, které detaily jsou skutečně důležité. To je v souladu s pozorováním studie, že náhodné rozptylovače způsobily menší zmatek než realistické rozptylovače ve vstupu. Umělá inteligence dokáže odfiltrovat do očí bijící nesmysly, ale nenápadně mimo tématické informace jsou úhlednou pastí – vplíží se pod zástěrkou relevance a vykolejí odpověď. Snížením počtu dokumentů pouze na skutečně nezbytné se vyhneme nastražení těchto pastí.
Má to také praktickou výhodu: získávání a zpracování menšího počtu dokumentů snižuje výpočetní režii systému RAG. Každý dokument, který se dostane dovnitř, musí být analyzován (vložený, přečtený a obsluhovaný modelem), což vyžaduje čas a výpočetní zdroje. Odstraněním nadbytečných dokumentů je systém efektivnější – dokáže najít odpovědi rychleji a s nižšími náklady. Ve scénářích, kde se přesnost zlepšila tím, že se zaměříme na méně zdrojů, získáme oboustranně výhodnou výhodu: lepší odpovědi a štíhlejší a efektivnější proces.

Zdroj: Levy et al.
Rethinking RAG: Future Directions
Tento nový důkaz, že kvalita při vyhledávání často překonává kvantitu, má důležité důsledky pro budoucnost systémů umělé inteligence, které se spoléhají na externí znalosti. Navrhuje, aby návrháři systémů RAG upřednostňovali inteligentní filtrování a hodnocení dokumentů před samotným objemem. Namísto načítání 100 možných pasáží a doufání, že odpověď je někde zahrabaná, může být moudřejší načíst jen těch pár nejlepších, vysoce relevantních.
Autoři studie zdůrazňují potřebu metod vyhledávání, aby bylo možné „vyvážit relevanci a rozmanitost“ v informacích, které dodávají modelu. Jinými slovy, chceme poskytnout dostatečné pokrytí tématu, abychom mohli odpovědět na otázku, ale ne natolik, aby se základní fakta utopila v moři cizího textu.
V budoucnu výzkumníci pravděpodobně prozkoumají techniky, které pomáhají modelům umělé inteligence zpracovat více dokumentů elegantněji. Jedním z přístupů je vyvinout lepší retrieverské systémy nebo re-rankery, které dokážou identifikovat, které dokumenty skutečně přidávají hodnotu a které pouze přinášejí konflikt. Dalším úhlem pohledu je vylepšování samotných jazykových modelů: pokud by si jeden model (jako Qwen-2) dokázal poradit s mnoha dokumenty bez ztráty přesnosti, zkoumání toho, jak byl trénován nebo strukturován, by mohlo poskytnout vodítko k tomu, aby byly další modely robustnější. Možná budoucí velké jazykové modely začlení mechanismy k rozpoznání, kdy dva zdroje říkají totéž (nebo si odporují) a podle toho se zaměří. Cílem by bylo umožnit modelům využívat širokou škálu zdrojů, aniž by se staly obětí zmatku – efektivně získat to nejlepší z obou světů (šíře informací a jasnost zaměření).
Za zmínku také stojí, že jako Systémy AI získávají větší kontextová okna (možnost číst více textu najednou), pouhé nasypání více dat do výzvy není stříbrná kulka. Větší kontext automaticky neznamená lepší porozumění. Tato studie ukazuje, že i když umělá inteligence dokáže technicky přečíst 50 stránek najednou, poskytnutí 50 stran informací různé kvality nemusí přinést dobrý výsledek. Model stále těží z toho, že má kurátorský relevantní obsah pro práci, spíše než nevybíravý výpis. Ve skutečnosti se inteligentní vyhledávání může stát ještě důležitějším v éře obřích kontextových oken – aby bylo zajištěno, že dodatečná kapacita bude využita spíše pro cenné znalosti než pro hluk.
Zjištění z „Více dokumentů, stejná délka“ (příhodně nazvaný článek) vybízí k přehodnocení našich předpokladů ve výzkumu AI. Někdy není zásobování AI všemi daty, které máme, tak efektivní, jak si myslíme. Tím, že se zaměříme na nejrelevantnější informace, nejen zlepšíme přesnost odpovědí generovaných umělou inteligencí, ale také zefektivníme systémy a snáze jim důvěřujeme. Je to neintuitivní lekce, ale se vzrušujícími důsledky: budoucí systémy RAG mohou být chytřejší a štíhlejší, protože pečlivě vybírají méně lepších dokumentů k načtení.