Connect with us

Nejlepší modely AI se ztrácejí v dlouhých dokumentech

Umělá inteligence

Nejlepší modely AI se ztrácejí v dlouhých dokumentech

mm

Nová studie od výzkumníků z LMU Munich, Munich Center for Machine Learning a Adobe Research odhalila slabost v modelech AI jazyka: mají problémy s porozuměním dlouhým dokumentům způsobem, který by vás mohl překvapit. Zjištění výzkumného týmu ukazují, že i ty nej pokročilejší modely AI mají potíže s propojením informací, když se nemohou spolehnout na jednoduché shody slov.

Skrytý problém s čtenářskými dovednostmi AI

Představte si, že se snažíte najít konkrétní detail v dlouhé výzkumné práci. Můžete prolístnout ji, vytvářet mentální spojení mezi různými částmi, aby jste mohli poskládat informace, které potřebujete. Mnoho modelů AI, jak se ukázalo, nefunguje tímto způsobem. Místo toho často silně spoléhají na hledání přesných shod slov, podobně jako použití Ctrl+F na vašem počítači.

Výzkumný tým vyvinul novou referenční hodnotu nazvanou NOLIMA (No Literal Matching), aby otestoval různé modely AI. Výsledky ukázaly, že když modely AI pracují s texty delšími než 2 000 slov, jejich výkon dramaticky klesá. Ve chvíli, kdy dosáhnou 32 000 slov – což je délka krátké knihy – většina modelů funguje na polovinu své obvyklé kapacity. To zahrnovalo testování hlavních modelů, jako je GPT-4o, Gemini 1.5 Pro a Llama 3.3 70B.

Zvažte lékaře, který používá AI k analýze zdravotních záznamů pacientů, nebo právní tým, který používá AI k přezkumu dokumentů případu. Pokud AI přehlédne zásadní spojení, protože relevantní informace používají jiná slova než vyhledávací dotaz, důsledky by mohly být významné.

Proč shoda slov nestačí

Aktuální modely AI zpracovávají text pomocí něčeho, co se nazývá mechanismus pozornosti. Tento systém pomáhá AI soustředit se na různé části textu, aby porozuměl vztahům mezi slovy a nápady. Když pracují s kratšími texty, funguje to dostatečně dobře. Avšak výzkum ukazuje, že tento mechanismus je přehlcen, když texty jsou delší, zejména když se nemůže spolehnout na přesné shody slov.

Test NOLIMA odhalil tuto limitaci, když požádal modely AI o otázky, jejichž odpovědi vyžadovaly porozumění kontextu spíše než nalezení shodných slov. Výsledky byly výmluvné. Zatímco modely fungovaly dobře s krátkými texty, jejich schopnost vytvářet tato spojení dramaticky klesala, jak délka textu vzrostla. I specializované modely navržené pro úkoly uvažování dosáhly pod 50% přesnosti, když pracovaly s delšími dokumenty.

Bez opory shody slov modely AI měly potíže:

  • Propojit související koncepty, které používají odlišnou terminologii
  • Sledovat více kroků uvažování
  • Najít relevantní informace, když se objevily po klíčovém kontextu
  • Ignorovat matoucí shody slov v irelevantních částech

Čísla vyprávějí příběh

Zjištění výzkumu vykreslují jasný obraz toho, jak modely AI zpracovávají delší texty. GPT-4o ukázal nejsilnější výkon, udržel efektivitu až přibližně 8 000 tokenů (přibližně 6 000 slov). Avšak i tento nejlepší výsledek ukázal významný pokles s delšími texty. Většina ostatních modelů, včetně Gemini 1.5 Pro a Llama 3.3 70B, zažila prudký pokles výkonu mezi 2 000 a 8 000 tokeny.

Pokles výkonu se stal ještě výraznějším, když úkoly vyžadovaly více kroků uvažování. Například, pokud model potřeboval učinit dvě logické spojení – jako porozumění, že postava žila poblíž památníku, a že památník byl ve specifickém městě – míra úspěchu dramaticky klesla. Výzkum ukázal, že tento typ více kroků uvažování se stal zvláště náročným v textech za 16 000 tokeny, i při použití technik navržených pro zlepšení uvažování, jako je Chain-of-Thought prompting.

Co dělá tato zjištění zvláště pozoruhodnými, je to, že zpochybňují tvrzení o schopnosti modelů AI zpracovat dlouhé kontexty. Zatímco mnoho modelů inzeruje podporu pro rozsáhlá kontextová okna, benchmark NOLIMA ukazuje, že efektivní porozumění klesá daleko před dosažením těchto teoretických limitů.

Source: Modarressi et al.

Když AI přehlédne les pro stromy

Tyto limitace mají vážné důsledky pro to, jak používáme AI v reálných aplikacích. Zvažte právní systém AI, který prohledává zákony. Může přehlédnout relevantní precedenty jednoduše proto, že používají odlišnou terminologii než vyhledávací dotaz. Systém se místo toho může zaměřit na méně relevantní případy, které se náhodou shodují s vyhledávacími termíny.

Dopad na vyhledávání a analýzu dokumentů je zvláště znepokojivý. Současné systémy AI pro vyhledávání často spoléhají na techniku nazvanou Retrieval-Augmented Generation (RAG). I když tyto systémy úspěšně načtou dokument obsahující správné informace, AI může selhat v rozpoznání jejich relevance, pokud znění se liší od dotazu. Místo toho se AI může přiklonit k méně relevantním dokumentům, které sdílejí povrchní podobnosti s vyhledávacími termíny.

Pro uživatele AI tato zjištění naznačují několik důležitých úvah:

První, kratší dotazy a dokumenty budou pravděpodobně poskytovat spolehlivější výsledky. Když pracujete s delšími texty, rozdělení na menší, zaměřené segmenty může pomoci udržet výkon AI.

Druhé, uživatelé by měli být zvláště opatrní, když žádají AI o vytvoření spojení napříč různými částmi dlouhého dokumentu. Výzkum ukazuje, že modely AI mají největší potíže, když potřebují poskládat informace z různých částí, zvláště když spojení není zřejmé prostřednictvím sdílené slovní zásoby.

Třetím, tyto limitace zdůrazňují pokračující důležitost lidského dohledu. Zatímco AI může být mocným nástrojem pro zpracování a analýzu textu, neměl by být považován za kompletní náhradu lidské analýzy složitých dokumentů. Lidská schopnost udržet kontext a vytvářet konceptuální spojení napříč dlouhými texty zůstává nadřazená současným schopnostem AI.

Zjištění slouží jako připomínka, že navzdory rychlým pokrokům v technologii AI tyto systémy stále zpracovávají informace velmi odlišně od lidí. Porozumění těmto limitacím je zásadní pro efektivní použití nástrojů AI a znalost toho, kdy je lidský úsudek stále nezbytný.

Co dál

Porozumění limitacím současné schopnosti modelů AI zpracovat dlouhé texty otevírá důležité otázky o budoucnosti vývoje AI. Výzkum za benchmarkem NOLIMA ukázal, že naše současné přístupy k zpracování textu AI možná potřebují významné úpravy, zvláště v tom, jak modely zpracovávají informace napříč delšími pasážemi.

Aktuální řešení ukázala pouze částečný úspěch. Chain-of-Thought prompting, který podporuje modely AI, aby rozkládaly své uvažování do kroků, mírně zlepšuje výkon. Například, když se používá tato technika, Llama 3.3 70B ukázala lepší schopnost zpracovat delší kontexty. Avšak tento přístup stále selhává, když se potýká s texty za 16 000 tokeny, naznačující, že potřebujeme fundamentálnější řešení.

Mechanismus pozornosti, který tvoří základ toho, jak současné modely AI zpracovávají text, potřebuje přehodnocení. Představte si to jako pokus o vedení konverzace v přeplněné místnosti – čím déle konverzace trvá, tím těžší je sledovat všechny důležité body, které byly zmíněny dříve. Naše současné modely AI čelí podobné výzvě, ale v mnohem větším měřítku.

Pohledem do budoucnosti, výzkumníci zkoumají několik slibných směrů. Jeden přístup zahrnuje vývoj nových způsobů, jak AI organizuje a priorizuje informace v dlouhých textech, pohybující se za hranice jednoduchého shodu slov, aby porozuměl hlubším konceptuálním spojením. To by mohlo fungovat podobně jako to, jak lidé vytvářejí mentální mapy informací, spojující nápady na základě významu spíše než pouze sdílené slovní zásoby.

Další oblast vývoje se zaměřuje na zlepšení toho, jak modely AI zpracovávají to, co výzkumníci nazývají “latent hops” – logické kroky potřebné k propojení různých částí informací. Současné modely mají potíže s těmito spojeními, zvláště v delších textech, ale nové architektury by mohly pomoci překlenout tuto mezeru.

Pro ty, kteří pracují s nástroji AI dnes, tato zjištění naznačují několik praktických přístupů:

Zvažte rozdělení delších dokumentů na významné segmenty, když pracujete s AI. To pomáhá vytvořit logické sekce, které zachovávají důležité kontexty. Například, pokud analyzujete výzkumnou práci, můžete ponechat metodu a výsledky sekce pohromadě, protože často obsahují související informace.

Když žádáte AI o analýzu delších textů, buďte specifičtí o spojeních, která chcete, aby vytvořila. Místo zadávání širokých otázek, směrujte AI k specifickým vztahům, které vás zajímají. To pomáhá kompenzovat současné limitace modelu při vytváření těchto spojení nezávisle.

Možná nejdůležitější je zachovat realistické očekávání o schopnostech AI s delšími texty. Zatímco tyto nástroje mohou být neuvěřitelně užitečné pro mnoho úkolů, neměly by být považovány za kompletní náhradu lidské analýzy složitých dokumentů. Lidská schopnost udržet kontext a vytvářet konceptuální spojení napříč dlouhými texty zůstává nadřazená současným schopnostem AI.

Cesta vpřed pro vývoj AI v této oblasti je jak náročná, tak vzrušující. Jakmile lépe pochopíme tyto limitace, můžeme pracovat na AI systémech, které skutečně chápou dlouhé texty, spíše než je pouze zpracovávají. Dokud nebude dosaženo, efektivní použití AI znamená pracovat s jeho současnými limitacemi, zatímco oceňujeme jeho silné stránky.

Alex McFarland je AI novinář a spisovatel, který zkoumá nejnovější vývoj v oblasti umělé inteligence. Spolupracoval s mnoha AI startupy a publikacemi po celém světě.