Umělá inteligence

DeepMind’s Michelangelo Benchmark: Odhalení limitů dlouhých kontextových LLM

Published October 17, 2024

Updated April 3, 2026

Dr. Assad Abbas

DeepMind Michelangelo Benchmark LLM limits

Jak se Umělá inteligence (AI) dále vyvíjí, stává se schopnost zpracovávat a rozumět dlouhým sekvencím informací stále důležitější. Systémy AI se nyní používají pro komplexní úkoly, jako je analýza dlouhých dokumentů, sledování prodloužených konverzací a zpracování velkých množství dat. Nicméně, mnoho současných modelů zápasí s dlouhým kontextovým rozuměním. Jak se vstupní data prodlužují, často ztrácejí přehled o důležitých detailech, což vede k méně přesným nebo koherentním výsledkům.

Tento problém je zvláště problematický ve zdravotnictví, právních službách a finančních odvětvích, kde nástroje AI musí zpracovávat podrobné dokumenty nebo dlouhé diskuze, zatímco poskytují přesné, kontextově-aware odpovědi. Společným problémem je kontextový drift, kde modely ztrácejí přehled o dřívějších informacích, jak zpracovávají nové vstupní údaje, což vede k méně relevantním výsledkům.

Aby se tyto limity řešily, DeepMind vyvinul Michelangelo Benchmark. Tento nástroj přísně testuje, jak dobře modely AI zvládají dlouhé kontextové rozumění. Inspirován umělcem Michelangelem, známým tím, že odhaluje komplexní sochy z mramorových bloků, benchmark pomáhá objevit, jak dobře modely AI mohou extrahovat významné vzory z velkých datových sad. Identifikováním míst, kde současné modely selhávají, Michelangelo Benchmark vede k budoucím zlepšením schopnosti AI rozumět dlouhým kontextům.

Pochopení dlouhého kontextového rozumění v AI

Dlouhé kontextové rozumění se týká schopnosti modelu AI zůstat koherentní a přesný přes dlouhé texty, kódy nebo konverzační sekvence. Modely jako GPT-4 a PaLM-2 fungují dobře se krátkými nebo středně dlouhými vstupními údaji. Nicméně, potřebují pomoc s delšími kontexty. Jak se délka vstupních údajů prodlužuje, tyto modely často ztrácejí přehled o essenciálních detailech z dřívějších částí. To vede k chybám ve理解, shrnutí nebo rozhodování. Tento problém je znám jako kontextová okenní limitace. Schopnost modelu uchovávat a zpracovávat informace se snižuje, jak kontext roste déle.

Tento problém je významný v reálných aplikacích. Například, v právních službách, modely AI analyzují smlouvy, studie případů nebo regulace, které mohou být stovky stránek dlouhé. Pokud tyto modely nemohou účinně uchovávat a rozumět takovým dlouhým dokumentům, mohou přehlédnout essenciální klauzule nebo špatně interpretovat právní termíny. To může vést k nepřesným radám nebo analýzám. Ve zdravotnictví, systémy AI potřebují syntetizovat pacientské záznamy, lékařské historie a léčebné plány, které se rozprostírají roky nebo dokonce desetiletí. Pokud model nemůže přesně zavolat kritické informace z dřívějších záznamů, může doporučit nevhodné léčby nebo špatně diagnostikovat pacienty.

I když byly učiněny úsilí, aby se zlepšily modely token limitů (jako GPT-4, který zvládá až 32 000 tokenů, asi 50 stránek textu), dlouhé kontextové rozumění zůstává výzvou. Kontextový problém omezuje množství vstupních údajů, které model může zpracovat, a ovlivňuje jeho schopnost udržet přesné pochopení po celou vstupní sekvenci. To vede k kontextovému driftu, kde model postupně zapomíná dřívější detaily, jak jsou zaváděny nové informace. To snižuje jeho schopnost generovat koherentní a relevantní výstupy.

Michelangelo Benchmark: Koncept a přístup

Michelangelo Benchmark řeší výzvy dlouhého kontextového rozumění testováním LLM na úkolech, které vyžadují, aby modely uchovávaly a zpracovávaly informace po prodloužených sekvencích. Na rozdíl od dřívějších benchmarků, které se soustředí na krátké kontextové úkoly, jako je dokončení vět nebo základní otázka-odpověď, Michelangelo Benchmark zdůrazňuje úkoly, které vyzývají modely, aby rozuměly přes dlouhé datové sekvence, často včetně rušivých nebo irelevantních informací.

Michelangelo Benchmark vyzývá modely AI pomocí Latent Structure Queries (LSQ) framework. Tato metoda vyžaduje, aby modely našly významné vzory v velkých datových sadách, zatímco filtrují irelevantní informace, podobně jako lidé procházejí komplexní data, aby se soustředili na to, co je důležité. Benchmark se soustředí na dvě hlavní oblasti: přirozený jazyk a kód, zavádí úkoly, které testují více než jen data retrieval.

Jedním z důležitých úkolů je Latent List Task. V tomto úkolu je modelu dán sekvence Python list operací, jako je přidání, odstranění nebo seřazení prvků, a poté musí vyprodukovat správný konečný seznam. Aby to bylo obtížnější, úkol zahrnuje irelevantní operace, jako je otočení seznamu nebo zrušení předchozích kroků. To testuje schopnost modelu soustředit se na kritické operace, simulující, jak systémy AI musí zpracovávat velké datové sady s proměnlivou relevantností.

Dalším kritickým úkolem je Multi-Round Co-reference Resolution (MRCR). Tento úkol měří, jak dobře model může sledovat odkazy v dlouhých konverzacích s překrývajícími se nebo nejasnými tématy. Výzvou je pro model propojit odkazy učiněné pozdě v konverzaci s dřívějšími body, i když tyto odkazy jsou skryty pod irelevantními detaily. Tento úkol odráží reálné diskuze, kde témata často mění, a AI musí přesně sledovat a řešit odkazy, aby udržela koherentní komunikaci.

Navíc, Michelangelo obsahuje IDK Task, který testuje schopnost modelu rozpoznat, kdy nemá dostatek informací, aby odpověděl na otázku. V tomto úkolu je modelu předložen text, který nemusí obsahovat relevantní informace pro odpověď na konkrétní dotaz. Výzvou je pro model identifikovat případy, kdy správná odpověď je “Neznám” spíše než poskytovat pravděpodobnou, ale nesprávnou odpověď. Tento úkol odráží kritický aspekt spolehlivosti AI – rozpoznání nejistoty.

Prostřednictvím úkolů, jako jsou tyto, Michelangelo přesahuje jednoduchou rekvizici a testuje schopnost modelu rozumět, syntetizovat a zpracovávat dlouhé kontextové vstupy. Zavádí škálovatelný, syntetický a ne-únikový benchmark pro dlouhé kontextové rozumění, poskytující přesnější měření současného stavu a budoucího potenciálu LLM.

Dopady pro výzkum a vývoj AI

Výsledky z Michelangelo Benchmark mají významné dopady pro vývoj AI. Benchmark ukazuje, že současné LLM potřebují lepší architekturu, zejména v pozornostních mechanismech a paměťových systémech. Právě teď většina LLM spoléhá na self-pozornostní mechanismy. Tyto jsou efektivní pro krátké úkoly, ale zápasí, když kontext roste déle. To je místo, kde vidíme problém kontextového driftu, kde modely zapomínají nebo míchají dřívější detaily. Aby se tento problém vyřešil, výzkumníci zkoumají modely s pamětí. Tyto modely mohou uchovávat důležité informace z dřívějších částí konverzace nebo dokumentu, umožňující AI zavolat a použít je, když je potřeba.

Jiným slibným přístupem je hierarchické zpracování. Tato metoda umožňuje AI rozložit dlouhé vstupy na menší, zvladatelné části, které pomáhají modelu soustředit se na nejrelevantnější detaily v každém kroku. Tímto způsobem může model zvládnout komplexní úkoly lépe, aniž by byl přetížen příliš mnoha informacemi najednou.

Zlepšení dlouhého kontextového rozumění bude mít značný dopad. Ve zdravotnictví by to mohlo znamenat lepší analýzu pacientských záznamů, kde AI může sledovat pacientovu historii v čase a nabízet přesnější léčebné doporučení. V právních službách by tyto pokroky mohly vést k AI systémům, které mohou analyzovat dlouhé smlouvy nebo zákony s větší přesností, poskytující spolehlivější přehledy pro právníky a právní odborníky.

Nicméně, s těmito pokroky přicházejí kritické etické obavy. Jak se AI stává lepší v uchovávání a rozumění dlouhým kontextům, existuje riziko expozice citlivých nebo soukromých informací. To je skutečná obava pro odvětví, jako je zdravotnictví a zákaznický servis, kde je důvěrnost kritická.

Pokud modely AI uchovávají příliš mnoho informací z předchozích interakcí, mohou náhodou odhalit osobní detaily v budoucích konverzacích. Navíc, jak se AI stává lepší v generování přesvědčivého dlouhého obsahu, existuje nebezpečí, že by mohlo být použito k vytvoření pokročilejších dezinformací nebo falešných informací, dále komplikujících výzvy kolem regulace AI.

Závěrečné shrnutí

Michelangelo Benchmark odhalil přehledy o tom, jak modely AI zvládají komplexní, dlouhé kontextové úkoly, zdůrazňující jejich silné a slabé stránky. Tento benchmark podporuje inovace, jak se AI vyvíjí, podporuje lepší architekturu modelů a zlepšené paměťové systémy. Potenciál pro transformaci odvětví, jako je zdravotnictví a právní služby, je vzrušující, ale přichází s etickými odpovědnostmi.

Ochrana soukromí, dezinformace a spravedlnosti musí být řešeny, jak se AI stává lepší v zpracovávání velkých množství informací. Růst AI musí zůstat zaměřen na prospěch společnosti uvážlivě a zodpovědně.

Dr. Assad Abbas

Dr. Assad Abbas, zajištěný asociativní profesor na COMSATS University Islamabad, Pákistán, získal svůj Ph.D. na North Dakota State University, USA. Jeho výzkum se zaměřuje na pokročilé technologie, včetně cloud, fog a edge computing, big data analytics a AI. Dr. Abbas učinil podstatné příspěvky s publikacemi v renomovaných vědeckých časopisech a konferencích. Je také zakladatelem MyFastingBuddy.