Sztuczna inteligencja

DeepMind’s Michelangelo Benchmark: Revealing the Limits of Long-Context LLMs

Published October 17, 2024

Updated April 27, 2026

Dr. Assad Abbas

DeepMind Michelangelo Benchmark LLM limits

Jak Sztuczna Inteligencja (AI) kontynuuje postępy, zdolność do przetwarzania i zrozumienia długich sekwencji informacji staje się coraz bardziej istotna. Systemy AI są teraz wykorzystywane do złożonych zadań, takich jak analiza długich dokumentów, prowadzenie rozmów i przetwarzanie dużych ilości danych. Jednak wiele obecnych modeli ma trudności z rozumowaniem w długim kontekście. Im dłuższe są dane wejściowe, tym częściej tracą one istotne szczegóły, co prowadzi do mniej dokładnych lub spójnych wyników.

Ten problem jest szczególnie kłopotliwy w branżach takich jak opieka zdrowotna, usługi prawne i finanse, gdzie narzędzia AI muszą radzić sobie z szczegółowymi dokumentami lub długimi rozmowami, jednocześnie zapewniając dokładne i świadome kontekstu odpowiedzi. Powszechnym wyzwaniem jest dryf kontekstu, gdzie modele tracą z oczu wcześniejszych informacji, gdy przetwarzają nowe dane wejściowe, co skutkuje mniej istotnymi wynikami.

Aby rozwiązać te ograniczenia, DeepMind opracował Michelangelo Benchmark. To narzędzie rygorystycznie testuje, jak dobrze modele AI radzą sobie z rozumowaniem w długim kontekście. Zainspirowany artystą Michelangelo, znanym z odsłaniania złożonych rzeźb z bloków marmuru, benchmark pomaga odkryć, jak dobrze modele AI mogą wydobywać znaczące wzorce z dużych zbiorów danych. Poprzez identyfikację słabości obecnych modeli, Michelangelo Benchmark prowadzi do przyszłych ulepszeń w zdolności AI do rozumowania w długim kontekście.

Zrozumienie rozumowania w długim kontekście w AI

Rozumowanie w długim kontekście dotyczy zdolności modelu AI do utrzymania spójności i dokładności w długich sekwencjach tekstu, kodu lub rozmów. Modele takie jak GPT-4 i PaLM-2 radzą sobie dobrze z krótkimi lub średnio-długimi danymi wejściowymi. Jednak mają trudności z dłuższymi kontekstami. Im dłuższe są dane wejściowe, tym częściej te modele tracą istotne szczegóły z wcześniejszych części. To prowadzi do błędów w zrozumieniu, podsumowaniu lub podejmowaniu decyzji. Ten problem jest znany jako ograniczenie okna kontekstu. Zdolność modelu do przechowywania i przetwarzania informacji maleje wraz ze wzrostem długości kontekstu.

Ten problem jest znaczący w aplikacjach świata rzeczywistego. Na przykład w usługach prawnych, modele AI analizują umowy, studia przypadków lub regulacje, które mogą liczyć setki stron. Jeśli te modele nie mogą skutecznie przechowywać i rozumować nad takimi długimi dokumentami, mogą przegapić istotne klauzule lub błędnie interpretować terminy prawne. To może prowadzić do niedokładnych porad lub analiz. W opiece zdrowotnej, systemy AI muszą syntetyzować kartotyki pacjentów, historie medyczne i plany leczenia, które rozciągają się na lata lub nawet dziesięciolecia. Jeśli model nie może dokładnie przypomnieć sobie krytycznych informacji z wcześniejszych kartotek, może zalecić niewłaściwe leczenie lub błędnie zdiagnozować pacjentów.

Chociaż podjęto wysiłki, aby poprawić limity tokenów modeli (jak GPT-4, który obsługuje do 32 000 tokenów, czyli około 50 stron tekstu), rozumowanie w długim kontekście nadal stanowi wyzwanie. Problem okna kontekstu ogranicza ilość danych wejściowych, które model może obsłużyć, i wpływa na jego zdolność do utrzymania dokładnego zrozumienia w całej sekwencji danych wejściowych. To prowadzi do dryfu kontekstu, gdzie model stopniowo zapomina wcześniejsze szczegóły, gdy są wprowadzane nowe informacje. To redukuje jego zdolność do generowania spójnych i istotnych wyników.

Michelangelo Benchmark: Koncept i podejście

Michelangelo Benchmark rozwiązuje wyzwania związane z rozumowaniem w długim kontekście, testując LLM na zadaniach, które wymagają od nich przechowywania i przetwarzania informacji w długich sekwencjach. W przeciwieństwie do wcześniejszych benchmarków, które koncentrują się na krótkich zadaniach, takich jak uzupełnianie zdań lub podstawowe odpowiedzi na pytania, Michelangelo Benchmark kładzie nacisk na zadania, które wymagają od modeli rozumowania w długich sekwencjach danych, często zawierających rozpraszające lub nieistotne informacje.

Michelangelo Benchmark wyzwala modele AI za pomocą Latent Structure Queries (LSQ) framework. Ta metoda wymaga od modeli znalezienia znaczących wzorców w dużych zbiorach danych, jednocześnie filtrowania nieistotnych informacji, podobnie jak ludzie przeszukują złożone dane, aby skupić się na tym, co jest istotne. Benchmark koncentruje się na dwóch głównych obszarach: języku naturalnym i kodzie, wprowadzając zadania, które testują więcej niż tylko odzyskiwanie danych.

Jednym z ważnych zadań jest Latent List Task. W tym zadaniu model otrzymuje sekwencję operacji na liście Pythona, takich jak dodawanie, usuwanie lub sortowanie elementów, a następnie musi wyprodukować poprawną końcową listę. Aby to utrudnić, zadanie zawiera nieistotne operacje, takie jak odwrócenie listy lub anulowanie poprzednich kroków. To testuje zdolność modelu do skupienia się na krytycznych operacjach, symulując, jak systemy AI muszą radzić sobie z dużymi zbiorami danych o mieszanej istotności.

Innym krytycznym zadaniem jest Multi-Round Co-reference Resolution (MRCR). To zadanie mierzy, jak dobrze model może śledzić odniesienia w długich rozmowach z nachodzącymi się lub niejasnymi tematami. Wyzwaniem jest dla modelu połączenie odniesień w późniejszej części rozmowy z wcześniejszymi punktami, nawet gdy te odniesienia są ukryte pod nieistotnymi szczegółami. To zadanie odzwierciedla rozmowy w świecie rzeczywistym, gdzie tematy często się zmieniają, a AI musi dokładnie śledzić i rozwiązywać odniesienia, aby utrzymać spójną komunikację.

Ponadto, Michelangelo zawiera zadanie IDK, które testuje zdolność modelu do rozpoznania, kiedy nie ma wystarczających informacji, aby odpowiedzieć na pytanie. W tym zadaniu model jest przedstawiony z tekstem, który może nie zawierać istotnych informacji, aby odpowiedzieć na konkretną kwerendę. Wyzwaniem jest dla modelu identyfikacja przypadków, w których poprawna odpowiedź to “Nie wiem“, zamiast dostarczania prawdopodobnej, ale niepoprawnej odpowiedzi. To zadanie odzwierciedla krytyczny aspekt niezawodności AI — rozpoznawanie niepewności.

Przez zadania takie jak te, Michelangelo przechodzi poza proste odzyskiwanie, aby przetestować zdolność modelu do rozumowania, syntetyzowania i zarządzania długimi kontekstami. Wprowadza skalowalny, syntetyczny i nieprzeciekowy benchmark dla rozumowania w długim kontekście, zapewniając bardziej precyzyjną miarę stanu obecnych LLM i ich przyszłego potencjału.

Wnioski dla badań i rozwoju AI

Wyniki z Michelangelo Benchmark mają znaczące implikacje dla rozwoju AI. Benchmark pokazuje, że obecne LLM potrzebują lepszej architektury, szczególnie w mechanizmach uwagi i systemach pamięci. Obecnie większość LLM opiera się na mechanizmach samouwagi. Są one skuteczne dla krótkich zadań, ale mają trudności, gdy kontekst rośnie. To jest miejsce, gdzie widzimy problem dryfu kontekstu, gdzie modele zapominają lub mieszają wcześniejsze szczegóły. Aby rozwiązać to, badacze eksplorują modele z pamięcią wspomagającą. Te modele mogą przechowywać istotne informacje z wcześniejszych części rozmowy lub dokumentu, pozwalając AI przypomnieć i wykorzystać je, gdy jest to potrzebne.

Innym obiecującym podejściem jest hierarchiczne przetwarzanie. Ta metoda umożliwia AI rozbić długie dane wejściowe na mniejsze, zarządzalne części, co pomaga mu skupić się na najistotniejszych szczegółach na każdym etapie. W ten sposób model może lepiej radzić sobie z złożonymi zadaniami, bez zagrożenia przytłoczenia przez zbyt wiele informacji na raz.

Poprawa rozumowania w długim kontekście będzie miała znaczący wpływ. W opiece zdrowotnej mogłoby to oznaczać lepszą analizę kartotek pacjentów, gdzie AI może śledzić historię pacjenta w czasie i oferować bardziej dokładne zalecenia dotyczące leczenia. W usługach prawnych te postępy mogłyby prowadzić do systemów AI, które mogą analizować długie umowy lub prawo z większą dokładnością, zapewniając bardziej niezawodne spostrzeżenia dla prawników i profesjonalistów prawnych.

Jednak wraz z tymi postępami pojawiają się krytyczne problemy etyczne. Gdy AI staje się lepsze w przechowywaniu i rozumowaniu nad długimi kontekstami, istnieje ryzyko ujawnienia wrażliwych lub prywatnych informacji. To jest prawdziwa obawa dla branż takich jak opieka zdrowotna i obsługa klienta, gdzie poufność jest kluczowa.

Jeśli modele AI przechowują zbyt wiele informacji z poprzednich interakcji, mogą nieumyślnie ujawnić osobiste szczegóły w przyszłych rozmowach. Ponadto, gdy AI staje się lepsze w generowaniu przekonywującego długiego tekstu, istnieje niebezpieczeństwo, że może być wykorzystane do tworzenia bardziej zaawansowanych fałszywych informacji lub dezinformacji, co jeszcze bardziej skomplikuje wyzwania związane z regulacją AI.

Podsumowanie

Michelangelo Benchmark ujawnił spostrzeżenia na temat tego, jak modele AI radzą sobie z złożonymi, długimi zadaniami, podkreślając ich mocne i słabe strony. Ten benchmark przyspiesza innowacje, gdy AI się rozwija, zachęcając do lepszej architektury modelu i ulepszonych systemów pamięci. Potencjał transformacji branż takich jak opieka zdrowotna i usługi prawne jest ekscytujący, ale wiąże się z odpowiedzialnością etyczną.

Prywatność, fałszywe informacje i sprawiedliwość muszą być rozwiązane, gdy AI staje się bardziej zdolne do radzenia sobie z ogromnymi ilościami informacji. Rozwój AI musi pozostać ukierunkowany na przynoszenie korzyści społeczeństwu w sposób przemyślany i odpowiedzialny.

Dr. Assad Abbas

Dr. Assad Abbas, profesor associate z tytułem profesora na Uniwersytecie COMSATS w Islamabadzie, Pakistan, uzyskał tytuł doktora na Uniwersytecie Stanu Dakota Północna, USA. Jego badania koncentrują się na zaawansowanych technologiach, w tym chmurze, fog i edge computing, analizie dużych zbiorów danych oraz sztucznej inteligencji. Dr. Abbas wniósł znaczący wkład do publikacji w renomowanych naukowych czasopismach i konferencjach. Jest on również założycielem MyFastingBuddy.