Sztuczna inteligencja
Najlepsze modele AI gubią się w długich dokumentach

Nowe badanie przeprowadzone przez badaczy z LMU Monachium, Centrum Sztucznej Inteligencji w Monachium i Adobe Research ujawniło słabość modeli językowych AI: mają one trudności z zrozumieniem długich dokumentów w sposób, który może być zaskakujący. Wyniki badania pokazują, że nawet najbardziej zaawansowane modele AI mają trudności z łączeniem informacji, gdy nie mogą polegać na prostym dopasowaniu słów.
Ukryty problem z umiejętnościami czytania AI
Wyobraź sobie, że próbujesz znaleźć konkretny szczegół w długim artykule naukowym. Możesz przeskanować go, tworząc mentalne połączenia między różnymi sekcjami, aby złożyć informacje, których potrzebujesz. Okazuje się, że wiele modeli AI nie działa w ten sposób. Zamiast tego często polegają bardzo mocno na znajdowaniu dokładnych dopasowań słów, podobnie jak przy użyciu Ctrl+F na Twoim komputerze.
Zespół badawczy opracował nowy benchmark o nazwie NOLIMA (No Literal Matching), aby przetestować różne modele AI. Wyniki pokazały, że gdy modele AI mają do czynienia z tekstami dłuższymi niż 2 000 słów, ich wydajność spada dramatycznie. Gdy osiągają 32 000 słów – co odpowiada długości krótkiej książki – większość modeli działa na połowie swojej normalnej wydajności. Obejmowało to testowanie głównych modeli, takich jak GPT-4o, Gemini 1.5 Pro, oraz Llama 3.3 70B.
Rozważ badacza medycznego, który używa AI do analizy dokumentów pacjentów, lub zespołu prawnego, który używa AI do przeglądania dokumentów sprawy. Jeśli AI pomija kluczowe połączenia, ponieważ istotne informacje używają innych słów niż zapytanie wyszukiwania, konsekwencje mogą być znaczące.
Dlaczego dopasowanie słów nie jest wystarczające
Bieżące modele AI przetwarzają tekst przy użyciu czegoś, co nazywa się mechanizmem uwagi. Ten system pomaga AI skupić się na różnych częściach tekstu, aby zrozumieć relacje między słowami i ideami. Gdy pracuje się z krótszymi tekstami, działa to wystarczająco dobrze. Jednak badanie pokazuje, że ten mechanizm staje się przytłoczony, gdy teksty stają się dłuższe, szczególnie gdy nie może polegać na dokładnych dopasowaniach słów.
Test NOLIMA ujawnił tę ograniczenie, zadając modelom AI pytania, na które odpowiedzi wymagały zrozumienia kontekstu, a nie tylko znajdowania dopasowań słów. Wyniki były wymowne. Podczas gdy modele działały dobrze z krótkimi tekstami, ich zdolność do nawiązywania tych połączeń spadła znacząco wraz ze wzrostem długości tekstu. Nawet specjalistyczne modele zaprojektowane do zadań wymagających rozumowania uzyskały poniżej 50% dokładności przy radzeniu sobie z dłuższymi dokumentami.
Bez podpory dopasowania słów modele AI miały trudności z:
- Łączeniem powiązanych pojęć, które używają różnej terminologii
- Śledzeniem wieloetapowych ścieżek rozumowania
- Znajdowaniem istotnych informacji, gdy pojawiają się one po kluczowym kontekście
- Ignorowaniem mylących dopasowań słów w nieistotnych sekcjach
Liczby mówią same za siebie
Wyniki badań malują wyraźny obraz tego, jak modele AI radzą sobie z dłuższymi tekstami. GPT-4o wykazał się najsilniejszym działaniem, utrzymując skuteczność do około 8 000 tokenów (co odpowiada około 6 000 słów). Jednak nawet ten najlepszy model wykazał znaczny spadek przy dłuższych tekstach. Większość innych modeli, w tym Gemini 1.5 Pro i Llama 3.3 70B, doświadczyła gwałtownego spadku wydajności między 2 000 a 8 000 tokenami.
Spadek wydajności stał się jeszcze bardziej wyraźny, gdy zadania wymagały wielu kroków rozumowania. Na przykład, jeśli model musiał wykonać dwa logiczne połączenia – jak zrozumienie, że postać mieszkała w pobliżu punktu orientacyjnego, a ten punkt orientacyjny znajdował się w określonym mieście – wskaźnik powodzenia spadł znacznie. Badanie pokazało, że tego rodzaju wieloetapowe rozumowanie staje się szczególnie trudne w tekstach dłuższych niż 16 000 tokenów, nawet przy użyciu technik zaprojektowanych do poprawy rozumowania, takich jak Chain-of-Thought prompting.
To, co sprawia, że te wyniki są szczególnie godne uwagi, to fakt, że kwestionują one twierdzenia dotyczące zdolności modeli AI do radzenia sobie z długimi kontekstami. Podczas gdy wiele modeli reklamuje wsparcie dla obszernych okien kontekstowych, benchmark NOLIMA pokazuje, że skuteczne zrozumienie spada znacznie przed osiągnięciem tych teoretycznych limitów.

Źródło: Modarressi et al.
Gdy AI nie widzi lasu dla drzew
Te ograniczenia mają poważne implikacje dla tego, jak używamy AI w rzeczywistych aplikacjach. Rozważ system AI prawniczy wyszukujący w prawie. Może przegapić istotne precedensy tylko dlatego, że używają one innej terminologii niż zapytanie wyszukiwania. Zamiast tego system może skupić się na mniej istotnych przypadkach, które zdarzają się mieć więcej słów wspólnych z parametrami wyszukiwania.
Wpływ na wyszukiwanie i analizę dokumentów jest szczególnie niepokojący. Bieżące systemy wyszukiwania wspomagane przez AI często polegają na technice zwanej Retrieval-Augmented Generation (RAG). Nawet gdy te systemy pomyślnie pobierają dokument zawierający odpowiednie informacje, AI może nie rozpoznać ich istotności, jeśli sformułowanie różni się od zapytania. Zamiast tego AI może skłaniać się ku mniej istotnym dokumentom, które wykazują powierzchowne podobieństwa z parametrami wyszukiwania.
Dla użytkowników AI te wyniki sugerują kilka ważnych rozważań:
Pierwsze, krótsze zapytania i dokumenty prawdopodobnie dadzą bardziej niezawodne wyniki. Podczas pracy z dłuższymi tekstami, podział ich na mniejsze, skupione segmenty może pomóc w utrzymaniu wydajności AI.
Drugie, użytkownicy powinni być szczególnie ostrożni, gdy proszą AI o nawiązanie połączeń w różnych częściach długiego dokumentu. Badanie pokazuje, że modele AI mają największe trudności, gdy muszą łączyć informacje z różnych sekcji, szczególnie gdy połączenie nie jest oczywiste przez wspólną terminologię.
Trzecie, te ograniczenia podkreślają ciągłą wagę nadzoru ludzkiego. Podczas gdy AI może być potężnym narzędziem do przetwarzania i analizy tekstu, nie powinno być traktowane jako jedyny środek identyfikacji istotnych połączeń w długich lub złożonych dokumentach.
Wyniki badań służą jako przypomnienie, że pomimo szybkich postępów w technologii AI, te systemy nadal przetwarzają informacje w sposób bardzo odmienny od ludzi. Zrozumienie tych ograniczeń jest kluczowe dla skutecznego korzystania z narzędzi AI oraz wiedzy, kiedy osąd ludzki pozostaje niezbędny.
Co dalej
Zrozumienie ograniczeń bieżących modeli AI w przetwarzaniu długich tekstów otwiera ważne pytania dotyczące przyszłości rozwoju AI. Badanie, które doprowadziło do powstania benchmarku NOLIMA, ujawniło, że nasze bieżące podejścia do przetwarzania tekstu AI mogą wymagać znaczącej poprawy, szczególnie w tym, jak modele radzą sobie z informacjami na dłuższych odcinkach.
Bieżące rozwiązania pokazały tylko częściowy sukces. Chain-of-Thought prompting, który zachęca modele AI do rozbijania swojego rozumowania na kroki, pomaga poprawić wydajność do pewnego stopnia. Na przykład, przy użyciu tej techniki, Llama 3.3 70B wykazała lepszą zdolność do radzenia sobie z dłuższymi kontekstami. Jednakże, ten podejście wciąż nie wystarcza, gdy ma do czynienia z tekstami dłuższymi niż 16 000 tokenów, sugerując, że potrzebujemy bardziej fundamentalnych rozwiązań.
Mechanizm uwagi, który stanowi podstawę, jak bieżące modele AI przetwarzają tekst, wymaga przemyślenia. Wyobraź sobie, że próbujesz prowadzić rozmowę w zatłoczonym pokoju – im dłuższa rozmowa, tym trudniej jest śledzić wszystkie ważne punkty, które zostały wcześniej wymienione. Nasze bieżące modele AI stają przed podobnym wyzwaniem, ale w znacznie większej skali.
Spoglądając w przyszłość, badacze badają kilka obiecujących kierunków. Jednym z podejść jest rozwijanie nowych sposobów, aby AI mogła organizować i priorytetowo traktować informacje w długich tekstach, przechodząc poza proste dopasowanie słów, aby zrozumieć głębsze połączenia koncepcyjne. Mogłoby to działać bardziej jak ludzkie tworzenie mapy informacji, łącząc idee na podstawie znaczenia, a nie tylko wspólnej terminologii.
Innym obszarem rozwoju jest poprawa tego, jak modele AI radzą sobie z tym, co badacze nazywają “ukrytymi skokami” – logicznymi krokami niezbędnymi do połączenia różnych fragmentów informacji. Bieżące modele mają trudności z tymi połączeniami, szczególnie w dłuższych tekstach, ale nowe architektury mogą pomóc w przezwyciężeniu tej luki.
Dla tych, którzy pracują z narzędziami AI dzisiaj, te wyniki sugerują kilka praktycznych podejść:
Rozważ podział dłuższych dokumentów na znaczące segmenty podczas pracy z AI. Pomaga to tworzyć logiczne sekcje, które zachowują ważny kontekst. Na przykład, analizując artykuł naukowy, możesz zachować sekcje metody i wyników razem, ponieważ często zawierają powiązane informacje.
Gdy prosisz AI o analizę dłuższych tekstów, bądź szczegółowy w odniesieniu do połączeń, które chcesz, aby AI nawiązało. Zamiast zadawać ogólne pytania, prowadź AI w kierunku konkretnych relacji, które chcesz badać. Pomaga to zrekompensować bieżące ograniczenia modelu w nawiązywaniu tych połączeń niezależnie.
Być może najważniejsze, utrzymuj realistyczne oczekiwania dotyczące możliwości AI w odniesieniu do długich tekstów. Podczas gdy te narzędzia mogą być niezwykle pomocne w wielu zadaniach, nie powinny być traktowane jako pełne zastępstwo dla ludzkiej analizy złożonych dokumentów. Ludzka zdolność do utrzymania kontekstu i nawiązywania połączeń koncepcyjnych na dłuższych tekstach pozostaje wyższa niż bieżące możliwości AI.
Droga do przodu w rozwoju AI w tej dziedzinie jest zarówno wyzwaniem, jak i ekscytującą. Im lepiej zrozumiemy te ograniczenia, tym możemy pracować nad systemami AI, które naprawdę rozumieją długie teksty, zamiast tylko je przetwarzać. Do tego czasu korzystanie z AI w sposób skuteczny oznacza pracę w ramach jego bieżących ograniczeń, jednocześnie doceniając jego mocne strony.












