Sztuczna inteligencja
Dlaczego duże modele językowe zapominają środek: ujawnianie ukrytego słabego punktu AI

Ponieważ duże modele językowe (LLM) są powszechnie stosowane w zadaniach takich jak streszczenie dokumentów, analiza prawna i ocena historii medycznej, jest niezwykle ważne, aby rozpoznać ograniczenia tych modeli. Podczas gdy powszechne problemy, takie jak halucynacje i uprzedzenia są dobrze znane, badacze ostatnio zidentyfikowali kolejną znaczącą wadę: podczas przetwarzania długich tekstów, LLM mają tendencję do zachowania informacji na początku i końcu, ale często zaniedbują środek.
Ten problem, określany jako zjawisko “zagubiony-w-środku“, może poważnie wpłynąć na wydajność tych modeli w rzeczywistych aplikacjach. Na przykład, jeśli AI jest zadane streszczenie długiego dokumentu prawnego, brakujące krytyczne szczegóły ze środka mogą prowadzić do mylących lub niepełnych streszczeń. W środowiskach medycznych, zaniedbanie informacji ze środka historii pacjenta może skutkować nieprecyzyjnymi zaleceniami. Zrozumienie, dlaczego tak się dzieje, pozostaje trudnym zadaniem dla badaczy starających się budować bezpieczniejsze i bardziej niezawodne AI. Jednak niedawno badanie dostarcza niektórych z najwyraźniejszych odpowiedzi, ujawniając, że ten problem jest głęboko zakorzeniony w architekturze tych modeli.
Problem “zagubiony-w-środku”
Zjawisko “zagubiony-w-środku” odnosi się do tendencji LLM do przywiązywania mniejszej wagi do informacji w środku długich sekwencji wejściowych. Jest to podobne do tego, jak ludzie często lepiej zapamiętują pierwsze i ostatnie elementy na liście niż te w środku. Ten poznawczy bias u ludzi jest często znany jako efekt pierwszeństwa i efekt świeżości. Dla LLM oznacza to, że wykonują lepiej, gdy kluczowa informacja jest na początku lub końcu tekstu, ale mają trudności, gdy jest pogrzebana w środku. To skutkuje “U-kształtną” krzywą wydajności, gdzie dokładność jest wysoka na początku, gwałtownie spada w środku, a następnie ponownie rośnie na końcu.
To zjawisko nie jest tylko teoretycznym problemem. Zostało ono zaobserwowane w szerokim zakresie zadań, od odpowiedzi na pytania do streszczenia dokumentów. Na przykład, jeśli poprosisz LLM o odpowiedź na pytanie, gdzie odpowiedź jest umieszczona w pierwszych kilku akapitach długiego artykułu, prawdopodobnie odpowie poprawnie. To samo dotyczy, jeśli odpowiedź jest w ostatnich kilku akapitach. Ale jeśli kluczowa informacja jest ukryta gdzieś w środku, dokładność modelu gwałtownie spada. To jest poważne ograniczenie, ponieważ oznacza, że nie możemy w pełni ufać tym modelom zadaniami, które wymagają zrozumienia długiego i złożonego kontekstu. To również sprawia, że są one podatne na manipulację. Ktoś mógłby celowo umieścić mylące informacje na początku lub końcu dokumentu, aby wpłynąć na wyjście AI.
Zrozumienie architektury LLM
Aby zrozumieć, dlaczego LLM zapominają środek, musimy przyjrzeć się, jak są one zbudowane. Współczesne LLM są oparte na architekturze zwanej Transformer. Transformer był przełomem w AI, ponieważ wprowadził mechanizm zwany uwagą samą w sobie. Uwaga sama w sobie pozwala modelowi ważyć wagę różnych słów wejściowych podczas przetwarzania danego słowa. Na przykład, podczas przetwarzania zdania “Kot siedział na macie”, mechanizm uwagi samej w sobie może nauczyć się, że “kot” i “siedział” są ściśle powiązane. To pozwala modelowi zbudować znacznie bogatsze zrozumienie relacji między słowami niż poprzednie architektury.
Innym kluczowym składnikiem jest kodowanie pozycyjne. Ponieważ mechanizm uwagi samej w sobie nie ma wrodzonego poczucia kolejności słów, kodowania pozycyjne są dodawane do wejścia, aby dać modelowi informacje o pozycji każdego słowa w sekwencji. Bez tego model widziałby wejściowy tekst jako po prostu “worki słów” bez struktury. Te dwa składniki, uwaga sama w sobie i kodowanie pozycyjne, współpracują, aby uczynić LLM bardziej skutecznymi. Jednak nowe badanie pokazuje, że sposób, w jaki współpracują, jest również źródłem tego ukrytego słabego punktu.
Jak powstaje bias pozycyjny
Ostatnie badanie używa sprytnego podejścia, aby wyjaśnić to zjawisko. Modeluje przepływ informacji wewnątrz Transformer jako graf, gdzie każde słowo jest węzłem, a połączenia uwagi są krawędziami. To pozwala badaczom matematycznie śledzić, jak informacje z różnych pozycji są przetwarzane przez wiele warstw modelu.
Odkryli oni dwie główne spostrzeżenia. Po pierwsze, użycie maskowania przyczynowego w wielu LLM tworzy wrodzony bias w kierunku początku sekwencji. Maskowanie przyczynowe jest techniką, która zapewnia, że podczas generowania słowa model może zwrócić uwagę tylko na słowa, które poprzedzają je, a nie na te, które następują. To jest kluczowe dla zadań takich jak generowanie tekstu. Jednak po wielu warstwach tworzy to kumulatywny efekt. Pierwsze kilka słów w tekście jest przetwarzanych ponownie i ponownie, a ich reprezentacje stają się coraz bardziej wpływowe. W przeciwieństwie do tego, słowa w środku zawsze patrzą wstecz na ten już ustalony kontekst, a ich własny unikalny wkład może zostać zdominowany.
Po drugie, badacze przyjrzeli się, jak kodowania pozycyjne oddziałują z tym efektem maskowania przyczynowego. Współczesne LLM często używają względnych kodowań pozycyjnych, które koncentrują się na odległości między słowami, a nie na ich absolutnej pozycji. To pomaga modelowi uogólniać na teksty różnej długości. Chociaż to wydaje się dobrym pomysłem, tworzy to konkurencyjną presję. Maskowanie przyczynowe popycha uwagę modelu na początek, podczas gdy względne kodowanie pozycyjne zachęca go do koncentrowania się na pobliskich słowach. Wynikiem tego konfliktu jest to, że model zwraca najwięcej uwagi na sam początek tekstu i na natychmiastowy lokalny kontekst każdego słowa. Informacje, które są daleko i nie na początku, czyli środek, otrzymują najmniej uwagi.
Szersze implikacje
Zjawisko “zagubiony-w-środku” ma znaczące konsekwencje dla aplikacji, które polegają na przetwarzaniu długich tekstów. Badanie pokazuje, że problem ten nie jest tylko przypadkowym efektem, ale fundamentalną konsekwencją tego, jak zaprojektowaliśmy te modele. To oznacza, że proste szkolenie ich na większych danych jest mało prawdopodobne, aby rozwiązać problem. Zamiast tego możemy musieć przemyśleć niektóre z podstawowych zasad architektury Transformer.
Dla użytkowników i deweloperów AI jest to krytyczne ostrzeżenie. Musimy być świadomi tego ograniczenia podczas projektowania aplikacji, które polegają na LLM. Dla zadań, które obejmują długie dokumenty, możemy musieć opracować strategie, aby złagodzić ten bias. To może obejmować podział dokumentu na mniejsze fragmenty lub tworzenie modeli, które kierują uwagę modelu na różne części tekstu. To również podkreśla wagę rygorystycznego testowania. Nie możemy założyć, że LLM, który wykonuje dobrze na krótkich tekstach, będzie niezawodny, gdy stanie w obliczu dłuższych, bardziej złożonych wejść.
Podsumowanie
Rozwój AI zawsze koncentrował się na identyfikowaniu ograniczeń i znajdowaniu sposobów, aby je pokonać. Problem “zagubiony-w-środku” jest znaczącą wadą dużych modeli językowych, gdzie tendencja do zaniedbywania informacji w środku długich sekwencji tekstowych. Ten problem wynika z biasów w architekturze Transformer, szczególnie z interakcji między maskowaniem przyczynowym a względnym kodowaniem pozycyjnym. Chociaż LLM wykonują dobrze, gdy informacje są na początku lub końcu tekstu, mają trudności, gdy ważne szczegóły są umieszczone w środku. To ograniczenie może zmniejszyć dokładność LLM w zadaniach takich jak streszczenie dokumentów i odpowiedzi na pytania, co może mieć poważne implikacje w dziedzinach takich jak prawo i medycyna. Deweloperzy i badacze muszą rozwiązać ten problem, aby poprawić niezawodność LLM w praktycznych aplikacjach.










