Sztuczna inteligencja

Nowe badania ujawniają szesnaście poważnych problemów z systemami RAG, w tym z Perplexity

Published November 4, 2024

Updated April 27, 2026

Martin Anderson

Image generated by ChatGPT-4o, with prompt ' Create a highly photorealistic panoramic image of a robot frantically searching the internet on a laptop. Do not stylize this image so that it looks like a false or AI-created image'

Ostatnie badanie przeprowadzone w Stanach Zjednoczonych wykazało, że rzeczywiste wyniki popularnych systemów badawczych Retrieval Augmented Generation (RAG), takich jak Perplexity i Bing Copilot, znacznie odbiegają od marketingowego szumu i popularnego zainteresowania, które przyciągały uwagę w ciągu ostatnich 12 miesięcy.

Projekt, w którym wzięło udział 21 ekspertów, wykazał aż 16 obszarów, w których badane systemy RAG (You Chat, Bing Copilot i Perplexity) wywołały poważne obawy:

1: Brak obiektywnych szczegółów w generowanych odpowiedziach, z ogólnymi podsumowaniami i niedostateczną głębią kontekstową lub nuansami.

2. Potwierdzenie postrzeganego uprzedzenia użytkownika, gdzie silnik RAG często nie przedstawia różnych punktów widzenia, lecz inferuje i potwierdza uprzedzenia użytkownika, w oparciu o sposób, w jaki użytkownik sformułował pytanie.

3. Przesadnie pewne sformułowania, szczególnie w odpowiedziach subiektywnych, które nie mogą być ustalone empirycznie, co może prowadzić do tego, że użytkownicy będą bardziej ufali odpowiedzi, niż jest to uzasadnione.

4: Proste sformułowania i brak myślenia krytycznego oraz kreatywności, gdzie odpowiedzi skutecznie patronizują użytkownikowi, dostarczając “uproszczonych” i “zgodnych” informacji, zamiast przemyślanych rozważań i analiz.

5: Nieprawidłowe przypisywanie i cytowanie źródeł, gdzie silnik odpowiedzi używa cytowanych źródeł, które nie wspierają jego odpowiedzi, tworząc iluzję wiarygodności.

6: Selektywne wybieranie informacji z kontekstu, gdzie agent RAG wydaje się szukać odpowiedzi, które wspierają jego wygenerowaną tezę i jego szacunkowe pojęcie o tym, co użytkownik chce usłyszeć, zamiast opierać swoje odpowiedzi na obiektywnej analizie wiarygodnych źródeł (co może wskazywać na konflikt między “wbudowanymi” danymi LLM a danymi, które uzyskuje ono w czasie rzeczywistym z Internetu w odpowiedzi na zapytanie).

7. Pominięcie cytowań, które wspierają oświadczenia, gdzie brakuje materiału źródłowego dla odpowiedzi.

8. Brak logicznej struktury odpowiedzi, gdzie użytkownicy nie mogą zapytać, dlaczego system priorytetowo traktował pewne źródła nad inne.

9:Ograniczona liczba źródeł, gdzie większość systemów RAG zwykle dostarcza około trzech wspierających źródeł dla oświadczenia, nawet w przypadku, gdy większa różnorodność źródeł byłaby stosowna.

10: Sieroty źródłowe, gdzie dane z wszystkich lub niektórych cytowań systemu nie są włączone do odpowiedzi.

11: Użycie niewiarygodnych źródeł, gdzie system wydaje się preferować źródło, które jest popularne (tj. w sensie SEO), a nie faktograficznie poprawne.

12: Powtarzające się źródła, gdzie system przedstawia wiele cytowań, w których artykuły źródłowe są pod względem treści takie same.

13: Niefiltrowane źródła, gdzie system nie daje użytkownikowi możliwości oceny lub filtrowania oferowanych cytowań, zmuszając użytkowników do zaufania do kryteriów selekcji.

14: Brak interakcji lub eksploracji, w którym kilku uczestników badania użytkowników było sfrustrowanych, że systemy RAG nie zadawały pytań wyjaśniających, lecz zakładały intencję użytkownika od pierwszego zapytania.

15: Potrzeba zewnętrznej weryfikacji, gdzie użytkownicy czują, że muszą wykonać niezależną weryfikację dostarczonych odpowiedzi, co w znacznej mierze eliminuje domniemaną wygodę RAG jako “zastępstwa dla wyszukiwania”.

16: Użycie metody cytatowania akademickiego, takiego jak [1] lub [34]; jest to standardowa praktyka w kręgach naukowych, ale może być nieintuicyjna dla wielu użytkowników.

Dla pracy badawcza zebrano 21 ekspertów w dziedzinie sztucznej inteligencji, ochrony zdrowia i medycyny, nauk stosowanych i edukacji oraz nauk społecznych, wszystkich na poziomie powyżej doktoranckim. Uczestnicy wchodzili w interakcje z testowanymi systemami RAG, mówiąc na głos swoje myśli, aby wyjaśnić (dla badaczy) swoją własną racjonalną strukturę.

Artykuł obszernie cytuję wątpliwości i obawy uczestników dotyczące wyników trzech badanych systemów.

Metodologia badania użytkowników została następnie usystematyzowana w badaniu zautomatyzowanym systemów RAG, z użyciem pakietów kontrolnych przeglądarki:

‘Duże, zautomatyzowane badanie systemów takich jak You.com, Perplexity.ai i BingChat wykazało, że żaden z nich nie osiągnął akceptowalnej wydajności w większości wskaźników, w tym krytycznych aspektów związanych z obsługą halucynacji, niepopartych oświadczeń i dokładnością cytowań.’

Autorzy argumentują długo (i starannie, w obszernym 27-stronicowym artykule) że zarówno nowi, jak i doświadczeni użytkownicy powinni zachować ostrożność przy korzystaniu z klasy systemów RAG, które zostały zbadane. Proponują również nowy system metryk, oparty na słabościach znalezionych w badaniu, który mógłby stanowić podstawę większej kontroli technicznej w przyszłości.

Jednakże rosnące publiczne korzystanie z systemów RAG skłania autorów również do opowiedzenia się za odpowiednimi przepisami i większym poziomem egzekwowalnej polityki rządowej w odniesieniu do interfejsów wyszukiwania wspomaganych przez agenta AI.

Badanie pochodzi od pięciu badaczy z Uniwersytetu Stanu Pensylwania i Salesforce, i nosi tytuł Wyszukiwarki w erze AI: fałszywa obietnica faktograficznych i weryfikowalnych odpowiedzi z cytowanymi źródłami. Praca obejmuje systemy RAG aż do stanu sztuki w sierpniu 2024 roku

Handel RAG

Autorzy rozpoczynają swoją pracę, powtarzając cztery znane słabości modeli językowych (LLM), gdzie są one używane w ramach silników odpowiedzi.

Po pierwsze, są one skłonne halucynować informacje, i brakuje im zdolności wykrywania nieścisłości faktograficznych. Po drugie, mają trudności oceniać dokładność cytowania w kontekście wygenerowanej odpowiedzi. Po trzecie, mają tendencję do preferowania danych z własnych wstępnie wytrenowanych wag, i mogą opierać się danym z zewnętrznie pobranych dokumentów, nawet jeśli takie dane mogą być bardziej aktualne lub dokładne.

Wreszcie, systemy RAG mają tendencję do ludzkich upodobań, sycfancyjnego zachowania, często kosztem dokładności informacji w swoich odpowiedziach.

Wszystkie te tendencje zostały potwierdzone w obu aspektach badania, wśród wielu nowych obserwacji na temat pułapek RAG.

Artykuł postrzega produkt RAG SearchGPT OpenAI (opublikowany dla subskrybentów w zeszłym tygodniu, po złożeniu nowego artykułu), jako prawdopodobny do zachęcenia użytkowników do przyjęcia systemów wyszukiwania opartych na RAG, pomimo podstawowych słabości, na które wskazują wyniki ankiety*:

‘Premiera “SearchGPT” OpenAI, marketingowo określona jako “zabójca Google”, dodatkowo zwiększa [obawy]. Im bardziej rośnie zależność od tych narzędzi, tym bardziej pilne staje się zrozumienie ich wpływu. Lindemann wprowadza pojęcie “zamkniętej wiedzy”, które krytykuje sposób, w jaki te systemy ograniczają dostęp do różnorodnych odpowiedzi, kondensując zapytania wyszukiwania w jednorodne, autorytatywne odpowiedzi, efektywnie dekontekstualizując informacje i zawężając perspektywy użytkownika.

‘To “zamknięcie” wiedzy utrwala selektywne uprzedzenia i ogranicza marginesowe punkty widzenia.’

Badanie

Autorzy najpierw przetestowali swoją procedurę badawczą na trzech z 24 wybranych uczestników, wszystkich zaproszonych za pomocą takich środków, jak LinkedIn lub e-mail.

Pierwszy etap, dla pozostałych 21, obejmował odzyskiwanie informacji ekspertów, gdzie uczestnicy średnio wykonali około sześciu zapytań wyszukiwania w ciągu 40-minutowej sesji. Ta sekcja koncentrowała się na pozyskiwaniu i weryfikacji opartych na faktach pytań i odpowiedzi, z potencjalnymi empirycznymi rozwiązaniami.

Druga faza dotyczyła odzyskiwania informacji debaty, która zajmowała się zamiast tego subiektywnymi sprawami, w tym ekologią, wegetarianizmem i polityką.

Wygenerowane odpowiedzi z badania z Perplexity (po lewej) i You Chat (po prawej). Źródło: https://arxiv.org/pdf/2410.22349

Ponieważ wszystkie systemy pozwalały na pewien poziom interakcji z cytowaniami dostarczonymi jako wsparcie dla wygenerowanych odpowiedzi, uczestnicy badania zostali zachęceni do interakcji z interfejsem tak bardzo, jak to możliwe.

W obu przypadkach uczestnicy zostali poproszeni o sformułowanie swoich zapytań zarówno za pomocą systemu RAG, jak i konwencjonalnej wyszukiwarki (w tym przypadku Google).

Trzy silniki odpowiedzi – You Chat, Bing Copilot i Perplexity – zostały wybrane, ponieważ są one publicznie dostępne.

Większość uczestników była już użytkownikami systemów RAG, na różnych poziomach częstotliwości.

Ze względu na ograniczenia przestrzenne, nie możemy rozbić każdego z szesnastu obszernie udokumentowanych słabości znalezionych w badaniu, ale tutaj przedstawiamy wybór niektórych z najbardziej interesujących i pouczających przykładów.

Brak obiektywnych szczegółów

Artykuł zauważa, że użytkownicy stwierdzili, iż odpowiedzi systemów często nie zawierały obiektywnych szczegółów, zarówno w odpowiedziach faktograficznych, jak i subiektywnych. Jeden z uczestników skomentował:

‘To było po prostu próbą odpowiedzi bez dostarczania mi solidnej odpowiedzi lub bardziej przemyślanej odpowiedzi, którą mogę uzyskać za pomocą wielu wyszukiwań Google.’

Inny obserwator zauważył:

‘Jest to zbyt krótkie i po prostu podsumowuje wszystko. [Model] musi mi dostarczyć więcej danych do oświadczenia, ale jest to bardzo zsumowane.’

Brak holistycznego punktu widzenia

Autorzy wyrażają obawy dotyczące braku nuansów i szczegółowości, i stwierdzają, że silniki odpowiedzi często nie przedstawiały wielu perspektyw na temat argumentu, skłaniając się ku postrzeganemu uprzedzeniu, które zostało wywnioskowane z sformułowania pytania przez użytkownika.

Jeden z uczestników powiedział:

‘Chcę dowiedzieć się więcej o drugiej stronie argumentu… jest to wszystko z odrobiną soli, ponieważ nie znamy drugiej strony i dowodów oraz faktów.’

Inny skomentował:

‘Nie daje mi obu stron argumentu; nie spiera się ze mną. Zamiast tego [model] po prostu mówi mi, że “masz rację… i oto powody, dlaczego”.’

Pewne sformułowania

Autorzy zauważają, że wszystkie trzy przetestowane systemy wykazywały użycie przesadnie pewnych sformułowań, nawet w odpowiedziach subiektywnych. Twierdzą, że taki ton będzie skłaniał do niesłusznego zaufania do odpowiedzi.

Uczestnik zauważył:

‘Pisze tak pewnie, że czuję się przekonany, nawet nie patrząc na źródło. Ale kiedy spojrzy się na źródło, jest to złe i to sprawia, że ponownie kwestionuję to.’

Inny skomentował:

‘Jeśli ktoś nie wie dokładnie, jaka jest odpowiedź, będzie ufał temu, nawet jeśli jest to błędne.’

Niepoprawne cytaty

Innym częstym problemem było nieprawidłowe przypisywanie źródeł cytowanych jako autorytatywnych dla odpowiedzi systemów RAG, z jednym z uczestników badania, który twierdził:

‘To oświadczenie nie wydaje się być w źródle. Chcę powiedzieć, że oświadczenie jest prawdziwe; jest ważne… ale nie wiem, skąd ono to wzięło.’

Autorzy nowego artykułu komentują ^†:

‘Uczestnicy czuli, że systemy używają cytowań, aby uzasadnić swoją odpowiedź, tworząc iluzję wiarygodności. Ta fasada była ujawniona tylko niektórym użytkownikom, którzy postanowili zbadać źródła.’

Selektywne wybieranie informacji, aby dopasować zapytanie

Wracając do pojęcia ludzkich upodobań, sycfancyjnego zachowania w odpowiedziach RAG, badanie wykazało, że wiele odpowiedzi podkreślało konkretny punkt widzenia, zamiast komprehensywnie podsumowywać temat, jak jeden z uczestników zauważył:

‘Czuję, że [system] jest manipulacyjny. Bierze tylko niektóre informacje i czuję, że jestem manipulowany, aby zobaczyć tylko jedną stronę rzeczy.’

Inny uznał:

‘[Źródło] ma zarówno zalety, jak i wady, a [system] wybiera tylko te argumenty z tego linku, bez całego obrazu.’

Dla dalszych, bardziej szczegółowych przykładów (i wielu krytycznych cytatów z uczestników ankiety), odsyłamy czytelnika do oryginalnego artykułu.

Automatyczny RAG

W drugiej fazie szerszego badania, badacze użyli skryptów przeglądarki, aby systematycznie zwrócić zapytania do trzech badanych silników RAG. Następnie użyli systemu LLM (GPT-4o), aby przeanalizować odpowiedzi systemów.

Oświadczenia zostały przeanalizowane pod kątem istotności zapytania i oświadczeń za i przeciw (tj. czy odpowiedź jest za, przeciw lub neutralna w odniesieniu do implicitego uprzedzenia zapytania).

Wynik ufności odpowiedzi został również oceniony w tej zautomatyzowanej fazie, w oparciu o metodę testowania psychometrycznego Likert. Tutaj sędzia LLM został uzupełniony przez dwóch annotatorów ludzkich.

Trzecia operacja obejmowała użycie web-scrapingu, aby uzyskać pełny tekst cytowanych stron internetowych, za pomocą narzędzia Jina.ai Reader. Jednak, jak zauważono gdzie indziej w artykule, większość narzędzi do web-scrapingu nie jest w stanie uzyskać dostępu do stron z paywallem bardziej niż większość ludzi (chociaż autorzy zauważają, że Perplexity.ai był w stanie obejść tę barierę).

Dodatkowe rozważania dotyczyły tego, czy odpowiedzi cytowały źródło (obliczane jako “macierz cytowań”), a także “macierz wsparcia faktograficznego” – metryka zweryfikowana z pomocą czterech annotatorów ludzkich.

W ten sposób uzyskano 8 wskaźników ogólnych: odpowiedź jednostronna; odpowiedź przesadnie pewna; oświadczenie istotne; niecytowane źródła; oświadczenia niepoparte; konieczność źródła; dokładność cytowań; i uczciwość cytowań.

Materiał, wobec którego te wskaźniki zostały przetestowane, składał się z 303 starannie przygotowanych pytań z fazy badania użytkowników, w wyniku czego otrzymano 909 odpowiedzi w trzech testowanych systemach.

Ocena ilościowa w trzech testowanych systemach RAG, w oparciu o osiem wskaźników.

Odnośnie do wyników, artykuł stwierdza:

‘Patrząc na trzy wskaźniki dotyczące tekstu odpowiedzi, stwierdzamy, że wszystkie oceniane silniki odpowiedzi często (50-80%) generują odpowiedzi jednostronne, faworyzując zgodność z naładowanym sformułowaniem pytania debaty nad przedstawieniem wielu perspektyw w odpowiedzi, przy czym Perplexity wykonuje gorzej niż dwa pozostałe silniki.

‘To odkrycie jest zgodne z [wynikami] naszych wyników jakościowych. Co ciekawe, chociaż Perplexity jest najbardziej skłonna do generowania odpowiedzi jednostronnych, generuje również najdłuższe odpowiedzi (średnio 18,8 oświadczeń na odpowiedź), co wskazuje, że brak różnorodności odpowiedzi nie wynika z krótkości odpowiedzi.

‘Innymi słowy, zwiększanie długości odpowiedzi niekoniecznie poprawia różnorodność odpowiedzi.’

Autorzy zauważają również, że Perplexity jest najbardziej skłonna do używania pewnych sformułowań (90% odpowiedzi), i że, w przeciwieństwie do tego, dwa pozostałe systemy mają tendencję do używania bardziej ostrożnych i mniej pewnych sformułowań, gdzie odpowiedzi dotyczą treści subiektywnej.

You Chat był jedynym frameworkiem RAG, który osiągnął zero niecytowanych źródeł dla odpowiedzi, z Perplexity na poziomie 8% i Bing Chat na poziomie 36%.

Wszystkie modele wykazywały “znaczną proporcję” niepopartych oświadczeń, a artykuł deklaruje^†:

‘Ramy RAG są reklamowane jako rozwiązanie halucynacyjnego zachowania LLM, poprzez wymuszenie, aby LLM wygenerował odpowiedź opartą na dokumentach źródłowych, jednak wyniki pokazują, że silniki odpowiedzi oparte na RAG nadal generują odpowiedzi zawierające dużą proporcję oświadczeń niepopartych przez źródła, które dostarczają.‘

Ponadto wszystkie testowane systemy miały trudności w popieraniu swoich oświadczeń cytowaniami:

‘You.Com i [Bing Chat] wykonują nieco lepiej niż Perplexity, z około dwiema trzecimi cytowań wskazujących na źródło, które wspiera cytowane oświadczenie, a Perplexity wykonuje gorzej, z ponad połową cytowań, które są nieprawidłowe.

‘To wynik jest zaskakujący: cytowanie nie jest tylko nieprawidłowe dla oświadczeń, które nie są wspierane przez żadne źródło, ale stwierdzamy, że nawet gdy istnieje źródło, które wspiera oświadczenie, wszystkie silniki nadal często cytują inne nieprawidłowe źródło, pomijając okazję do dostarczenia użytkownikom prawidłowych informacji o źródle.

‘Innymi słowy, halucynacyjne zachowanie nie jest wystawione tylko na oświadczenia, które nie są wspierane przez źródła, ale także na nieprawidłowe cytowania, które uniemożliwiają użytkownikom weryfikację ważności informacji.‘

Autorzy kończą:

‘Żaden z silników odpowiedzi nie osiąga dobrej wydajności w większości wskaźników, co podkreśla dużą potrzebę poprawy silników odpowiedzi.’

* Moja konwersja cytatów wewnętrznych autorów na linki, gdzie konieczne. Gdzie niezbędne, wybrałem pierwszy z wielu cytatów do linku, ze względu na praktyczne formatowanie.

^† Autorzy podkreślają, a nie ja.

Pierwotnie opublikowane w poniedziałek, 4 listopada 2024