Tekoäly

Uusi tutkimus paljastaa kuusiatoista suurta ongelmaa RAG-järjestelmissä, mukaan lukien Perplexity

Published November 4, 2024

Updated April 27, 2026

Martin Anderson

Image generated by ChatGPT-4o, with prompt ' Create a highly photorealistic panoramic image of a robot frantically searching the internet on a laptop. Do not stylize this image so that it looks like a false or AI-created image'

Yhdysvalloista saatavassa tuoreessa tutkimuksessa on havaittu, että suosittujen Retrieval Augmented Generation (RAG) -tutkimusjärjestelmien, kuten Perplexityn ja Bing Copilotin, todellinen suorituskyky jää kauas markkinointihypestä ja suosiosta, joka on ollut otsikoissa viimeisen 12 kuukauden ajan.

Tutkimus, johon osallistui 21 asiantuntijan laaja kysely, osoitti 16 aluetta, joilla tutkitut RAG-järjestelmät (You Chat, Bing Copilot ja Perplexity) aiheuttivat huolta:

1: Objektiivisen yksityiskohtaisuuden puute luoduissa vastauksissa, jossa yleiset yhteenvedot ja niukka kontekstuaalinen syvyys tai hienovaraisuus.

2. Käyttäjän näkemyksen vahvistaminen, jossa RAG-moottori usein epäonnistuu esittämään erilaisia näkökulmia, vaan sen sijaan seuraa ja vahvistaa käyttäjän näkemyksen, joka perustuu siihen, miten käyttäjä muotoilee kysymyksensä.

3. Liian itsevarma kieli, erityisesti subjektiivisissa vastauksissa, joita ei voida empiirisesti vahvistaa, mikä voi johtaa siihen, että käyttäjä luottaa vastaukseen enemmän kuin se ansaitsee.

4: Yksinkertainen kieli ja kriittisen ajattelun ja luovuuden puute, jossa vastaukset käyttäjälle yksinkertaista ja “sopivaa” tietoa, sen sijaan että ne sisältäisivät ajattelun ja analyysin.

5: Lähteiden virheellinen määritys ja viittaus, jossa vastausmoottori käyttää viittauksia, jotka eivät tue sen vastausta, luoden illuusion uskottavuudesta.

6: Tietojen valikointi oletetusta kontekstista, jossa RAG-väylä näyttää etsivän vastauksia, jotka tukevat sen luomaan väittämään ja sen arvioimaan siitä, mitä käyttäjä “haluaa kuulla”, sen sijaan että se perustuu objektiiviseen analyysiin luotettavista lähteistä (mahdollisesti osoittaen ristiriitaa järjestelmän “paistetun” LLM-aineiston ja internetistä haettujen tietojen välillä).

7: Viestien puute, jotka tukevat lausumia, jossa lähdemateriaalia vastauksille puuttuu.

8: Ei loogista skeemaa vastauksille, jossa käyttäjät eivät voi kyseenalaistaa, miksi järjestelmä priorisoi tiettyjä lähteitä muiden lähteiden sijaan.

9: Rajoitettu määrä lähteitä, jossa useimmat RAG-järjestelmät tarjoavat yleensä noin kolme tukilähdettä lausumalle, vaikka laajempi lähteiden monimuotoisuus olisi sovellettavissa.

10: Orpoja lähteitä, jossa järjestelmän tukilähteiden tiedot eivät ole mukana vastauksessa.

11: Epäluotettavien lähteiden käyttö, jossa järjestelmä näyttää suosineen lähdettä, joka on suosittu (esim. hakukoneoptimoinnin kannalta) sen sijaan, että se olisi tosiasiallisesti oikein.

12: Redundantit lähteet, jossa järjestelmä esittää useita viittauksia, joissa lähteiden sisältö on käytännössä sama.

13: Suodattamattomat lähteet, jossa järjestelmä ei tarjoa käyttäjälle mahdollisuutta arvioida tai suodattaa tarjottuja lähteitä, pakottaen käyttäjän luottamaan valintakriteereihin.

14: Vuorovaikutuksen tai tutkimuksen puute, jossa useat käyttäjätutkimuksen osallistujat olivat pettyneitä, että RAG-järjestelmät eivät kysyneet tarkentavia kysymyksiä, vaan oletti käyttäjän aikomuksen ensimmäisestä kysymyksestä.

15: Ulkoisen vahvistamisen tarve, jossa käyttäjät kokevat tarpeen tehdä itsenäinen vahvistus tarjotuista vastauksista, mikä vähentää RAG:n oletettua käytännöllisyyttä “hakukoneen korvikkeena”.

16: Akateemisten viittausmenetelmien käyttö, kuten [1] tai [34]; tämä on standardikäytäntö akateemisissa piireissä, mutta voi olla epäintuitiivinen monille käyttäjille.

Tutkimuksessa osallistui 21 asiantuntijaa, jotka edustivat tekoälyä, terveydenhuoltoa ja lääketiedettä, soveltavia tieteitä ja koulutusta sekä yhteiskuntatieteitä, ja he olivat joko post-doktorin tutkijoita tai väitöskirjatutkijoita. Tutkimuksen osallistujat vuorovaikuttivat tutkituilla RAG-järjestelmillä puhuen ajatuksiaan ääneen, jotta tutkijat voisivat ymmärtää heidän oman rationaalisensa.

Tutkimusaineisto on laajasti siteerattu osallistujien epäilyjä ja huolia RAG-järjestelmien suorituskyvystä.

Tutkimuksen menetelmä muunnettiin järjestelmälliseksi automaattiseksi tutkimukseksi RAG-järjestelmistä, käyttäen selainohjausohjelmia:

‘Laajamittainen automaattinen arviointi järjestelmistä kuten You.com, Perplexity.ai ja BingChat osoitti, että mikään niistä ei täyttänyt hyväksyttyjä suorituskykyvaatimuksia useimmissa mittareissa, mukaan lukien kriittiset hallinnan näkökulmat, kuten hallusinaatioiden, tukemattomien lausumien ja viittausvirheiden käsittely.’

Tutkijat väittävät, että sekä uudet että kokeneet käyttäjät tulisi olla varovaisia käyttäessään tutkittuja RAG-järjestelmiä. He ehdottavat myös uutta mittaristoa, joka perustuu tutkimuksessa havaittuun puutteisiin, ja joka voisi muodostaa perustan teknisen valvonnan lisäämiselle tulevaisuudessa.

Kuitenkin kasvava julkinen käyttö RAG-järjestelmistä saa tutkijat myös kannattamaan sovellettavaa lainsäädäntöä ja suurempaa hallitsevaa viranomaistason politiikkaa agenttien avustamien tekoälyhakuliittymien suhteen.

Tutkimus on tehty viidelle tutkijalle Pennsylvanian osavaltion yliopistosta ja Salesforcesta, ja sen otsikko on Hakukoneet tekoälyajan alla: Faktuaalisten ja verifioiden lähteisiin perustuvien vastausten väärä lupa. Tutkimus kattaa RAG-järjestelmät nykyisellään elokuussa 2024

RAG-kauppa

Tutkijat aloittavat työnsä toistamalla neljä tunnettua puutetta Large Language Modelleissa (LLM), kun niitä käytetään Vastausmoottoreissa.

Ensinnäkin, ne ovat alttiita hallusinaatioille ja niillä on vaikeuksia havaita faktuaalisia ristiriitoja. Toiseksi, niillä on vaikeuksia arvioida viittauksen tarkkuutta luodun vastauksen kontekstissa. Kolmanneksi, ne suosivat omia esikoulutettuja painoja ja voivat vastustaa ulkoisesti haettuja asiakirjoja, vaikka ne voisivat olla uudempia tai tarkempia.

Näitä taipumuksia vahvistettiin molemmissa tutkimuksen osissa, sekä useita uusia havaintoja RAG-järjestelmien virheistä.

Tutkimus pitää OpenAI:n SearchGPT RAG-tuotetta (julkaistu tilaajille viime viikolla, tutkimuksen jälkeen), todennäköisenä syynä RAG-pohjaisen hakujärjestelmän käyttöön, huolimatta perustavanlaatuisista puutteista, joita tutkimuksen tulokset viittaavat:

‘OpenAI:n “SearchGPT”:n julkaisu, markkinoiden “Google-hakukoneen tappajana”, lisää [huolia]. Koska näiden työkalujen käyttö lisääntyy, niin kasvaa myös kiireellisyys ymmärtää niiden vaikutus. Lindemann esittää “Suljetun tiedon” käsitteen, joka arvostelee, miten nämä järjestelmät rajoittavat pääsyä moninaisiin vastauksiin tiivistämällä hakukysymykset yhteen, auktoritatiiviseen vastaukseen, jolloin tieto dekontekstualisoidaan ja käyttäjän näkökulmat käyttäjän käyttö tapahtuu.

‘Tämä “sulkeminen” tietoa ylläpitää valintapuutteita ja rajoittaa marginaalisten näkökulmien esittämistä.’

Tutkimus

Tutkijat testasivat ensin tutkimusmenetelmäänsä kolmella 24:stä valitusta osallistujasta, jotka kutsuttiin LinkedInin tai sähköpostin kautta.

Ensimmäinen vaihe, loput 21:lle, käsitti Asiantuntijatiedon hakemisen, jossa osallistujat keskimäärin noin kuusi hakukysymystä 40 minuutin istunnossa. Tämä osio keskittyi faktapohjaisiin kysymyksiin ja vastauksiin, joissa oli potentiaalisia empiirisia ratkaisuja.

Toisessa vaiheessa käsiteltiin Debattiin liittyvää tietohakua, joka koski subjektiivisia aiheita, kuten ekologiaa, kasvissyöntiä ja politiikkaa.

Perplexityn (vasemmalla) ja You Chatin (oikealla) generoimia tutkimusvastauksia. Lähde: https://arxiv.org/pdf/2410.22349

Koska kaikki järjestelmät sallivat jonkinlaisen vuorovaikutuksen tarjotuilla lähteillä, tutkimuksen kohteet kehotettiin vuorovaikuttamaan käyttöliittymän kanssa mahdollisimman paljon.

Molemmissa tapauksissa osallistujilta pyydettiin muotoilemaan kysymyksensä sekä RAG-järjestelmän kautta että perinteisen hakukoneen (tässä tapauksessa Google) kautta.

Kolme Vastausmoottoria – You Chat, Bing Copilot ja Perplexity – valittiin, koska ne ovat julkisesti saatavilla.

Useimmat osallistujista olivat jo RAG-järjestelmien käyttäjiä, eri taajuuksilla.

Tilaa säästääksemme emme voi esittää kaikkia 16:ta tutkimuksessa havaittua merkittävää puutetta, mutta esitämme valikoiman joistakin mielenkiintoisimmista ja valaistavimmista esimerkeistä.

Objektiivisen yksityiskohtaisuuden puute

Tutkimusraportti toteaa, että käyttäjät kokivat usein, että järjestelmien vastaukset olivat objektiivisen yksityiskohtaisuuden puutetta, sekä faktuaalisissa että subjektiivisissa vastauksissa. Yksi osallistuja kommentoi:

‘Se yritti vain vastata ilman, että se antoi minulle vankkaa vastausta tai tarkemmin ajateltua vastausta, jota minä voin saada useilla Google-haulla.’

Toinen osallistuja huomautti:

‘Se on liian lyhyt ja se yhteenvedonlyö vain kaikkea. [Malli] tarjoaa minulle enemmän tietoa väitteestä, mutta se on hyvin yhteenvedonlyö.

Holistisen näkökulman puute

Tutkijat ovat huolissaan tästä yksityiskohtaisuuden ja tarkkuuden puutteesta ja toteavat, että Vastausmoottorit usein epäonnistuivat esittämään useita näkökulmia argumenttiin, suostumalla käyttäjän oletettuun näkemykseen, joka on johdettu käyttäjän kysymyksen muotoilusta.

Yksi osallistuja sanoi:

‘Haluan tietää enemmän vastakkaisen argumentin puolesta… tämä on pinch of salt, koska emme tiedä toista puolta ja todisteita ja faktoja.’

Toinen kommentoi:

‘Se ei anna minulle molempia puolia argumentille; se ei kiista minun kanssa. Sen sijaan [malli] vain kertoo minulle, “olet oikeassa… ja tässä ovat syyt, miksi”.’

Itsevarma kieli

Tutkijat huomaavat, että kaikki kolme testattua järjestelmää käyttivät itsevarmaa kieltä, erityisesti subjektiivisissa vastauksissa. He väittävät, että tämä sävy saa aikaan, että käyttäjä luottaa vastaukseen enemmän kuin se ansaitsee.

Yksi osallistuja huomautti:

‘Se kirjoittaa niin itsevarmasti, että minä tunsin vakuuttuneeksi, enkä edes katsonut lähdettä. Mutta kun katsot lähteen, se on huono, ja se saa minut kyseenalaistamaan sen uudelleen.’

Toinen kommentoi:

‘Jos joku ei tiedä oikeaa vastausta, he luottavat siihen, vaikka se on väärä.’

Väärät viittaukset

Yksi yleinen ongelma oli lähteiden virheellinen määritys, jolloin yksi tutkimuksen osallistujista väitti:

‘[Tämä] lause ei ole lähteessä. Tarkoitan, että lause on tosi; se on voimassa… mutta en tiedä, mistä se saa tämän tiedon.’

Tutkimuksen tekijät toteavat:

‘Osallistujat kokivat, että järjestelmät käyttivät viittauksia oikeuttamaan vastauksensa, luoden illuusion uskottavuudesta. Tämä illuusio paljastui vain muutamalle käyttäjälle, jotka tarkastelivat lähteitä tarkemmin.’

…