Inteligjenca artificiale
Hulumtimi i ri zbulon gjashtëmbëdhjetë probleme kryesore me sistemet RAG, duke përfshirë hutimin

Një studim i kohëve të fundit nga SHBA ka gjetur se performanca e botës reale është popullore Rikthimi i Gjeneratës së Shtuar Sistemet e kërkimit (RAG) si Perplexity dhe Bing Copilot janë shumë më të ulëta si nga buja e marketingut ashtu edhe nga miratimi popullor që ka mbledhur titujt kryesorë gjatë 12 muajve të fundit.
Projekti, i cili përfshiu një pjesëmarrje të gjerë në sondazh me 21 zëra ekspertësh, gjeti jo më pak se 16 fusha në të cilat sistemet e studiuara RAG (You Chat, Bing Copilot dhe Perplexity) krijuan arsye për shqetësim:
1: Mungesa e detajeve objektive në përgjigjet e gjeneruara, me përmbledhje të përgjithshme dhe thellësi apo nuanca të pakta kontekstuale.
2. Përforcimi i paragjykimit të perceptuar të përdoruesit, ku një motor RAG shpesh dështon të paraqesë një sërë këndvështrimesh, por përkundrazi nxjerr dhe përforcon paragjykimet e përdoruesit, bazuar në mënyrën se si përdoruesi formulon një pyetje.
3. Gjuhë tepër e sigurt, veçanërisht në përgjigjet subjektive që nuk mund të përcaktohen në mënyrë empirike, të cilat mund t'i bëjnë përdoruesit t'i besojnë përgjigjes më shumë sesa meriton.
4: Gjuha e thjeshtuar dhe mungesa e të menduarit kritik dhe krijimtarisë, ku përgjigjet në mënyrë efektive e mbrojnë përdoruesin me informacione 'të pamenduara' dhe 'të pëlqyeshme', në vend të mendimeve dhe analizave.
5: Atribuimi dhe keqcitimi i burimeve, ku motori i përgjigjeve përdor burime të cituara që nuk mbështesin përgjigjen/përgjigjet e tij, duke nxitur iluzionin e besueshmërisë.
6: Informacion për zgjedhjen e qershisë nga konteksti i konstatuar, ku agjenti RAG duket se po kërkon përgjigje që mbështesin pretendimin e tij të krijuar dhe vlerësimin e tij të asaj që përdoruesi dëshiron të dëgjojë, në vend që t'i bazojë përgjigjet e tij në analizën objektive të burimeve të besueshme (ndoshta duke treguar një konflikt midis të dhënave LLM 'të pjekura' të sistemit dhe të dhënave që ai merr në fluturim nga interneti në përgjigje të një pyetjeje).
7: Heqja e citimeve që mbështesin deklaratat, ku mungon materiali burimor për përgjigjet.
8: Duke mos ofruar asnjë skemë logjike për përgjigjet e saj, ku përdoruesit nuk mund të pyesin pse sistemi i ka dhënë përparësi burimeve të caktuara ndaj burimeve të tjera.
9: Numri i kufizuar i burimeve, ku shumica e sistemeve RAG zakonisht ofrojnë rreth tre burime mbështetëse për një deklaratë, edhe kur një diversitet më i madh burimesh do të ishte i zbatueshëm.
10: Burime jetime, ku të dhënat nga të gjitha ose disa nga citimet mbështetëse të sistemit nuk përfshihen në të vërtetë në përgjigje.
11: Përdorimi i burimeve jo të besueshme, ku sistemi duket se ka preferuar një burim që është i popullarizuar (dmth. në termat e SEO) në vend që të jetë i saktë faktikisht.
12: Burime të tepërta, ku sistemi paraqet citate të shumta në të cilat punimet burimore janë në thelb të njëjta në përmbajtje.
13: Burime të pafiltruara, ku sistemi nuk i ofron përdoruesit asnjë mënyrë për të vlerësuar ose filtruar citimet e ofruara, duke i detyruar përdoruesit të marrin kriteret e përzgjedhjes në besim.
14: Mungesa e interaktivitetit ose eksplorueshmërisë, ku disa nga pjesëmarrësit e studimit të përdoruesit ishin të frustruar që sistemet RAG nuk bënin pyetje sqaruese, por supozuan qëllimin e përdoruesit që nga pyetja e parë.
15: Nevoja për verifikim të jashtëm, ku përdoruesit ndihen të detyruar të kryejnë verifikim të pavarur të përgjigjeve/përgjigjeve të ofruara, duke hequr në masë të madhe komoditetin e supozuar të RAG si një "zëvendësim për kërkim".
16: Përdorimi i metodave akademike të citimit, si [1] or [34]; kjo është praktikë standarde në rrethet e studiuesve, por mund të jetë jointuitive për shumë përdorues.
Për punën, studiuesit mblodhën 21 ekspertë në inteligjencën artificiale, kujdesin shëndetësor dhe mjekësinë, shkencat e aplikuara dhe arsimin dhe shkencat sociale, të gjithë ose studiues pas doktoraturës ose kandidatë për doktoraturë. Pjesëmarrësit ndërvepruan me sistemet e testuara RAG ndërsa flisnin me zë të lartë proceset e tyre të mendimit, për të sqaruar (për studiuesit) skemën e tyre racionale.
Punimi citon gjerësisht dyshimet dhe shqetësimet e pjesëmarrësve në lidhje me performancën e tre sistemeve të studiuara.
Metodologjia e studimit të përdoruesit u sistemua më pas në një studim të automatizuar të sistemeve RAG, duke përdorur paketat e kontrollit të shfletuesit:
"Një vlerësim i automatizuar në shkallë të gjerë i sistemeve si You.com, Perplexity.ai dhe BingChat tregoi se asnjëri nuk përmbushi performancë të pranueshme në shumicën e metrikave, duke përfshirë aspektet kritike që lidhen me trajtimin e halucinacioneve, deklaratat e pambështetura dhe saktësinë e citimeve."
Autorët argumentojnë gjerësisht (dhe me këmbëngulje, në punimin gjithëpërfshirës prej 27 faqesh) se si përdoruesit e rinj ashtu edhe ata me përvojë duhet të tregojnë kujdes kur përdorin klasën e sistemeve RAG të studiuar. Ata propozojnë më tej një sistem të ri metrikë, bazuar në mangësitë e gjetura në studim, që mund të formojnë themelin e një mbikëqyrjeje më të madhe teknike në të ardhmen.
Megjithatë, në rritje Përdorimi publik i sistemeve RAG i shtyn autorët të mbrojnë legjislacionin e duhur dhe një nivel më të madh të politikave të detyrueshme qeveritare në lidhje me ndërfaqet e kërkimit të AI të ndihmuara nga agjentët.
La studim vjen nga pesë studiues në Universitetin Shtetëror të Pensilvanisë dhe Salesforce, dhe titullohet Motorët e kërkimit në një epokë të AI: Premtimi i rremë i përgjigjeve faktike dhe të verifikueshme të cituara nga burimi. Puna mbulon sistemet RAG deri në gjendjen e artit në gusht të 2024
Shkëmbimi i RAG
Autorët e paraprijnë punën e tyre duke përsëritur katër mangësi të njohura të Modeleve të Mëdha të Gjuhës (LLM) ku ato përdoren brenda Answer Engines.
Së pari, ata janë të prirur për informacion halucinativ, dhe i mungon aftësia për të zbulojnë mospërputhjet faktike. Së dyti, ata kanë vështirësi duke vlerësuar saktësinë të një citimi në kontekstin e një përgjigjeje të krijuar. Së treti, ata priren të favorizojnë të dhënat nga peshat e tyre të trajnuara paraprakisht dhe mund t'i rezistojnë të dhënave nga dokumentacioni i marrë nga jashtë, edhe pse të dhëna të tilla mund të jenë më të fundit ose më të sakta.
Së fundi, sistemet RAG tentojnë të kënaqin njerëzit, sjellje sikofantike, shpesh në kurriz të saktësisë së informacionit në përgjigjet e tyre.
Të gjitha këto tendenca u konfirmuan në të dy aspektet e studimit, mes shumë vëzhgimeve të reja rreth kurtheve të RAG.
Gazeta shikon OpenAI's SearchGPT produkt RAG (lëshuar abonentëve javën e kaluar, pas dorëzimit të dokumentit të ri), pasi ka të ngjarë të inkurajojë adoptimin nga përdoruesi të sistemeve të kërkimit të bazuara në RAG, pavarësisht nga mangësitë themelore që sugjerojnë rezultatet e sondazhit*:
'Lëshimi i 'SearchGPT' i OpenAI, i tregtuar si një "Vrasës i kërkimit në Google", përkeqëson më tej [shqetësimet]. Ndërsa mbështetja në këto mjete rritet, rritet edhe urgjenca për të kuptuar ndikimin e tyre. Lindeman prezanton konceptin e Njohurisë së Vulosur, e cila kritikon mënyrën se si këto sisteme kufizojnë aksesin në përgjigje të ndryshme duke kondensuar pyetjet e kërkimit në përgjigje të veçanta, autoritare, duke dekontekstualizuar në mënyrë efektive informacionin dhe duke ngushtuar përdorues Perspektivat.
"Kjo "vulosje" e njohurive përjetëson paragjykimet e përzgjedhjes dhe kufizon pikëpamjet e margjinalizuara.'
Studimi
Autorët fillimisht testuan procedurën e tyre të studimit në tre nga 24 pjesëmarrësit e përzgjedhur, të gjithë të ftuar me mjete të tilla si LinkedIn ose email.
Faza e parë, për 21 të tjerët, përfshiu Rikthimi i informacionit të ekspertizës, ku pjesëmarrësit vlerësuan mesatarisht rreth gjashtë pyetje kërkimi gjatë një sesioni 40-minutësh. Ky seksion u përqendrua në mbledhjen dhe verifikimin e bazuar në fakte pyetje dhe përgjigje, me zgjidhje të mundshme empirike.
Faza e dytë në fjalë Marrja e informacionit të debatit, i cili në vend të kësaj merrej me çështje subjektive, duke përfshirë ekologjinë, vegjetarianizmin dhe politikën.

Gjeneruar përgjigjet e studimit nga Perplexity (majtas) dhe You Chat (djathtas). Burimi: https://arxiv.org/pdf/2410.22349
Meqenëse të gjitha sistemet lejonin të paktën një nivel ndërveprimi me citimet e ofruara si mbështetje për përgjigjet e krijuara, subjektet e studimit u inkurajuan të ndërveprojnë me ndërfaqen sa më shumë që të ishte e mundur.
Në të dyja rastet, pjesëmarrësve iu kërkua të formulonin kërkesat e tyre të dyja nëpërmjet një sistemi RAG dhe një motor kërkimi konvencional (në këtë rast, Google).
Tre motorët e përgjigjeve - You Chat, Bing Copilot dhe Perplexity - u zgjodhën sepse janë të aksesueshëm nga publiku.
Shumica e pjesëmarrësve ishin tashmë përdorues të sistemeve RAG, në frekuenca të ndryshme.
Për shkak të kufizimeve të hapësirës, ne nuk mund të zbërthejmë secilën nga gjashtëmbëdhjetë mangësitë kryesore të dokumentuara në mënyrë shteruese të gjetura në studim, por këtu paraqesim një përzgjedhje të disa prej shembujve më interesantë dhe më të qartë.
Mungesa e detajeve objektive
Gazeta vëren se përdoruesit zbuluan se përgjigjeve të sistemeve shpesh u mungonin detaje objektive, si në përgjigjet faktike ashtu edhe në ato subjektive. Një komentoi:
"Ishte thjesht duke u përpjekur të përgjigjem pa më dhënë një përgjigje të fortë ose një përgjigje më të menduar, të cilën mund ta marr me kërkime të shumta në Google."
Një tjetër vërejti:
"Është shumë e shkurtër dhe thjesht përmbledh gjithçka shumë. [Modeli] duhet të më japë më shumë të dhëna për pretendimin, por është shumë e përmbledhur.'
Mungesa e këndvështrimit holistik
Autorët shprehin shqetësimin për këtë mungesë nuance dhe specifikë, dhe deklarojnë se Motorët e Përgjigjeve shpesh dështuan të paraqisnin këndvështrime të shumëfishta për çdo argument, duke u prirur të anonin nga një paragjykim i perceptuar i nxjerrë nga shprehja e vetë përdoruesit për pyetjen.
Një pjesëmarrës tha:
"Dua të zbuloj më shumë për anën e kundërt të argumentit... kjo është e gjitha me pak kripë, sepse ne nuk e dimë anën tjetër dhe provat dhe faktet."
Një tjetër komentoi:
'Nuk po ju jep të dyja anët e argumentit; nuk po debaton me ty. Në vend të kësaj, [modelja] thjesht po ju thotë, 'ke të drejtë… dhe ja arsyet pse.'
Gjuhë e sigurt
Autorët vërejnë se të tre sistemet e testuara shfaqën përdorimin e gjuhës së tepërt të sigurt, madje edhe për përgjigjet që mbulojnë çështje subjektive. Ata pretendojnë se ky ton do të tentojë të frymëzojë besim të pajustifikuar në përgjigje.
Një pjesëmarrës vuri në dukje:
“Shkruan me aq besim, saqë ndihem i bindur pa e parë as burimin. Por kur shikon burimin, është keq dhe kjo më bën ta vë në dyshim përsëri.'
Një tjetër komentoi:
"Nëse dikush nuk e di saktësisht përgjigjen e duhur, ata do t'i besojnë kësaj edhe kur është e gabuar."
Citime të pasakta
Një problem tjetër i shpeshtë ishte keqpërdorimi i burimeve të cituara si autoritet për përgjigjet e sistemeve RAG, me një nga subjektet e studimit që pohoi:
'[Kjo] deklaratë nuk duket të jetë në burim. Dua të them që deklarata është e vërtetë; është e vlefshme... por nuk e di se nga e merr këtë informacion.'
Komentojnë autorët e gazetës së re †:
"Pjesëmarrësit mendonin se sistemet ishin duke përdorur citate për të legjitimuar përgjigjen e tyre, duke krijuar një iluzion besueshmërie. Kjo fasadë iu zbulua vetëm disa përdoruesve të cilët vazhduan të kontrollonin burimet.'
Informacione për zgjedhjen e qershive për t'iu përshtatur pyetjes
Duke iu rikthyer nocionit të sjelljes së pëlqyeshme për njerëzit, në përgjigjet e RAG, studimi zbuloi se shumë përgjigje theksonin një këndvështrim të veçantë në vend që të përmblidhnin në mënyrë gjithëpërfshirëse temën, siç vërejti një pjesëmarrës:
“Ndjej se [sistemi] është manipulues. Duhen vetëm disa informacione dhe më duket se jam i manipuluar për të parë vetëm një anë të gjërave.'
Një tjetër mendim:
'[Burimi] në fakt ka të mirat dhe të këqijat, dhe është zgjedhur të zgjedhë vetëm llojin e argumenteve të kërkuara nga kjo lidhje pa të gjithë pamjen.'
Për shembuj të mëtejshëm të thelluar (dhe citate të shumta kritike nga pjesëmarrësit e anketës), ne i referojmë lexuesit te letra burimore.
RAG i automatizuar
Në fazën e dytë të studimit më të gjerë, studiuesit përdorën skriptimin e bazuar në shfletues për të kërkuar sistematikisht pyetje nga tre motorët e studiuar RAG. Më pas ata përdorën një sistem LLM (GPT-4o) për të analizuar përgjigjet e sistemeve.
Deklaratat u analizuan për rëndësinë e pyetjes Deklarata Pro vs Con (dmth, nëse përgjigja është pro, kundër ose neutrale, në lidhje me paragjykimin e nënkuptuar të pyetjes.
An Përgjigje Rezultati i besimit u vlerësua edhe në këtë fazë të automatizuar, bazuar në Shkalla e Likertit metoda e testimit psikometrik. Këtu gjyqtari i LLM u shtua nga dy annotues njerëzorë.
Një operacion i tretë përfshin përdorimin e gërvishtjes së uebit për të marrë përmbajtjen e plotë të tekstit të ueb-faqeve të cituara, nëpërmjet mjetit Jina.ai Reader. Megjithatë, siç u përmend diku tjetër në punim, shumica e mjeteve të gërvishtjes së internetit nuk janë më të afta për të hyrë në faqet me mure pagese sesa shumica e njerëzve (megjithëse autorët vërejnë se Perplexity.ai ka qenë i njohur për anashkalojë këtë pengesë).
Konsiderata shtesë ishin nëse përgjigjet citonin apo jo një burim (të llogaritur si 'matricë citimi'), si dhe një 'matricë mbështetëse faktike' - një metrikë e verifikuar me ndihmën e katër anotuesve njerëzorë.
Kështu u morën 8 metrikë gjithëpërfshirëse: përgjigje e njëanshme; përgjigje tepër e sigurt; deklaratë përkatëse; burime të pacituara; deklarata të pambështetura; domosdoshmëri burimore; saktësia e citimitDhe tërësia e citimit.
Materiali kundrejt të cilit u testuan këto metrika përbëhej nga 303 pyetje të kuruara nga faza e studimit të përdoruesit, duke rezultuar në 909 përgjigje në të tre sistemet e testuara.

Vlerësimi sasior në të tre sistemet e testuara RAG, bazuar në tetë metrikë.
Sa i përket rezultateve, në gazetë thuhet:
"Duke parë tre metrikat në lidhje me tekstin e përgjigjes, ne zbulojmë se motorët e përgjigjeve të vlerësuara shpesh (50-80%) gjenerojnë përgjigje të njëanshme, duke favorizuar marrëveshjen me një formulim të ngarkuar të një pyetjeje debati mbi paraqitjen e këndvështrimeve të shumta në përgjigje. me Perplexity që performon më keq se dy motorët e tjerë.
“Kjo gjetje përputhet me [gjetjet] e rezultateve tona cilësore. Çuditërisht, megjithëse Perplexity ka më shumë gjasa të gjenerojë një përgjigje të njëanshme, ai gjeneron gjithashtu përgjigjet më të gjata (18.8 deklarata për përgjigje mesatarisht), duke treguar se mungesa e diversitetit të përgjigjeve nuk është për shkak të shkurtësisë së përgjigjes.
"Me fjalë të tjera, rritja e gjatësisë së përgjigjeve nuk përmirëson domosdoshmërisht diversitetin e përgjigjeve."
Autorët vërejnë gjithashtu se Perplexity ka më shumë gjasa të përdorë gjuhë të sigurt (90% e përgjigjeve) dhe se, në të kundërt, dy sistemet e tjera priren të përdorin gjuhë më të kujdesshme dhe më pak të sigurt, ku përmbajtja subjektive është në lojë.
You Chat ishte i vetmi kuadër RAG që arriti zero burime të pacituara për një përgjigje, me Perplexity në 8% dhe Bing Chat në 36%.
Të gjitha modelet evidentuan një 'proporcion të konsiderueshëm' deklaratash të pambështetura, dhe deklaron gazeta†:
"Kuadri RAG reklamohet për të zgjidhur sjelljen halucinative të LLM-ve duke detyruar që një LLM të gjenerojë një përgjigje të bazuar në dokumentet burimore, megjithatë rezultatet tregojnë se motorët e përgjigjeve të bazuara në RAG ende gjenerojnë përgjigje që përmbajnë një pjesë të madhe të deklaratave të pambështetura nga burimet që ato ofrojnë.'
Për më tepër, të gjitha sistemet e testuara kishin vështirësi në mbështetjen e deklaratave të tyre me citate:
'You.Com dhe [Bing Chat] performojnë pak më mirë se Perplexity, me afërsisht dy të tretat e citimeve që tregojnë një burim që mbështet deklaratën e cituar, dhe Perplexity performon më keq me më shumë se gjysma e citimeve të tij të pasakta.
'Ky rezultat është befasues: citimi nuk është vetëm i pasaktë për deklaratat që nuk mbështeten nga asnjë (burim), por ne zbulojmë se edhe kur ekziston një burim që mbështet një deklaratë, të gjithë motorët ende shpesh citojnë një burim të ndryshëm të pasaktë, duke munguar mundësia për t'i ofruar përdoruesit burimin e saktë të informacionit.
'Me fjalë të tjera, sjellja halucinative nuk shfaqet vetëm në deklarata që nuk mbështeten nga burimet, por edhe në citate të pasakta që i ndalojnë përdoruesit të verifikojnë vlefshmërinë e informacionit.'
Autorët përfundojnë:
"Asnjë nga motorët e përgjigjeve nuk arrin performancë të mirë në shumicën e matjeve, duke theksuar hapësirën e madhe për përmirësim në motorët e përgjigjeve."
* Konvertimi im i citimeve inline të autorëve në hiperlidhje. Aty ku është e nevojshme, kam zgjedhur të parin nga citimet e shumta për hiperlidhjen, për shkak të praktikave të formatimit.
† Theksi i autorëve, jo i imi.
Botuar për herë të parë të hënën, 4 nëntor 2024