Искусственный интеллект
Новые исследования обнаружили шестнадцать основных проблем с системами RAG, включая Perplexity

Недавнее исследование из США показало, что реальная производительность популярных систем исследований Retrieval Augmented Generation (RAG), таких как Perplexity и Bing Copilot, сильно отличается от маркетинговой рекламы и популярного внедрения, которое получило заголовки за последние 12 месяцев.
Проект, в котором приняли участие 21 эксперт в области искусственного интеллекта, здравоохранения и медицины, прикладных наук и образования и социальных наук, все из которых были либо постдокторантами, либо кандидатами наук, показал не менее 16 областей, в которых изученные системы RAG (You Chat, Bing Copilot и Perplexity) вызвали беспокойство:
1: Отсутствие объективных деталей в сгенерированных ответах, с общими резюме и скудной контекстной глубиной или нюансами.
2. Укрепление воспринимаемого пользовательского предубеждения, где двигатель RAG часто не представляет разнообразие взглядов, а вместо этого подразумевает и укрепляет пользовательское предубеждение, основанное на том, как пользователь формулирует вопрос.
3. Чрезмерно уверенный язык, особенно в субъективных ответах, которые не могут быть эмпирически установлены, что может привести пользователей к доверию ответу больше, чем он заслуживает.
4: Упрощенный язык и отсутствие критического мышления и творчества, где ответы эффективно унижают пользователя с “упрощенной” и “согласной” информацией, вместо того, чтобы предоставлять продуманное размышление и анализ.
5: Неправильное указание источников и цитирование, где ответный двигатель использует цитируемые источники, которые не поддерживают его ответ/ответы, создавая иллюзию достоверности.
6: Выбор информации из подразумеваемого контекста, где агент RAG, кажется, ищет ответы, которые поддерживают его сгенерированное утверждение и его оценку того, что пользователь хочет услышать, вместо того, чтобы основывать свои ответы на объективном анализе надежных источников (возможно, указывая на конфликт между “запечатанными” данными LLM и данными, которые он получает на лету из интернета в ответ на запрос).
7: Пропуск цитат, подтверждающих утверждения, где источниковый материал для ответов отсутствует.
8: Отсутствие логической схемы для своих ответов, где пользователи не могут вопросить, почему система отдала предпочтение определенным источникам над другими источниками.
9: Ограниченное количество источников, где большинство систем RAG обычно предоставляют около трех поддерживающих источников для утверждения, даже когда большее разнообразие источников было бы применимо.
10: Осиротевшие источники, где данные из всех или некоторых поддерживающих цитат системы не фактически включены в ответ.
11: Использование ненадежных источников, где система, кажется, предпочла источник, который популярен (т.е. в терминах SEO), а не фактически правильный.
12: Редундантные источники, где система представляет несколько цитат, в которых источниковые документы по сути являются одинаковыми по содержанию.
13: Нефильтрованные источники, где система предлагает пользователю нет способа оценить или отфильтровать предложенные цитаты, заставляя пользователей принимать критерии отбора на доверие.
14: Отсутствие интерактивности или исследуемости, где несколько участников пользовательского исследования были разочарованы тем, что системы RAG не задавали уточняющих вопросов, а предполагали намерение пользователя с первого запроса.
15: Необходимость внешней верификации, где пользователи чувствуют себя вынужденными выполнять независимую верификацию поставленных ответов/ответов, в основном удаляя предполагаемую удобство RAG в качестве “замены поиска”.
16: Использование методов академической цитации, таких как [1] или [34]; это стандартная практика в академических кругах, но может быть неинтуитивной для многих пользователей.
Для работы исследователи собрали 21 эксперта в области искусственного интеллекта, здравоохранения и медицины, прикладных наук и образования и социальных наук, все из которых были либо постдокторантами, либо кандидатами наук. Участники взаимодействовали с протестированными системами RAG, высказывая свои мыслительные процессы вслух, чтобы прояснить (для исследователей) свою собственную рациональную схему.
Статья обширно цитирует сомнения и опасения участников по поводу производительности трех изученных систем.
Методология пользовательского исследования была затем систематизирована в автоматизированное исследование систем RAG, используя наборы контроля браузера:
‘Большомасштабная автоматизированная оценка систем, таких как You.com, Perplexity.ai и BingChat, показала, что ни одна из них не соответствует приемлемой производительности по большинству метрик, включая критические аспекты, связанные с обработкой заявлений, не поддерживаемых утверждений и точности цитирования.’
Авторы утверждают, что как новые, так и опытные пользователи должны проявлять осторожность при использовании класса систем RAG, изученных в исследовании. Они进一步 предлагают новую систему метрик, основанную на недостатках, найденных в исследовании, которая могла бы стать основой для большего технического надзора в будущем.
Однако растущее общественное использование систем RAG побуждает авторов также выступать за соответствующее законодательство и более высокий уровень принудительной государственной политики в отношении интерфейсов поиска, поддерживаемых агентом.
Исследование происходит из пяти исследователей из Университета штата Пенсильвания и Salesforce, и называется Поисковые системы в эпоху ИИ: Ложная обещание фактических и проверяемых источников, подтвержденных цитатами. Работа охватывает системы RAG до состояния искусства в августе 2024 года
Торговля RAG
Авторы предваряют свою работу, повторяя четыре известных недостатков больших языковых моделей (LLM), где они используются в рамках Answer Engines.
Во-первых, они склонны галлюцинировать информацию и не имеют возможности обнаружить фактические несоответствия. Во-вторых, они испытывают трудности оценить точность цитаты в контексте сгенерированного ответа. В-третьих, они склонны предпочитать данные из своих собственных предварительно обученных весов и могут сопротивляться данным из внешней документации, даже если такие данные могут быть более недавними или точными.
Наконец, системы RAG склонны к людям, сикофантскому поведению, часто за счет точности информации в их ответах.
Все эти тенденции были подтверждены в обоих аспектах исследования, среди многих новых наблюдений о ловушках RAG.
Статья рассматривает OpenAI’s SearchGPT RAG-продукт (выпущенный подписчикам на прошлой неделе, после того, как новая статья была отправлена), как вероятно, чтобы поощрить пользовательское внедрение систем поиска, основанных на RAG, несмотря на фундаментальные недостатки, на которые намекают результаты исследования*:
‘Выпуск OpenAI “SearchGPT”, продвигаемый как “убийца Google-поиска”, еще больше усугубляет [обеспокоенности]. По мере роста зависимости от этих инструментов растет и срочность понимания их влияния. Lindemann вводит концепцию Sealed Knowledge, которая критикует, как эти системы ограничивают доступ к разнообразным ответам, конденсируя поисковые запросы в единственные, авторитетные ответы, эффективно деконтекстуализируя информацию и сужая пользовательские перспективы.
‘Эта “запечатка” знаний увековечивает селективные предубеждения и ограничивает маргинализированные точки зрения.’
Исследование
Авторы сначала протестировали свою исследовательскую процедуру на трех участниках из 24 выбранных, всех приглашенных с помощью таких средств, как LinkedIn или электронная почта.
Первый этап, для остальных 21, включал Экспертизу поиска информации, где участники в среднем выполняли около шести поисковых запросов за 40-минутную сессию. Этот раздел сосредоточился на сборе и верификации фактических вопросов и ответов, с потенциальными эмпирическими решениями.
Второй этап касался Дебатов поиска информации, который занимался субъективными вопросами, включая экологию, вегетарианство и политику.

Сгенерированные ответы исследования из Perplexity (слева) и You Chat (справа). Источник: https://arxiv.org/pdf/2410.22349
Поскольку все системы позволяли хотя бы некоторый уровень интерактивности с цитатами, предоставленными в поддержку сгенерированных ответов, субъекты исследования были поощрены взаимодействовать с интерфейсом как можно больше.
В обоих случаях участники были приглашены сформулировать свои запросы как через систему RAG, так и через традиционный поисковый движок (в данном случае, Google).
Три Answer Engines – You Chat, Bing Copilot и Perplexity – были выбраны, потому что они публично доступны.
Большинство участников уже были пользователями систем RAG, с различной частотой.
Из-за ограничений по пространству мы не можем разбить каждое из тщательно задокументированных шестнадцати ключевых недостатков, найденных в исследовании, но здесь представляем выбор некоторых из наиболее интересных и просвещающих примеров.
Отсутствие объективных деталей
Статья отмечает, что пользователи обнаружили, что ответы систем часто не имели объективных деталей, как в фактических, так и в субъективных ответах. Один комментировал:
‘Это было просто попыткой ответить, не давая мне солидного ответа или более продуманного ответа, который я могу получить с помощью нескольких поисковых запросов в Google.’
Другой заметил:
‘Это слишком коротко и просто суммирует все много. [Модель] должна дать мне больше данных для утверждения, но это очень суммировано.’
Отсутствие целостной точки зрения
Авторы выражают обеспокоенность по поводу этого отсутствия нюансов и специфики и заявляют, что Answer Engines часто не представляют множество точек зрения на любой аргумент, склоняясь к воспринимаемому предубеждению, подразумеваемому формулировкой вопроса пользователя.
Один участник сказал:
‘Я хочу узнать больше о другой стороне аргумента… это все с долей соли, потому что мы не знаем другой стороны и доказательств и фактов.’
Другой комментировал:
‘Оно не дает вам обе стороны аргумента; оно не спорит с вами. Вместо этого [модель] просто говорит вам, “вы правы… и вот причины, почему”.’
Уверенный язык
Авторы наблюдают, что все три протестированные системы демонстрировали использование чрезмерно уверенного языка, даже для ответов, которые касаются субъективных вопросов. Они утверждают, что этот тон будет склонен вдохновлять необоснованную уверенность в ответе.
Участник отметил:
‘Оно пишет так уверенно, что я чувствую себя убежденным, даже не глядя на источник. Но когда вы смотрите на источник, он плох, и это заставляет меня снова вопросить его.’
Другой комментировал:
‘Если кто-то не знает правильный ответ, он будет доверять этому, даже когда он неправильный.’
Неправильные цитаты
Другой частой проблемой было неправильное указание источников, цитируемых в качестве власти для ответов систем RAG, с одним из участников исследования, утверждающих:
‘[Это] утверждение не кажется в источнике. Я имею в виду, что утверждение верно; оно действительно… но я не знаю, откуда оно берет эту информацию.’
Авторы новой статьи комментируют †:
‘Участники чувствовали, что системы используют цитаты для легитимации своего ответа, создавая иллюзию достоверности. Этот фасад был открыт только для нескольких пользователей, которые продолжили изучать источники.’
Выбор информации, чтобы удовлетворить запрос
Возвращаясь к идее о том, что системы RAG демонстрируют люди-ориентированное, сикофантское поведение в своих ответах, исследование показало, что многие ответы подчеркивали определенную точку зрения вместо того, чтобы суммировать тему, как один участник наблюдал:
‘Я чувствую, [система] манипулятивна. Она берет только некоторую информацию и чувствует, что я манипулирую, чтобы увидеть только одну сторону вещей.’
Другой заметил:
‘[Источник] на самом деле имеет и плюсы, и минусы, и он выбрал только те аргументы из этой ссылки, которые необходимы, без полной картины.’
Для дальнейших подробных примеров (и множества критических цитат из опроса участников) мы направляем читателя к исходной статье.
Автоматизированная RAG
На втором этапе более широкого исследования исследователи использовали скриптинг на основе браузера для систематического запроса запросов из трех изученных двигателей RAG. Затем они использовали систему LLM (GPT-4o) для анализа ответов систем.
Заявления были проанализированы на релевантность запроса и заявления за и против (т.е. является ли ответ за, против или нейтральным в отношении подразумеваемого предубеждения запроса).
Оценка уверенности ответа также была оценена на этом автоматизированном этапе, на основе метода психометрического тестирования Likert. Здесь судья LLM был дополнен двумя человеческими аннотаторами.
Третья операция включала использование веб-скрейпинга для получения полного текстового содержания цитируемых веб-страниц через инструмент Jina.ai Reader. Однако, как отмечено в других местах статьи, большинство инструментов веб-скрейпинга не способны получить доступ к сайтам с платным доступом, как и большинство людей (хотя авторы отмечают, что Perplexity.ai известен тем, что обходит этот барьер).
Дополнительные соображения включали вопрос о том, цитирует ли ответ источник (вычисляемый как “матрица цитирования”), а также “матрица фактической поддержки” – метрика, проверенная с помощью четырех человеческих аннотаторов.
Таким образом, получилось 8 метрик: односторонний ответ; переуверенный ответ; релевантное заявление; нецитированные источники; не поддерживаемые заявления; необходимость источника; точность цитирования; и полнота цитирования.
Материал, против которого эти метрики были протестированы, состоял из 303 отобранных вопросов из фазы пользовательского исследования, в результате чего получилось 909 ответов по трем протестированным системам.

Количественная оценка по трем протестированным системам RAG, основанная на восьми метриках.
Что касается результатов, статья гласит:
‘Изучая три метрики, связанные с текстом ответа, мы обнаружили, что все оцениваемые двигатели ответов часто (50-80%) генерируют односторонние ответы, отдающие предпочтение согласию с заряженной формулировкой дебатного вопроса над представлением множества точек зрения в ответе, причем Perplexity работает хуже, чем другие два двигателя.
‘Это обнаружение соответствует [нашим] качественным результатам. Удивительно, хотя Perplexity с наибольшей вероятностью сгенерирует односторонний ответ, он также генерирует самые длинные ответы (18,8 утверждений на ответ в среднем), указывая на то, что отсутствие разнообразия ответов не является результатом краткости ответа.
‘Иными словами, увеличение длины ответа не обязательно улучшает разнообразие ответа.’
Авторы также отмечают, что Perplexity с наибольшей вероятностью использует уверенный язык (90% ответов), и что, напротив, другие две системы склонны использовать более осторожный и менее уверенный язык, когда речь идет о субъективном содержании.
You Chat был единственной рамкой RAG, которая достигла нулевых нецитированных источников для ответа, с Perplexity на уровне 8% и Bing Chat на уровне 36%.
Все модели показали “значительную долю” не поддерживаемых заявлений, и статья заявляет†:
‘Фреймворк RAG рекламируется как решение проблемы галлюцинаторного поведения LLM, обеспечивая, чтобы LLM генерировал ответ, основанный на документах-источниках, однако результаты показывают, что двигатели ответов, основанные на RAG, все равно генерируют ответы, содержащие большую часть заявлений, не поддерживаемых источниками, которые они предоставляют.‘
Кроме того, все протестированные системы испытывали трудности в поддержке своих заявлений цитатами:
‘You.Com и [Bing Chat] работают немного лучше, чем Perplexity, с примерно двумя третями цитат, указывающих на источник, подтверждающий цитируемое заявление, и Perplexity работает хуже, с более чем половиной своих цитат, являющихся неточными.
‘Этот результат удивителен: цитирование не только неверно для заявлений, которые не поддерживаются никаким (источником), но мы обнаружили, что даже когда существует источник, подтверждающий заявление, все двигатели все равно часто цитируют другой неправильный источник, упуская возможность предоставить правильную информацию источника пользователю.
‘Иными словами, галлюцинаторное поведение не только проявляется в заявлениях, которые не поддерживаются источниками, но и в неточных цитатах, которые запрещают пользователям проверять действительность информации.‘
Авторы заключают:
‘Ни один из двигателей ответов не достигает хорошей производительности по большинству метрик, подчеркивая большую возможность для улучшения двигателей ответов.’
* Мое преобразование внутренних цитат авторов в гиперссылки. Когда это необходимо, я выбрал первую из нескольких цитат для гиперссылки из-за практических соображений форматирования.
† Акцент авторов, а не мой.
Опубликовано впервые в понедельник, 4 ноября 2024 года








