Искусственный интеллект

Новое исследование выявило шестнадцать основных проблем с системами RAG, включая замешательство

опубликованный 4 ноября 2024

Мартин Андерсон

Изображение, созданное ChatGPT-4o, с подсказкой «Создайте высокофотореалистичное панорамное изображение робота, лихорадочно ищущего информацию в Интернете на ноутбуке. Не стилизуйте это изображение так, чтобы оно выглядело как поддельное или созданное искусственным интеллектом изображение».

Недавнее исследование, проведенное в США, показало, что реальная эффективность популярных Извлечение дополненной генерации (RAG) исследовательские системы, такие как Perplexity и Bing Copilot, далеки от маркетинговой шумихи и массового принятия, которые были в заголовках новостей за последние 12 месяцев.

В ходе проекта, в котором приняли участие 21 эксперт, было выявлено не менее 16 областей, в которых исследуемые системы RAG (You Chat, Bing Copilot и Perplexity) вызывали беспокойство:

1: Отсутствие объективной детализации в полученных ответах, с общими резюме и скудной контекстной глубиной или нюансами.

2. Усиление предполагаемой предвзятости пользователя, где механизм RAG часто не в состоянии представить ряд точек зрения, а вместо этого делает выводы и усиливает предвзятость пользователя на основе того, как пользователь формулирует вопрос.

3. Излишне самоуверенный язык, особенно в субъективных ответах, которые невозможно установить эмпирически, что может привести к тому, что пользователи будут доверять ответу больше, чем он того заслуживает.

4: Упрощенный язык и отсутствие критического мышления и креативности, где ответы фактически покровительствуют пользователю, предоставляя ему «упрощенную» и «приятную» информацию вместо вдумчивого размышления и анализа.

5: Неправильное указание источника и цитирование источников, где система ответов использует цитируемые источники, которые не подтверждают ее ответ(ы), создавая иллюзию достоверности.

6: Выборка информации из предполагаемого контекста, где агент RAG, по-видимому, ищет ответы, которые подтверждают его сгенерированное утверждение и его оценку того, что пользователь хочет услышать, вместо того, чтобы основывать свои ответы на объективном анализе надежных источников (что может указывать на конфликт между «испеченными» данными LLM системы и данными, которые она получает «на лету» из Интернета в ответ на запрос).

7: Исключение цитат, подтверждающих утверждения, где исходный материал для ответов отсутствует.

8: Не предоставляя логической схемы для своих ответов, где пользователи не могут задать вопрос, почему система отдала приоритет определенным источникам по сравнению с другими источниками.

9: Ограниченное количество источников, большинство систем RAG обычно предоставляют около трех подтверждающих источников для утверждения, даже в тех случаях, когда можно было бы использовать большее разнообразие источников.

10: Источники-сироты, когда данные из всех или некоторых поддерживающих ссылок системы фактически не включены в ответ.

11: Использование ненадежных источников, где система, по-видимому, отдала предпочтение популярному источнику (т.е. с точки зрения SEO), а не фактически верному.

12: Избыточные источники, где система представляет несколько ссылок, в которых исходные статьи по существу одинаковы по содержанию.

13: Неотфильтрованные источники, где система не предоставляет пользователю возможности оценивать или фильтровать предлагаемые цитаты, заставляя пользователей принимать критерии отбора на веру.

14: Отсутствие интерактивности или исследуемости, при этом несколько участников исследования пользователей были разочарованы тем, что системы RAG не задавали уточняющих вопросов, а предполагали намерения пользователя с первого запроса.

15: Необходимость внешней проверки, где пользователи чувствуют себя вынужденными выполнять независимую проверку предоставленного ответа/ответов, что в значительной степени сводит на нет предполагаемое удобство RAG как «замены поиска».

16: Использование методов академического цитирования, как [1] or [34]; это стандартная практика в научных кругах, но для многих пользователей она может быть неинтуитивной.

Для работы исследователи собрали 21 эксперта в области искусственного интеллекта, здравоохранения и медицины, прикладных наук, образования и социальных наук, все они были либо постдокторантами, либо кандидатами наук. Участники взаимодействовали с тестируемыми системами RAG, одновременно проговаривая свои мыслительные процессы вслух, чтобы прояснить (для исследователей) их собственную рациональную схему.

В статье подробно цитируются опасения и беспокойства участников относительно эффективности трех изученных систем.

Методология исследования пользователей была затем систематизирована в автоматизированное исследование систем RAG с использованием наборов инструментов управления браузером:

«Масштабная автоматизированная оценка таких систем, как You.com, Perplexity.ai и BingChat, показала, что ни одна из них не достигла приемлемого уровня производительности по большинству показателей, включая критические аспекты, связанные с обработкой галлюцинаций, неподтвержденных утверждений и точностью цитирования».

Авторы подробно (и усердно, в обширной 27-страничной статье) утверждают, что как новые, так и опытные пользователи должны проявлять осторожность при использовании класса изученных систем RAG. Они также предлагают новую систему метрик, основанную на недостатках, обнаруженных в исследовании, которая могла бы стать основой для большего технического надзора в будущем.

Однако выращивание Публичное использование систем RAG побуждает авторов также выступать за соответствующее законодательство и более высокий уровень реализуемой государственной политики в отношении интерфейсов поиска на основе ИИ с использованием агентов.

Радиус корня проведенное исследование состоит из пяти исследователей из Университета штата Пенсильвания и Salesforce и называется Поисковые системы в эпоху искусственного интеллекта: ложное обещание фактических и проверяемых ответов со ссылками на источники. Работа охватывает системы RAG до уровня, соответствующего уровню развития техники в августе 2024 г.

Компромисс RAG

Авторы начинают свою работу с повторения четырех известных недостатков больших языковых моделей (LLM) в тех случаях, когда они используются в системах ответов.

Во-первых, они склонны к галлюцинаторная информация, и не имеют возможности обнаружить фактические несоответствия. Во-вторых, у них есть трудности оценка точности цитаты в контексте сгенерированного ответа. В-третьих, они имеют тенденцию благоприятные данные из собственных предварительно обученных весов и могут не принимать данные из внешней документации, даже если такие данные более свежие или более точные.

Наконец, системы RAG стремятся угодить людям, подхалимство, часто в ущерб точности информации в своих ответах.

Все эти тенденции были подтверждены в обоих аспектах исследования, среди многих новых наблюдений о подводных камнях RAG.

В статье рассматриваются вопросы OpenAI. ПоискGPT Продукт RAG (освобожден подписчикам на прошлой неделе, после того как была представлена новая статья), что, вероятно, будет способствовать принятию пользователями поисковых систем на основе RAG, несмотря на фундаментальные недостатки, на которые указывают результаты опроса*:

«Выпуск SearchGPT от OpenAI, позиционируемого как «Убийца поиска Google», еще больше усугубляет [опасения]. По мере того, как растет зависимость от этих инструментов, растет и необходимость в понимании их воздействия. Lindemann представляет концепцию запечатанных знаний, которая критикует то, как эти системы ограничивают доступ к разнообразным ответам, сжимая поисковые запросы в отдельные авторитетные ответы, эффективно деконтекстуализируя информацию и сужая пользователь перспективы.

«Такое «запечатывание» знаний закрепляет предвзятость отбора и ограничивает маргинализированные точки зрения».

Исследование

Сначала авторы протестировали свою процедуру исследования на трех из 24 выбранных участников, все из которых были приглашены через LinkedIn или по электронной почте.

Первый этап, для оставшихся 21, включал Экспертиза поиска информации, где участники в среднем делали около шести поисковых запросов за 40-минутный сеанс. Этот раздел был сосредоточен на сборе и проверке основанный на фактах вопросы и ответы с потенциальными эмпирическими решениями.

Вторая фаза касалась Поиск информации о дебатах, который вместо этого занимался субъективными вопросами, включая экологию, вегетарианство и политику.

Сгенерированные ответы на исследования из Perplexity (слева) и You Chat (справа). Источник: https://arxiv.org/pdf/2410.22349

Поскольку все системы допускали по крайней мере некоторый уровень интерактивности с цитатами, предоставленными в качестве подкрепления сгенерированных ответов, испытуемым предлагалось взаимодействовать с интерфейсом как можно больше.

В обоих случаях участникам было предложено сформулировать свои запросы как через систему RAG, так и через и обычная поисковая система (в данном случае Google).

Три поисковых системы — You Chat, Bing Copilot и Perplexity — были выбраны потому, что они общедоступны.

Большинство участников уже являлись пользователями систем RAG с разной частотой.

Из-за ограничений по объему мы не можем подробно разобрать каждый из шестнадцати основных недостатков, выявленных в исследовании, но здесь представляем подборку некоторых наиболее интересных и поучительных примеров.

Отсутствие объективных подробностей

В документе отмечается, что пользователи часто обнаруживали, что ответы систем были недостаточно объективными, как в фактологической, так и в субъективной части. Один из пользователей прокомментировал:

«Он просто пытался ответить, не дав мне внятного ответа или более продуманного ответа, который я могу получить с помощью многочисленных поисков в Google».

Другой заметил:

«Она слишком короткая и просто обобщает всё. [Модель] должна предоставить мне больше данных для утверждения, но она слишком обобщает».

Отсутствие целостной точки зрения

Авторы выражают обеспокоенность по поводу отсутствия нюансов и конкретности и заявляют, что поисковые системы ответов зачастую не могут представить множественные точки зрения по какому-либо аргументу, склоняясь к предполагаемой предвзятости, вытекающей из формулировки вопроса самим пользователем.

Один из участников сказал:

«Я хочу узнать больше об обратной стороне этого аргумента... ко всему этому нужно относиться с долей скепсиса, поскольку мы не знаем другую сторону, не знаем доказательств и фактов».

Другой прокомментировал:

«Она не представляет вам обе стороны спора; она не спорит с вами. Вместо этого [модель] просто говорит вам: «Вы правы… и вот почему».

Уверенный язык

Авторы отмечают, что все три протестированные системы продемонстрировали использование чрезмерно уверенного языка, даже для ответов, которые охватывают субъективные вопросы. Они утверждают, что этот тон будет иметь тенденцию внушать неоправданную уверенность в ответе.

Участник отметил:

«Он пишет так уверенно, что я чувствую уверенность, даже не заглядывая в источник. Но когда смотришь в источник, понимаешь, что он плохой, и это заставляет меня снова усомниться в нём».

Другой прокомментировал:

«Если кто-то не знает точно правильного ответа, он поверит ему, даже если он неверен».

Неправильные цитаты

Еще одной распространенной проблемой была неправильная атрибуция источников, цитируемых в качестве авторитетных для ответов систем RAG, при этом один из субъектов исследования утверждал:

«[Этого] утверждения, похоже, нет в источнике. Я имею в виду, что утверждение верно, оно действительно… но я даже не знаю, откуда он взял эту информацию».

Авторы новой статьи комментируют: ^†:

«Участники посчитали, что системы были использование цитат для легитимации своего ответа, создавая иллюзию достоверности. Этот фасад был виден лишь немногим пользователям, которые начали внимательно изучать источники.

Отбор информации в соответствии с запросом

Возвращаясь к идее угодливого и льстивого поведения в ответах RAG, исследование показало, что многие ответы подчеркивали определенную точку зрения вместо того, чтобы всесторонне обобщать тему, как заметил один из участников:

«Я считаю, что [система] манипулятивна. Достаточно лишь небольшой информации, и возникает ощущение, что меня манипулируют, заставляя видеть только одну сторону вещей».

Другой высказал мнение:

«[Источник] на самом деле имеет как плюсы, так и минусы, и он был выбран с целью отобрать из этой ссылки лишь необходимые аргументы, не имея представления о всей картине целиком».

Для получения дополнительных подробных примеров (и многочисленных критических цитат участников опроса) мы отсылаем читателя к исходной статье.

Автоматизированный RAG

На втором этапе более широкого исследования исследователи использовали браузерные скрипты для систематического запроса запросов от трёх исследованных систем RAG. Затем они использовали систему LLM (GPT-4o) для анализа ответов систем.

Заявления были проанализированы на предмет релевантность запроса и Заявления «за» и «против» (т.е. является ли ответ «за», «против» или нейтральным в отношении неявной предвзятости вопроса).

An Оценка уверенности в ответе также оценивалось в этой автоматизированной фазе на основе Шкала Лайкерта Метод психометрического тестирования. Здесь судья LLM был дополнен двумя людьми-аннотаторами.

Третья операция включала использование веб-скрейпинга для получения полного текста контента цитируемых веб-страниц с помощью инструмента Jina.ai Reader. Однако, как отмечено в другом месте статьи, большинство инструментов веб-скрейпинга не более способны получить доступ к платным сайтам, чем большинство людей (хотя авторы отмечают, что Perplexity.ai, как известно, обойти этот барьер).

Дополнительными соображениями были: содержались ли в ответах ссылки на источник (что вычислялось как «матрица цитирования»), а также «матрица фактической поддержки» — метрика, проверенная с помощью четырех специалистов по аннотированию.

Таким образом, было получено 8 всеобъемлющих показателей: односторонний ответ; самоуверенный ответ; соответствующее заявление; нецитированные источники; неподтвержденные заявления; необходимость источника; точность цитированияи тщательность цитирования.

Материал, на основе которого проверялись эти показатели, состоял из 303 специально отобранных вопросов, полученных на этапе изучения пользователей, в результате чего было получено 909 ответов в трех протестированных системах.

Количественная оценка трех протестированных систем RAG на основе восьми показателей.

Относительно результатов в статье говорится:

«Рассмотрев три показателя, относящиеся к тексту ответа, мы обнаружили, что все оцененные поисковые системы часто (50–80%) генерируют односторонние ответы, отдавая предпочтение согласию с содержательной формулировкой вопроса для обсуждения, а не представлению множественных точек зрения в ответе, при этом Perplexity показала худшие результаты, чем две другие поисковые системы».

«Это открытие совпадает с [результатами] наших качественных результатов. Удивительно, но хотя Perplexity с наибольшей вероятностью генерирует односторонний ответ, он также генерирует самые длинные ответы (в среднем 18.8 утверждений на ответ), что указывает на то, что отсутствие разнообразия ответов не связано с краткостью ответов.

«Другими словами, увеличение длины ответа не обязательно увеличивает его разнообразие».

Авторы также отмечают, что Perplexity, скорее всего, будет использовать уверенный язык (90% ответов), и что, напротив, две другие системы склонны использовать более осторожный и менее уверенный язык, когда в игру вступает субъективное содержание.

You Chat стал единственным фреймворком RAG, не набравшим ни одного нецитируемого источника для ответа, у Perplexity этот показатель составил 8%, а у Bing Chat — 36%.

Все модели продемонстрировали «значительную долю» неподтвержденных утверждений, и в статье говорится:^†:

«Структура RAG рекламируется как решение проблемы галлюцинаторного поведения LLM, требуя от LLM генерировать ответ, основанный на исходных документах, Однако результаты показывают, что системы ответов на основе RAG по-прежнему генерируют ответы, содержащие значительную долю утверждений, не подкрепленных предоставленными ими источниками."

Кроме того, все протестированные системы столкнулись с трудностями при подкреплении своих утверждений цитатами:

«You.Com и [Bing Chat] показывают немного лучшие результаты, чем Perplexity, примерно две трети ссылок указывают на источник, подтверждающий цитируемое утверждение, а Perplexity показывает худшие результаты, поскольку более половины ссылок неточны».

«Этот результат удивителен: цитирование не только неверно для утверждений, которые не подтверждаются ни одним (источником), но мы обнаружили, что даже при наличии источника, подтверждающего утверждение, все поисковые системы все равно часто ссылаются на другой неверный источник, упуская возможность предоставить пользователю правильный источник информации.

"Другими словами, галлюцинаторное поведение проявляется не только в утверждениях, не подкрепленных источниками, но и в неточных цитатах, которые не позволяют пользователям проверять достоверность информации."

Авторы заключают:

«Ни одна из поисковых систем не достигла хороших результатов по большинству показателей, что подчеркивает большой потенциал для совершенствования поисковых систем».

* Моё преобразование ссылок авторов в гиперссылки. При необходимости я выбрал первую из нескольких ссылок для гиперссылки из соображений форматирования.

^† Выделено авторами, не мое.

Впервые опубликовано Понедельник, 4 ноября 2024 г.

Как ИИ формирует будущее демократического диалога

Не пропустите

Anthropic запускает визуальный анализ PDF в последнем обновлении Claude AI