Connect with us

Получение NLP для Вызова Неправильным Вопросам

Искусственный интеллект

Получение NLP для Вызова Неправильным Вопросам

mm

Некоторые вопросы являются невозможными для ответа, потому что они содержат неверную информацию – предположения, которые человек, слышащий вопрос, должен отфильтровать и отказаться. Это предполагает, конечно, что слушатель имеет достаточно правильной информации, чтобы бросить вызов вопросу, а не использовать сам вопрос в качестве источника (неправильной) информации.

Это вызов для систем обработки естественного языка (NLP), таких как GPT-3, которые имеют тенденцию “галлюцинировать” информацию, чтобы поддерживать диалог.

На данный момент, задавая GPT-3 ‘Когда Мари Кюри изобрела Уран?’, вы, скорее всего, получите ответ ‘Мари Кюри изобрела Уран в 1898 году’.

Источник: https://beta.openai.com/playground (Da Vinci instruct beta).

Источник: https://beta.openai.com/playground (Da Vinci instruct beta).

На самом деле, Уран был открыт в 1789 году немецким химиком Мартином Генрихом Клапротом, а откровение Кюри в 1898 году было изоляцией радия.

Проблема систем NLP, игнорирующих неправильные предположения, приобрела焦 внимание в ряде публичных заявлений в этом году, включая способ, которым результаты поиска Google, дополненные ИИ, будут игнорировать неверную информацию в вопросе ‘Когда Нил Армстронг ступил на Марс?’ – ошибка, которая все еще показывается на момент написания этой статьи, и одинаково применима к Истории игрушек Базза Лайтера, который якобы ступил на Луну 21 июля 1969 года.

Том Хэнкс, другой История игрушек выпускник, также приписывается Google, что он ступил на Луну в 1970 году, несмотря на то, что его персонаж Аполлон 13, астронавт Джим Ловелл, наиболее известен тем, что не достиг этого.

Решение Проблемы Предположений в Обмене NLP

Теперь Google Research, вместе с исследователями из Университета Джонса Хопкинса и Брауновского университета, изучает новые методы машинного обучения, с помощью которых системы NLP могут быть разработаны для бросания вызова фактически неправильным вопросам таким же образом, как это необходимо для человеческих учителей во время разговора с учениками.

Недавняя статья Какой лингвист изобрел лампочку? Верификация предположений для вопросов и ответов очерчивает согласованные усилия по разработке новой системы для выявления предположений и рассмотрения их достоверности перед продолжением обмена.

Новый алгоритм эффективно предварительно обрабатывает вопросы перед ответом на разговор, разбивая ‘аутентификацию’ вопроса на трехэтапный процесс.

Не вычисляется! Слева, 'блокировка', которая происходит даже тогда, когда продвинутая система NLP смогла определить, что вопрос не имеет смысла. Справа, разбивка предложенного алгоритма, который пытается исправить исходную ошибку. Источник: https://arxiv.org/pdf/2101.00391.pdf

Не вычисляется! Слева, ‘блокировка’, которая происходит даже тогда, когда продвинутая система NLP смогла определить, что вопрос не имеет смысла. Справа, разбивка предложенного алгоритма, который пытается исправить исходную ошибку. Источник: https://arxiv.org/pdf/2101.00391.pdf

Хотя это кажется простым верификационным рутином, который должен был быть встроен в системы знаний с самого начала, большинство тренировочных рутин NLP на основе машинного обучения учат информацию с избыточным доверием к источникам данных, включая дискурс (например, фейковые новости), который может быть опубликован на ранее ‘доверенных’ каналах.

Следовательно, ключевым вопросом является определение консенсусом надежного источника фактов в климате, где распространение неправильной ‘новости’ через социальные сети по умолчанию предоставляет ей авторитет в логике обобщения машинного обучения. Последнее имело тенденцию использовать количество или повторение данных в качестве замены точности, по крайней мере до тех пор, пока феномен фейковых новостей не стал критической областью интереса в этой области в последние годы.

Определение Лучшего Подхода к Невозможным Вопросам

Чтобы определить подходящий подход для решения вопроса, содержащего дезинформацию, исследователи провели 100 таких запросов через четыре разных модели Q&A и попросили человеческих испытуемых выбрать лучшее или наименее проблематичное решение, сгенерированное моделями.

Четыре возможных архитектурных результата ‘плохого’ вопроса были: ‘Невозможный’ – где система Q&A с закрытой книгой эффективно закрывает запрос без дальнейшего уточнения; ‘Объяснение, основанное на сбое предположения’ – где система не может проверить неправильное предположение, эффективно ‘невозможный’ ответ, с добавленным объяснением; ‘Извлекательное объяснение’ – где система извлекает связанную с темой цитату из Википедии и добавляет ее к предварительной фразе ‘Этот вопрос невозможен, потому что…’; и ‘Переписывание открытого домена’ – где конкурентная система ищет дополнительные источники из Википедии.

Этот пример четырех возможных ответов на якобы 'невозможный' вопрос иллюстрирует сложность попытки конкурентного доменного решения проблемы.

Этот пример четырех возможных ответов на якобы ‘невозможный’ вопрос иллюстрирует сложность попытки конкурентного доменного решения проблемы.

За время тестов пять участников (нанятых на внутренней платформе краудсорсинга Google) предпочли ответы, основанные на предположениях, что привело исследователей к разработке новой основы для разложения и верификации вопросов.

В новой системе лингвистические триггеры получаются из вопроса с помощью генератора, основанного на правилах, который деконструирует предложение в предполагаемые факты. Если из вопроса получено несколько предположений, каждое из них исследуется и будет вносить вклад в окончательный ответ, если они решают неправильные предположения исходного вопроса.

Наборы Данных

Предположения, сгенерированные на начальном этапе, были вручную исправлены для создания верификационного набора данных с ‘золотыми’ предположениями. Любые предположения, возникшие из ветвления запроса, но которые не присутствовали в исходных вопросах, были удалены.

Два авторов статьи затем вручную аннотировали 462 предположения в терминах да/нет верифицируемости, основанной на соответствующей странице Википедии, связанной с каждым вопросом. Случаи несогласия были решены в постфактуме обсуждении перед тем, как быть зафиксированными в наборе данных.

Исследователи использовали zero-shot NLI, задачу классификации предпосылки/гипотезы, которая требовала деконструкции статей Википедии, связанных с вопросами. Поскольку этот процесс приводит к многим более парам, чем вопрос может подразумевать или модель поддерживает, отфильтрованные результаты затем были объединены и помечены.

Результаты и Формулировка Ответов

Самые эффективные результаты были получены наиболее трудоемким решением: тонко настроенным, гибридным на основе правил/NLI, сгенерированным из ALBERT QNLI с предложениями и предположениями Википедии.

Производительность моделей верификации, где 'Предложения Википедии' используют предложения, полученные из статей Википедии, связанных с вопросами, и 'Предположения Википедии' – сгенерированные предположения из этих предложений.

Производительность моделей верификации, где ‘Предложения Википедии’ используют предложения, полученные из статей Википедии, связанных с вопросами, и ‘Предположения Википедии’ – сгенерированные предположения из этих предложений.

Используя эту формулировку, исследователи разработали систему шаблонов, где отрицающий факт из Википедии добавляется к ‘Этот вопрос невозможен, потому что…’ и подобным фразам. Хотя это не идеальное решение, авторы предполагают, что ответы, основанные на неверифицируемости, вероятно, уменьшат количество ложных отрицаний.

Система была в конечном итоге реализована в Расширенной модели трансформера (ETC).

Последствия

В зависимости от его окончательной производительности в реальном мире, можно утверждать, что этот подход может привести к простой замене ‘неверифицируемого’ на ‘невозможного’ в случаях, когда система исследования не может оценить полезную поправку для неправильного предположения вопроса. По сути, это кажется созданием инфраструктуры для будущих и лучших систем верификации.

Исследователи уже признают, что стоимость запросов API на основе токенов является ограничивающим фактором при формулировании более длинных ответов, которые эта система будет генерировать, и должно быть предположено, что дополнительная нагрузка ‘живого’ исследования вопроса, скорее всего, добавит задержку даже в крупномасштабные системы, такие как GPT-3, поскольку отзывчивость таких систем до сих пор зависела от обобщенного включения знаний на этапе обучения, а не от обширных, сетевых верификационных рутин.

Кроме того, исследователи отмечают, что система в настоящее время имеет ограничения, связанные с парсингом семантических аспектов текста:

Например, кто считает, что Эстелла – мать имеет встроенное притяжательное под нефактивным глаголом верить, но наш генератор все равно сгенерирует ‘Эстелла имеет ‘мать’.

Тем не менее, команда предвидит новые и более гибкие системы вопросов и ответов, которые будут разработаны на основе этого исследования:

В будущем мы планируем развить эту работу, предложив системы Q&A, которые более устойчивы и кооперативны. Например, разные типы неудач предположений могут быть решены более гибкими стратегиями ответов – например, нарушение уникальности предположения может быть лучше обработано путем предоставления всех возможных ответов, а не заявления о том, что уникальность предположения была нарушена.

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.

Раскрытие информации о рекламе: Unite.AI придерживается строгих редакционных стандартов, чтобы предоставлять читателям точную информацию и новости. Мы можем получать вознаграждение, если вы переходите по ссылкам на продукты, которые мы рассмотрели.