Искусственный интеллект
Генерация парафраз с использованием глубокого обучения с подкреплением — лидеры мнений
Когда мы пишем или разговариваем, мы все задаемся вопросом, есть ли лучший способ донести идею до других. Какие слова я должен использовать? Как мне структурировать мысль? Как они, скорее всего, отреагируют? В Phrasee, мы тратим много времени на размышления о языке — что работает, а что нет.
Представьте, что вы пишете тему для кампании по электронной почте, которая будет направлена 10 миллионам человек в вашем списке, рекламирующем 20% скидку на модный новый ноутбук.
Какую линию вы бы выбрали:
- Теперь вы можете получить дополнительную скидку 20% на следующий заказ
- Будьте готовы – дополнительная скидка 20%
Хотя они передают одну и ту же информацию, у одного из них открываемость была почти на 15% выше, чем у другого (и я уверен, что вы не сможете превзойти нашу модель в предсказании того, какой из них?). Хотя язык часто можно проверить с помощью A / B тестирования or многорукие бандиты, автоматическое создание парафраз остается действительно сложной исследовательской проблемой.
Два предложения считаются перефразированием друг друга, если они имеют одинаковое значение и могут использоваться взаимозаменяемо. Еще одна важная вещь, которая часто считается само собой разумеющейся, — это беглость сгенерированного машиной предложения.
В отличие от обучения с учителем, агенты обучения с подкреплением (RL) учатся, взаимодействуя с окружающей средой и наблюдая за вознаграждениями, которые они получают в результате. Это несколько тонкое различие имеет огромное значение для того, как работают алгоритмы и как обучаются модели. Глубокое обучение использует нейронные сети в качестве аппроксиматора функций, чтобы позволить агенту узнать, как превзойти людей в сложных средах, таких как Go, Атари и StarCraft II.
Несмотря на этот успех, обучение с подкреплением не получило широкого применения для решения реальных задач, включая обработку естественного языка (НЛП).
Как часть моего Магистерская диссертация в области науки о данных, мы демонстрируем, как можно использовать Deep RL, чтобы превзойти методы контролируемого обучения в автоматическом создании парафраз входного текста. Проблема создания наилучшего перефразирования может рассматриваться как поиск последовательности слов, которая максимизирует семантическое сходство между предложениями, сохраняя при этом беглость вывода. Агенты RL хорошо подходят для поиска наилучшего набора действий для достижения максимального ожидаемого вознаграждения в контрольных средах.
В отличие от большинства проблем машинного обучения, самая большая проблема в большинстве приложений генерации естественного языка (NLG) заключается не в моделировании, а, скорее, в оценке. Хотя человеческая оценка в настоящее время считается золотым стандартом в оценке NLG, она имеет существенные недостатки, в том числе дороговизну, отнимает много времени, сложна в настройке и недостаточна воспроизводимость между экспериментами и наборами данных. (Хан, 2016). В результате исследователи уже давно ищут автоматические метрики, которые были бы простыми, обобщаемыми и отражали бы человеческое суждение. (Папинени и др., 2002 г.).
Ниже приведены наиболее распространенные методы автоматической оценки машинных подписей к изображениям с указанием их плюсов и минусов:

Генерация парафраз с использованием конвейера обучения с подкреплением
Мы разработали систему под названием ParaPhrasee, которая генерирует высококачественные пересказы. Система состоит из нескольких шагов, чтобы применить обучение с подкреплением эффективным с точки зрения вычислений способом. Краткий обзор конвейера высокого уровня показан ниже, а более подробная информация содержится в диссертация.

Dataset
Существует несколько доступных наборов данных перефразирования, которые используются в исследованиях, в том числе: Корпус Microsoft Paraphrase, конкурс ACL по семантическому сходству текстов, Повторяющиеся вопросы Quora и Общие ссылки в Твиттере. Мы выбрали МС-КОКО учитывая его размер, чистоту и использование в качестве эталона для двух известных статей о создании парафраз. MS-COCO содержит 120 5 изображений обычных сцен с 5 подписями к каждому изображению, предоставленными XNUMX разными комментаторами-людьми.
Хотя он в первую очередь предназначен для исследований в области компьютерного зрения, подписи, как правило, имеют большое семантическое сходство и представляют собой интересные пересказы. Поскольку подписи к изображениям предоставлены разными людьми, они, как правило, имеют небольшие различия в деталях сцены, поэтому сгенерированные предложения имеют тенденцию содержать галлюцинации в деталях.

Модель под наблюдением
Хотя обучение с подкреплением значительно улучшилось с точки зрения эффективности выборки, времени обучения и общих передовых практик, обучение моделей RL с нуля по-прежнему сравнительно очень медленное и нестабильное. (Арулкумаран и др., 2017 г.). Поэтому вместо обучения с нуля мы сначала обучаем контролируемую модель, а затем настраиваем ее с помощью RL.
Мы используем Кодер-декодер каркас модели и оценить производительность нескольких базовых контролируемых моделей. При точной настройке модели с использованием RL мы точно настраиваем только сеть декодера и рассматриваем сеть кодировщика как статическую. Таким образом, мы рассматриваем две основные структуры:
- Обучение контролируемой модели с нуля с использованием декодера стандартного/ванильного кодировщика с GRU
- Использование предварительно обученных моделей встраивания предложений для кодировщика, включая встраивание объединенных слов (GloVe), InferSent и BERT.
Контролируемые модели, как правило, работают примерно одинаково в моделях с BERT и ванильным кодером-декодером, достигающим наилучшей производительности.

Хотя производительность, как правило, разумная, есть три распространенных источника ошибок: заикание, создание фрагментов предложений и галлюцинации. Это основные проблемы, на решение которых направлено использование RL.

Модель обучения с подкреплением
Реализация алгоритмов RL очень сложна, особенно когда вы не знаете, можно ли решить проблему. Могут быть проблемы в реализации вашей среды, ваших агентов, ваших гиперпараметров, вашей функции вознаграждения или комбинации всего вышеперечисленного! Эти проблемы усугубляются при выполнении глубокого RL, поскольку вы получаете удовольствие от дополнительной сложности отладки нейронных сетей.
Как и при любой отладке, очень важно начни с простого. Мы реализовали варианты двух хорошо изученных игрушечных сред RL (CartPole и FrozenLake), чтобы протестировать алгоритмы RL и найти воспроизводимую стратегию передачи знаний из контролируемой модели.
Мы обнаружили, что использование алгоритма Actor-Critic превзошло REINFORCE в этих средах. С точки зрения передачи знаний в модель Actor-Critic мы обнаружили, что инициализация весов актера с обученной контролируемой моделью и предварительная подготовка критика достигли наилучшей производительности. Мы обнаружили, что было сложно обобщить сложные подходы к дистилляции политики для новых сред, поскольку они вводят много новых гиперпараметров, которые требуют настройки для работы.
Опираясь на эти идеи, мы затем переходим к разработке подхода к задаче генерации парафраз. Сначала нам нужно создать среду.

Среда позволяет нам легко проверить влияние использования различных показателей оценки в качестве функций вознаграждения.
Затем мы определяем агента, учитывая его многочисленные преимущества, мы используем архитектуру актер-критик. Актер используется для выбора следующего слова в последовательности, и его веса инициализируются с использованием контролируемой модели. Критик дает оценку ожидаемого вознаграждения, которое, вероятно, получит государство, чтобы помочь действующему лицу учиться.
Разработка правильной функции вознаграждения
Наиболее важным компонентом разработки системы RL является функция вознаграждения, поскольку именно ее пытается оптимизировать агент RL. Если функция вознаграждения неверна, результаты пострадают, даже если все остальные части системы будут работать!
Классический пример этого: CoastRunners где исследователи OpenAI установили функцию вознаграждения как максимизацию общего количества очков, а не победу в гонке. Результатом этого является то, что агент обнаружил петлю, в которой он мог получить наивысший балл, нажимая на турбо, даже не завершая гонку.
Учитывая, что оценка качества перефразирования сама по себе является нерешенной проблемой, разработать функцию вознаграждения, которая автоматически фиксирует эту цель, еще сложнее. Большинство аспектов языка плохо разлагаются на линейные метрики и зависят от задачи. (Новикова и др., 2017).
Агент RL часто обнаруживает интересную стратегию максимизации вознаграждения, которая использует недостатки в метрике оценки, а не генерирует текст высокого качества. Это обычно приводит к снижению производительности по метрикам, которые агент не оптимизирует напрямую.
Мы рассматриваем три основных подхода:
- Метрики перекрытия слов
Общие метрики оценки НЛП учитывают долю перекрытия слов между сгенерированным парафразом и оценочным предложением. Чем больше перекрытие, тем больше награда. Проблема с подходами на уровне слов заключается в том, что агент включает слишком много связующих слов, таких как «a is on of», и нет никакой меры беглости. Это приводит к очень низкому качеству парафраз.

- Показатели сходства и беглости на уровне предложений
Основные свойства сгенерированного парафраза заключаются в том, что он должен быть беглым и семантически похожим на исходное предложение. Поэтому мы пытаемся явно оценивать их по отдельности, а затем объединять показатели. Для семантического подобия мы используем косинусное сходство между вложениями предложений из предварительно обученных моделей, включая BERT. Для беглости мы используем оценку, основанную на сложности предложения из GPT-2. Чем больше косинусное сходство и беглость, тем больше награда.
Мы испробовали множество различных комбинаций моделей встраивания предложений и моделей беглости, и хотя производительность была приемлемой, основная проблема, с которой столкнулся агент, заключалась в недостаточном балансе семантического сходства с беглостью. Для большинства конфигураций агент отдавал приоритет беглости, в результате чего детали удалялись, а большинство объектов помещалось «в середину» чего-либо или перемещалось «на столе» или «на обочине дороги».
Многоцелевое обучение с подкреплением является открытым исследовательским вопросом и в данном случае является очень сложным.

- Использование состязательной модели в качестве функции вознаграждения
Учитывая, что люди считаются золотым стандартом в оценке, мы обучаем отдельную модель, называемую дискриминатором, предсказывать, являются ли два предложения перефразированием друг друга (аналогично тому, как оценивает человек). Затем цель модели RL состоит в том, чтобы убедить эту модель в том, что сгенерированное предложение является парафразом ввода. Дискриминатор генерирует оценку вероятности того, что два предложения будут перефразированием друг друга, что используется в качестве вознаграждения для обучения агента.
Каждые 5,000 предположений дискриминатору сообщается, какой парафраз был получен из набора данных, а какой был сгенерирован, чтобы он мог улучшить свои будущие предположения. Процесс продолжается в течение нескольких раундов, когда агент пытается обмануть дискриминатор, а дискриминатор пытается отличить сгенерированные парафразы от оценочных парафраз из набора данных.
После нескольких циклов обучения агент генерирует пересказы, которые превосходят контролируемые модели и другие функции вознаграждения.

Заключение и ограничения
Состязательные подходы (включая самостоятельную игру для игр) представляют собой чрезвычайно многообещающий подход для обучения алгоритмов RL, чтобы превзойти производительность человеческого уровня в определенных задачах без определения явной функции вознаграждения.
Хотя в этом случае RL удалось превзойти обучение с учителем, количество дополнительных накладных расходов с точки зрения кода, вычислений и сложности не стоит прироста производительности для большинства приложений. RL лучше оставить для ситуаций, когда обучение с учителем не может быть легко применено, а функцию вознаграждения легко определить (например, игры Atari). Подходы и алгоритмы в обучении с учителем гораздо более зрелые, а сигнал ошибки намного сильнее, что приводит к более быстрому и стабильному обучению.
Еще одно соображение, как и в случае с другими нейронными подходами, заключается в том, что агент может очень резко выйти из строя в тех случаях, когда входные данные отличаются от входных данных, которые он видел ранее, что требует дополнительного уровня проверки работоспособности для производственных приложений.
Взрыв интереса к подходам RL и достижениям в вычислительной инфраструктуре за последние несколько лет откроют огромные возможности для применения RL в промышленности, особенно в НЛП.












