Connect with us

Система машинного обучения для переписывания статьи во время ее чтения

Искусственный интеллект

Система машинного обучения для переписывания статьи во время ее чтения

mm

Новые исследования из Канады предлагают метод автоматического переписывания статьи во время ее чтения, основанный на принципе “swiping” в стиле Tinder или на пассивном наблюдении за взаимодействием читателя с различными видами контента, содержащегося в статье.

Система, озаглавленная Hone As You Read (HARE), представлена в статье из Университета Западной Канады в Онтарио, Канада, с соответствующим кодом Python на GitHub.

Центральная идея проекта заключается в том, что статья может содержать различные виды контента, развивающиеся (как и эта) от заголовка до более подробной информации. Поздние части статьи могут содержать различные виды вспомогательного материала, примеры использования, гипотезы или предположения о последствиях новостей.

Под HARE, если вам не нравится такой материал, вы можете проголосовать против него на основе каждого абзаца, пока система учит ваши предпочтения, так что к моменту прокрутки вниз контент, подобный материалу, который вы “проголосовали против”, уже был удален или переписан. Если вы не хотите активно участвовать в обучении системы, HARE может сделать вывод о ваших выборах, наблюдая за вашими пассивными взаимодействиями с документом.

Голосование в стиле Tinder для неприятных предложений

На изображении ниже мы видим три возможных типа выводимой категоризации для HARE, основанной на явном или неявном поведении пользователя. В первом случае (слева) пользователь активно “проваливает влево” (или вправо), в жесте голосования в стиле Tinder, выражающем одобрение или неодобрение содержания абзаца или предложения, или его стиля, сложности или тона.

Source: https://arxiv.org/pdf/2105.02923.pdf

Source: https://arxiv.org/pdf/2105.02923.pdf

Во втором случае (центр) система использует время задержки как метрику интереса пользователя, основанную на позиционировании и продолжительности паузы при прокрутке.

В третьем случае (справа) HARE использует камеру смартфона для оценки пути и времени задержки местоположения взгляда пользователя на абзацы видимых документов.

Исследователи утверждают, что увеличение времени задержки на любой абзац может указывать на повышенный интерес пользователя, хотя логически это может не быть так, когда зритель пытается усвоить текст, который может быть сложным или просто плохо написанным.

Обратная связь пользователя эффективно редактирует, переписывает или полностью удаляет еще не видимые части статьи.

Обратная связь пользователя эффективно редактирует, переписывает или полностью удаляет еще не видимые части статьи.

Предварительная обработка контента в соответствии с предпочтениями пользователя

Статья рассматривает опыт пользователя HARE на основе каждой статьи, но rõчно, что историческое взаимодействие пользователя с документами позволяет настраивать будущий опыт чтения, последовательно распознавая типы контента и применяя шаблонные предпочтения пользователя к новым статьям, так что необходимость в взаимодействии уменьшается, когда пользователь видит все меньше и меньше “нежелательного” контента.

HARE характеризуется как алгоритм суммирования, позволяющий не видимому контенту ниже страницы быть переписанным в плане стиля или краткости до того, как пользователь доберется до него; но статья делает rõ, что он также может предварительно удалить контент на основе обратной связи пользователя.

Для целей тестирования система использовала корпус из 11 222 статей из британской газеты Daily Mail и была оценена через тестовую развертку на приложении Telegram. Статьи с менее чем десятью абзацами были отброшены для целей испытаний.

Приложение Telegram HARE в тестовой фазе с пользователями.

Приложение Telegram HARE в тестовой фазе с пользователями.

Методология исследователей использует K-Means clustering на SBERT вложениях предложений в статьях, с изначально случайными весами для концепций.

Среди широкой группы алгоритмов и подходов HARE включает три модели сравнения, первая из которых (ORACLEGREEDY) имеет доступ к предыдущим предпочтениям пользователя, указывая на то, что алгоритм может предварительно обработать статьи при загрузке, а не интерактивно.

Другие модели, ORACLESORTED и ORACLEUNIFORM, выбирают предложения на основе уровня интереса или случайным образом на протяжении всей статьи.

Удаление и переписывание контента

Неожиданно, ORACLEUNIFORM превзошел контрольную группу, даже хотя он не имеет доступа к предыдущим интересам пользователя. Исследователи утверждают, что это потому, что он работает со всей статьей за один раз, “выбирая только самые интересные предложения”. Исследователи признают, что это может ограничить доступный контент до тех предложений, которые касаются только наиболее важной концепции, логически удаляя другой текст, который может касаться последствий или оценки концепции.

Используемые в HARE извлекающие суммирователи – это LexRank, SumBasic и TextRank.

HARE был протестирован на 13 добровольцах в течение 70 испытаний и различных алгоритмических подходов и смог обновлять суммирования (переписанные/удаленные тексты) где-то между 1,3 миллисекундами и 100 мс на потребительском ноутбуке, в зависимости от модели, проходящей испытания. Результаты показали, что модели, удаляющие большинство текста, не работали хорошо, в основном потому, что это может повлиять на связность оставшегося текста.

Этические последствия динамического переписывания статей

Исследователи признают этические проблемы, связанные с технологиями этого типа:

‘Задача HARE предназначена для разработки будущих пользовательских приложений. По конструкции эти приложения имеют возможность контролировать то, что пользователь читает из данной статьи. Возможно, что, когда они развертываются без достаточного ухода, эти инструменты могут усугубить эффект “эхо-камеры”, уже производимый автоматизированными лентами новостей, результатами поиска и онлайн-сообществами.’

Однако они также отмечают, что такая система может быть использована в будущих приложениях для смягчения эффекта “эхо-камеры”, вводя текст, который предлагает альтернативные точки зрения, которые могут не быть изначально присутствующими в статье. Они замечают: ‘Вес этого фактора можно настроить для обеспечения как увлекательного опыта чтения, так и знакомства с разнообразием идей.’

Те, кто, вероятно, выиграет от такой системы, согласно исследователям, – это читатели, которые хотят сэкономить время на восприятии информации, и издатели контента.

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.