Connect with us

Выражение эмоций через типографику с помощью ИИ

Искусственный интеллект

Выражение эмоций через типографику с помощью ИИ

mm

Текущие тенденции и инновации в текстовой коммуникации (включая электронную почту, системы обмена сообщениями и системы подписей) должны ориентироваться в аффективном разрыве между письменной и устной речью грубым и приблизительным способом.

Например, последние несколько лет привели к тому, что чередующиеся заглавные буквы стали модными как провокационная мем в социальных медиа-спорах, в то время как очень ненавистное использование заглавных букв (а также жирных и резких типографических эффектов, допускаемых некоторыми платформами для комментариев) продолжает вызывать вмешательство модераторов. Это монотонные и только примерно представительные методы для уточнения намерения письменного слова.

В то же время рост популярности эмоций и эмодзи, как гибридного текстового/визуального средства передачи настроений, активно вовлек сектор исследований обработки естественного языка (NLP) в последние годы, а также интерес к значению анимированных GIF, которые пользователи публикуют в потоках комментариев.

Со временем письменный язык эволюционировал инновационный фонд этих “дополнительных” лингвистических методов, которые пытаются либо заменить эмоцию, либо вызвать ее в отсутствие тональной информации в устной речи.

Обычно, однако, нам нужно извлечь эмоцию как можно лучше из контекста письменного слова. Рассмотрим, например, восклицание ‘О, о, о!’ в конце ночного монолога леди Макбет, который можно считать примером степени, в которой интонация может повлиять на значение.

В большинстве адаптаций эта мучительная жалоба длится 2-6 секунд; в постановке Тревора Нанна 1976 года Королевской шекспировской компании Макбет Джуди Денч прочитала эту строку в течение, возможно, непревзойденных 24,45 секунд, в знаковом толковании роли.

(Система автоматического подписывания YouTube для этого клипа описывает улюляцию Денч как [MUSIC])

Перевод просодии в типографику

Недавняя статья из Бразилии предлагает систему рече-модулированной типографики, которая потенциально может включать такие просодические и другие паралингвистические компоненты непосредственно в подписанную речь, добавляя измерение эмоции, которое плохо захватывается путем добавления прилагательных, таких как [Крик], или других “плоских” трюков, доступных для конвенций субтитров.

‘Мы предлагаем новую модель рече-модулированной типографики, где акустические особенности речи используются для модуляции визуального вида текста. Это может позволить транскрипции данного высказывания не только представлять слова, которые говорятся, но и то, как они были сказаны.’

‘С этим мы надеемся открыть типографические параметры, которые могут быть общепризнаны как визуальные замены просодических особенностей амплитуды, высоты и продолжительности.’

Поток обработки, который транслитерирует просодию в типографическое стилизирование. Стремясь создать наиболее универсальную и широко применимую систему, авторы ограничили себя базовым смещением, кернингом и жирностью, последнее из которых обеспечивается универсальностью шрифта с открытым типом.

Поток обработки, который транслитерирует просодию в типографическое стилизирование. Стремясь создать наиболее универсальную и широко применимую систему, авторы ограничили себя базовым смещением, кернингом и жирностью, последнее из которых обеспечивается универсальностью шрифта с открытым типом. Источник: https://arxiv.org/pdf/2202.10631.pdf

Статья называется Скрытые вопли, шепот и лай: можно ли сделать текст, звучащий больше, чем просто его слова?, и исходит от Калвы де Ласерда Патаки и Паулы Дорнхофер Паро Косты, двух исследователей из Universidade Estadual de Campinas в Бразилии.

Жирные слова

Хотя более широкая цель проекта – разработать системы, которые могут передавать просодию и другие параметрические языковые особенности в субтитрах, авторы также считают, что система такого рода могла бы в конечном итоге найти более широкую аудиторию в мире слышащих.

Существует много предыдущих инициатив в этой области, включая проект 1983 года, который предложил систему субтитров, которая могла бы включать ‘специальные эффекты, цвет и заглавные буквы [для представления] богатой тональной информации, лишенной глухих детей[.]’.

В отличие от этого, бразильский проект может воспользоваться как автоматической транскрипцией, так и новыми разработками в области распознавания эмоций, которые в совокупности позволяют создать поток обработки, который может импортировать и характеризовать компоненты в звуковой дорожке.

После того, как просодические особенности были извлечены и обработаны, они сопоставляются с временными метками слов в речи, в результате чего получаются токены, которые можно использовать для применения правил модуляции типографики субтитров (см. изображение выше).

Это может визуально представить степень, в которой конкретная слог может быть продлен, прошептан, подчеркнут или иным образом содержать контекстную информацию, которая была бы потеряна в сырой транскрипции.

Из тестовой фазы проекта, обратите внимание на то, как кернинг (промежуток между буквами в слове) был расширен, чтобы отразить продленную произношение.

Из тестовой фазы проекта, обратите внимание на то, как кернинг (промежуток между буквами в слове) был расширен, чтобы отразить продленную произношение.

Авторы подчеркивают, что их работа не предназначена для прямого вклада в исследования распознавания эмоций и распознавания эмоций, а скорее направлена на классификацию особенностей речи и представление их простым и ограниченным набором новых визуальных конвенций.

По крайней мере, дополнительный акцент, который обеспечивает система, разъясняет предложения, где объект действия может не быть ясен для зрителей, которые не могут слышать звук (либо из-за инвалидности, либо из-за обстоятельств воспроизведения, таких как шумовые среды).

Чтобы воспользоваться моим собственным примером из 2017 года, который рассматривал способ, которым системы машинного обучения также могут испытывать трудности в понимании того, где находится объект и действие в предложении, легко увидеть степень, в которой акцент может радикально изменить значение даже простого предложения:

Я не украл это. (Кто-то другой украл его)
Я не украл это, (Я отрицаю обвинение в том, что я украл это)
Я не украл это. (Я владею им, кража не применима)
Я не украл это. (Но я украл что-то другое)

Потенциально, механистический поток обработки просодии>типографики, такой как тот, который предлагают бразильские авторы, также может быть полезен в качестве дополнения при разработке наборов данных для исследований вычисления эмоций, поскольку он облегчает обработку чисто текстовых данных, которые тем не менее включают некоторые предварительно выведенные паралингвистические размерности.

Кроме того, исследователи отмечают, что дополнительная лингвистическая нагрузка просодии-осведомленного текста может быть полезна в ряде задач, основанных на NLP, включая оценку удовлетворенности клиентов и для вывода депрессии из текстового содержания.

Упругая типография

Разработанная исследователями структура предлагает изменение базового смещения, где буква может быть выше или ниже относительно “базовой линии”, на которой лежит предложение; кернинг, где промежуток между буквами слова может быть сокращен или расширен; и вес шрифта (жирность).

Эти три стилизирования сопоставляются с извлеченными особенностями речи, которым ограничивается проект: соответственно, высота, продолжительность и величина.

Прогресс стилизации предложения. В #1 мы видим границы слогов, которые были определены в процессе извлечения. В #2 мы видим представление каждого из трех модуляций (величина|вес, кернинг|продолжительность и высота|базовое смещение), примененных по отдельности. В #3 мы видим объединенные типографические модуляции в окончательном выводе, представленном 117 участникам испытания системы.

Прогресс стилизации предложения. В #1 мы видим границы слогов, которые были определены в процессе извлечения. В #2 мы видим представление каждого из трех модуляций (величина|вес, кернинг|продолжительность и высота|базовое смещение), примененных по отдельности. В #3 мы видим объединенные типографические модуляции в окончательном выводе, представленном 117 участникам испытания системы.

Поскольку один шрифт может требовать дополнительного и отдельного шрифта для вариаций, таких как жирный и курсив, исследователи использовали реализацию Google Inter шрифта с открытым типом, который интегрирует гранулярный диапазон весов в один шрифт.

Из статьи, диаграмма, детализирующая степень, в которой глиф шрифта с открытым типом Inter может выражать диапазон жирных акцентов вдоль скелета минимальной базовой сплайны.

Из статьи, диаграмма, детализирующая степень, в которой глиф шрифта с открытым типом Inter может выражать диапазон жирных акцентов вдоль скелета минимальной базовой сплайны.

Тестирование

Выражение кернинга и базового смещения было включено в плагин браузера, который позволил провести испытания на 117 участниках с включенным слухом.

Набор данных для испытаний был создан специально для проекта, путем найма актера, который прочитал выборку стихов несколько раз с разным акцентом на каждом дубле, соответствующим трем особенностям, которые изучает проект. Стихи были выбраны, потому что они позволяют диапазон акцентов (даже за пределами намерения поэта) без звучания искусственно.

Участники были разделены на две группы. Первая группа получила 15 раундов чтения актером строфы, сопровождаемого синхронизированным, анимированным и модулированным текстом, который разворачивался в соответствии с аудиоклипом.

Вторая группа получила точно те же задачи, но была представлена статическими изображениями модулированного текста, которые не менялись во время воспроизведения чтения актера.

Средний уровень правильных ответов составил 67% для группы статических изображений и 63% для группы анимированного текста. Комментарии участников, собранные исследователями после испытаний, подтвердили их теорию, что когнитивная нагрузка динамической интерпретации могла способствовать более низким баллам для нестатических испытаний. Однако, системы подписей и сообщений, для которых такая структура была бы предназначена, обычно предоставляют предварительно завершенный текст по умолчанию.

Комментарии участников также указали, что существуют жесткие пределы использования кернинга для указания продолжительности, с одним комментатором, отметившим, что когда буквы расположены слишком далеко друг от друга, становится трудно индивидуализировать слово.

Исследователи также отмечают:

‘[Некоторые] участники чувствовали, что модель должна быть в состоянии воплотить более тонкие и сложные представления речи, которые она должна сделать с более разнообразным и выразительным визуальным словарем. Хотя это не простая задача, это, тем не менее, ободряет представить, как различные применения рече-модулированной типографики могли бы развиваться, когда эта новая область будет развиваться.’

 

 

Опубликовано впервые 24 февраля 2022 года.

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.