заглушки Вираження емоцій за допомогою типографіки за допомогою ШІ - Unite.AI
Зв'язатися з нами

Штучний Інтелект

Вираження емоцій за допомогою типографіки за допомогою ШІ

mm
оновлений on

Сучасні тенденції та інновації в текстових комунікаціях (включно з електронною поштою, системами обміну повідомленнями та субтитрами) повинні грубо й приблизно подолати емоційну прірву між письмовим і усним мовленням.

Наприклад, останні кілька років принесли чергування кап увійшов у моду як провокаційний мем у війнах полум’я в соціальних мережах, тоді як, the дуже ненависний використання Caps Lock (а також жирних і різких друкарських ефектів, дозволених деякими платформами коментарів) продовжує провокувати втручання модераторів. Це монотонні та лише широко репрезентативні методи для роз’яснення наміру написаного слова.

У той же час, зростання популярності смайлів і емодзі, як гібридного текстового/візуального конвеєра настроїв, активно займається сектор досліджень обробки природної мови (NLP) в останні роки, а також інтерес до значення анімованих GIF-файлів які користувачі публікують у ланцюжках коментарів.

З часом у письмовій мові розвинувся інноваційний фонд цих «додаткових» лінгвістичних методів, які намагаються або проміжкувати емоції, або викликати їх за відсутності тональної інформації в усному слові.

Однак зазвичай нам потрібно якнайкраще передати емоцію з контексту написаного. Розглянемо, наприклад, вигук «Ой, ой, ой!», наприкінці божевільного нічного монологу леді Макбет, можливо, дослідження того, якою мірою інтонація може впливати на значення.

У більшості адаптацій цей болісний плач триває 2-6 секунд; у постановці Королівської Шекспірівської компанії Тревора Нанна 1976 року Макбет, Джуді Денч довела прочитання цього рядка до, можливо, незаперечного запису 24.45 секунд:, в знаковій інтерпретації ролі.

МАКБЕТ - Вільям Шекспір ​​- Ян Маккеллен - Джуді Денч - HD ВІДНОВЛЕНО - 4K

(Власна система автотитрів YouTube для цього кліпу описує викання Денча як [МУЗИКА])

Переклад просодії в типографіку

Нещодавня стаття з Бразилії пропонує систему типографіки, модульованої мовою, яка потенційно може включати такі просодія, та інші паралінгвістичні компоненти, безпосередньо в субтитровану мову, додаючи вимір емоцій, який погано вловлюється додаванням прикметників, таких як [Кричить]або інші «плоскі» трюки, доступні для субтитрів.

«Ми пропонуємо нову модель типографіки з модуляцією мови, де акустичні характеристики мови використовуються для модуляції візуального вигляду тексту. Це може дозволити транскрипції даного висловлювання не лише представляти слова, які вимовляються, але й те, як вони були сказані.

«Завдяки цьому ми сподіваємося виявити друкарські параметри, які можна загалом розпізнати як візуальні проксі для просодичних особливостей амплітуди, висоти та тривалості».

Робочий процес, який транслітерує просодію в друкарський стиль. Прагнучи створити максимально універсальну та широко розгорнуту систему, автори обмежилися зсувом базової лінії, кернінгом і жирним шрифтом, останній забезпечується універсальністю відкритого шрифту. Джерело: https://arxiv.org/pdf/2202.10631.pdf

Робочий процес, який транслітерує просодію в друкарський стиль. Прагнучи створити максимально універсальну та широко розгорнуту систему, автори обмежилися зсувом базової лінії, кернінгом і жирним шрифтом, останній забезпечується універсальністю відкритого шрифту. Джерело: https://arxiv.org/pdf/2202.10631.pdf

Команда папір має титул Приховані ричання, шепіт і вереск: чи можна змусити текст звучати не лише словами?, і походить від Калуа де Ласерда Патака та Паули Дорнхофер Паро Коста, двох дослідників з Universidade Estadual de Campinas у Бразилії.

Жирні слова

Хоча ширшою метою проекту є розробка систем, які можуть передавати просодію та інші параметричні мовні особливості в субтитрах, автори також вважають, що система такого характеру може врешті-решт розвинути ширшу аудиторію в світі, що чує.

Є багато попередніх ініціатив у цьому просторі, зокрема a 1983 проект який запропонував систему субтитрів, яка може включати «спеціальні ефекти, колір і великі літери [для представлення] насиченої тональної інформації, недоступної глухим дітям[.]'.

Навпаки, бразильський проект може використовувати переваги як автоматизованої транскрипції, так і нових розробок у розпізнаванні афектів, які поєднуються, щоб увімкнути робочий процес, який може імпортувати та характеризувати компоненти звукового супроводу мовлення.

Після виділення та обробки просодичних особливостей вони зіставляються з часовими мітками слів у мовленні, створюючи лексеми, які потім можна використовувати для застосування модуляції на основі правил типографіки підписів (див. зображення вище).

Цей результат може візуально відобразити ступінь, до якої певний склад може бути протяжним, прошепотілим, наголошеним або іншим чином утримувати контекстну інформацію, яка буде втрачена в сирій транскрипції.

На етапі тестування проекту зверніть увагу на те, як кернінг (інтервал між літерами в слові) було розширено, щоб відобразити затяжну вимову.

На етапі тестування проекту зверніть увагу на те, як кернінг (інтервал між літерами в слові) було розширено, щоб відобразити затяжну вимову.

Автори чітко пояснюють, що їхня робота не має на меті зробити безпосередній внесок у розпізнавання емоцій і впливати на дослідження розпізнавання, а натомість прагне класифікувати особливості мовлення та представити їх за допомогою простого та обмеженого діапазону нових візуальних умовностей.

Принаймні, додатковий акцент, який система надає, усуне неоднозначність речень, у яких об’єкт дії може бути незрозумілим глядачам, які не чують звуку (або через інвалідність, або через обставини відтворення, такі як шумне середовище).

Запозичу власний приклад із 2017 року, де я подивлюся на те, як можуть системи машинного навчання також відчувають труднощі розуміючи, де в реченні знаходяться об’єкт і дія, легко побачити, якою мірою наголос може радикально змінити значення навіть простого речення:

I не вкрав це. (Це вкрав хтось інший)
I НЕ вкрасти це (я заперечую звинувачення, що я це вкрав)
я не зробив красти що. (Я володію, крадіжка не відноситься)
Я не крав Що. (Але я вкрав щось інше)

Потенційно, механістичний робочий процес просодії>типографії, такий як пропонують бразильські автори, також може бути корисним як допоміжний засіб у розробці наборів даних для досліджень афектних обчислень, оскільки він полегшує обробку суто текстових даних, які, тим не менш, включають деякі попередньо виведені паралінгвістичні розміри.

Крім того, зазначають дослідники, додаткове лінгвістичне корисне навантаження тексту з усвідомленням просодії може бути корисним у ряді завдань на основі НЛП, включаючи оцінку задоволеності клієнтів, а також для висновку про депресію з текстового вмісту.

Еластична типографіка

Структура, розроблена дослідниками, пропонує варіації зміщення базової лінії, де літера може бути вище або нижче відносно «базової лінії», на якій базується речення; кернінг, коли проміжок між літерами слова може бути скороченим або розширеним; і вага шрифту (напівжирність).

Ці три стилі відображаються на виділених особливостях мовлення, до яких проект обмежився: відповідно, крок, тривалість та величини.

Хід стилізації в реченні. У #1 ми бачимо межі складів, які були визначені в процесі вилучення. У #2 ми бачимо представлення кожної з трьох модуляцій (величина|вага, кернінг|тривалість і висота тону|зміщення базової лінії), застосовані окремо. У #3 ми бачимо комбіновані типографські модуляції в кінцевому результаті, представленому 117 учасникам випробування системи.

Хід стилізації в реченні. У #1 ми бачимо межі складів, які були визначені в процесі вилучення. У #2 ми бачимо представлення кожної з трьох модуляцій (величина|вага, кернінг|тривалість і висота тону|зміщення базової лінії), застосовані окремо. У #3 ми бачимо комбіновані типографські модуляції в кінцевому результаті, представленому 117 учасникам випробування системи.

Оскільки один шрифт може вимагати додаткового окремого шрифту для варіантів, таких як напівжирний і курсив, дослідники використовували Google реалізація шрифту OpenType Inter, який об’єднує детальний діапазон ваги в один шрифт.

Зі статті — діаграма, що детально описує, якою мірою гліф OpenType із шрифту Inter може виражати діапазон жирних акцентів уздовж скелета мінімального базового сплайна.

Зі статті — діаграма, що детально описує, якою мірою гліф OpenType із шрифту Inter може виражати діапазон жирних акцентів уздовж скелета мінімального базового сплайна.

Тестування

Вираз кернінгу та зміщення базової лінії було включено до плагіна браузера, що дозволило провести тести на 117 учасниках із вадами слуху.

Набір даних для тестів було створено спеціально для проекту, найнявши актора, який кілька разів читав добірку віршів з різним акцентом на кожному дублі, відповідно до трьох особливостей, які вивчає проект. Поезію було обрано тому, що вона допускає ряд наголосів (навіть поза наміром поета), не звучачи штучно за своєю природою.

Учасники були розділені на дві групи. Першим було дано 15 раундів акторського читання строфи в супроводі синхронізованого, анімованого та модульованого тексту, який розгортався в такт звукового фрагменту.

Друга група отримала точно такий же набір завдань, але перед нею були представлені статичні зображення модульованого тексту, які абсолютно не змінювалися під час відтворення акторських читань.

Середній показник правильних відповідей склав невипадкові 67% для групи зі статичним зображенням і 63% для групи з анімованим текстом. Коментарі учасників, отримані дослідниками після випробувань, підтвердили їхню теорію про те, що когнітивне навантаження динамічної інтерпретації могло сприяти нижчим оцінкам для нестатичних тестів. Однак система субтитрів і повідомлень, для яких буде призначена така структура, зазвичай надає за замовчуванням заповнений текст.

У коментарях учасників також зазначено, що існують жорсткі обмеження щодо використання кернінгу для позначення тривалості, причому один коментатор зауважив, що коли літери розташовані надто далеко одна від одної, стає важко виокремити слово.

Дослідники також зазначають:

«[Деякі] учасники вважали, що модель повинна мати можливість втілювати більш тонкі та складні репрезентації мови, що вона повинна робити з більш різноманітним і виразним візуальним словником. Хоча це не просте завдання, все ж приємно уявити, як різні програми типографіки з модулю мовлення можуть розгалужуватися в міру розвитку цієї нової сфери».

 

 

Вперше опубліковано 24 лютого 2022 р.