Inteligencia artificial
Expresando Emoción a Través de la Tipografía con IA

Las tendencias y innovaciones actuales en las comunicaciones de texto (incluyendo correo electrónico, mensajería y sistemas de subtítulos) deben negociar el abismo afectivo entre el habla escrita y hablada de manera cruda y aproximativa.
Por ejemplo, los últimos años han llevado a las mayúsculas alternas a la moda como un meme provocativo en las guerras de flama de las redes sociales, mientras que, el odioso uso de mayúsculas (así como efectos tipográficos audaces y atrevidos permitidos por algunas plataformas de comentarios) continúa provocando la intervención de los moderadores. Estos son métodos monótonos y solo broadly representativos para aclarar la intención de la palabra escrita.
Al mismo tiempo, el crecimiento de la popularidad de los emoticonos y emojis, como un conveyedor híbrido de sentimiento textual/visual, ha activamente comprometido al sector de investigación de Procesamiento de Lenguaje Natural (NLP) en los últimos años, junto con el interés en el significado de los GIF animados que los usuarios publican en hilos de comentarios.
Con el tiempo, el lenguaje escrito ha evolucionado un fondo innovador de estos métodos lingüísticos “aditivos”, que intentan proxy la emoción o evocarla en ausencia de la información tonal en la palabra hablada.
Por lo general, sin embargo, necesitamos representar la emoción lo mejor que podamos desde el contexto de la palabra escrita. Consideremos, por ejemplo, el exclamación ‘Oh, Oh, Oh!’, al final de la soliloquía nocturna demente de Lady Macbeth, arguablemente un estudio de caso de la medida en que la entonación puede afectar el significado.
En la mayoría de las adaptaciones, esta lamentación dolorida dura 2-6 segundos; en la producción de 1976 de la Royal Shakespeare Company de Macbeth de Trevor Nunn, Judi Dench llevó la lectura de esta línea a un récord tal vez inigualado de 24.45 segundos, en una interpretación emblemática del papel.
(El sistema de auto-subtítulos de YouTube para este clip describe la ululación de Dench como [MUSIC])
Traducir Prosodia a Tipografía
Un artículo reciente de Brasil propone un sistema de tipografía modulada por habla que podría incorporar potencialmente dicha prosodia, y otros componentes paralingüísticos, directamente en el habla subtitulada, agregando una dimensión de emoción que está pobremente capturada por la anteposición de adjetivos como [Gritando], o los otros trucos “planos” disponibles para las convenciones de subtítulos de subtitulación cerrada.
‘Proponemos un modelo novel de Tipografía Modulada por Habla, donde las características acústicas de la habla se utilizan para modular la apariencia visual del texto. Esto podría permitir que la transcripción de una emisión no solo represente las palabras dichas, sino cómo se dijeron.
‘Con esto, esperamos descubrir parámetros tipográficos que puedan ser generalmente reconocidos como proxies visuales para las características prosódicas de amplitud, tono y duración.’

El flujo de trabajo que translitera la prosodia en estilismo tipográfico. Con el objetivo de producir el sistema más versátil y ampliamente desplegable posible, los autores se limitaron a la desviación de base, el kerning y la negrita, esta última proporcionada por la versatilidad de una fuente de tipo abierto. Fuente: https://arxiv.org/pdf/2202.10631.pdf
El artículo se titula Gritos, susurros y aullidos ocultos: ¿puede el texto ser hecho para sonar más que solo sus palabras?, y proviene de Calua de Lacerda Pataca y Paula Dornhofer Paro Costa, dos investigadores de la Universidade Estadual de Campinas en Brasil.
Palabras en Negrita
Aunque el objetivo más amplio del proyecto es desarrollar sistemas que puedan transmitir prosodia y otros rasgos paramétricos del lenguaje en la subtitulación, los autores también creen que un sistema de este tipo podría eventualmente desarrollar una audiencia más amplia en el mundo que escucha.
Hay muchas iniciativas anteriores en este espacio, incluyendo un proyecto de 1983 que propuso un sistema de subtitulación que podría incluir ‘efectos especiales, color y mayúsculas [para representar] la rica información tonal denegada a los niños sordos[.]’.
En contraste, el proyecto brasileño puede aprovechar tanto la transcripción automatizada como los nuevos desarrollos en el reconocimiento de afecto, que se combinan para permitir un flujo de trabajo que puede importar y caracterizar los componentes de una pista de sonido de habla.
Después de que se extraen y procesan las características prosódicas, se asignan a los sellos de tiempo de las palabras en el habla, produciendo tokens que pueden utilizarse para aplicar una modulación basada en reglas de la tipografía de los subtítulos (ver imagen superior).
Este resultado puede representar visualmente la medida en que una sílaba particular puede ser prolongada, susurrada, enfatizada o de otra manera contener información contextual que se perdería en una transcripción cruda.

Desde la fase de prueba del proyecto, observe la forma en que el kerning (el espacio entre las letras de una palabra) se ha ampliado para reflejar una pronunciación prolongada.
Los autores dejan claro que su trabajo no pretende contribuir directamente a la investigación de reconocimiento de emoción y reconocimiento de afecto, sino que busca clasificar las características del habla y representarlas con un conjunto simple y limitado de convenciones visuales novel.
Al menos, el énfasis adicional que proporciona el sistema desambigua oraciones donde el objeto de la acción puede no ser claro para los espectadores que no pueden escuchar el sonido (ya sea por discapacidad o las circunstancias de la reproducción, como entornos ruidosos).
Para tomar mi propio ejemplo de 2017, que examinó la forma en que los sistemas de aprendizaje automático también pueden tener dificultades para entender dónde se encuentra el objeto y la acción en una oración, es fácil ver la medida en que el énfasis puede cambiar radicalmente el significado de incluso una oración simple:
Yo no robé eso. (Alguien más lo robó)
Yo no robé eso, (Niego la acusación de que lo robé)
Yo no robé eso. (Lo poseo, el robo no aplica)
Yo no robé eso. (Pero robé algo más)
Potencialmente, un flujo de trabajo mecánico de prosodia > tipografía como el que sugieren los autores brasileños también podría ser útil como un complemento en el desarrollo de conjuntos de datos para la investigación de computación de afecto, ya que facilita el procesamiento de datos de texto puro que incorporan algunas dimensiones paralingüísticas preinferidas.
Además, los investigadores señalan que la carga lingüística extra de la prosodia consciente del texto podría ser útil en una serie de tareas basadas en NLP, incluyendo la evaluación de la satisfacción del cliente y la inferencia de la depresión a partir del contenido del texto.
Tipografía Elástica
El marco desarrollado por los investigadores ofrece variación en la desviación de base, donde una letra puede ser más alta o más baja en relación con la ‘base’ en la que descansa la oración; kerning, donde el espacio entre las letras de una palabra puede ser contraído o extendido; y peso de fuente (negrita).
Estos tres estilos se asignan a las características extraídas del habla a las que el proyecto se ha limitado: respectivamente, tono, duración y magnitud.

La progresión del estilismo en una oración. En #1, vemos los límites de sílaba que se han definido en el proceso de extracción. En #2, vemos una representación de cada una de las tres modulaciones (magnitud|peso, kerning|duración y tono|desviación de base), aplicadas individualmente. En #3, vemos las modulaciones tipográficas combinadas en la salida final, como se presentó a los 117 participantes en una prueba del sistema.
Dado que una sola fuente tipográfica puede requerir una fuente adicional y separada para variaciones como la negrita y la cursiva, los investigadores utilizaron una implementación de Google Inter de la fuente de tipo abierto Inter, que integra una gama granular de pesos en una sola fuente.

Desde el artículo, un gráfico que detalla la medida en que un glifo de tipo abierto de la fuente Inter puede expresar una serie de énfasis en negrita a lo largo del esqueleto de la spline base mínima.
Pruebas
La expresión del kerning y la desviación de base se incorporó en un complemento del navegador, que permitió pruebas realizadas en 117 participantes con capacidad de audición.
El conjunto de datos para las pruebas se creó específicamente para el proyecto, contratando a un actor que leyó una selección de poemas varias veces con un énfasis diferente en cada toma, correspondiente a las tres características que el proyecto está estudiando. La poesía se eligió porque permite una serie de énfasis (incluso más allá de la intención del poeta) sin sonar artificial.
Los participantes se dividieron en dos grupos. El primero recibió 15 rondas de la lectura del actor de un estrofa acompañada de texto sincronizado, animado y modulado, que se desenrollaba al mismo tiempo que el clip de audio.
El segundo grupo recibió exactamente el mismo conjunto de tareas, pero se les presentó con imágenes estáticas del texto modulado, que no cambiaron en absoluto durante la reproducción de las lecturas del actor.
La tasa promedio de respuestas correctas fue no aleatoria del 67% para el grupo de imagen estática, y del 63% para el grupo de texto animado. Los comentarios de los participantes solicitados por los investigadores después de las pruebas confirmaron su teoría de que la carga cognitiva de la interpretación dinámica puede haber contribuido a las puntuaciones más bajas para las pruebas no estáticas. Sin embargo, el tipo de sistemas de subtitulación y mensajería para los que se pretende que esté destinado dicho marco suele proporcionar texto completado por defecto.
Los comentarios de los participantes también indicaron que hay límites estrictos para el uso del kerning para indicar duración, con un comentarista que observó que cuando las letras están demasiado espaciadas, se vuelve difícil individuar una palabra.
Los investigadores también señalan:
‘[Algunos] participantes sintieron que el modelo debería ser capaz de encarnar representaciones más matizadas y complejas del habla, lo que debería hacer con un vocabulario visual más variado y expresivo. Si bien esta no es una tarea sencilla, es sin embargo alentador imaginar cómo diferentes aplicaciones de tipografía modulada por habla podrían ramificarse a medida que se desarrolla este nuevo campo.’
Publicado por primera vez el 24 de febrero de 2022.












