Inteligência artificial
Expressão de Emoção por meio da Tipografia com IA

As tendências e inovações atuais nas comunicações de texto (incluindo e-mail, mensagens e sistemas de legendas) devem negociar o abismo afetivo entre a fala escrita e a fala falada de maneira crude e aproximativa.
Por exemplo, nos últimos anos, surgiram letras alternadas como uma provocativa meme nas guerras de chamas das mídias sociais, enquanto o odiado uso de letras maiúsculas (bem como efeitos tipográficos ousados permitidos por algumas plataformas de comentários) continua a provocar intervenções de moderadores. Esses são métodos monótonos e apenas amplamente representativos para esclarecer a intenção da palavra escrita.
Ao mesmo tempo, o crescimento da popularidade de emoticons e emojis, como um híbrido de textual/visual conveyer de sentimento, tem ativamente engajado o setor de pesquisa de Processamento de Linguagem Natural (NLP) nos últimos anos, juntamente com o interesse no significado de GIFs animados que os usuários postam em threads de comentários.
Ao longo do tempo, a linguagem escrita evoluiu um fundo inovador desses métodos linguísticos “aditivos”, que tentam proxy de emoção ou evocá-la na ausência de informações tonais na fala falada.
Geralmente, no entanto, precisamos renderizar a emoção da melhor forma possível a partir do contexto da palavra escrita. Considere, por exemplo, a exclamação ‘Oh, Oh, Oh!’, no final do solilóquio noturno de Lady Macbeth, argumentavelmente um estudo de caso da extensão em que a entonação pode afetar o significado.
Na maioria das adaptações, essa lamentação dolorida dura 2-6 segundos; na produção de 1976 da Royal Shakespeare Company de Macbeth, de Trevor Nunn, Judi Dench levou a leitura dessa linha a um talvez inigualável recorde de 24.45 segundos, em uma interpretação marcante do papel.
(O próprio sistema de legendas automático do YouTube para esse clipe descreve a ululação de Dench como [MUSIC])
Traduzindo Prosódia para Tipografia
Um artigo recente do Brasil propõe um sistema de tipografia modulada por fala que poderia potencialmente incorporar tal prosódia, e outros componentes paralinguísticos, diretamente na fala legendada, adicionando uma dimensão de emoção que é pobremente capturada pela prepensão de adjetivos como [Gritando], ou os outros truques “chatos” disponíveis para convenções de legendas de subtítulos fechados.
‘Propomos um modelo novo de Tipografia Modulada por Fala, onde recursos acústicos da fala são usados para modular a aparência visual do texto. Isso poderia permitir que a transcrição de uma dada declaração não apenas represente as palavras ditas, mas como elas foram ditas.
‘Com isso, esperamos descobrir parâmetros tipográficos que possam ser geralmente reconhecidos como proxies visuais para os recursos prosódicos de amplitude, tom e duração.’

O fluxo de trabalho que translitera prosódia em estilização tipográfica. Visando produzir o sistema mais versátil e amplamente implantável possível, os autores limitaram-se a deslocamento de base, kerning e negrito, o último sendo fornecido pela versatilidade de uma fonte de tipo aberto. Fonte: https://arxiv.org/pdf/2202.10631.pdf
O artigo é intitulado Hidden bawls, whispers, and yelps: can text be made to sound more than just its words?, e vem de Calua de Lacerda Pataca e Paula Dornhofer Paro Costa, dois pesquisadores da Universidade Estadual de Campinas, no Brasil.
Palavras em Negrito
Embora o objetivo mais amplo do projeto seja desenvolver sistemas que possam transmitir prosódia e outros recursos linguísticos paramétricos na legendagem, os autores também acreditam que um sistema desse tipo poderia eventualmente desenvolver uma audiência mais ampla no mundo ouvinte.
Há muitas iniciativas anteriores nesse espaço, incluindo um projeto de 1983 que propôs um sistema de legendagem que poderia incluir ‘efeitos especiais, cor e letras maiúsculas [para representar] a rica informação tonal negada às crianças surdas[.]’.
Em contraste, o projeto brasileiro pode aproveitar tanto a transcrição automatizada quanto os novos desenvolvimentos no reconhecimento de afeto, que se combinam para permitir um fluxo de trabalho que pode importar e caracterizar os componentes de uma trilha sonora de fala.
Depois que os recursos prosódicos são extraídos e processados, eles são mapeados para os carimbos de tempo das palavras na fala, produzindo tokens que podem ser usados para aplicar modulação baseada em regras da tipografia da legenda (veja imagem acima).
Esse resultado pode representar visualmente a extensão com que uma sílaba particular pode ser prolongada, sussurrada, enfatizada ou de outra forma conter informações contextuais que seriam perdidas em uma transcrição bruta.

Da fase de teste do projeto, note a forma como o kerning (o espaço entre as letras de uma palavra) foi ampliado para refletir uma pronúncia prolongada.
Os autores deixam claro que seu trabalho não pretende contribuir diretamente para a pesquisa de reconhecimento de emoção e reconhecimento de afeto, mas busca classificar os recursos da fala e representá-los com um conjunto simples e limitado de convenções visuais novas.
Pelo menos, o destaque adicional que o sistema fornece desambigua frases onde o objeto da ação pode não ser claro para os espectadores que não podem ouvir o som (ou por deficiência ou pelas circunstâncias de reprodução, como ambientes barulhentos).
Para usar meu próprio exemplo de 2017, que examinou a forma como os sistemas de aprendizado de máquina também podem ter dificuldade em entender onde o objeto e a ação se encontram em uma frase, é fácil ver a extensão com que o destaque pode radicalmente mudar o significado de uma frase simples:
Eu não roubei isso. (Alguém mais roubou)
Eu não roubei isso, (Eu nego a alegação de que eu roubei)
Eu não roubei isso. (Eu possuo, o roubo não se aplica)
Eu não roubei isso. (Mas eu roubei algo mais)
Potencialmente, um fluxo de trabalho de prosódia para tipografia mecanicista, como o sugerido pelos autores brasileiros, também poderia ser útil como um adjunto no desenvolvimento de conjuntos de dados para pesquisa de computação de afeto, pois facilita o processamento de dados de texto puro que, no entanto, incorporam algumas dimensões paralinguísticas pré-inferidas.
Além disso, os pesquisadores observam que a carga linguística extra da prosódia consciente do texto poderia ser útil em uma variedade de tarefas baseadas em NLP, incluindo avaliação de satisfação do cliente e para a inferência de depressão a partir do conteúdo do texto.
Tipografia Elástica
O quadro desenvolvido pelos pesquisadores oferece variação no deslocamento de base, onde uma letra pode ser mais alta ou mais baixa em relação à “linha de base” em que a frase se apoia; kerning, onde o espaço entre as letras de uma palavra pode ser contraído ou expandido; e peso da fonte (negrito).
Essas três estilizações mapeiam os recursos extraídos da fala aos quais o projeto se limitou: respectivamente, tom, duração e magnitude.

A progressão de estilização de uma frase. Em #1, vemos as fronteiras de sílaba que foram definidas no processo de extração. Em #2, vemos uma representação de cada uma das três modulações (magnitude|peso, kerning|duração e tom|deslocamento de base), aplicadas individualmente. Em #3, vemos as modulações tipográficas combinadas na saída final, como apresentada aos 117 participantes em um teste do sistema.
Como um único tipo de fonte pode exigir uma fonte adicional e separada para variações como negrito e itálico, os pesquisadores usaram uma implementação do Google Inter da fonte OpenType Inter, que integra uma gama granular de pesos em uma única fonte.

Do artigo, um gráfico detalhando a extensão com que um glifo OpenType da fonte Inter pode expressar uma gama de ênfases em negrito ao longo do esqueleto da spline base mínima.
Testes
A expressão de kerning e deslocamento de base foi incorporada a um plugin do navegador, que permitiu testes realizados em 117 participantes com capacidade de audição.
O conjunto de dados para os testes foi criado especificamente para o projeto, contratando um ator que leu uma seleção de poemas várias vezes com um destaque diferente em cada tomada, correspondendo aos três recursos que o projeto está estudando. A poesia foi escolhida porque permite uma variedade de ênfases (mesmo além da intenção do poeta) sem soar artificial.
Os participantes foram divididos em dois grupos. O primeiro recebeu 15 rodadas da leitura do ator de um estância acompanhada de texto animado e modulado, que se desenrolou em tempo com o clipe de áudio.
O segundo grupo recebeu exatamente as mesmas tarefas, mas foi apresentado com imagens estáticas do texto modulado, que não mudou durante a reprodução do clipe de áudio do ator.
A taxa média de respostas corretas foi de 67% para o grupo de imagem estática e 63% para o grupo de texto animado. Os comentários dos participantes solicitados pelos pesquisadores após os testes confirmaram a teoria de que a carga cognitiva da interpretação dinâmica pode ter contribuído para as pontuações mais baixas para os testes não estáticos. No entanto, o tipo de sistema de legendas e mensagens que um quadro desse tipo seria destinado a fornecer texto concluído por padrão.
Os comentários dos participantes também indicaram que existem limites rígidos para o uso do kerning para indicar duração, com um comentarista observando que, quando as letras estão muito espaçadas, torna-se difícil individuar uma palavra.
Os pesquisadores também observam:
‘[Alguns] participantes sentiram que o modelo deveria ser capaz de incorporar representações mais nuances e complexas da fala, o que ele deveria fazer com um vocabulário visual mais variado e expressivo. Embora isso não seja uma tarefa simples, é, no entanto, encorajador imaginar como diferentes aplicações de tipografia modulada por fala poderiam ramificar-se à medida que esse novo campo se desenvolve.’
Publicado pela primeira vez em 24 de fevereiro de 2022.












