Intelligence artificielle

Expression de l’émotion à travers la typographie avec l’IA

Published February 24, 2022

Updated April 5, 2026

Martin Anderson

Les tendances et innovations actuelles dans les communications textuelles (y compris les courriels, les messageries et les systèmes de légendage) doivent négocier le fossé affectif entre le langage écrit et parlé de manière grossière et approximative.

Par exemple, ces dernières années ont vu l’émergence de l’alternance de majuscules comme une provocation dans les guerres de flammes sur les médias sociaux, tandis que l’utilisation hautement détestée de la touche majuscule (ainsi que des effets typographiques audacieux et heurtés autorisés par certaines plateformes de commentaires) continue de provoquer l’intervention des modérateurs. Ce sont des méthodes monotones et qui ne représentent que de manière large l’intention du mot écrit.

Dans le même temps, la croissance de la popularité des émoticônes et des émojis, en tant que moyen hybride de transmission de sentiments textuels et visuels, a activement impliqué le secteur de la recherche en traitement automatique des langues (NLP) ces dernières années, ainsi que l’intérêt pour la signification des GIF animés que les utilisateurs publient dans les fils de commentaires.

Au fil du temps, le langage écrit a évolué pour inclure un fond innovant de ces méthodes linguistiques « additives », qui tentent soit de proxifier l’émotion, soit de l’évoquer en l’absence d’informations tonales dans le langage parlé.

Généralement, cependant, nous devons rendre l’émotion aussi bien que possible à partir du contexte du mot écrit. Considérez, par exemple, l’exclamation ‘Oh, Oh, Oh!’, à la conclusion de la soliloquie nocturne dérangée de Lady Macbeth, qui constitue sans doute une étude de cas de la mesure dans laquelle l’intonation peut affecter le sens.

Dans la plupart des adaptations, cette lamentation douloureuse dure 2-6 secondes ; dans la production de 1976 de la Royal Shakespeare Company de Macbeth par Trevor Nunn, Judi Dench a lu cette ligne pendant peut-être un record inégalé de 24,45 secondes, dans une interprétation emblématique du rôle.

https://youtu.be/IgEshHhnLqU?t=7470

(Le système de sous-titres automatiques de YouTube pour cette vidéo décrit l’ululation de Dench comme [MUSIC])

Traduire la prosodie en typographie

Un article récent du Brésil propose un système de typographie modulée par la parole qui pourrait potentiellement incorporer une telle prosodie, ainsi que d’autres composants paralinguistiques, directement dans les sous-titres, en ajoutant une dimension d’émotion qui est mal capturée par la préfixation d’adjectifs tels que [Crier], ou les autres « tours » plats disponibles aux conventions de sous-titres.

‘Nous proposons un modèle novateur de typographie modulée par la parole, où les caractéristiques acoustiques de la parole sont utilisées pour moduler l’apparence visuelle du texte. Cela pourrait permettre à la transcription d’une énonciation de ne pas seulement représenter les mots prononcés, mais la manière dont ils ont été prononcés.

‘Avec cela, nous espérons découvrir des paramètres typographiques qui peuvent être généralement reconnus comme des proxys visuels pour les caractéristiques prosodiques d’amplitude, de hauteur et de durée.’

Le flux de travail qui transcrit la prosodie en stylisation typographique. En visant à produire le système le plus polyvalent et le plus largement déployable possible, les auteurs se sont limités au décalage de base, au kerning et à la boldness, cette dernière étant fournie par la polyvalence d’une police de caractères ouverte. Source: https://arxiv.org/pdf/2202.10631.pdf

L’article est intitulé Hidden bawls, whispers, and yelps: can text be made to sound more than just its words?, et provient de Calua de Lacerda Pataca et Paula Dornhofer Paro Costa, deux chercheurs à l’Universidade Estadual de Campinas au Brésil.

Mots gras

Bien que l’objectif plus large du projet soit de développer des systèmes qui puissent transmettre la prosodie et d’autres caractéristiques linguistiques paramétriques dans les sous-titres, les auteurs estiment également qu’un système de ce type pourrait éventuellement développer un public plus large dans le monde des personnes entendantes.

Il existe de nombreuses initiatives antérieures dans ce domaine, notamment un projet de 1983 qui a proposé un système de sous-titres qui pourrait inclure « des effets spéciaux, de la couleur et des lettres majuscules [pour représenter] les riches informations tonales refusées aux enfants sourds[.]».

Contrairement à cela, le projet brésilien peut tirer parti à la fois de la transcription automatisée et de nouveaux développements dans la reconnaissance des affects, qui se combinent pour permettre un flux de travail qui peut importer et caractériser les composants d’une bande sonore.

Une fois que les caractéristiques prosodiques sont extraites et traitées, elles sont mappées aux horodatages des mots de la parole, produisant des jetons qui peuvent ensuite être utilisés pour appliquer une modulation basée sur des règles de la typographie des sous-titres (voir image ci-dessus).

Ce résultat peut représenter visuellement la mesure dans laquelle une syllabe particulière peut être prolongée, chuchotée, soulignée ou autrement contenir des informations contextuelles qui seraient perdues dans une transcription brute.

De la phase de test du projet, notez la façon dont le kerning (l’espace entre les lettres d’un mot) a été élargi pour refléter une prononciation prolongée.

Les auteurs précisent que leur travail n’est pas destiné à contribuer directement à la recherche sur la reconnaissance des émotions et la reconnaissance des affects, mais vise plutôt à classer les caractéristiques de la parole et à les représenter avec un ensemble limité et simple de nouvelles conventions visuelles.

Au minimum, l’accent supplémentaire fourni par le système élimine les ambiguïtés dans les phrases où l’objet de l’action peut ne pas être clair pour les téléspectateurs qui ne peuvent pas entendre le son (soit en raison d’un handicap, soit en raison des circonstances de lecture, telles que des environnements bruyants).

Pour reprendre mon propre exemple de 2017, qui a examiné la façon dont les systèmes d’apprentissage automatique peuvent également avoir du mal à comprendre où se trouve l’objet et l’action dans une phrase, il est facile de voir dans quelle mesure l’accent peut radicalement changer le sens d’une phrase aussi simple :

Je n’ai pas volé cela. (Quelqu’un d’autre l’a volé)
Je ne n’ai pas volé cela, (Je nie l’allégation que j’ai volé)
Je n’ai pas volé cela. (Je le possède, le vol ne s’applique pas)
Je n’ai pas volé cela. (Mais j’ai volé autre chose)

Potentiellement, un flux de travail mécaniste de prosodie à typographie tel que celui suggéré par les auteurs brésiliens pourrait également être utile comme un auxiliaire dans le développement de jeux de données pour la recherche sur l’informatique affective, car il facilite le traitement de données textuelles pures qui incorporpent néanmoins certaines dimensions paralinguistiques pré-inférées.

En outre, les chercheurs notent que la charge linguistique supplémentaire de la prosodie consciente du texte pourrait être utile dans une gamme de tâches basées sur le NLP, notamment l’évaluation de la satisfaction client et pour l’inférence de la dépression à partir du contenu textuel.

Typographie élastique

Le cadre développé par les chercheurs offre une variation de décalage de base, où une lettre peut être plus haute ou plus basse par rapport à la « ligne de base » sur laquelle repose la phrase ; le kerning, où l’espace entre les lettres d’un mot peut être contracté ou étendu ; et la graisse de police (boldness).

Ces trois styles sont mappés aux caractéristiques de la parole extraites auxquelles le projet s’est limité : respectivement, hauteur, durée et amplitude.

La progression de la stylisation d’une phrase. Dans #1, nous voyons les limites de syllabes qui ont été définies dans le processus d’extraction. Dans #2, nous voyons une représentation de chacune des trois modulations (amplitude|boldness, kerning|duration et hauteur|décalage de base), appliquées séparément. Dans #3, nous voyons les modulations typographiques combinées dans la sortie finale, telle que présentée aux 117 participants dans un essai du système.

Puisque une seule police de caractères peut nécessiter une police supplémentaire et distincte pour les variations telles que le gras et l’italique, les chercheurs ont utilisé une implémentation Google de la police OpenType Inter, qui intègre une gamme granulaire de poids dans une seule police.

De l’article, un graphique détaillant la mesure dans laquelle un glyphe OpenType de la police Inter peut exprimer une gamme d’accentuations grasses le long du squelette de la spline de base minimale.

Test

L’expression du kerning et du décalage de base a été intégrée dans un plugin de navigateur, qui a permis des tests menés sur 117 participants ayant une audition.

Le jeu de données pour les tests a été créé spécifiquement pour le projet, en embauchant un acteur qui a lu une sélection de poèmes à plusieurs reprises avec un accent différent à chaque prise, correspondant aux trois caractéristiques que le projet étudie. La poésie a été choisie car elle permet une gamme d’accentuations (même au-delà de l’intention du poète) sans paraître artificielle.

Les participants ont été divisés en deux groupes. Le premier a reçu 15 rounds de la lecture de l’acteur d’un vers accompagné de texte animé et modulé synchronisé, qui s’est déroulé en même temps que la bande sonore.

Le deuxième groupe a reçu exactement les mêmes tâches, mais a été présenté avec des images statiques du texte modulé, qui n’ont pas changé du tout pendant la lecture de la bande sonore de l’acteur.

Le taux moyen de réponses correctes était de 67 % pour le groupe d’images statiques, et de 63 % pour le groupe de texte animé. Les commentaires des participants sollicités par les chercheurs après les essais ont confirmé leur théorie selon laquelle la charge cognitive d’interprétation dynamique peut avoir contribué aux scores plus bas pour les tests non statiques. Cependant, les systèmes de sous-titres et de messagerie pour lesquels un tel cadre serait destiné fournissent généralement du texte terminé par défaut.

Les commentaires des participants ont également indiqué qu’il existe des limites strictes à l’utilisation du kerning pour indiquer la durée, un commentateur notant que lorsque les lettres sont espacées trop loin, il devient difficile d’individualiser un mot.

Les chercheurs notent également :

‘[Certains] participants ont estimé que le modèle devrait être en mesure d’incarner des représentations plus nuancées et complexes de la parole, ce qu’il devrait faire avec un vocabulaire visuel plus varié et expressif. Même si ce n’est pas une tâche simple, il est encourageant d’imaginer comment différentes applications de typographie modulée par la parole pourraient se développer à mesure que ce nouveau domaine se développe.’

Publié pour la première fois le 24 février 2022.

Related Topics:natural language processing research speech recognition

Martin Anderson

Écrivain sur l'apprentissage automatique, spécialiste de domaine en synthèse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.

Unite.AI

Expression de l’émotion à travers la typographie avec l’IA

Traduire la prosodie en typographie

Mots gras

Typographie élastique

Test

You may like