Intelligence Artificielle
Exprimer une émotion à travers la typographie avec l'IA

Les tendances et innovations actuelles dans les communications textuelles (y compris les e-mails, la messagerie et les systèmes de sous-titrage) doivent négocier le gouffre affectif entre le discours écrit et parlé de manière grossière et approximative.
Par exemple, ces dernières années ont apporté majuscules alternées en vogue comme mème provocateur dans les guerres de flammes des médias sociaux, tandis que, le très détesté l'utilisation du verrouillage des majuscules (ainsi que des effets typographiques audacieux et discordants autorisés par certaines plateformes de commentaires) continue de provoquer l'intervention des modérateurs. Ce sont des méthodes monotones et largement représentatives pour clarifier l'intention du mot écrit.
Dans le même temps, la popularité croissante des émoticônes et des émoticônes, en tant que vecteurs de sentiments hybrides textuels/visuels, a activement engagé le secteur de la recherche sur le traitement du langage naturel (NLP) ces dernières années, ainsi que l'intérêt pour le signification des GIF animés que les utilisateurs publient dans les fils de commentaires.
Au fil du temps, le langage écrit a développé un fonds innovant de ces méthodes linguistiques « additives », qui tentent soit de représenter l’émotion, soit de l’évoquer en l’absence d’informations tonales dans le mot parlé.
Habituellement, cependant, nous devons restituer l'émotion du mieux que nous pouvons à partir du contexte du mot écrit. Considérez, par exemple, la exclamation « Oh, oh, oh ! », à la conclusion du soliloque nocturne dérangé de Lady Macbeth, sans doute une étude de cas de la mesure dans laquelle l'intonation peut affecter le sens.
Dans la plupart des adaptations, cette lamentation douloureuse dure de 2 à 6 secondes ; dans la production de Trevor Nunn de la Royal Shakespeare Company en 1976, Macbeth, Judi Dench a ramené la lecture de cette ligne à un record peut-être incontesté de 24.45 secondes, dans une interprétation historique du rôle.
(Le système de sous-titrage automatique de YouTube pour ce clip décrit les hurlements de Dench comme [LA MUSIQUE])
Traduire la prosodie en typographie
Un article récent du Brésil propose un système de typographie modulée par la parole qui pourrait potentiellement incorporer de telles prosodie, et d'autres composants paralinguistiques, directement dans le discours sous-titré, ajoutant une dimension d'émotion qui est mal capturée par l'ajout d'adjectifs tels que [En criant], ou les autres astuces « plates » disponibles pour les conventions de sous-titrage codé.
«Nous proposons un nouveau modèle de typographie modulée par la parole, où les caractéristiques acoustiques de la parole sont utilisées pour moduler l'apparence visuelle du texte. Cela pourrait permettre à la transcription d'un énoncé donné de représenter non seulement les mots prononcés, mais aussi la manière dont ils ont été prononcés.
« Avec cela, nous espérons découvrir des paramètres typographiques qui peuvent être généralement reconnus comme des proxys visuels des caractéristiques prosodiques d’amplitude, de hauteur et de durée. »

Le flux de travail qui translittère la prosodie en style typographique. Visant à produire le système le plus polyvalent et le plus largement déployable possible, les auteurs se sont limités au décalage de ligne de base, au crénage et à l'audace, ce dernier étant fourni par la polyvalence d'une police de caractères ouverte. Source : https://arxiv.org/pdf/2202.10631.pdf
Construction papier est intitulé Des braillements, des chuchotements et des jappements cachés : peut-on faire en sorte que le texte sonne plus que ses mots ?, et vient de Calua de Lacerda Pataca et de Paula Dornhofer Paro Costa, deux chercheuses de l'Universidade Estadual de Campinas au Brésil.
Mots en gras
Bien que l'objectif plus large du projet soit de développer des systèmes capables de transmettre la prosodie et d'autres caractéristiques linguistiques paramétriques dans le sous-titrage, les auteurs pensent également qu'un système de cette nature pourrait éventuellement développer un public plus large dans le monde des entendants.
Il existe de nombreuses initiatives antérieures dans cet espace, y compris une Projet 1983 qui proposait un système de sous-titrage pouvant inclure 'effets spéciaux, couleur et lettres majuscules [pour représenter] les riches informations tonales refusées aux enfants sourds[.]'.
En revanche, le projet brésilien est capable de tirer parti à la fois de la transcription automatisée et des nouveaux développements de la reconnaissance des affects, qui se combinent pour permettre un flux de travail capable d'importer et de caractériser les composants d'une bande sonore de la parole.
Une fois les caractéristiques prosodiques extraites et traitées, elles sont mappées sur les horodatages des mots du discours, produisant des jetons qui peuvent ensuite être utilisés pour appliquer une modulation basée sur des règles de la typographie des sous-titres (voir l'image ci-dessus).
Ce résultat peut représenter visuellement la mesure dans laquelle une syllabe particulière peut être prolongée, chuchotée, accentuée ou autrement contenir des informations contextuelles qui seraient perdues dans une transcription brute.

Dès la phase de test du projet, notez la façon dont le crénage (l'espace entre les lettres d'un mot) a été élargi pour refléter une prononciation prolongée.
Les auteurs précisent que leur travail n'est pas destiné à contribuer directement à la reconnaissance des émotions et à affecter la recherche sur la reconnaissance, mais cherche plutôt à classer les caractéristiques de la parole et à les représenter avec une gamme simple et limitée de nouvelles conventions visuelles.
À tout le moins, l'accent supplémentaire que le système fournit lève l'ambiguïté des phrases où l'objet de l'action peut ne pas être clair pour les téléspectateurs qui ne peuvent pas entendre le son (soit en raison d'un handicap, soit des circonstances de lecture, telles que des environnements bruyants).
Pour emprunter mon propre exemple de 2017, qui examinait la manière dont les systèmes d'apprentissage automatique peuvent ont aussi des difficultés en comprenant où se situent l'objet et l'action dans une phrase, il est facile de voir à quel point l'emphase peut changer radicalement le sens même d'une phrase simple :
I Je ne l'ai pas volé. (Quelqu'un d'autre l'a volé)
I n'a pas voler ça, (je nie l'allégation selon laquelle je l'ai volé)
Je n'ai pas voler ce. (Je le possède, le vol ne s'applique pas)
Je n'ai pas volé qui. (Mais j'ai volé autre chose)
Potentiellement, un flux de travail mécaniste prosodie>typographie tel que le suggèrent les auteurs brésiliens pourrait également être utile en tant que complément au développement d'ensembles de données pour la recherche sur l'informatique affective, car il facilite le traitement de données purement textuelles qui intègrent néanmoins des éléments paralinguistiques pré-inférés. dimensions.
De plus, les chercheurs notent que la charge utile linguistique supplémentaire du texte sensible à la prosodie pourrait être utile dans une gamme de tâches basées sur la PNL, y compris l'évaluation de la satisfaction des clients, et pour l'inférence de la dépression à partir du contenu du texte.
Typographie élastique
Le cadre développé par les chercheurs offre une variation dans le décalage de la ligne de base, où une lettre peut être plus haute ou plus basse par rapport à la « ligne de base » sur laquelle repose la phrase ; le crénage, où l'espace entre les lettres d'un mot peut être contracté ou étendu ; et le poids de la police (gras).
Ces trois styles correspondent aux caractéristiques extraites du discours auxquelles le projet s'est limité : respectivement, pas, duréebauen ampleur.

La progression du style sur une phrase. Dans #1, nous voyons les limites des syllabes qui ont été définies dans le processus d'extraction. Dans #2, nous voyons une représentation de chacune des trois modulations (amplitude|poids, crénage|durée et hauteur|décalage de la ligne de base), appliquées individuellement. Dans #3, nous voyons les modulations typographiques combinées dans la sortie finale, telle que présentée aux 117 participants à un essai du système.
Étant donné qu'une seule police de caractères peut nécessiter une police supplémentaire et distincte pour des variantes telles que le gras et l'italique, les chercheurs ont utilisé un Google la mise en oeuvre de la police OpenType Inter Milan, qui intègre une gamme granulaire de poids dans une seule police.

À partir de l'article, un tableau détaillant la mesure dans laquelle un glyphe OpenType de la police Inter peut exprimer une gamme d'accents gras le long du squelette de la spline de base minimale.
Tests
L'expression du crénage et du décalage de la ligne de base a été intégrée dans un plug-in de navigateur, ce qui a permis de mener des tests sur 117 participants malentendants.
L'ensemble de données pour les tests a été créé spécifiquement pour le projet, en faisant appel à un acteur qui a lu plusieurs fois une sélection de poèmes, en mettant l'accent sur un thème différent à chaque prise, correspondant aux trois caractéristiques étudiées par le projet. La poésie a été choisie car elle permet une variété d'accents (allant même au-delà de l'intention du poète) sans paraître artificielle.
Les participants ont été répartis en deux groupes. Le premier a reçu 15 tours de lecture d'une strophe par l'acteur, accompagnée d'un texte synchronisé, animé et modulé, qui se déroulait au rythme de l'extrait audio.
Le deuxième groupe a reçu exactement le même ensemble de tâches, mais on lui a présenté des images statiques du texte modulé, qui n'ont pas changé du tout pendant la lecture des lectures de l'acteur.
Le taux moyen de réponses correctes était non aléatoire de 67 % pour le groupe d'images statiques et de 63 % pour le groupe de textes animés. Les commentaires des participants sollicités par les chercheurs après les essais ont confirmé leur théorie selon laquelle la charge cognitive de l'interprétation dynamique pourrait avoir contribué aux scores inférieurs des tests non statiques. Cependant, le type de système de sous-titrage et de messagerie auquel un tel cadre serait destiné fournit généralement un texte complet par défaut.
Les commentaires des participants ont également indiqué qu'il existe des limites strictes à l'utilisation du crénage pour indiquer la durée, un commentateur notant que lorsque les lettres sont trop espacées, il devient difficile d'individualiser un mot.
Les chercheurs notent également :
Certains participants ont estimé que le modèle devrait pouvoir incarner des représentations vocales plus nuancées et plus complexes, ce qu'il devrait faire avec un vocabulaire visuel plus varié et expressif. Bien que la tâche ne soit pas simple, il est néanmoins encourageant d'imaginer comment différentes applications de la typographie modulée par la parole pourraient se diversifier à mesure que ce nouveau domaine se développe.
Première publication le 24 février 2022.










