Intelligenza artificiale

Esprimere emozioni attraverso la tipografia con l’AI

mm

Le tendenze e le innovazioni attuali nelle comunicazioni testuali (incluse email, messaggistica e sistemi di didascalia) devono negoziare il divario affettivo tra discorso scritto e parlato in modi grezzi e approssimativi.

Ad esempio, gli ultimi anni hanno portato in voga le alternate caps come un meme provocatorio nelle guerre di fiamme dei social media, mentre l’uso molto odiato della caps lock (nonché gli effetti tipografici audaci e grezzi consentiti da alcune piattaforme di commento) continua a provocare l’intervento dei moderatori. Questi sono metodi monotoni e solo broadly rappresentativi per chiarire l’intento della parola scritta.

Allo stesso tempo, la crescita di popolarità degli emoticon e degli emoji, come un veicolo di sentimento testuale/visivo ibrido, ha attivamente coinvolto il settore di ricerca del Natural Language Processing (NLP) negli ultimi anni, insieme all’interesse per il significato dei GIF animati che gli utenti pubblicano nei thread di commento.

Nel corso del tempo, il linguaggio scritto ha sviluppato un fondo innovativo di questi metodi linguistici “additivi”, che tentano di proxy l’emozione o di evocarla in assenza delle informazioni tonali della parola parlata.

Di solito, tuttavia, dobbiamo rendere l’emozione come meglio possiamo dal contesto della parola scritta. Considera, ad esempio, l’esclamazione ‘Oh, Oh, Oh!’, alla fine della soliloquia notturna dissociata di Lady Macbeth, argomento di studio dell’estensione in cui l’intonazione può influenzare il significato.

Nella maggior parte delle adattamenti, questo lamento doloroso dura 2-6 secondi; nella produzione del 1976 della Royal Shakespeare Company di Macbeth di Trevor Nunn, Judi Dench ha portato la lettura di questa linea a un record forse ineguagliato di 24,45 secondi, in un’interpretazione epocale del ruolo.

(Il sistema di auto-didascalia di YouTube per questo clip descrive l’ululazione di Dench come [MUSIC])

Tradurre la prosodia in tipografia

Un recente articolo del Brasile propone un sistema di tipografia modulata dal discorso che potrebbe potenzialmente incorporare tale prosodia, e altri componenti paralinguistici, direttamente nella didascalia del discorso, aggiungendo una dimensione di emozione che è catturata in modo scarsamente prepending di aggettivi come [Shouting], o gli altri ‘trucchi piatti’ disponibili per le convenzioni di sottotitolo chiuso.

‘Proponiamo un modello innovativo di tipografia modulata dal discorso, in cui le caratteristiche acustiche del discorso sono utilizzate per modulare l’aspetto visivo del testo. Ciò potrebbe consentire a una trascrizione di un’enunciazione di rappresentare non solo le parole pronunciate, ma anche come sono state pronunciate.

‘Con questo, speriamo di scoprire parametri tipografici che possano essere generalmente riconosciuti come proxy visivi per le caratteristiche prosodiche di ampiezza, pitch e durata.’

Il flusso di lavoro che traslitera la prosodia in stile tipografico. Mirando a produrre il sistema più versatile e ampiamente distribuibile possibile, gli autori si sono limitati a baseline shift, kerning e boldness, quest'ultimo fornito dalla versatilità di un font OpenType. Source: https://arxiv.org/pdf/2202.10631.pdf

Il flusso di lavoro che traslitera la prosodia in stile tipografico. Mirando a produrre il sistema più versatile e ampiamente distribuibile possibile, gli autori si sono limitati a baseline shift, kerning e boldness, quest’ultimo fornito dalla versatilità di un font OpenType. Source: https://arxiv.org/pdf/2202.10631.pdf

L’articolo è intitolato Nascosti gridi, sussurri e latrati: può il testo essere reso più che solo le sue parole?, e proviene da Calua de Lacerda Pataca e Paula Dornhofer Paro Costa, due ricercatori dell’Universidade Estadual de Campinas in Brasile.

Parole in grassetto

Sebbene l’obiettivo più ampio del progetto sia quello di sviluppare sistemi che possano trasmettere prosodia e altre caratteristiche linguistiche parametriche nella didascalia, gli autori ritengono anche che un sistema di questo tipo potrebbe eventualmente sviluppare un pubblico più ampio nel mondo che sente.

Ci sono molte iniziative precedenti in questo spazio, inclusi un progetto del 1983 che ha proposto un sistema di didascalia che potrebbe includere ‘effetti speciali, colore e lettere maiuscole [per rappresentare] le ricche informazioni tonali negate ai bambini sordi[.]’.

Al contrario, il progetto brasiliano può trarre vantaggio sia dalla trascrizione automatizzata che dai nuovi sviluppi nel riconoscimento degli affetti, che si combinano per abilitare un flusso di lavoro che può importare e caratterizzare i componenti in una colonna sonora del discorso.

Dopo che le caratteristiche prosodiche sono state estratte e elaborate, vengono mappate sui timestamp delle parole nel discorso, producendo token che possono quindi essere utilizzati per applicare una modulazione basata su regole della tipografia della didascalia (vedi immagine sopra).

Questo risultato può rappresentare visivamente l’estensione in cui una particolare sillaba potrebbe essere protratta, sussurrata, enfatizzata o altrimenti contenere informazioni contestuali che sarebbero perse in una trascrizione grezza.

Dalla fase di test del progetto, nota il modo in cui il kerning (lo spazio tra le lettere in una parola) è stato allargato per riflettere una pronuncia protratta.

Dalla fase di test del progetto, nota il modo in cui il kerning (lo spazio tra le lettere in una parola) è stato allargato per riflettere una pronuncia protratta.

Gli autori chiariscono che il loro lavoro non è destinato a contribuire direttamente alla ricerca sul riconoscimento delle emozioni e del riconoscimento degli affetti, ma cerca invece di classificare le caratteristiche del discorso e rappresentarle con un semplice e limitato insieme di convenzioni visuali nuove.

Almeno, l’enfasi aggiuntiva fornita dal sistema disambigua le frasi in cui l’oggetto dell’azione potrebbe non essere chiaro per gli spettatori che non possono sentire il suono (sia a causa di una disabilità che delle circostanze di riproduzione, come ambienti rumorosi).

Per prendere il mio stesso esempio del 2017, che ha esaminato il modo in cui i sistemi di apprendimento automatico possono anche avere difficoltà a capire dove si trova l’oggetto e l’azione in una frase, è facile vedere l’estensione in cui l’enfasi può radicalmente cambiare il significato di una frase anche semplice:

I non ho rubato quello. (Qualcun altro lo ha rubato)
I non ho rubato quello, (Io nego l’accusa di averlo rubato)
I non ho rubato quello. (Io lo possiedo, il furto non si applica)
I non ho rubato quello. (Ma ho rubato qualcos’altro)

Potenzialmente, un flusso di lavoro meccanicistico prosodia>tipografia come quello suggerito dagli autori brasiliani potrebbe anche essere utile come ausilio nello sviluppo di set di dati per la ricerca sul calcolo degli affetti, poiché facilita l’elaborazione di dati testuali puri che incorporano alcune dimensioni paralinguistiche pre-inferite.

Inoltre, i ricercatori notano, il carico linguistico aggiuntivo della prosodia consapevole del testo potrebbe essere utile in una serie di compiti basati sul NLP, inclusa la valutazione della soddisfazione del cliente e per l’inferenza della depressione dal contenuto del testo.

Tipografia elastica

La struttura sviluppata dai ricercatori offre variazioni nel baseline shift, dove una lettera può essere più alta o più bassa rispetto alla ‘baseline’ su cui si trova la frase; kerning, dove lo spazio tra le lettere di una parola può essere contratto o esteso; e font-weight (grassetto).

Questi tre stili si mappano alle caratteristiche del discorso estratte a cui il progetto si è limitato: rispettivamente, pitch, durata e ampiezza.

La progressione dello stile su una frase. In #1, vediamo i confini delle sillabe che sono stati definiti nel processo di estrazione. In #2, vediamo una rappresentazione di ciascuna delle tre modulazioni (ampiezza|peso, kerning|durata e pitch|baseline shift), applicate singolarmente. In #3, vediamo le modulazioni tipografiche combinate nel output finale, come presentato ai 117 partecipanti in un trial del sistema.

La progressione dello stile su una frase. In #1, vediamo i confini delle sillabe che sono stati definiti nel processo di estrazione. In #2, vediamo una rappresentazione di ciascuna delle tre modulazioni (ampiezza|peso, kerning|durata e pitch|baseline shift), applicate singolarmente. In #3, vediamo le modulazioni tipografiche combinate nel output finale, come presentato ai 117 partecipanti in un trial del sistema.

Poiché un singolo carattere tipografico può richiedere un font aggiuntivo e separato per variazioni come il grassetto e il corsivo, i ricercatori hanno utilizzato un’implementazione di Google Inter del font OpenType Inter, che integra una gamma granulare di pesi in un singolo font.

Dall'articolo, un grafico che dettaglia l'estensione in cui un glifo OpenType dal font Inter può esprimere una gamma di enfasi in grassetto lungo lo scheletro della spline di base minima.

Dall’articolo, un grafico che dettaglia l’estensione in cui un glifo OpenType dal font Inter può esprimere una gamma di enfasi in grassetto lungo lo scheletro della spline di base minima.

Test

L’espressione del kerning e del baseline shift è stata incorporata in un plugin del browser, che ha consentito test condotti su 117 partecipanti con abilità uditive.

Il set di dati per i test è stato creato specificamente per il progetto, assumendo un attore che ha letto una selezione di poesie più volte con un’enfasi diversa in ogni take, corrispondente alle tre caratteristiche che il progetto sta studiando. La poesia è stata scelta perché consente una gamma di enfasi (anche al di là dell’intento del poeta) senza suonare artificiale.

I partecipanti sono stati divisi in due gruppi. Il primo ha ricevuto 15 turni della lettura dell’attore di una strofa accompagnata da testo animato e modulato sincronizzato, che si è svolto in tempo con il clip audio.

Il secondo gruppo ha ricevuto esattamente lo stesso set di compiti, ma è stato presentato con immagini statiche del testo modulato, che non cambiavano durante la riproduzione della lettura dell’attore.

La percentuale media di risposte corrette è stata del 67% per il gruppo con immagini statiche e del 63% per il gruppo con testo animato. I commenti dei partecipanti sollecitati dai ricercatori dopo i trial hanno confermato la loro teoria che il carico cognitivo dell’interpretazione dinamica potrebbe aver contribuito ai punteggi più bassi per i test non statici. Tuttavia, il tipo di sistema di didascalia e di messaggistica per cui tale framework sarebbe destinato fornisce per default testo completato.

I commenti dei partecipanti hanno anche indicato che ci sono limiti rigidi all’uso del kerning per indicare la durata, con un commentatore che ha notato che quando le lettere sono spaziate troppo lontano, diventa difficile individuare una parola.

I ricercatori notano anche:

‘[Alcuni] partecipanti hanno sentito che il modello dovrebbe essere in grado di incorporare rappresentazioni più sottili e complesse del discorso, che dovrebbe fare con un vocabolario visivo più vario e espressivo. Sebbene non sia un compito semplice, è comunque incoraggiante immaginare come diverse applicazioni della tipografia modulata dal discorso potrebbero ramificarsi mentre questo nuovo campo si sviluppa.’

 

 

Pubblicato per la prima volta il 24 febbraio 2022.

Scrittore su apprendimento automatico, specialista di dominio nella sintesi di immagini umane. Ex capo della ricerca contenuti presso Metaphysic.ai.