Kunstig intelligens

Uttrykk av emosjon gjennom typografi med AI

Published February 24, 2022

Updated April 5, 2026

Martin Anderson

De nåværende trendene og innovasjonene i tekstkommunikasjon (inkludert e-post, meldinger og undertekstsystemer) må forhandle det affektive gapet mellom skrevet og talt språk på en grov og approksimativ måte.

For eksempel har de siste årene ført alternativ caps inn i mote som en provokerende meme i sosiale medier-flamme-kriger, mens den meget hatede bruken av caps lock (samt fete og jarring typografiske effekter tillatt av noen kommentar-plattformer) fortsetter å provosere inngripen fra moderatorer. Disse er monotone og bare bredt representative metoder for å klargjøre intensjonen bak det skrevne ordet.

På samme tid har veksten i popularitet av emotikoner og emojis, som en hybrid tekst/visuell sentiment-bærer, aktivt engasjert den naturlige språkbehandling (NLP) forskningssektoren i de siste årene, sammen med interesse for meningen av animerte GIF-er som brukerne poster i kommentar-tråder.

Over tid har det skrevne språket utviklet en innovativ fond av disse ‘additive’ lingvistiske metodene, som forsøker å proxy eller å vekke emosjon i fravær av tonal informasjon i det talte ordet.

Vanligvis må vi likevel rendre emosjonen så godt vi kan fra konteksten av det skrevne ordet. Vurdér for eksempel utbruddet ‘Oh, Oh, Oh!’ på slutten av Lady Macbeths forvirrede natlige soliloqi, et godt eksempel på hvor mye intonasjon kan påvirke mening.

I de fleste tilpasninger varer denne smertefulle klagen 2-6 sekunder; i Trevor Nunn’s 1976 Royal Shakespeare Company-produksjon av Macbeth, tok Judi Dench lesningen av denne linjen til en kanskje uutfordret rekord på 24,45 sekunder, i en banebrytende tolkning av rollen.

https://youtu.be/IgEshHhnLqU?t=7470

(YouTube’s eget auto-teksting-system for denne klippet beskriver Dench’s ululasjon som [MUSIC])

Oversettelse av prosodi til typografi

En nylig artikkel fra Brasil foreslår et system for tale-modulert typografi som potensielt kan inkorporere slike prosodi og andre paralingvistiske komponenter direkte i undertekstet tale, og legge til en dimensjon av emosjon som dårlig fanget av forheng av adjektiver som [Shouting], eller andre ‘flate’ triks tilgjengelig for lukket undertekst-konvensjoner.

‘Vi foreslår en ny modell for tale-modulert typografi, der akustiske egenskaper fra tale brukes til å modulere det visuelle utseendet av tekst. Dette kunne tillate at en gitt uttalelse sin transkripsjon ikke bare representerer ord som blir sagt, men hvordan de ble sagt.

‘Med dette håper vi å avdekke typografiske parametre som kan generelt gjenkjennes som visuelle proxyer for de prosodiske egenskapene av amplitude, pitch og varighet.’

… (rest of the content remains the same, following the exact same structure and formatting as the original)

Related Topics:natural language processing research speech recognition

Martin Anderson

Forfatter på maskinlæring, domeneekspert på menneskesynthese. Tidligere leder for forskningsinnhold på Metaphysic.ai.

Unite.AI

Uttrykk av emosjon gjennom typografi med AI

Oversettelse av prosodi til typografi

You may like