인공 지능

AI로 타이포그래피를 통한 감정 표현

업데이트 on 2022 년 12 월 9 일

텍스트 통신(이메일, 메시징 및 캡션 시스템 포함)의 현재 추세와 혁신은 조잡하고 근사한 방식으로 글과 말 사이의 감정적 간극을 협상해야 합니다.

예를 들어, 지난 몇 년 동안 교대 대문자 소셜 미디어 화염 전쟁에서 도발적인 밈으로 유행하면서 많이 싫어하는 Caps Lock 사용(및 일부 댓글 플랫폼에서 허용하는 대담하고 거슬리는 타이포그래피 효과)은 계속해서 중재자의 개입을 유발합니다. 이들은 단조롭고 쓰여진 단어의 의도를 명확히 하기 위한 광범위하게 대표적인 방법일 뿐입니다.

동시에 하이브리드 텍스트/시각 감성 전달자로서 이모티콘과 이모지가 인기를 끌면서 적극적으로 참여 최근 자연어 처리(NLP) 연구 분야에 대한 관심이 높아지고 있습니다. 애니메이션 GIF의 의미 사용자가 댓글 스레드에 게시합니다.

시간이 지남에 따라 문어는 이러한 '가산적' 언어 방법의 혁신적인 자금을 발전시켰습니다. 이 방법은 구어에 있는 음조 정보가 없을 때 감정을 대리하거나 감정을 불러일으키려고 시도합니다.

그러나 일반적으로 우리는 글의 맥락에서 최대한 감정을 표현할 필요가 있습니다. 예를 들어 다음을 고려하십시오. 감탄 '오, 오, 오!', Lady Macbeth의 혼란스러운 밤 독백의 결론에서 억양이 의미에 영향을 미칠 수 있는 정도에 대한 사례 연구일 것입니다.

대부분의 적응에서 이 고통스러운 비탄은 2-6초 동안 지속됩니다. Trevor Nunn의 1976년 Royal Shakespeare Company 프로덕션에서 맥베스, Judi Dench는 아마도 도전받지 않은 기록으로 이 줄을 읽었습니다. 24.45 초, 역할에 대한 획기적인 해석.

(이 클립에 대한 YouTube의 자체 자막 시스템은 Dench의 울림을 다음과 같이 설명합니다. [음악])

Prosody를 타이포그래피로 번역하기

브라질의 최근 논문은 잠재적으로 그러한 타이포그래피를 통합할 수 있는 음성 변조 타이포그래피 시스템을 제안합니다. 작시법, 기타 준언어적 구성 요소를 캡션이 있는 음성에 직접 추가하여 [외침], 또는 클로즈드 캡션 자막 규칙에 사용할 수 있는 다른 '플랫' 트릭입니다.

'우리는 음성의 음향적 특징을 사용하여 텍스트의 시각적 모양을 변조하는 음성 변조 타이포그래피의 새로운 모델을 제안합니다. 이를 통해 주어진 발화의 전사가 말하는 단어뿐만 아니라 말하는 방식을 나타낼 수 있습니다.

'이를 통해 우리는 일반적으로 진폭, 피치 및 기간의 운율적 특징에 대한 시각적 프록시로 인식될 수 있는 타이포그래피 매개변수를 발견하기를 희망합니다.'

운율을 타이포그래피 스타일로 음역하는 워크플로입니다. 가장 다재다능하고 널리 배포할 수 있는 시스템을 만드는 것을 목표로 저자는 기준선 이동, 커닝 및 굵기로 제한했으며 후자는 개방형 글꼴의 다양성으로 제공됩니다. 출처 : https://arxiv.org/pdf/2202.10631.pdf

XNUMXD덴탈의 종이 제목이 숨은 외침, 속삭임, 고함: 텍스트가 단어 이상의 소리를 낼 수 있습니까?, 브라질 Universidade Estadual de Campinas의 두 연구원인 Calua de Lacerda Pataca와 Paula Dornhofer Paro Costa에서 왔습니다.

대담한 단어

이 프로젝트의 더 넓은 목표는 자막에 운율 및 기타 파라메트릭 언어 기능을 전달할 수 있는 시스템을 개발하는 것이지만, 저자는 또한 이러한 성격의 시스템이 결국 청각 세계에서 더 많은 청중을 개발할 수 있다고 믿습니다.

이 공간에는 다음을 포함하여 많은 사전 계획이 있습니다. 1983 프로젝트 다음을 포함할 수 있는 캡션 시스템을 제안했습니다. '특수 효과, 색상 및 대문자 [나타내는] 풍부한 음조 정보는 청각 장애 아동[.]을 거부했습니다.'.

대조적으로, 브라질 프로젝트는 음성 사운드트랙의 구성 요소를 가져오고 특성화할 수 있는 워크플로우를 가능하게 하기 위해 결합된 감정 인식의 자동화된 필사 및 새로운 개발을 모두 활용할 수 있습니다.

운율 특징이 추출되고 처리된 후 음성에 있는 단어의 타임스탬프에 매핑되어 캡션 타이포그래피의 규칙 기반 변조를 적용하는 데 사용할 수 있는 토큰을 생성합니다(위 이미지 참조).

이 결과는 특정 음절이 길게 늘어지거나, 속삭이거나, 강조되거나, 원시 전사에서 손실될 수 있는 문맥 정보를 보유할 수 있는 정도를 시각적으로 나타낼 수 있습니다.

프로젝트의 테스트 단계에서 긴 발음을 반영하기 위해 커닝(단어에서 문자 사이의 간격)이 넓어진 방식에 주목하십시오.

저자는 자신의 작업이 감정 인식에 직접적으로 기여하고 인지 연구에 영향을 주기 위한 것이 아니라 말의 특징을 분류하고 단순하고 제한된 범위의 새로운 시각적 관습으로 표현하고자 함을 분명히 합니다.

적어도 시스템이 제공하는 추가 강조는 소리를 들을 수 없는 시청자에게 행동의 대상이 명확하지 않을 수 있는 문장을 명확하게 합니다(장애 또는 시끄러운 환경과 같은 재생 환경으로 인해).

2017년에 머신러닝 시스템이 할 수 있는 방식을 살펴본 내 예를 빌리자면 어려움도 있다 목적어와 동작이 문장의 어디에 있는지 이해하면 강조가 단순한 문장의 의미를 근본적으로 바꿀 수 있는 정도를 쉽게 알 수 있습니다.

I 그것을 훔치지 않았습니다. (다른 사람이 훔쳐갔다)
I 아니 그것을 훔치다, (나는 그것을 훔쳤다는 주장을 부정한다)
나는하지 않았다. 도둑질 저것. (내가 소유, 도난은 적용되지 않음)
나는 훔치지 않았다 그. (하지만 난 다른 걸 훔쳤어)

잠재적으로 브라질 저자가 제안한 것과 같은 기계적 운율>타이포그래피 워크플로우는 정서 컴퓨팅 연구를 위한 데이터 세트 개발의 부속물로도 유용할 수 있습니다. 치수.

또한 연구자들은 운율 인식 텍스트의 추가 언어 페이로드가 고객 만족도 평가를 포함한 NLP 기반 작업 범위와 텍스트 콘텐츠에서 우울증을 추론하는 데 유용할 수 있다고 지적합니다.

탄성 타이포그래피

연구자들이 개발한 프레임워크는 문장이 놓인 '기준선'에 비해 문자가 더 높거나 낮을 수 있는 기준선 이동의 변화를 제공합니다. 단어의 글자 사이의 간격이 축소되거나 확장될 수 있는 커닝(kerning); 및 글꼴 두께(굵게).

이 세 가지 스타일은 프로젝트가 자체적으로 제한한 추출된 음성 기능에 매핑됩니다. 피치, 지속및 진도.

문장의 스타일링 진행. #1에서는 추출 과정에서 정의된 음절 경계를 볼 수 있습니다. #2에서 세 가지 변조(크기, 커닝, 피치|기준 이동) 각각이 개별적으로 적용된 것을 볼 수 있습니다. #3에서는 시스템 시험에서 117명의 참가자에게 제시된 최종 출력에서 결합된 타이포그래피 변조를 볼 수 있습니다.

단일 서체는 볼드체 및 이탤릭체와 같은 변형을 위해 별도의 추가 글꼴이 필요할 수 있기 때문에 연구원들은 Google 이행 OpenType 글꼴의 매장하다, 세분화된 가중치 범위를 단일 글꼴로 통합합니다.

논문에서 Inter 글꼴의 OpenType 글리프가 최소 기본 스플라인의 골격을 따라 다양한 범위의 굵은 강조를 표현할 수 있는 정도를 자세히 설명하는 차트입니다.

지원

커닝 및 기준선 이동의 표현은 브라우저 플러그인에 통합되어 117명의 청각 지원 참가자를 대상으로 테스트를 수행할 수 있었습니다.

테스트를 위한 데이터 세트는 프로젝트에서 연구 중인 세 가지 기능에 해당하는 각 테이크에 대해 서로 다른 강조점을 가지고 선택한 시를 여러 번 읽는 배우를 고용하여 프로젝트를 위해 특별히 생성되었습니다. 시는 본질적으로 인공적으로 들리지 않으면서 (심지어 시인의 의도를 넘어서는) 다양한 강조를 허용하기 때문에 선택되었습니다.

참가자들은 두 그룹으로 나뉘었다. 첫 번째는 오디오 클립과 함께 제 시간에 펼쳐지는 동기화되고 애니메이션되고 변조된 텍스트와 함께 배우가 스탠자를 읽는 15라운드를 받았습니다.

두 번째 그룹은 정확히 동일한 일련의 작업을 받았지만 배우가 읽는 동안 전혀 변경되지 않은 변조된 텍스트의 정적 이미지가 제시되었습니다.

평균 정답률은 정적 이미지 그룹의 경우 무작위가 아닌 67%, 애니메이션 텍스트 그룹의 경우 63%였습니다. 실험 후 연구원이 요청한 참가자 의견은 동적 해석의 인지 부하가 비정적 테스트의 낮은 점수에 기여했을 수 있다는 이론을 확인했습니다. 그러나 그러한 프레임워크가 의도하는 종류의 캡션 및 메시지 시스템은 일반적으로 기본적으로 완성된 텍스트를 제공합니다.

참가자 의견은 또한 길이를 표시하기 위해 커닝을 사용하는 데 엄격한 제한이 있음을 나타냈으며, 한 의견 작성자는 문자 간격이 너무 멀면 단어를 개별화하기 어렵다고 지적했습니다.

연구원들은 또한 다음 사항에 주목합니다.

'[일부] 참가자들은 모델이 보다 다양하고 표현력이 풍부한 시각적 어휘와 관련하여 보다 미묘하고 복잡한 음성 표현을 구현할 수 있어야 한다고 느꼈습니다. 이것은 간단한 작업이 아니지만 그럼에도 불구하고 이 새로운 분야가 발전함에 따라 음성 변조 타이포그래피의 다양한 응용 프로그램이 어떻게 분기될 수 있는지 상상하는 것은 고무적입니다.'

24년 2022월 XNUMX일에 처음 게시되었습니다.