부본 Visemes 및 기계 학습을 통한 입술 읽기 - Unite.AI
Rescale 미팅 예약

인공 지능

Visemes 및 기계 학습을 통한 입술 읽기

mm
업데이트 on
HAL은 2001: A Space Odyssey(1968)에서 입술을 읽습니다.

테헤란 컴퓨터 공학 대학의 새로운 연구에서는 입술을 읽을 수 있는 기계 학습 시스템을 만드는 과제에 대한 향상된 접근 방식을 제시합니다.

XNUMXD덴탈의 종이, 제목 Viseme 디코딩을 사용한 입술 읽기, 새로운 시스템은 유사한 이전 모델 중 최고에 비해 단어 오류율이 4% 향상되었다고 보고합니다. 이 시스템은 매핑을 통해 이 부문에서 유용한 교육 데이터의 일반적인 부족을 해결합니다. 비짐 번역된 영화 제목의 OpenSubtitles 데이터 세트에 있는 600만 개의 샘플에서 파생된 텍스트 콘텐츠입니다.

비짐은 시각적으로 음소와 동일하며 사실상 오디오>이미지입니다. 매핑 기계 학습 모델에서 '기능'을 구성할 수 있는

비짐 gif

작동 중인 비짐. 출처: https://developer.oculus.com/documentation/unity/audio-ovrlipsync-viseme-reference/

연구자들은 사용 가능한 데이터 세트에서 가장 낮은 오류율을 설정하고 확립된 매핑 절차에서 viseme 시퀀스를 개발하는 것으로 시작했습니다. 점차적으로 이 프로세스는 단어의 시각적 어휘집을 개발합니다. 그러나 비짐(예: '하트' 및 '예술')을 공유하는 다른 단어에 대한 정확도 확률을 정의해야 합니다.

디코딩된 비짐

텍스트에서 추출한 비짐. 출처 : https://arxiv.org/pdf/2104.04784.pdf

두 개의 동일한 단어가 동일한 viseme을 생성하는 경우 가장 자주 발생하는 단어가 선택됩니다.

모델은 전통적인 시퀀스 간 비짐이 텍스트에서 예측되고 전용 파이프라인에서 모델링되는 하위 처리 단계를 추가하여 학습:

Viseme 아키텍처 입술 읽기

위는 캐릭터 모델의 전통적인 sequence-to-sequence 방법입니다. 아래는 Tehran 연구 모델에 viseme 캐릭터 모델링을 추가한 것입니다. 출처 : https://arxiv.org/pdf/2104.04784.pdf

이 모델은 시각적 맥락 없이 적용되었습니다. LRS3-TED 데이터 세트, 출시 2018년 옥스퍼드 대학교에서 최악의 단어 오류율(WER)로 24.29%의 상당한 점수를 얻었습니다.

테헤란 연구는 또한 문자소에서 음소로 변환기.

2017 옥스포드 연구에 대한 테스트에서 야생에서 입술 읽기 문장 (아래 참조) Video-To-Viseme 방법은 62.3%의 단어 오류율을 달성했으며 Oxford 방법은 69.5%였습니다.

연구자들은 자소-음소 및 비짐 매핑과 결합된 더 많은 양의 텍스트 정보를 사용하면 자동화된 입술 판독기 시스템의 최신 기술보다 개선될 수 있다고 결론지었습니다. 보다 정교한 현재 프레임워크에 통합될 때 더 나은 결과를 얻을 수 있습니다.

기계 기반 입술 읽기는 지난 2006년 동안 컴퓨터 비전 및 NLP 연구에서 적극적이고 지속적인 영역이었습니다. 다른 많은 사례와 프로젝트 중에서 XNUMX년에 자동화된 입술 읽기 소프트웨어 사용 캡처된 헤드라인 바이에른 휴양지에서 촬영한 유명한 무성 영화에서 아돌프 히틀러가 말한 내용을 해석하는 데 사용되었을 때(XNUMX년 후 Peter Jackson 경 의지 복원 프로젝트에서 WW1 영상의 대화를 복원하기 위해 인간 입술 판독기에게 그들은 늙지 아니하리라).

2017년에 야생에서 입술 읽기 문장, 옥스퍼드 대학과 Google의 AI 연구 부서 간의 협력으로 입술을 읽는 AI 소리 없이 비디오에서 말의 48%를 정확하게 추론할 수 있는 반면, 사람의 입술 판독기는 동일한 자료에서 12.4%의 정확도에 도달할 수 있습니다. 이 모델은 수천 시간 분량의 BBC TV 영상에서 훈련되었습니다.

이 작업은 별도의 제목이 붙은 전년도의 Oxford/Google 이니셔티브 립넷는 RNN(Recurrent Neural Network)의 기본 아키텍처에 기능을 추가하는 GRN(Gated Recurrent Network)을 사용하여 가변 길이의 비디오 시퀀스를 텍스트 시퀀스에 매핑하는 신경망 아키텍처입니다. 이 모델은 인간의 입술 판독기보다 4.1배 향상된 성능을 달성했습니다.

실시간으로 정확한 대본을 도출하는 문제 외에도 오디오, 조명이 밝은 '대면' 영상, 음소/ 비짐은 상대적으로 뚜렷합니다.

현재 오디오가 전혀 없는 상태에서 어떤 언어가 입술 읽기에 가장 어려운지에 대한 경험적 이해는 없지만 일본어는 주요 경쟁자. 일본 원주민(다른 서아시아 및 동아시아 원주민 포함)이 말의 내용에 대해 얼굴 표정을 활용하는 다양한 방식은 이미 그들을 더 큰 도전 감정 분석 시스템용.

그러나 이 주제에 관한 많은 과학 문헌이 일반적으로 조심성 있는, 특히 이 영역에 대한 선의의 객관적 연구조차도 인종 프로파일링과 기존 고정관념의 확산으로 넘어갈 위험이 있기 때문입니다.

다음과 같이 후음 구성 요소의 비율이 높은 언어 체첸Dutch, 자동 음성 추출 기술에 특히 문제가 되는 반면 화자가 시선을 돌려 감정이나 경의를 표현할 수 있는 문화(다시 말하지만 일반적으로 아시아 문화에서) AI 입술 읽기 연구원이 다른 맥락적 단서로부터 '채우기'의 추가 방법을 개발해야 하는 또 다른 차원을 추가합니다.