인공지능
입술 읽기와 비즈음 및 기계 학습

테헤란 컴퓨터 공학 학교의 새로운 연구는 입술을 읽을 수 있는 기계 학습 시스템을 생성하는 도전을 해결하기 위한 개선된 접근 방식을 제공합니다.
논문은 비즈음 디코딩을 사용한 입술 읽기라는 제목으로, 새로운 시스템이 이전 모델 중 최고의 단어 오류율에 비해 4%의 개선을 달성한다고 보고합니다. 시스템은 이 분야에서 유용한 훈련 데이터의 일반적인 부족을 해결하기 위해 600만 개의 샘플이 있는 OpenSubtitles 데이터 세트에서 파생된 텍스트 콘텐츠에 비즈음을 매핑합니다.
비즈음은 음소의 시각적 등가물로, 효과적으로 오디오>이미지 매핑으로 기계 학습 모델의 ‘특성’이 될 수 있습니다.
연구자들은 사용 가능한 데이터 세트에서 가장 낮은 오류율을 설정하고 확립된 매핑 절차에서 비즈음 시퀀스를 개발하여 시작했습니다. 점차적으로 이 프로세스는 단어의 시각적 어휘를 개발하지만, 동일한 비즈음을 공유하는 단어(‘heart’와 ‘art’와 같은)에 대한 확률을 정의하는 것이 필요합니다.
두 개의 동일한 단어가 동일한 비즈음을 생성할 때, 가장 자주 발생하는 단어가 선택됩니다.
모델은 전통적인 시퀀스-시퀀스 학습에 비즈음을 텍스트에서 예측하고 전용 파이프라인에서 모델링하는 하위 처리 단계를 추가함으로써 구축됩니다.
모델은 시각적 컨텍스트 없이 LRS3-TED 데이터 세트에 적용되었으며, 얻은 최악의 단어 오류율(WER)은 24.29%였습니다.
테헤란 연구는 또한 그래프음-음소 변환기의 사용을 포함합니다.
2017년 옥스포드 연구 야생에서의 입술 읽기 문장에 대한 테스트에서(아래 참조), 비디오-비즈음 방법은 62.3%의 단어 오류율을 달성했으며, 이는 옥스포드 방법의 69.5%와 비교됩니다.
연구자들은 더 많은 텍스트 정보를 사용하고 그래프음-음소 및 비즈음 매핑을 결합하면 자동화된 입술 읽기 기계 시스템의 현재 상태를 개선할 수 있을 것이라고 결론지었습니다. 그러나 사용된 방법은 더 복잡한 현재 프레임워크에 통합될 때 더 나은 결과를 제공할 수 있다고 인정합니다.
기계 주도 입술 읽기는 지난 20년 동안 컴퓨터 비전 및 NLP 연구의 활발한 영역입니다. 많은 예와 프로젝트 중에서, 2006년 자동 입술 읽기 소프트웨어는 아돌프 히틀러의 유명한 무성 영화에서 그가 말하는 것을 해석할 때 헤드라인을 잡았습니다. 그러나 이 응용 프로그램은 이후로 관찰 가능성이消失했습니다(12년 후, 피터 잭슨 경은 휴먼 입술 읽기를 사용하여 WW1 푸티지의 대화를 복원하는 그들은 성장하지 않을 것이라는 복원 프로젝트에 종사했습니다).
2017년, 야생에서의 입술 읽기 문장은 옥스포드 대학교와 구글의 AI 연구 부서 간의 협력으로, 음성이 없는 비디오에서 48%의 말하기를 올바르게 추론할 수 있는 입술 읽기 AI를 생성했습니다. 여기서 인간 입술 읽기는 동일한 자료에서 12.4%의 정확도만 달성할 수 있었습니다. 모델은 수천 시간의 BBC TV 푸티지에서 훈련되었습니다.
이 연구는 이전 해에 옥스포드/구글이 수행한 별도의 이니셔티브를 따랐으며, LipNet이라는 제목의 신경망 아키텍처가 포함되어 있습니다. 이 아키텍처는 가변 길이의 비디오 시퀀스를 텍스트 시퀀스로 매핑하는 GRN(Gated Recurrent Network)을 사용하여 RNN(Recurrent Neural Network)의 기본 아키텍처에 기능을 추가합니다. 모델은 인간 입술 읽기보다 4.1배 개선된 성능을 달성했습니다.
실시간으로 정확한 전사를 유도하는 문제 외에도, 비디오에서 음성을 해석하는 도전은 오디오, 잘 비추어진 ‘얼굴’ 푸티지 및 음소/비즈음이 상대적으로 뚜렷한 언어/문화와 같은 유용한 컨텍스트를 제거함에 따라 깊어집니다.
현재 음성이 없는 상태에서 입술 읽기가 가장 어려운 언어에 대한 경험적 이해는 없지만, 일본어는 주요 후보입니다. 일본어 사용자(및 기타 일부 서양 및 동양 언어 사용자)가 이미 konuşma 내용에 대해 얼굴 표정을 사용하는 방식은 이미 감정 분석 시스템에 대한 더 큰 도전입니다.
그러나 이 영역의 과학 문헌은 일반적으로 신중합니다. 이는 심지어 잘 의도된 객관적인 연구도 종종 인종 프로파일링 및 기존의 고정관념을 퍼뜨리는 위험을 가지고 있기 때문입니다.
구강 구성 요소가 많은 언어, 예를 들어 체첸어 및 네덜란드어,는 자동화된 음성 추출 기술에 특히 문제가 됩니다. 또한 화자가 감정이나 존중을 표현하기 위해 눈을 돌리는 문화(일반적으로 아시아 문화에서)에서는 AI 입술 읽기 연구자들이 다른 컨텍스트적 단서에서 ‘채우기’를 위한 추가적인 방법을 개발해야 하는 또 다른 차원이 추가됩니다.















