Connect with us

인공지능

연구자들, 딥 뉴럴 네트워크를 이용한 인간 음성 인식 모델 개발

mm

독일의 연구자 그룹은 기계 학습과 딥 뉴럴 네트워크를 기반으로 하는 새로운 인간 음성 인식 모델을 탐구하고 있습니다. 새로운 모델은 인간 음성 인식을 크게 개선할 수 있습니다.

청각 보조 알고리즘은 일반적으로 인간 음성 인식을 개선하는 데 사용되며, 특정 수의 단어가 인식되는 신호 대 노イズ 비율을 결정하는 다양한 실험을 통해 평가됩니다. 그러나 이러한 실험은 종종 시간이 걸리고 비용이 많이 듭니다.

새로운 모델은 The Journal of the Acoustical Society of America에 발표된 연구에서 자세히 설명되어 있습니다.

청각 장애인 청취자에 대한 예측

Jana Roßbach는 Carl Von Ossietzky University의 저자 중 한 명입니다.

“우리의 모델의 새로운 점은 매우 다른 복잡성을 가진 노イズ 유형에 대해 청각 장애인 청취자에 대한 좋은 예측을 제공하며 낮은 오류와 측정 데이터와 높은 상관관계를 보여준다”고 Roßbach는 말했습니다.

연구자들은 자동 음성 인식(ASR)을 통해 청취자가 문장당 몇 개의 단어를 이해할 수 있는지 계산했습니다. Alexa와 Siri 같은 음성 인식 도구는 이 ASR을 사용합니다.

연구 및 결과

연구 팀이 수행한 연구에는 정상 청력과 청각 장애인 20명이 참여했습니다. 청취자들은 많은 복잡한 소음에 노출되었으며, 청각 장애인 청취자는 노화 관련 청력 손실 수준에 따라 세 가지 그룹으로 분류되었습니다.

새로운 모델을 통해 연구자들은 다양한 복잡성의 노イズ 마스커와 실제 음성과 얼마나 유사한지에 따라 청각 장애인 청취자의 인간 음성 인식 성능을 예측할 수 있었습니다. 각 개인은 가능한 청력 손실에 대해 개별적으로 관찰되고 분석될 수 있었습니다.

“우리는 예측이 모든 노イズ 유형에서 잘 작동하는 것을 가장 놀랍게 생각했습니다. 우리는 단일 경쟁적인 대화자가 사용될 때 모델이 문제를 겪을 것으로 예상했지만,那样하지 않았습니다”고 Roßbach는 말했습니다.

모델이 단일 귀 청취에 중점을 두었기 때문에 팀은 이제 두 귀 청취를 위한 이중 귀 모델을 만들 계획입니다. 또한 새로운 모델은 청취 노력이나 음성 품질을 예측하는 데 사용될 수 있다고 말합니다.

Alex McFarland은 인공 지능의 최신 개발을 탐구하는 AI 저널리스트이자 작가입니다. 그는 전 세계의 수많은 AI 스타트업과 출판물들과 협력했습니다.