์ธ๊ณต์ง๋ฅ
Modulate, ์ธ๊ณต์ง๋ฅ์ด ์ธ๊ฐ์ ๋ชฉ์๋ฆฌ๋ฅผ ์ดํดํ๋ ๋ฐฉ์ ์ฌ์ ์ํ๋ ์์๋ธ ๋ฆฌ์ค๋ ๋ชจ๋ธ ๋์

인공지능은 빠르게 발전해 왔지만 하나의 영역은 일관되게 어려웠다: 단순히 말한 단어뿐만 아니라 감정, 음调과 타이밍에 의해 형성된 의도, 그리고 친근한 농담과 좌절, 기만, 또는 피해를 구별하는 미묘한 신호를真正로 이해하는 것. 오늘, Modulate은 실세계 음성 이해를 위해 특별히 설계된 새로운 인공지능 아키텍처인 앙상블 리스닝 모델(ELM)을 도입함으로써 주요한 돌파구를 발표했다.
연구 발표와 함께, Modulate은 Velma 2.0을 공개했다. 이는 앙상블 리스닝 모델의 첫 번째 상업적 배포이다. 회사는 Velma 2.0이 대화 정확성에서 주요 기초 모델을 능가하면서도 비용의 한 단편만으로 운영된다고 보고한다. 이는 대규모 인공지능 배포의 지속 가능성을 재評価하는 시점에서 주목할 만한 주장이다.
인공지능에게 목소리가 어려운 이유
대부분의 음성을 분석하는 인공지능 시스템은 친숙한 접근 방식을 따른다. 오디오가 텍스트로 변환되고, 그 전사본은 이후에 큰 언어 모델에 의해 처리된다. 이는 전사와 요약에 효과적이지만, 음성이 의미를 가진 대부분을 제거한다.
톤, 감정적 발화, 주저함, 비꼬기, 중첩된 말, 배경 소음 등은 모두 중요한 맥락을 전달한다. 음성이 텍스트로 평면화되면 이러한 차원들이 손실되고, 이는 종종 의도나 감정의 잘못된 해석을 초래한다. 이는 고객 지원, 사기 탐지, 온라인 게임, 인공지능 기반 통신과 같은 환경에서 특히 문제가 된다. 여기서ニュアンス는 직접적인 결과에 영향을 미친다.
Modulate에 따르면, 이 제한은 데이터 주도적인 것이 아니라 구조적인 것이다. 큰 언어 모델은 텍스트 예측을 위해 최적화되었으며, 실시간으로 여러 음향 및 행동 신호를 통합하는 것은 아니다. 앙상블 리스닝 모델은 이러한 간격을 메우기 위해 만들어졌다.
앙상블 리스닝 모델이란?
앙상블 리스닝 모델은 한번에 모든 것을 수행하는 단일 신경망이 아니다. 대신, 음성 상호작용의 다른 차원을 분석하기 위해 특별히 설계된 많은 모델로 구성된 조정된 시스템이다.
ELM 내에서, 별도의 모델은 감정, 스트레스, 기만 지표, 화자 पहच












