Kecerdasan buatan

Peneliti Mengembangkan Model Pengenalan Ucapan Manusia Dengan Jaringan Saraf Dalam

Published March 3, 2022

Updated April 5, 2026

Alex McFarland

Sebuah kelompok peneliti dari Jerman sedang menjelajahi model pengenalan ucapan manusia baru berdasarkan pembelajaran mesin dan jaringan saraf dalam. Model baru ini dapat membantu meningkatkan pengenalan ucapan manusia secara signifikan.

Algoritma alat bantu dengar biasanya digunakan untuk meningkatkan pengenalan ucapan manusia, dan mereka dievaluasi melalui berbagai eksperimen yang menentukan rasio sinyal-ke-bisingan di mana sejumlah kata dapat dikenali. Namun, eksperimen-eksperimen ini sering memakan waktu dan mahal.

Model baru ini dijelaskan dalam penelitian yang diterbitkan di The Journal of the Acoustical Society of America.

Prediksi untuk Pendengar yang Terganggu

Jana Roßbach adalah salah satu penulis dari Universitas Carl Von Ossietzky.

“Kebaruan model kami adalah bahwa ia memberikan prediksi yang baik untuk pendengar yang terganggu untuk jenis bising dengan kompleksitas yang sangat berbeda dan menunjukkan kesalahan yang rendah dan korelasi yang tinggi dengan data yang diukur,” kata Roßbach.

Tim peneliti menghitung berapa banyak kata per kalimat yang dapat dipahami oleh seorang pendengar melalui pengenalan ucapan otomatis (ASR). Alat pengenalan ucapan seperti Alexa dan Siri bergantung pada ASR ini, yang secara luas tersedia.

Studi dan Hasil

Studi yang dilakukan oleh tim melibatkan delapan orang dengan pendengaran normal dan 20 orang dengan gangguan pendengaran. Para pendengar terpapar pada banyak bising kompleks yang menyembunyikan ucapan, dan pendengar yang terganggu dikategorikan menjadi tiga kelompok tergantung pada tingkat kehilangan pendengaran terkait usia mereka.

Melalui model baru, para peneliti dapat memprediksi kinerja pengenalan ucapan manusia dari pendengar yang terganggu dengan derajat kehilangan pendengaran yang berbeda-beda. Mereka dapat membuat prediksi ini untuk berbagai bising dengan kompleksitas yang berbeda-beda dalam modulasi temporal dan seberapa mirip mereka dengan ucapan nyata. Semua ini memungkinkan setiap orang untuk diamati dan dianalisis secara individual dalam hal kehilangan pendengaran yang mungkin terjadi.

“Kami paling terkejut bahwa prediksi bekerja dengan baik untuk semua jenis bising. Kami berharap model memiliki masalah ketika menggunakan satu pembicara yang kompetitif. Namun, itu tidak terjadi,” kata Roßbach.

Karena model ini difokuskan pada pendengaran satu telinga, tim akan sekarang menciptakan model binaural untuk pendengaran dua telinga. Mereka juga mengatakan bahwa model baru ini dapat digunakan untuk memprediksi upaya mendengar atau kualitas ucapan juga.

Related Topics:AI artificial intelligence deep learning

Alex McFarland

Alex McFarland adalah seorang jurnalis dan penulis AI yang menjelajahi perkembangan terbaru dalam kecerdasan buatan. Ia telah berkolaborasi dengan berbagai startup dan publikasi AI di seluruh dunia.

Unite.AI

Peneliti Mengembangkan Model Pengenalan Ucapan Manusia Dengan Jaringan Saraf Dalam

Prediksi untuk Pendengar yang Terganggu

Studi dan Hasil

You may like