Connect with us

Kecerdasan buatan

Peneliti Mengembangkan Model Pengenalan Ucapan Manusia Dengan Jaringan Saraf Dalam

mm

Sebuah kelompok peneliti dari Jerman sedang menjelajahi model pengenalan ucapan manusia baru berdasarkan pembelajaran mesin dan jaringan saraf dalam. Model baru ini dapat membantu meningkatkan pengenalan ucapan manusia secara signifikan. 

Algoritma alat bantu dengar biasanya digunakan untuk meningkatkan pengenalan ucapan manusia, dan mereka dievaluasi melalui berbagai eksperimen yang menentukan rasio sinyal-ke-bisingan di mana sejumlah kata dapat dikenali. Namun, eksperimen-eksperimen ini sering memakan waktu dan mahal.

Model baru ini dijelaskan dalam penelitian yang diterbitkan di The Journal of the Acoustical Society of America

Prediksi untuk Pendengar yang Terganggu

Jana Roßbach adalah salah satu penulis dari Universitas Carl Von Ossietzky. 

“Kebaruan model kami adalah bahwa ia memberikan prediksi yang baik untuk pendengar yang terganggu untuk jenis bising dengan kompleksitas yang sangat berbeda dan menunjukkan kesalahan yang rendah dan korelasi yang tinggi dengan data yang diukur,” kata Roßbach.

Tim peneliti menghitung berapa banyak kata per kalimat yang dapat dipahami oleh seorang pendengar melalui pengenalan ucapan otomatis (ASR). Alat pengenalan ucapan seperti Alexa dan Siri bergantung pada ASR ini, yang secara luas tersedia. 

Studi dan Hasil

Studi yang dilakukan oleh tim melibatkan delapan orang dengan pendengaran normal dan 20 orang dengan gangguan pendengaran. Para pendengar terpapar pada banyak bising kompleks yang menyembunyikan ucapan, dan pendengar yang terganggu dikategorikan menjadi tiga kelompok tergantung pada tingkat kehilangan pendengaran terkait usia mereka. 

Melalui model baru, para peneliti dapat memprediksi kinerja pengenalan ucapan manusia dari pendengar yang terganggu dengan derajat kehilangan pendengaran yang berbeda-beda. Mereka dapat membuat prediksi ini untuk berbagai bising dengan kompleksitas yang berbeda-beda dalam modulasi temporal dan seberapa mirip mereka dengan ucapan nyata. Semua ini memungkinkan setiap orang untuk diamati dan dianalisis secara individual dalam hal kehilangan pendengaran yang mungkin terjadi. 

“Kami paling terkejut bahwa prediksi bekerja dengan baik untuk semua jenis bising. Kami berharap model memiliki masalah ketika menggunakan satu pembicara yang kompetitif. Namun, itu tidak terjadi,” kata Roßbach.

Karena model ini difokuskan pada pendengaran satu telinga, tim akan sekarang menciptakan model binaural untuk pendengaran dua telinga. Mereka juga mengatakan bahwa model baru ini dapat digunakan untuk memprediksi upaya mendengar atau kualitas ucapan juga. 

Alex McFarland adalah seorang jurnalis dan penulis AI yang menjelajahi perkembangan terbaru dalam kecerdasan buatan. Ia telah berkolaborasi dengan berbagai startup dan publikasi AI di seluruh dunia.