Terhubung dengan kami

Kecerdasan Buatan

Modulate Memperkenalkan Model Mendengarkan Ensemble, Mendefinisikan Ulang Cara AI Memahami Suara Manusia

mm

Kecerdasan buatan telah berkembang pesat, namun satu bidang tetap menjadi tantangan yang konsisten: benar-benar memahami suara manusia. Bukan hanya kata-kata yang diucapkan, tetapi emosi di baliknya, niat yang dibentuk oleh nada dan waktu, serta sinyal halus yang membedakan candaan ramah dari frustrasi, penipuan, atau bahaya. Saat ini, Modulasikan mengumumkan terobosan besar dengan diperkenalkannya Model Mendengarkan Bersama (Ensemble Listening Model/ELM), sebuah arsitektur AI baru yang dirancang khusus untuk pemahaman suara di dunia nyata.

Bersamaan dengan pengumuman penelitian tersebut, Modulate juga mengungkap Velma 2.0, penerapan produksi pertama dari Model Mendengarkan Ensemble. Perusahaan melaporkan bahwa Velma 2.0 melampaui model dasar terkemuka dalam akurasi percakapan sambil beroperasi dengan biaya yang jauh lebih rendah, sebuah klaim penting di saat perusahaan sedang menilai kembali keberlanjutan penerapan AI skala besar.

Mengapa Suara Menjadi Sulit bagi AI?

Sebagian besar sistem AI yang menganalisis ucapan mengikuti pendekatan yang sudah umum. Audio diubah menjadi teks, dan transkrip tersebut kemudian diproses oleh model bahasa yang besar. Meskipun efektif untuk transkripsi dan ringkasan, proses ini menghilangkan sebagian besar hal yang membuat suara menjadi bermakna.

Nada suara, intonasi emosi, keraguan, sarkasme, tumpang tindih ucapan, dan kebisingan latar belakang semuanya membawa konteks penting. Ketika ucapan disederhanakan menjadi teks, dimensi-dimensi tersebut hilang, seringkali mengakibatkan salah tafsir maksud atau sentimen. Hal ini menjadi sangat problematis di lingkungan seperti dukungan pelanggan, deteksi penipuan, game online, dan komunikasi berbasis AI, di mana nuansa secara langsung memengaruhi hasil.

Menurut Modulate, keterbatasan ini bersifat arsitektural, bukan berbasis data. Model bahasa yang besar dioptimalkan untuk prediksi teks, bukan untuk mengintegrasikan berbagai sinyal akustik dan perilaku secara real-time. Model Mendengarkan Ensemble diciptakan untuk mengatasi kesenjangan tersebut.

Apa Itu Model Mendengarkan Bersama (Ensemble Listening Model)?

Model Mendengarkan Ensemble bukanlah jaringan saraf tunggal yang dilatih untuk melakukan semuanya sekaligus. Sebaliknya, ini adalah sistem terkoordinasi yang terdiri dari banyak model khusus, yang masing-masing bertanggung jawab untuk menganalisis dimensi interaksi suara yang berbeda.

Dalam ELM, model-model terpisah memeriksa emosi, stres, indikator penipuan, identitas pembicara, pengaturan waktu, prosodi, kebisingan latar belakang, dan potensi suara sintetis atau tiruan. Sinyal-sinyal ini disinkronkan melalui lapisan orkestrasi yang selaras waktu yang menghasilkan interpretasi terpadu dan dapat dijelaskan tentang apa yang terjadi dalam sebuah percakapan.

Pembagian kerja yang eksplisit ini merupakan inti dari pendekatan ELM. Alih-alih mengandalkan satu model besar untuk menyimpulkan makna secara implisit, Model Mendengarkan Ensemble menggabungkan berbagai perspektif yang ditargetkan, sehingga meningkatkan akurasi dan transparansi.

Di dalam Velma 2.0

Velma 2.0 merupakan evolusi substansial dari sistem berbasis ensemble Modulate sebelumnya. Sistem ini menggunakan lebih dari 100 model komponen yang bekerja bersama secara real-time, terstruktur di lima lapisan analitis.

Lapisan pertama berfokus pada pemrosesan audio dasar, menentukan jumlah pembicara, pengaturan waktu bicara, dan jeda. Selanjutnya adalah ekstraksi sinyal akustik, yang mengidentifikasi keadaan emosional, tingkat stres, isyarat penipuan, penanda suara sintetis, dan kebisingan lingkungan.

Lapisan ketiga menilai niat yang dirasakan, membedakan antara pujian yang tulus dan komentar sarkastik atau bermusuhan. Pemodelan perilaku kemudian melacak dinamika percakapan dari waktu ke waktu, menandai frustrasi, kebingungan, ucapan yang telah direncanakan, atau upaya rekayasa sosial. Lapisan terakhir, analisis percakapan, menerjemahkan wawasan ini menjadi peristiwa yang relevan bagi perusahaan seperti pelanggan yang tidak puas, pelanggaran kebijakan, potensi penipuan, atau agen AI yang tidak berfungsi.

Modulate melaporkan bahwa Velma 2.0 memahami makna dan maksud percakapan sekitar 30 persen lebih akurat daripada pendekatan berbasis LLM terkemuka, sekaligus 10 hingga 100 kali lebih hemat biaya dalam skala besar.

Dari Moderasi Game hingga Intelijen Perusahaan

Asal mula Ensemble Listening Models terletak pada karya awal Modulate dengan game online. Judul-judul populer seperti Call of Duty dan Grand Theft Auto Online menghasilkan beberapa lingkungan suara yang paling menantang yang dapat dibayangkan. Percakapan berlangsung cepat, berisik, sarat emosi, dan dipenuhi dengan bahasa gaul serta referensi kontekstual.

Memisahkan candaan yang bersifat mengolok-olok dari pelecehan yang sebenarnya secara langsung membutuhkan lebih dari sekadar transkripsi. Saat Modulate mengoperasikan sistem moderasi suaranya, ToxModKemudian, secara bertahap mereka menyusun kumpulan model yang semakin kompleks untuk menangkap nuansa-nuansa tersebut. Mengkoordinasikan puluhan model khusus menjadi penting untuk mencapai akurasi yang dibutuhkan, yang akhirnya mendorong tim untuk memformalkan pendekatan tersebut ke dalam kerangka arsitektur baru.

Velma 2.0 memperluas arsitektur tersebut di luar dunia game. Saat ini, Velma 2.0 mendukung platform perusahaan Modulate, menganalisis ratusan juta percakapan di berbagai industri untuk mengidentifikasi penipuan, perilaku yang tidak pantas, ketidakpuasan pelanggan, dan aktivitas AI yang anomali.

Sebuah Tantangan terhadap Model-Model Yayasan

Pengumuman ini datang pada saat perusahaan-perusahaan sedang mengevaluasi kembali strategi AI mereka. Terlepas dari investasi besar-besaran, Sebagian besar inisiatif AI gagal mencapai tahap produksi. atau memberikan nilai jangka panjang. Hambatan umum meliputi: halusinasi, meningkatnya biaya inferensi, pengambilan keputusan yang tidak transparan, dan kesulitan mengintegrasikan wawasan AI ke dalam alur kerja operasional.

Model Mendengarkan Ensemble (Ensemble Listening Models/ELM) mengatasi masalah ini secara langsung. Dengan mengandalkan banyak model yang lebih kecil dan dirancang khusus, alih-alih sistem monolitik tunggal, ELM lebih murah untuk dioperasikan, lebih mudah diaudit, dan lebih mudah diinterpretasikan. Setiap output dapat ditelusuri kembali ke sinyal spesifik, memungkinkan organisasi untuk memahami mengapa suatu kesimpulan dicapai.

Tingkat transparansi ini sangat penting, terutama di lingkungan yang teregulasi atau berisiko tinggi di mana keputusan "kotak hitam" tidak dapat diterima. Modulate memposisikan ELM bukan sebagai pengganti model bahasa besar, tetapi sebagai arsitektur yang lebih tepat untuk kecerdasan suara tingkat perusahaan.

Melampaui Konversi Ucapan ke Teks

Salah satu aspek paling visioner dari Velma 2.0 adalah kemampuannya untuk menganalisis bagaimana sesuatu dikatakan, bukan hanya apa yang dikatakan. Ini termasuk mendeteksi suara sintetis atau suara tiruan, sebuah kekhawatiran yang semakin meningkat seiring dengan semakin mudahnya akses terhadap teknologi penghasil suara.

Seiring dengan peningkatan kemampuan kloning suara, perusahaan menghadapi peningkatan risiko terkait penipuan, pemalsuan identitas, dan rekayasa sosial. Dengan menyematkan deteksi suara sintetis langsung ke dalam sistemnya, Velma 2.0 memperlakukan keaslian sebagai sinyal inti, bukan sebagai fitur tambahan opsional.

Pemodelan perilaku sistem ini juga memungkinkan wawasan proaktif. Sistem ini dapat mengidentifikasi kapan pembicara membaca dari naskah, kapan frustrasi meningkat, atau kapan interaksi mengarah ke konflik. Kemampuan ini memungkinkan organisasi untuk melakukan intervensi lebih awal dan lebih efektif.

Arah Baru untuk AI Perusahaan

Modulasikan Model Mendengarkan Ensemble (Ensemble Listening Model) dijelaskan sebagai kategori baru arsitektur AI, yang berbeda dari alur pemrosesan sinyal tradisional dan model dasar yang besar. Wawasan yang mendasarinya adalah bahwa interaksi manusia yang kompleks lebih mudah dipahami melalui spesialisasi yang terkoordinasi daripada penskalaan secara paksa.

Seiring dengan meningkatnya permintaan perusahaan akan sistem AI yang akuntabel, efisien, dan selaras dengan kebutuhan operasional nyata, Model Mendengarkan Ensemble mengarah pada masa depan di mana kecerdasan dirakit dari banyak komponen yang terfokus. Dengan Velma 2.0 yang kini telah beroperasi di lingkungan produksi, Modulate bertaruh bahwa pergeseran arsitektur ini akan berdampak jauh melampaui moderasi suara dan dukungan pelanggan.

Dalam industri yang mencari alternatif untuk kotak hitam yang semakin besar, Model Mendengarkan Ensemble menunjukkan bahwa kemajuan besar berikutnya dalam AI mungkin datang dari mendengarkan dengan lebih cermat, bukan hanya dari melakukan komputasi yang lebih agresif.

Antoine adalah pemimpin visioner dan mitra pendiri Unite.AI, yang didorong oleh hasrat yang tak tergoyahkan untuk membentuk dan mempromosikan masa depan AI dan robotika. Sebagai pengusaha serial, ia percaya bahwa AI akan sama disruptifnya terhadap masyarakat seperti listrik, dan sering kali terlihat mengoceh tentang potensi teknologi disruptif dan AGI.

Sebagai futuris, ia berdedikasi untuk mengeksplorasi bagaimana inovasi ini akan membentuk dunia kita. Selain itu, ia adalah pendiri Sekuritas.io, sebuah platform yang berfokus pada investasi dalam teknologi mutakhir yang mendefinisikan kembali masa depan dan membentuk kembali seluruh sektor.