Kecerdasan buatan
Bagaimana Alat Kesehatan Mental AI Menggunakan Deteksi Deepfake yang Akurat secara Tidak Sengaja

Ketika raksasa teknologi Open AI meluncurkan model video dan audio generatif bendera mereka Sora 2 pada September 2025, video deepfake telah membanjiri platform media sosial, membuat audiens semakin familiar dengan konten hiper-realistik yang berpotensi berbahaya.
Meskipun Open AI menganggap peluncuran Sora 2 yang bertanggung jawab sebagai prioritas utama, mengklaim bahwa itu akan memberi pengguna “alat dan pilihan untuk mengontrol apa yang mereka lihat di feed mereka” dan kontrol atas kesamaan mereka dari ujung ke ujung, sebuah studi pada Oktober 2025 menemukan bahwa model tersebut menghasilkan video klaim palsu 80% dari waktu.
Dari video yang meniru laporan berita tentang pejabat pemilu Moldova yang menghancurkan surat suara hingga adegan palsu seorang balita yang ditahan oleh petugas imigrasi atau juru bicara Coca-Cola yang mengumumkan bahwa perusahaan tidak akan mensponsori Super Bowl, taruhan untuk menghasilkan informasi yang salah dalam dunia yang terhubung tidak pernah lebih tinggi.
Di Luar Sora: Vishing
Bahkan sebelum alat Open AI diluncurkan, penciptaan dan penyebaran file deepfake secara online telah meningkat. Menurut laporan September 2025 oleh perusahaan keamanan siber DeepStrike, konten deepfake melonjak dari 500.000 pada 2023 menjadi 8 juta pada 2025, sebagian besar digunakan untuk tujuan penipuan.
Tren ini tidak menunjukkan tanda-tanda berhenti; penipuan AI di AS saja diperkirakan akan mencapai $40 miliar USD pada 2027.
Lonjakan seperti ini tidak terbatas pada kuantitas. Dengan alat seperti Sora 2 dan Google’s Veo 3, konten wajah, suara, dan pertunjukan tubuh penuh yang dihasilkan AI sekarang lebih realistis dari sebelumnya. Ketika ditandai oleh ilmuwan komputer dan peneliti deepfake Siwei Luy, model kontemporer dapat menghasilkan wajah stabil tanpa distorsi atau kerusakan, sedangkan pengkloning suara telah melintasi “ambang yang tidak dapat dibedakan”.
Kenyataannya, deepfakes mengalahkan deteksi. Apa yang perusahaan teknologi jual sebagai alat yang menyenangkan untuk menghasilkan segala sesuatu dari rutinitas gimnastik Olimpiade hingga lanskap suara latar belakang yang canggih, juga telah dimanfaatkan oleh penjahat untuk menargetkan bisnis dan individu. Hanya pada paruh pertama 2025, insiden deepfake mengakibatkan kerugian $356 juta USD untuk perusahaan, dan $541 juta USD untuk individu.
Deteksi deepfake tradisional – termasuk mengidentifikasi tanda air, wajah yang di-photoshop dan periksa metadata – gagal. Dan, karena deepfake suara tetap bentuk kedua dari penipuan yang diaktifkan AI dan vishing (vishing) mengalami lonjakan 442% pada 2025, konsekuensinya sudah dirasakan.
“Beberapa detik audio sudah cukup untuk menghasilkan klon yang meyakinkan – lengkap dengan intonasi alami, irama, penekanan, emosi, jeda dan kebisingan pernapasan,” Lyu menulis.
Ilmu Mendengarkan Manusia
Kintsugi, sebuah startup healthtech yang mengembangkan teknologi biomarker suara AI untuk mendeteksi tanda-tanda depresi klinis dan kecemasan. Pekerjaan mereka dimulai dari premis yang tampaknya sederhana: kita harus mendengarkan manusia.
“Saya memulai Kintsugi karena masalah yang saya alami secara pribadi. Saya menghabiskan hampir lima bulan menelepon penyedia saya hanya untuk menjadwalkan janji temu terapi awal, dan tidak ada yang pernah mengembalikan panggilan saya. Saya terus mencoba – tapi saya ingat dengan jelas bahwa jika itu ayah saya atau saudara laki-laki saya, mereka akan berhenti jauh sebelum saya melakukan,” kata CEO Grace Chang dalam percakapan dengan Unite.AI.
Perusahaan yang berbasis di California ini didirikan pada 2019 sebagai solusi untuk apa yang Chang gambarkan sebagai “bottleneck triase”. Pendiri percaya bahwa mendeteksi keparahan lebih awal dan pasif dapat membantu orang mendapatkan perawatan yang tepat lebih cepat. Dan, melalui Kintsugi Voice, biomarker suara mengidentifikasi depresi klinis dan kecemasan.
Penelitian melimpah membuktikan penggunaan sukses analisis ucapan dan suara yang digerakkan AI sebagai biomarker untuk kondisi kesehatan mental. Sebuah makalah pada Mei 2025, misalnya, menemukan bahwa biomarker akustik dapat mendeteksi tanda-tanda awal kesehatan mental dan neurodivergence, dan berargumen untuk integrasi analisis nyanyian dalam pengaturan klinis untuk menilai kemungkinan penurunan kognitif pasien.
Ukuran suara, sebenarnya, memiliki tingkat akurasi 78% hingga 96% dalam mengidentifikasi orang dengan depresi versus mereka yang tidak, menurut Asosiasi Psikiatri Amerika. Studi lain menggunakan tes fluensi verbal satu menit di mana seorang individu menyebutkan sebanyak mungkin kata dalam kategori tertentu – menemukan 70% hingga 83% akurasi dalam mendeteksi ketika subjek memiliki depresi dan kecemasan.
Untuk menilai kesehatan mental pengguna mereka, Kintsugi meminta klip ucapan singkat, setelah itu teknologi biomarker suara mereka menganalisis nada, intonasi, nada dan jeda – penanda ditemukan untuk dikaitkan dengan kondisi seperti depresi, kecemasan, gangguan bipolar dan demensia.
Apa yang Chang tidak menyadari awalnya, bagaimanapun, adalah bahwa teknologi tersebut telah membuka salah satu tantangan keamanan kontemporer yang paling mendesak: mengidentifikasi apa yang membuat suara manusia manusia.
Dari Perawatan Kesehatan Mental ke Keamanan Siber
Ketika menghadiri sebuah puncak di New York pada akhir 2025, Chang menyebutkan kepada seorang teman di bidang keamanan siber bahwa eksperimen timnya dengan suara sintetis telah mengecewakan.
“Kami menjelajahi data sintetis untuk melengkapi pelatihan untuk model kesehatan mental kami, tetapi suara yang dihasilkan begitu berbeda dari ucapan manusia asli sehingga kami bisa mengatakan hampir 100% dari waktu,” katanya.
“Dia berhenti dan berkata, ‘Grace – itu bukanlah masalah yang sudah terpecahkan di keamanan.’ Itu adalah saat ketika semuanya terhubung. Sejak itu, percakapan dengan perusahaan keamanan, layanan keuangan, dan telco telah mengonfirmasi betapa cepatnya serangan suara deepfake meningkat – dan betapa nyata kebutuhan untuk membedakan suara manusia dari suara sintetis dalam panggilan langsung,” tambah CEO.
Pada April tahun lalu, FBI memperingatkan tentang kampanye pesan teks dan suara yang jahat yang menyamar sebagai komunikasi dari pejabat senior AS dan menargetkan mantan pekerja pemerintah dan kontak mereka. Bank nasional besar di AS juga diserang dengan rata-rata 5,5 upaya penipuan manipulasi suara per hari, dan staf rumah sakit di Pusat Medis Universitas Vanderbilt melaporkan serangan vishing dari penipu yang menyamar sebagai teman, supervisor, dan rekan kerja.
Terlepas dari itu, deepfake tidak awalnya memasuki pekerjaan Kintsugi. Sementara tim perusahaan telah menggunakan model off-the-shelf seperti Cartesia, Sesame dan ElevenLabs untuk bereksperimen dengan suara sintetis untuk agen call center administratif dan alur kerja keluar, penipuan deepfake tidak menjadi fokus mereka di tengah pasar yang ramai dan mudah diakses yang menampilkan model seperti Sora.
Sinyal manusia yang menunjukkan keaslian suara, bagaimanapun, adalah biomarker yang sama yang membuat seseorang manusia pada dasarnya. Terlepas dari bahasa atau semantik, Kintsugi Voice beroperasi dengan pemrosesan sinyal dan latensi fisik ucapan, menangkap timing yang halus, variabilitas prosodik, beban kognitif, dan penanda fisiologis yang mencerminkan bagaimana ucapan dihasilkan… bukan apa yang dikatakan.
“Suara sintetis dapat terdengar fasih, tetapi mereka tidak membawa artifacts biologis dan kognitif yang sama,” kata Chang. Model perusahaan ini konsisten menjadi performer terbaik dalam akurasi deteksi, menggunakan hanya 3 hingga 5 detik audio.
Kintsugi mungkin revolusioner bagi mereka yang berjuang dengan kesehatan mental, terutama di daerah di mana mendapatkan perawatan dengan profesional membutuhkan waktu dan sumber daya. Dengan cara yang sama, teknologi mereka menawarkan revolusi bagi deteksi deepfake dan keamanan siber secara umum: deteksi keaslian daripada pengenalan deepfake.
Masa Depan Berada pada Teknologi Berbasis Manusia
Keamanan siber telah lama fokus pada penggunaan teknologi yang jahat atau pelaku itu sendiri. Penemuan tidak sengaja Kintsugi, bagaimanapun, bertaruh pada kemanusiaan itu sendiri.
“Kami beroperasi pada permukaan yang sama sekali berbeda: keaslian manusia itu sendiri. LLMs tidak dapat mendeteksi konten yang dihasilkan LLM dengan andal, dan metode berbasis artifact rapuh. Mengumpulkan dataset besar yang dilabeli secara klinis yang mengkodekan variabilitas manusia yang nyata mahal, lambat, dan di luar keahlian inti kebanyakan perusahaan keamanan — yang membuat pendekatan ini sulit untuk direplikasi,” kata Chang.
Pendekatan startup ini juga menunjukkan pergeseran yang lebih luas: inovasi antar domain. Mereka yang memimpin di bidang perawatan kesehatan mungkin memimpin serangan deteksi vishing yang didukung AI, sama seperti inovator di teknologi ruang angkasa dapat mendukung mekanisme respons darurat yang baru ditemukan, atau arsitek permainan dan perencanaan kota.
Bagi Chang, dia berencana untuk menjadi standar untuk memverifikasi manusia nyata dan, akhirnya, niat nyata melalui interaksi suara.
“Sama seperti HTTPS menjadi lapisan kepercayaan default untuk web, kami percaya bahwa ‘bukti manusia’ akan menjadi lapisan dasar untuk sistem berbasis suara,” katanya.
Ketika AI generatif terus mempercepat, perlindungan paling efektif mungkin datang dari memahami apa yang membuat manusia… ya, manusia.












