Yapay Zekâ
Bir Mental Sağlık AI Aracı Kazara Doğru Derin Sahte Tespit Edildi

Teknoloji devi Open AI, Eylül 2025’te bayrak gemisi Sora 2 video ve ses jenerasyon modelini başlattığında, derin sahte videolar sosyal medya platformlarını sel etti ve izleyicileri potansiyel olarak tehlikeli olan süper gerçekçi içerikle giderek daha fazla tanıştırdı.
Open AI, Sora 2’nin sorumlu lansmanını en üst öncelik olarak değerlendirdi ve iddia etti ki, bu, kullanıcılara “akışlarında ne gördüklerini kontrol etme araçları ve seçeneği” verecek ve benzerliklerini uçtan uca kontrol edecek, Ekim 2025’te bir çalışma modelin %80 oranında yanlış iddia videoları ürettiğini buldu.
Moldovalı bir seçim yetkilisinin oy pusulasını yok ettiği haber raporlarını taklit eden videolardan, bir göçmen memurunun bir çocuğu tutukladığı sahte sahnelerine veya bir Coca-Cola sözcüsünün şirketin Süper Kupa’yı sponsorlamayacağına ilişkin duyuruya kadar, birbirine bağlı bir dünyada yanlış bilgi üretme riskleri daha yüksek olamaz.
Sora’nın Ötesi: Vishing
Open AI aracının lançmanından önce bile, derin sahte dosyalarının oluşturulması ve çevrimiçi yayılması artıyordu. Siber güvenlik firması DeepStrike’un Eylül 2025 raporuna göre, derin sahte içerik 2023’teki 500.000’den 2025’te 8 milyona fırladı ve bunların çoğu sahtekarlık amacıyla kullanıldı.
Eğilim durmak bilmemektedir; yalnızca ABD’de AI sahtekarlığı 2027 yılına kadar 40 milyar USD’ye ulaşması beklenmektedir.
Bu artış sadece nicelikle sınırlı değildir. Sora 2 ve Google’ın Veo 3 gibi araçlarla, AI tarafından oluşturulan yüzler, sesler ve tam vücut performansları şimdi daha gerçekçi.
Bilgisayar bilimcisi ve derin sahte araştırmacısı Siwei Luy’un işaret ettiği gibi, çağdaş modeller, bozulma veya distorsiyon olmadan kararlı yüzler üretebilmekte ve ses klonlama “ayırıcı eşik” geçmiş durumdadır.
Gerçek şu ki, derin sahtekler algılama ön plana geçiyor. Teknoloji şirketleri her şeyi Olimpiyat jimnastik rutinlerinden karmaşık arka plan ses manzaralarına kadar üretmek için eğlenceli araçlar olarak sattıkları şey, aynı zamanda suçlular tarafından şirketleri ve bireyleri hedef almak için kullanıldı.
2025’in ilk yarısında, derin sahte olayları şirketlere 356 milyon USD ve bireylere 541 milyon USD zarar verdi.
Geleneksel derin sahte algılama – sürekli su işareti tanımlama, hava fırçasıyla yüzler ve meta veri kontrolleri dahil – başarısız oluyor. Ve, ses derin sahteleri ikinci en yaygın AI destekli sahtekarlık ve ses phishing (vishing) 2025’te %442 arttı, sonuçlar zaten hissediliyor.
“Birkaç saniye ses artık inandırıcı bir klon üretmek için yeterli – doğal tonlama, ritim, vurgulama, duygu, duraklama ve nefes alma gürültüsü ile birlikte,” Lyu yazdı.
İnsanları Dinlemenin Bilimi
Kintsugi, klinik depresyon ve anksiyeteyi tespit etmek için AI ses biyobelirteç teknolojisi geliştiren bir sağlık teknolojisi şirketi. Çalışmaları, görünüşte basit bir ön fikirden başladı: insanları dinlememiz gerekiyor.
“Kintsugi’yi, kişisel olarak yaşadığım bir problem nedeniyle kurdum. Bir tedavi seansına başlamadan önce beş ay boyunca sağlayıcıma ulaşmaya çalıştım, ancak kimse asla aramamı geri çevirmedi. Devam etmeye çalıştım, ancak açıkça hatırlıyorum ki, bu benim babam ya da kardeşim olsaydı, ben yapmadan önce bırakmış olurdum,” CEO Grace Chang, Unite.AI ile konuşurken söyledi.
Kaliforniya merkezli şirket, 2019 yılında “triage tıkanıklığı” olarak adlandırdığı bir soruna çözüm olarak kuruldu. Kurucu, daha önce ve pasif olarak ciddiyetin tespit edilmesinin, insanların doğru bakım seviyesine daha hızlı ulaşmasına yardımcı olabileceğine inanıyordu. Ve, Kintsugi Voice aracılığıyla, ses biyobelirteçleri klinik depresyon ve anksiyeteyi tanımlar.
AI destekli konuşma ve ses analizinin, mental sağlık durumları için bir biyobelirteç olarak başarılı bir şekilde kullanıldığını kanıtlayan araştırmalar vardır. Mayıs 2025 tarihli bir makale, örneğin, buldu ki, akustik biyobelirteçler, mental sağlık ve nöroçeşitliliklerin erken işaretlerini tespit edebilir ve hastaların olası bilişsel gerilemesini değerlendirmek için klinik ortamlarda şarkı analizlerinin entegrasyonunu savundu.
Ses ölçümleri, aslında, depresyonu olanları olmayanlar ile karşılaştırmada %78 ile %96 arasında bir doğruluk oranına sahiptir, Amerikan Psikiyatri Birliği’ne göre. Başka bir çalışma, bir dakika sözel akıcılık testi kullandı, burada bir kişi belirli bir kategori içinde mümkün olduğunca çok kelime söyledi – depresyon ve anksiyete olan bir konuyu %70 ile %83 arasında bir doğrulukla tespit etti.
Kullanıcılarının mental sağlığını değerlendirmek için, Kintsugi kısa bir konuşma klip istedi, ardından ses biyobelirteç teknolojisi, perde, tonlama, ton ve duraklamaları analiz eder – depresyon, anksiyete, bipolar bozukluk ve demans gibi durumlarla ilişkili olduğu bilinen işaretlerdir.
Ne var ki, Chang başlangıçta fark etmedi ki, teknoloji güvenlik endüstrisinin en acil modern zorluklarından birini çözmüştü: insan sesinin insan yapan şeyi tanımlamak.
Mental Sağlık Bakımından Siber Güvenliğe
2025’in sonlarında New York’ta bir zirveye katılırken, Chang, bir arkadaşına, sentetik seslerle yapılan deneylerinin hayal kırıklığına uğradığını söyledi.
“Sentetik veri kullanarak mental sağlık modellerimizi eğitmek için deneyler yaptık, ancak oluşturulan sesler gerçek insan konuşmasından o kadar farklıydı ki, neredeyse %100 oranında ayırt edebiliyorduk,” dedi.
“Durdurdu ve ‘Grace, bu güvenlikte çözülmüş bir problem değil’ dedi. Her şey o anda tıkandı. O günden beri, güvenlik, finansal hizmetler ve telekom şirketleriyle yapılan konuşmalar, derin sahte ses saldırılarının ne kadar hızlı yükseldiğini ve canlı aramalarda insan sesinden sentetik sesi ayırt etmenin ne kadar gerçek bir ihtiyaç olduğunu doğruladı,” CEO ekledi.
Geçen yıl Nisan ayında, FBI uyardı kötü amaçlı bir metin ve ses mesajı kampanyasından, üst düzey ABD yetkilileri olarak geçinen ve eski hükümet çalışanlarını ve onların temaslarını hedef alan bir kampanyadan.
ABD’deki büyük ulusal bankalar da günlük ortalama 5.5 ses manipülasyonu sahtekarlığı ile hedef alındı ve Vanderbilt Üniversitesi Tıp Merkezi’ndeki hastane personeli vishing saldırılarına maruz kaldı.
Derin sahteler başlangıçta Kintsugi’nin çalışmalarına girmedi. Şirketin ekibi, Cartesia, Sesame ve ElevenLabs gibi hazır modelleri kullanarak sentetik sesler üzerinde deneyler yaptı, ancak derin sahte sahtekarlığı onların odak alanı değildi.
İnsan sesinin gerçekliğini gösteren insan düzeyindeki sinyaller, aynı zamanda birini insan yapan biyobelirteçlerdir. Dilden veya anlamsal içerikten bağımsız olarak, Kintsugi Voice, sinyal işleme ve konuşmanın fiziksel gecikmesiyle çalışır ve konuşmanın nasıl üretildiğini yansıtan ince zamanlama, prosodik varyabilite, bilişsel yük ve fizyolojik işaretleri yakalar – ne söylendiğine bakılmaksızın.
“Sentetik sesler akıcı olabilir, ancak aynı biyolojik ve bilişsel kalıntıları taşımaz,” dedi Chang. Şirketin modeli, yalnızca 3 ila 5 saniye ses kullanarak, algılama doğruluğunda sürekli olarak üst düzey performans gösteriyor.
Kintsugi, özellikle profesyonellerle tedavi görmek için zaman ve kaynak gerektiren alanlarda mental sağlıkla mücadele edenler için devrim niteliğinde olabilir. Aynı zamanda, derin sahte algılama ve siber güvenlik için de bir devrim olabilir: sahtekarlık tanımlaması yerine gerçeklik tanımlaması.
Gelecek İnsan Merkezli Teknolojiye Dayanıyor
Siber güvenlik, uzun süredir kötü amaçlı teknoloji kullanımına veya suçlulara odaklandı. Kintsugi’nin kazara keşfi ise insanlığa bahis oynuyor.
“Tamamen farklı bir yüzey alanında çalışıyoruz: insan otantikliği kendisi. Büyük dil modelleri, büyük dil modeli tarafından oluşturulan içeriği güvenilir bir şekilde tespit edemez ve eser tabanlı yöntemler kırılgandır. Gerçek insan varyasyonunu kodlayan büyük, klinik olarak etiketlenmiş veri kümelerini yakalamak pahalı, yavaş ve meisten güvenlik şirketlerinin uzmanlık alanının dışında – bu nedenle bu yaklaşımı tekrarlamak zor,” dedi Chang.
Şirketin yaklaşımı, aynı zamanda daha geniş bir değişimi öneriyor: alanlar arası yenilik. Sağlık bakımı alanındaki önde gelenler, AI destekli vishing algılama alanında liderlik edebilecekler, tıpkı uzay teknolojisi alanındaki yenilikçilerin yeni acil durum müdahale mekanizmalarını desteklemesi veya oyun mimarilerinin kentsel planlamaya katkıda bulunması gibi.
Chang için, ses etkileşimlerinde gerçek insanları ve sonunda gerçek niyeti doğrulama standardı olmayı planlıyor.
“Tıpkı HTTPS’nin web için varsayılan güven katmanı olması gibi, ‘insan kanıtı’nı ses tabanlı sistemler için temel bir katman haline getireceğimize inanıyorum. Sinyal, bu altyapının başlangıcı,” dedi.
Üretken AI devam ederken, en etkili güvenlik önlemleri, insanları insan yapan şeyin ne olduğunu anlamaktan gelebilir.










