कृत्रिम बुद्धिमत्ता

एक मानसिक स्वास्थ्य एआई टूल ने दुर्भाग्य से सटीक डीपफेक डिटेक्शन का पता लगाया

Published January 14, 2026

Updated April 25, 2026

Salomé Beyer Velez

जब तकनीक की दिग्गज कंपनी ओपन एआई ने सितंबर 2025 में अपने फ्लैगशिप सोरा 2 वीडियो और ऑडियो जनरेशन मॉडल को लॉन्च किया, तब से डीपफेक वीडियो सोशल मीडिया प्लेटफॉर्म पर बाढ़ आ गई है, जिससे दर्शक संभावित रूप से खतरनाक हाइपर-रियलिस्टिक सामग्री से परिचित हो रहे हैं।

हालांकि ओपन एआई ने सोरा 2 को जिम्मेदारी से लॉन्च करने को अपनी प्राथमिकता माना, दावा किया कि यह उपयोगकर्ताओं को “उनके फीड में देखने के लिए जो टूल और विकल्प देगा” और उनके समानता पर नियंत्रण देगा, अक्टूबर 2025 में एक अध्ययन में पाया गया कि मॉडल ने 80% समय झूठे दावे वाले वीडियो बनाए।

मोल्डोवन चुनावी अधिकारी के मतपत्रों को नष्ट करने की खबरों की नकल करने वाले वीडियो से लेकर एक बच्चे को आव्रजन अधिकारियों द्वारा हिरासत में लेने के नकली दृश्य या कोका-कोला के प्रवक्ता के घोषणा करने के लिए कि कंपनी सुपर बाउल को प्रायोजित नहीं करेगी, जालसाजी के लिए गलत सूचना पैदा करने के लिए दांव बहुत अधिक हो सकते हैं।

सोरा से परे: विशिंग

ओपन एआई के टूल लॉन्च होने से पहले ही, डीपफेक फाइलों का निर्माण और ऑनलाइन प्रसार बढ़ रहा था। साइबरसुरक्षा फ़र्म डीपस्ट्राइक की सितंबर 2025 की रिपोर्ट के अनुसार, डीपफेक सामग्री 2023 में 500,000 से बढ़कर 2025 में 8 मिलियन हो गई, जिसमें से अधिकांश का उपयोग धोखाधड़ी के उद्देश्यों के लिए किया गया था।

यह रुझान रुकने के कोई संकेत नहीं दिखा रहा है; अमेरिका में अकेले एआई धोखाधड़ी को 2027 तक 40 अरब अमेरिकी डॉलर तक पहुंचने का अनुमान है।

ऐसी वृद्धि मात्रा तक ही सीमित नहीं है। सोरा 2 और गूगल के वео 3 जैसे टूल के साथ, एआई-जनित चेहरे, आवाज और पूर्ण-शरीर प्रदर्शन अब पहले से अधिक वास्तविक हैं। जैसा कि संकेत दिया गया है, समकालीन मॉडल विकृतियों के बिना स्थिर चेहरे बनाने में सक्षम हैं, जबकि आवाज क्लोनिंग ने “अंतर्निहित सीमा” को पार कर लिया है।

सच्चाई यह है कि डीपफेक्स पहचान से आगे निकल रहे हैं। जो तकनीक कंपनियां बेचती हैं उन्हें मजेदार टूल के रूप में बेचती हैं जो ओलंपिक जिमनास्टिक दिनचर्या से लेकर जटिल पृष्ठभूमि ध्वनि परिदृश्य तक सब कुछ बना सकते हैं, इसका उपयोग अपराधियों द्वारा व्यवसायों और व्यक्तियों दोनों को निशाना बनाने के लिए किया गया है। सिर्फ 2025 की पहली छमाही में, डीपफेक घटनाओं ने कंपनियों के लिए 356 मिलियन अमेरिकी डॉलर के नुकसान और व्यक्तियों के लिए 541 मिलियन अमेरिकी डॉलर के नुकसान का कारण बना।

पारंपरिक डीपफेक पहचान – समेत जलमार्क, एयरब्रश किए गए चेहरे और मेटाडेटा जांच – विफल हो रही है। और, जब आवाज डीपफेक दूसरा सबसे आम रूप है एआई-संचालित धोखाधड़ी और वॉइस फ़िशिंग (विशिंग) 442% 2025 में बढ़ गया है, परिणाम पहले से ही महसूस किए जा रहे हैं।

“कुछ सेकंड का ऑडियो अब एक समझदार क्लोन बनाने के लिए पर्याप्त है – प्राकृतिक स्वर, लय, जोर, भावना, रुकावट और सांस लेने की आवाज के साथ,” ल्यू लिखते हैं।

मानवों को सुनने का विज्ञान

किंत्सुगी, एक हेल्थटेक स्टार्टअप जो क्लिनिकल अवसाद और चिंता का पता लगाने के लिए एआई वॉइस बायोमार्कर प्रौद्योगिकी विकसित कर रहा है। उनका काम एक साधारण परिस्थिति से शुरू हुआ: हमें मानवों को सुनना होगा।

“मैंने किंत्सुगी की शुरुआत एक समस्या के कारण की जो मैंने व्यक्तिगत रूप से अनुभव की थी। मैंने लगभग पांच महीने तक अपने प्रदाता को फोन किया कि मैं शुरुआती थेरेपी नियुक्ति के लिए कार्यक्रम बनाने के लिए, और किसी ने कभी मेरी कॉल का जवाब नहीं दिया। मैंने बार-बार कोशिश की – लेकिन मुझे लगता है कि अगर यह मेरे पिता या मेरे भाई होते, तो वे मुझसे पहले ही रुक जाते,” सीईओ ग्रेस चांग ने यूनाइट.एआई के साथ बातचीत में कहा।

कैलिफोर्निया स्थित कंपनी की स्थापना 2019 में एक “ट्राइज बोतलनेक” के समाधान के रूप में हुई थी। संस्थापक ने माना कि पहले से ही गंभीरता का पता लगाने और निष्क्रिय रूप से मदद मिल सकती है ताकि लोगों को देखभाल के सही स्तर तक जल्दी पहुंचाया जा सके। और, किंत्सुगी वॉइस के माध्यम से, वॉइस बायोमार्कर क्लिनिकल अवसाद और चिंता की पहचान करते हैं।

शोध यह साबित करता है कि मानसिक स्वास्थ्य स्थितियों के लिए एआई-संचालित भाषण और वॉइस विश्लेषण का सफल उपयोग बायोमार्कर के रूप में किया जा सकता है। मई 2025 के एक पेपर में, उदाहरण के लिए, पाया गया कि अकουσ्टिक बायोमार्कर मानसिक स्वास्थ्य और न्यूरोडिवर्जेंस के 초기 संकेतों का पता लगा सकते हैं, और तर्क दिया कि नैदानिक सेटिंग्स में रोगियों की संभावित संज्ञानात्मक गिरावट का आकलन करने के लिए गायन विश्लेषण को एकीकृत करने के लिए।

वॉइस उपाय, वास्तव में, अवसाद वाले लोगों की पहचान करने में 78% से 96% की सटीकता दर के साथ उन लोगों की तुलना में जिनमें यह नहीं है, अमेरिकन साइकियाट्रिक एसोसिएशन के अनुसार। एक अन्य अध्ययन में एक मिनट का मौखिक फ्लूएंसी परीक्षण का उपयोग किया गया था, जिसमें एक व्यक्ति ने एक दिए गए श्रेणी में जितने चाहें उतने शब्दों को नाम दिया – अवसाद और चिंता दोनों का पता लगाने में 70% से 83% की सटीकता पाई गई।

अपने उपयोगकर्ताओं के मानसिक स्वास्थ्य का आकलन करने के लिए, किंत्सुगी एक छोटी सी भाषण क्लिप का अनुरोध करता है, जिसके बाद इसकी वोकल बायोमार्कर प्रौद्योगिकी पिच, स्वर, स्वर और रुकावट का विश्लेषण करती है – मार्कर पाए गए हैं जो अवसाद, चिंता, द्विध्रुवी विकार और मनोभ्रंश जैसी स्थितियों से जुड़े हुए हैं।

हालांकि, चांग ने शुरू में महसूस नहीं किया कि प्रौद्योगिकी ने सुरक्षा उद्योग की सबसे दबाव वाली समकालीन चुनौतियों में से एक को अनलॉक किया था: यह जानना कि मानव आवाज को मानव बनाता है।

मानसिक स्वास्थ्य देखभाल से साइबर सुरक्षा तक

जब वह 2025 के अंत में न्यूयॉर्क में एक शिखर सम्मेलन में भाग ले रही थी, तो चांग ने एक मित्र से साइबर सुरक्षा क्षेत्र में कहा कि उनकी टीम के साथ सिंथेटिक आवाजों के प्रयोग से निराशा हुई थी।

“हम अपने मानसिक-स्वास्थ्य मॉडल के लिए प्रशिक्षण के लिए सिंथेटिक डेटा का अन्वेषण कर रहे थे, लेकिन उत्पन्न आवाजें वास्तविक मानव भाषण से इतनी अलग थीं कि हम लगभग 100% समय बता सकते थे,” उसने कहा।

“उन्होंने मुझे रोका और कहा, ‘ग्रेस – यह सुरक्षा में एक हल किया गया समस्या नहीं है।’ यह वह क्षण था जब सब कुछ क्लिक हुआ। तब से, सुरक्षा, वित्तीय सेवाओं और टेल्को कंपनियों के साथ बातचीत ने पुष्टि की है कि डीपफेक वॉइस हमले कितनी तेजी से बढ़ रहे हैं – और मानव और सिंथेटिक आवाजों को लाइव कॉल में अलग करने की आवश्यकता कितनी वास्तविक है।”

पिछले साल अप्रैल में, एफबीआई ने चेतावनी दी एक दुर्भाग्यपूर्ण टेक्स्ट और वॉइस मैसेजिंग अभियान के बारे में जो वरिष्ठ अमेरिकी अधिकारियों से संचार का दावा करता था और पूर्व सरकारी कर्मचारियों और उनके संपर्कों को लक्षित करता था। अमेरिका में बड़े राष्ट्रीय बैंक वॉइस मैनिपुलेशन धोखाधड़ी के साथ लक्षित किए गए थे, और वैंडरबिल्ट यूनिवर्सिटी मेडिकल सेंटर में अस्पताल के कर्मचारियों ने विशिंग हमलों की सूचना दी मित्रों, पर्यवेक्षकों और सहकर्मियों के रूप में प्रतिरूपित करने वाले प्रतिरूपित करने वालों से।

हालांकि, किंत्सुगी के काम में डीपफेक शुरू में शामिल नहीं था। जबकि कंपनी की टीम ने कार्टेसिया, सेसम और इलेवनलैब्स जैसे ऑफ-द-शेल्फ मॉडल का उपयोग सिंथेटिक आवाजों के साथ प्रयोग करने के लिए किया था प्रशासनिक कॉल सेंटर एजेंटों और आउटबाउंड कार्य प्रवाह के लिए, डीपफेक धोखाधड़ी उनके ध्यान का केंद्र नहीं था सोरा जैसे मॉडल की विशेषता वाले एक भीड़-भाड़ वाले और सुलभ बाजार में।

मानव आवाज की प्रामाणिकता के संकेत जो मानव को मानव बनाते हैं, वे वही बायोमार्कर हैं जो किसी को मानसिक स्वास्थ्य स्थितियों में मानव बनाते हैं। किंत्सुगी वॉइस भाषा या अर्थव्यवस्था की परवाह किए बिना सिग्नल प्रोसेसिंग और भाषण के भौतिक विलंब के साथ काम करता है, जो सूक्ष्म समय, प्रोसोडिक परिवर्तनशीलता, संज्ञानात्मक भार और शारीरिक मार्करों को पकड़ता है जो यह दर्शाते हैं कि भाषण कैसे उत्पन्न होता है … न कि क्या कहा जाता है।

“सिंथेटिक आवाजें चिकनी लग सकती हैं, लेकिन वे समान जैविक और संज्ञानात्मक कलाकृतियों को नहीं ले जाती हैं,” चांग ने कहा। कंपनी का मॉडल लगातार शीर्ष-दशम स्थान पर है जिसमें केवल 3 से 5 सेकंड के ऑडियो का उपयोग करके पहचान सटीकता है।

किंत्सुगी उन लोगों के लिए क्रांतिकारी हो सकता है जो मानसिक स्वास्थ्य से जूझ रहे हैं, खासकर उन क्षेत्रों में जहां पेशेवरों के साथ उपचार प्राप्त करने में समय और संसाधन लगते हैं। उसी समय, इसकी प्रौद्योगिकी डीपफेक डिटेक्शन और साइबर सुरक्षा के लिए एक क्रांति का प्रतिनिधित्व करती है: प्रामाणिकता का पता लगाना न कि डीपफेक पहचान।

भविष्य मानव-केंद्रित प्रौद्योगिकी पर निर्भर करता है

साइबर सुरक्षा लंबे समय से प्रौद्योगिकियों के दुर्भाग्यपूर्ण उपयोग या अपराधियों पर केंद्रित रही है। किंत्सुगी की आकस्मिक खोज, हालांकि, मानवता पर दांव लगाती है।

“हम एक पूरी तरह से अलग सतह क्षेत्र पर काम कर रहे हैं: मानव प्रामाणिकता स्वयं। एलएलएम को एलएलएम-जनित सामग्री का पता लगाने में विश्वसनीय रूप से पता नहीं चलता है, और कलाकृति-आधारित विधियां नाजुक हैं। वास्तविक मानव परिवर्तनशीलता को एन्कोड करने वाले बड़े नैदानिक रूप से लेबल वाले डेटासेट को कब्जा करना महंगा है, धीमा है, और अधिकांश सुरक्षा कंपनियों के मुख्य विशेषज्ञता से बाहर है – जो इस दृष्टिकोण को दोहराना मुश्किल बनाता है,” चांग ने कहा।

स्टार्टअप का दृष्टिकोण एक व्यापक बदलाव का सुझाव देता है: क्रॉस-डोमेन नवाचार। स्वास्थ्य देखभाल में अग्रणी लोग डीपफेक्स का पता लगाने में एआई-संचालित विशिंग का नेतृत्व कर सकते हैं, जैसे कि अंतरिक्ष प्रौद्योगिकी में नवोन्मेषक आपातकालीन प्रतिक्रिया तंत्र का समर्थन कर सकते हैं, या गेमर वास्तुकला और शहरी योजना का समर्थन कर सकते हैं।

चांग के लिए, वह वॉइस इंटरैक्शन के माध्यम से वास्तविक मानव और अंततः वास्तविक इरादे की पुष्टि के लिए एक मानक बनने की योजना बना रही है।

“जैसे कि एचटीटीपीएस वेब के लिए एक डिफ़ॉल्ट विश्वास परत बन गया है, हमारा मानना है कि ‘मानव प्रमाण’ वॉइस-आधारित प्रणालियों के लिए एक मूलभूत परत बन जाएगा। सिग्नल इस बुनियादी ढांचे की शुरुआत है,” उसने कहा।

जैसे ही जनरेटिव एआई तेजी से आगे बढ़ रहा है, सबसे प्रभावी सुरक्षा उपाय मानव को मानव बनाने वाली चीजों को समझने से आ सकते हैं।

Salomé Beyer Velez

सаломे मेडेलिन में जन्मी एक पत्रकार हैं और एस्पासियो मीडिया इंक्यूबेटर में सीनियर रिपोर्टर हैं। इतिहास और राजनीति की पृष्ठभूमि के साथ, सаломे का काम उभरती प्रौद्योगिकियों के सामाजिक प्रासंगिकता पर जोर देता है। उन्हें अल जजीरा, लैटिन अमेरिका रिपोर्ट्स, और द सोशियबल सहित अन्य में चित्रित किया गया है