Connect with us

рдПрдХ рдорд╛рдирд╕рд┐рдХ рд╕реНрд╡рд╛рд╕реНрдереНрдп рдПрдЖрдИ рдЯреВрд▓ рдиреЗ рджреБрд░реНрднрд╛рдЧреНрдп рд╕реЗ рд╕рдЯреАрдХ рдбреАрдкрдлреЗрдХ рдбрд┐рдЯреЗрдХреНрд╢рди рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдпрд╛

рдХреГрддреНрд░рд┐рдо рдмреБрджреНрдзрд┐рдорддреНрддрд╛

рдПрдХ рдорд╛рдирд╕рд┐рдХ рд╕реНрд╡рд╛рд╕реНрдереНрдп рдПрдЖрдИ рдЯреВрд▓ рдиреЗ рджреБрд░реНрднрд╛рдЧреНрдп рд╕реЗ рд╕рдЯреАрдХ рдбреАрдкрдлреЗрдХ рдбрд┐рдЯреЗрдХреНрд╢рди рдХрд╛ рдкрддрд╛ рд▓рдЧрд╛рдпрд╛

mm

जब तकनीक की दिग्गज कंपनी ओपन एआई ने सितंबर 2025 में अपने फ्लैगशिप सोरा 2 वीडियो और ऑडियो जनरेशन मॉडल को लॉन्च किया, तब से डीपफेक वीडियो सोशल मीडिया प्लेटफॉर्म पर बाढ़ आ गई है, जिससे दर्शक संभावित रूप से खतरनाक हाइपर-रियलिस्टिक सामग्री से परिचित हो रहे हैं।

हालांकि ओपन एआई ने सोरा 2 को जिम्मेदारी से लॉन्च करने को अपनी प्राथमिकता माना, दावा किया कि यह उपयोगकर्ताओं को “उनके फीड में देखने के लिए जो टूल और विकल्प देगा” और उनके समानता पर नियंत्रण देगा, अक्टूबर 2025 में एक अध्ययन में पाया गया कि मॉडल ने 80% समय झूठे दावे वाले वीडियो बनाए।

मोल्डोवन चुनावी अधिकारी के मतपत्रों को नष्ट करने की खबरों की नकल करने वाले वीडियो से लेकर एक बच्चे को आव्रजन अधिकारियों द्वारा हिरासत में लेने के नकली दृश्य या कोका-कोला के प्रवक्ता के घोषणा करने के लिए कि कंपनी सुपर बाउल को प्रायोजित नहीं करेगी, जालसाजी के लिए गलत सूचना पैदा करने के लिए दांव बहुत अधिक हो सकते हैं।

सोरा से परे: विशिंग

ओपन एआई के टूल लॉन्च होने से पहले ही, डीपफेक फाइलों का निर्माण और ऑनलाइन प्रसार बढ़ रहा था। साइबरसुरक्षा फ़र्म डीपस्ट्राइक की सितंबर 2025 की रिपोर्ट के अनुसार, डीपफेक सामग्री 2023 में 500,000 से बढ़कर 2025 में 8 मिलियन हो गई, जिसमें से अधिकांश का उपयोग धोखाधड़ी के उद्देश्यों के लिए किया गया था।

यह रुझान रुकने के कोई संकेत नहीं दिखा रहा है; अमेरिका में अकेले एआई धोखाधड़ी को 2027 तक 40 अरब अमेरिकी डॉलर तक पहुंचने का अनुमान है।

ऐसी वृद्धि मात्रा तक ही सीमित नहीं है। सोरा 2 और गूगल के वео 3 जैसे टूल के साथ, एआई-जनित चेहरे, आवाज और पूर्ण-शरीर प्रदर्शन अब पहले से अधिक वास्तविक हैं। जैसा कि संकेत दिया गया है, समकालीन मॉडल विकृतियों के बिना स्थिर चेहरे बनाने में सक्षम हैं, जबकि आवाज क्लोनिंग ने “अंतर्निहित सीमा” को पार कर लिया है।

सच्चाई यह है कि डीपफेक्स पहचान से आगे निकल रहे हैं। जो तकनीक कंपनियां बेचती हैं उन्हें मजेदार टूल के रूप में बेचती हैं जो ओलंपिक जिमनास्टिक दिनचर्या से लेकर जटिल पृष्ठभूमि ध्वनि परिदृश्य तक सब कुछ बना सकते हैं, इसका उपयोग अपराधियों द्वारा व्यवसायों और व्यक्तियों दोनों को निशाना बनाने के लिए किया गया है। सिर्फ 2025 की पहली छमाही में, डीपफेक घटनाओं ने कंपनियों के लिए 356 मिलियन अमेरिकी डॉलर के नुकसान और व्यक्तियों के लिए 541 मिलियन अमेरिकी डॉलर के नुकसान का कारण बना।

पारंपरिक डीपफेक पहचान – समेत जलमार्क, एयरब्रश किए गए चेहरे और मेटाडेटा जांच – विफल हो रही है। और, जब आवाज डीपफेक दूसरा सबसे आम रूप है एआई-संचालित धोखाधड़ी और वॉइस फ़िशिंग (विशिंग) 442% 2025 में बढ़ गया है, परिणाम पहले से ही महसूस किए जा रहे हैं।

“कुछ सेकंड का ऑडियो अब एक समझदार क्लोन बनाने के लिए पर्याप्त है – प्राकृतिक स्वर, लय, जोर, भावना, रुकावट और सांस लेने की आवाज के साथ,” ल्यू लिखते हैं।

मानवों को सुनने का विज्ञान

किंत्सुगी, एक हेल्थटेक स्टार्टअप जो क्लिनिकल अवसाद और चिंता का पता लगाने के लिए एआई वॉइस बायोमार्कर प्रौद्योगिकी विकसित कर रहा है। उनका काम एक साधारण परिस्थिति से शुरू हुआ: हमें मानवों को सुनना होगा।

“मैंने किंत्सुगी की शुरुआत एक समस्या के कारण की जो मैंने व्यक्तिगत रूप से अनुभव की थी। मैंने लगभग पांच महीने तक अपने प्रदाता को फोन किया कि मैं शुरुआती थेरेपी नियुक्ति के लिए कार्यक्रम बनाने के लिए, और किसी ने कभी मेरी कॉल का जवाब नहीं दिया। मैंने बार-बार कोशिश की – लेकिन मुझे लगता है कि अगर यह मेरे पिता या मेरे भाई होते, तो वे मुझसे पहले ही रुक जाते,” सीईओ ग्रेस चांग ने यूनाइट.एआई के साथ बातचीत में कहा।

कैलिफोर्निया स्थित कंपनी की स्थापना 2019 में एक “ट्राइज बोतलनेक” के समाधान के रूप में हुई थी। संस्थापक ने माना कि पहले से ही गंभीरता का पता लगाने और निष्क्रिय रूप से मदद मिल सकती है ताकि लोगों को देखभाल के सही स्तर तक जल्दी पहुंचाया जा सके। और, किंत्सुगी वॉइस के माध्यम से, वॉइस बायोमार्कर क्लिनिकल अवसाद और चिंता की पहचान करते हैं।

शोध यह साबित करता है कि मानसिक स्वास्थ्य स्थितियों के लिए एआई-संचालित भाषण और वॉइस विश्लेषण का सफल उपयोग बायोमार्कर के रूप में किया जा सकता है। मई 2025 के एक पेपर में, उदाहरण के लिए, पाया गया कि अकουσ्टिक बायोमार्कर मानसिक स्वास्थ्य और न्यूरोडिवर्जेंस के 초기 संकेतों का पता लगा सकते हैं, और तर्क दिया कि नैदानिक सेटिंग्स में रोगियों की संभावित संज्ञानात्मक गिरावट का आकलन करने के लिए गायन विश्लेषण को एकीकृत करने के लिए।

वॉइस उपाय, वास्तव में, अवसाद वाले लोगों की पहचान करने में 78% से 96% की सटीकता दर के साथ उन लोगों की तुलना में जिनमें यह नहीं है, अमेरिकन साइकियाट्रिक एसोसिएशन के अनुसार। एक अन्य अध्ययन में एक मिनट का मौखिक फ्लूएंसी परीक्षण का उपयोग किया गया था, जिसमें एक व्यक्ति ने एक दिए गए श्रेणी में जितने चाहें उतने शब्दों को नाम दिया – अवसाद और चिंता दोनों का पता लगाने में 70% से 83% की सटीकता पाई गई।

अपने उपयोगकर्ताओं के मानसिक स्वास्थ्य का आकलन करने के लिए, किंत्सुगी एक छोटी सी भाषण क्लिप का अनुरोध करता है, जिसके बाद इसकी वोकल बायोमार्कर प्रौद्योगिकी पिच, स्वर, स्वर और रुकावट का विश्लेषण करती है – मार्कर पाए गए हैं जो अवसाद, चिंता, द्विध्रुवी विकार और मनोभ्रंश जैसी स्थितियों से जुड़े हुए हैं।

हालांकि, चांग ने शुरू में महसूस नहीं किया कि प्रौद्योगिकी ने सुरक्षा उद्योग की सबसे दबाव वाली समकालीन चुनौतियों में से एक को अनलॉक किया था: यह जानना कि मानव आवाज को मानव बनाता है।

मानसिक स्वास्थ्य देखभाल से साइबर सुरक्षा तक

जब वह 2025 के अंत में न्यूयॉर्क में एक शिखर सम्मेलन में भाग ले रही थी, तो चांग ने एक मित्र से साइबर सुरक्षा क्षेत्र में कहा कि उनकी टीम के साथ सिंथेटिक आवाजों के प्रयोग से निराशा हुई थी।

“हम अपने मानसिक-स्वास्थ्य मॉडल के लिए प्रशिक्षण के लिए सिंथेटिक डेटा का अन्वेषण कर रहे थे, लेकिन उत्पन्न आवाजें वास्तविक मानव भाषण से इतनी अलग थीं कि हम लगभग 100% समय बता सकते थे,” उसने कहा।

“उन्होंने मुझे रोका और कहा, ‘ग्रेस – यह सुरक्षा में एक हल किया गया समस्या नहीं है।’ यह वह क्षण था जब सब कुछ क्लिक हुआ। तब से, सुरक्षा, वित्तीय सेवाओं और टेल्को कंपनियों के साथ बातचीत ने पुष्टि की है कि डीपफेक वॉइस हमले कितनी तेजी से बढ़ रहे हैं – और मानव और सिंथेटिक आवाजों को लाइव कॉल में अलग करने की आवश्यकता कितनी वास्तविक है।”

पिछले साल अप्रैल में, एफबीआई ने चेतावनी दी एक दुर्भाग्यपूर्ण टेक्स्ट और वॉइस मैसेजिंग अभियान के बारे में जो वरिष्ठ अमेरिकी अधिकारियों से संचार का दावा करता था और पूर्व सरकारी कर्मचारियों और उनके संपर्कों को लक्षित करता था। अमेरिका में बड़े राष्ट्रीय बैंक वॉइस मैनिपुलेशन धोखाधड़ी के साथ लक्षित किए गए थे, और वैंडरबिल्ट यूनिवर्सिटी मेडिकल सेंटर में अस्पताल के कर्मचारियों ने विशिंग हमलों की सूचना दी मित्रों, पर्यवेक्षकों और सहकर्मियों के रूप में प्रतिरूपित करने वाले प्रतिरूपित करने वालों से।

हालांकि, किंत्सुगी के काम में डीपफेक शुरू में शामिल नहीं था। जबकि कंपनी की टीम ने कार्टेसिया, सेसम और इलेवनलैब्स जैसे ऑफ-द-शेल्फ मॉडल का उपयोग सिंथेटिक आवाजों के साथ प्रयोग करने के लिए किया था प्रशासनिक कॉल सेंटर एजेंटों और आउटबाउंड कार्य प्रवाह के लिए, डीपफेक धोखाधड़ी उनके ध्यान का केंद्र नहीं था सोरा जैसे मॉडल की विशेषता वाले एक भीड़-भाड़ वाले और सुलभ बाजार में।

मानव आवाज की प्रामाणिकता के संकेत जो मानव को मानव बनाते हैं, वे वही बायोमार्कर हैं जो किसी को मानसिक स्वास्थ्य स्थितियों में मानव बनाते हैं। किंत्सुगी वॉइस भाषा या अर्थव्यवस्था की परवाह किए बिना सिग्नल प्रोसेसिंग और भाषण के भौतिक विलंब के साथ काम करता है, जो सूक्ष्म समय, प्रोसोडिक परिवर्तनशीलता, संज्ञानात्मक भार और शारीरिक मार्करों को पकड़ता है जो यह दर्शाते हैं कि भाषण कैसे उत्पन्न होता है … न कि क्या कहा जाता है।

“सिंथेटिक आवाजें चिकनी लग सकती हैं, लेकिन वे समान जैविक और संज्ञानात्मक कलाकृतियों को नहीं ले जाती हैं,” चांग ने कहा। कंपनी का मॉडल लगातार शीर्ष-दशम स्थान पर है जिसमें केवल 3 से 5 सेकंड के ऑडियो का उपयोग करके पहचान सटीकता है।

किंत्सुगी उन लोगों के लिए क्रांतिकारी हो सकता है जो मानसिक स्वास्थ्य से जूझ रहे हैं, खासकर उन क्षेत्रों में जहां पेशेवरों के साथ उपचार प्राप्त करने में समय और संसाधन लगते हैं। उसी समय, इसकी प्रौद्योगिकी डीपफेक डिटेक्शन और साइबर सुरक्षा के लिए एक क्रांति का प्रतिनिधित्व करती है: प्रामाणिकता का पता लगाना न कि डीपफेक पहचान।

भविष्य मानव-केंद्रित प्रौद्योगिकी पर निर्भर करता है

साइबर सुरक्षा लंबे समय से प्रौद्योगिकियों के दुर्भाग्यपूर्ण उपयोग या अपराधियों पर केंद्रित रही है। किंत्सुगी की आकस्मिक खोज, हालांकि, मानवता पर दांव लगाती है।

“हम एक पूरी तरह से अलग सतह क्षेत्र पर काम कर रहे हैं: मानव प्रामाणिकता स्वयं। एलएलएम को एलएलएम-जनित सामग्री का पता लगाने में विश्वसनीय रूप से पता नहीं चलता है, और कलाकृति-आधारित विधियां नाजुक हैं। वास्तविक मानव परिवर्तनशीलता को एन्कोड करने वाले बड़े नैदानिक रूप से लेबल वाले डेटासेट को कब्जा करना महंगा है, धीमा है, और अधिकांश सुरक्षा कंपनियों के मुख्य विशेषज्ञता से बाहर है – जो इस दृष्टिकोण को दोहराना मुश्किल बनाता है,” चांग ने कहा।

स्टार्टअप का दृष्टिकोण एक व्यापक बदलाव का सुझाव देता है: क्रॉस-डोमेन नवाचार। स्वास्थ्य देखभाल में अग्रणी लोग डीपफेक्स का पता लगाने में एआई-संचालित विशिंग का नेतृत्व कर सकते हैं, जैसे कि अंतरिक्ष प्रौद्योगिकी में नवोन्मेषक आपातकालीन प्रतिक्रिया तंत्र का समर्थन कर सकते हैं, या गेमर वास्तुकला और शहरी योजना का समर्थन कर सकते हैं।

चांग के लिए, वह वॉइस इंटरैक्शन के माध्यम से वास्तविक मानव और अंततः वास्तविक इरादे की पुष्टि के लिए एक मानक बनने की योजना बना रही है।

“जैसे कि एचटीटीपीएस वेब के लिए एक डिफ़ॉल्ट विश्वास परत बन गया है, हमारा मानना है कि ‘मानव प्रमाण’ वॉइस-आधारित प्रणालियों के लिए एक मूलभूत परत बन जाएगा। सिग्नल इस बुनियादी ढांचे की शुरुआत है,” उसने कहा।

जैसे ही जनरेटिव एआई तेजी से आगे बढ़ रहा है, सबसे प्रभावी सुरक्षा उपाय मानव को मानव बनाने वाली चीजों को समझने से आ सकते हैं।

рд╕╨░╨╗╨╛╨╝реЗ рдореЗрдбреЗрд▓рд┐рди рдореЗрдВ рдЬрдиреНрдореА рдПрдХ рдкрддреНрд░рдХрд╛рд░ рд╣реИрдВ рдФрд░ рдПрд╕реНрдкрд╛рд╕рд┐рдпреЛ рдореАрдбрд┐рдпрд╛ рдЗрдВрдХреНрдпреВрдмреЗрдЯрд░ рдореЗрдВ рд╕реАрдирд┐рдпрд░ рд░рд┐рдкреЛрд░реНрдЯрд░ рд╣реИрдВред рдЗрддрд┐рд╣рд╛рд╕ рдФрд░ рд░рд╛рдЬрдиреАрддрд┐ рдХреА рдкреГрд╖реНрдарднреВрдорд┐ рдХреЗ рд╕рд╛рде, рд╕╨░╨╗╨╛╨╝реЗ рдХрд╛ рдХрд╛рдо рдЙрднрд░рддреА рдкреНрд░реМрджреНрдпреЛрдЧрд┐рдХрд┐рдпреЛрдВ рдХреЗ рд╕рд╛рдорд╛рдЬрд┐рдХ рдкреНрд░рд╛рд╕рдВрдЧрд┐рдХрддрд╛ рдкрд░ рдЬреЛрд░ рджреЗрддрд╛ рд╣реИред рдЙрдиреНрд╣реЗрдВ рдЕрд▓ рдЬрдЬреАрд░рд╛, рд▓реИрдЯрд┐рди рдЕрдореЗрд░рд┐рдХрд╛ рд░рд┐рдкреЛрд░реНрдЯреНрд╕, рдФрд░ рдж рд╕реЛрд╢рд┐рдпрдмрд▓ рд╕рд╣рд┐рдд рдЕрдиреНрдп рдореЗрдВ рдЪрд┐рддреНрд░рд┐рдд рдХрд┐рдпрд╛ рдЧрдпрд╛ рд╣реИ