Inteligență artificială
Cum a descoperit accidental un instrument de sănătate mintală AI o detectare precisă a deepfake-urilor

Pe măsură ce gigantul tehnologic Open AI a lansat modelul său de generație de videoclipuri și sunet Sora 2 în septembrie 2025, videoclipurile deepfake au inondat platformele de socializare, făcând ca publicul să devină din ce în ce mai familiarizat cu conținutul hiper-realistic și potențial periculos.
Deși Open AI a considerat lansarea responsabilă a Sora 2 ca o prioritate de top, afirmând că va oferi utilizatorilor „uneltele și opțiunile de a fi în controlul a ceea ce văd în fluxul lor” și controlul asupra asemănării lor de la capăt la capăt, un studiu din octombrie 2025 a constatat că modelul produce videoclipuri false în 80% din cazuri.
De la videoclipuri care imită rapoarte de știri despre un funcționar electoral moldovean care distruge buletine de vot până la scene fabricate cu un copil deținut de ofițeri de imigrări sau un purtător de cuvânt al companiei Coca-Cola care anunță că compania nu va sponsoriza Super Bowl, mizele pentru producerea de informații false într-o lume interconectată nu pot fi mai mari.
Dincolo de Sora: Vishing
Chiar înainte ca instrumentul Open AI să fie lansat, crearea și diseminarea online a fișierelor deepfake erau în creștere. Conform unui raport din septembrie 2025 al firmei de securitate cibernetică DeepStrike, conținutul deepfake a crescut de la 500.000 în 2023 la 8 milioane în 2025, multe dintre acestea fiind utilizate în scopuri frauduloase.
Tendința nu arată semne de încetinire; frauda cu AI în Statele Unite alone este prevăzută să ajungă la 40 de miliarde de dolari americani până în 2027.
Un astfel de val nu este limitat la cantitate. Cu unelte precum Sora 2 și Veo 3 de la Google, conținutul fețelor, vocilor și reprezentațiilor cu corpuri întregi generate de AI sunt mai realiste ca oricând. Pe măsură ce a semnalat omul de știință și cercetătorul deepfake Siwei Luy, modelele contemporane sunt capabile să producă fețe stabile fără deformări sau distorsionări, în timp ce clonarea vocii a depășit un „prag de nediferențiere”.
Adevărul este că deepfake-urile depășesc detectarea. Ce ceea ce companiile tehnologice vând ca unelte distractive pentru a genera totul, de la rutine de gimnastică olimpică până la peisaje sonore sofisticate, a fost utilizat și de criminali pentru a ținti afaceri și indivizi deopotrivă. Doar în primul semestru al anului 2025, incidentele deepfake au determinat pierderi de 356 de milioane de dolari americani pentru companii și 541 de milioane de dolari americani pentru indivizi.
Detectarea tradițională a deepfake-urilor – inclusiv identificarea semnelor de apă, fețelor retușate și verificarea metadatelor – eșuează. Și, pe măsură ce deepfake-urile vocale rămân a doua formă cea mai frecventă de fraudă cu AI și phishing vocal (vishing) a crescut cu 442% în 2025, consecințele sunt deja resimțite.
„Câteva secunde de audio sunt suficiente pentru a genera un clon convigător – complet cu intonație naturală, ritm, accent, emoție, pauze și zgomot de respirație”, a scris Lyu.
Știința ascultării oamenilor
Kintsugi, o companie de sănătate care dezvoltă tehnologie de biomarker vocal AI pentru a detecta semne de depresie clinică și anxietate. Lucrarea lor a început de la o premisă aparent simplă: trebuie să ascultăm oamenii.
„Am început Kintsugi din cauza unei probleme pe care am experimentat-o personal. Am petrecut aproape cinci luni sunând la furnizorul meu pentru a programa o întâlnire terapeutică inițială, și nimeni nu mi-a răspuns niciodată la apeluri. Am continuat să încerc – dar îmi amintesc foarte clar că, dacă ar fi fost tatăl meu sau fratele meu, ar fi încetat mult mai devreme decât am făcut-o eu”, a spus CEO Grace Chang într-o conversație cu Unite.AI.
Compania cu sediul în California a fost fondată în 2019 ca o soluție pentru ceea ce Chang a descris ca o „gâtuire a triajului”. Fondatorul a crezut că detectarea gravității mai devreme și în mod pasiv ar putea ajuta oamenii să ajungă la nivelul potrivit de îngrijire mai repede. Și, prin Kintsugi Voice, biomarkerii vocali identifică depresia clinică și anxietatea.
Cercetările abundă și demonstrează utilizarea cu succes a analizei vorbirii și a vocii conduse de IA ca biomarker pentru afecțiuni mintale. Un studiu din mai 2025, de exemplu, a constatat că biomarkerii acustici pot detecta semne timpurii de sănătate mintală și neurodivergență și a argumentat pentru integrarea analizei cântecului în mediile clinice pentru a evalua declinul cognitiv potențial al pacienților.
Măsurătorile vocale, de fapt, au o rată de acuratețe de 78% la 96% în identificarea persoanelor cu depresie versus a celor fără, conform Asociației Psihiatrice Americane. Un alt studiu a utilizat un test de fluency verbal de un minut în care o persoană a numit atâtea cuvinte cât a putut într-o categorie dată – găsind o acuratețe de 70% la 83% în detectarea subiectului care avea atât depresie, cât și anxietate.
Pentru a evalua sănătatea mintală a utilizatorilor săi, Kintsugi solicită un clip scurt de vorbire, după care tehnologia sa de biomarker vocal analizează pitch-ul, intonația, tonul și pauzele – markeri găsiți a fi asociați cu afecțiuni precum depresia, anxietatea, tulburarea bipolară și demența.
Ce nu a realizat Chang inițial, totuși, a fost că tehnologia a deblocat una dintre provocările actuale ale industriei de securitate: identificarea a ceea ce face vocile umane umane.
De la îngrijirea sănătății mintale la securitatea cibernetică
În timp ce participa la un summit în New York la sfârșitul anului 2025, Chang a menționat unui prieten din domeniul securității cibernetice că experimentarea echipei sale cu voci sintetice a fost dezamăgitoare.
„Am explorat date sintetice pentru a completa formarea modelului nostru de sănătate mintală, dar vocile generate au fost atât de diferite de vorbirea umană autentică încât am putut spune aproape 100% din timp”, a spus ea.
„El m-a oprit și mi-a spus: «Grace – aceasta nu este o problemă rezolvată în securitate». Acesta a fost momentul în care totul a devenit clar. De atunci, conversațiile cu companii de securitate, servicii financiare și telecomunicații au confirmat cât de repede atacurile vocale deepfake sunt în creștere – și cât de reală este nevoia de a distinge vocile umane de cele sintetice în apelurile live”, a adăugat CEO-ul.
În aprilie anul trecut, FBI a avertizat asupra unei campanii de mesaje și apeluri vocale malicioase care s-au pretins a fi comunicări de la funcționari superiori ai guvernului american și au țintit foști lucrători guvernamentali și contactele lor. Băncile naționale mari din Statele Unite au fost, de asemenea, țintite cu 5,5 încercări zilnice de fraudă prin manipularea vocii, iar personalul spitalului de la Vanderbilt University Medical Center a raportat atacuri de vishing de la persoane care s-au pretins a fi prieteni, supraveghetori și colegi de muncă.
Indiferent, deepfake-urile nu au fost inițial factorizate în lucrarea Kintsugi. În timp ce echipa companiei a utilizat modele off-the-shelf precum Cartesia, Sesame și ElevenLabs pentru a experimenta cu voci sintetice pentru agenți de call center administrativ și fluxuri de ieșire, frauda deepfake nu a fost focusul lor într-o piață aglomerată și accesibilă care prezintă modele precum Sora.
Semnalele umane care indică autenticitatea vocii sunt aceiași biomarkeri care fac ca cineva să fie uman în primul rând. Indiferent de limbă sau semantică, Kintsugi Voice funcționează cu procesarea semnalului și latența fizică a vorbirii, capturând variabilitatea prosodică subtilă, încărcătura cognitivă și markerii fiziologici care reflectă modul în care se produce vorbirea… și nu ceea ce se spune.
„Vocile sintetice pot suna fluent, dar nu poartă aceleași artefacte biologice și cognitive”, a spus Chang. Modelul companiei este constant un performer din topul decilei în ceea ce privește acuratețea detectării, utilizând doar 3 până la 5 secunde de audio.
Kintsugi poate fi revoluționar pentru cei care se luptă cu sănătatea mintală, în special în zonele în care obținerea tratamentului cu profesioniști necesită timp și resurse. În același timp, tehnologia sa reprezintă o revoluție pentru detectarea deepfake și securitatea cibernetică în general: detectarea autenticității în loc de recunoașterea deepfake-urilor.
Viitorul se află în tehnologia centrată pe oameni
Securitatea cibernetică s-a concentrat mult timp asupra utilizării maligne a tehnologiilor sau a autorilor înșiși. Descoperirea accidentală a Kintsugi, totuși, se bazează pe umanitate însăși.
„Operăm pe o suprafață complet diferită: autenticitatea umană însăși. LLM-urile nu pot detecta conținutul generat de LLM în mod fiabil, iar metodele bazate pe artefacte sunt fragile. Capturarea unor seturi de date mari, etichetate clinic, care codifică variabilitatea umană reală, este scumpă, lentă și în afara expertizei de bază a majorității companiilor de securitate – ceea ce face ca această abordare să fie dificil de replicat”, a notat Chang.
Abordarea startup-ului sugerează, de asemenea, o schimbare mai amplă: inovația transversală. Cei care sunt în fruntea îngrijirii sănătății ar putea conduce încărcătura detectării vishing-ului bazat pe IA, la fel cum inovatorii din domeniul tehnologiei spațiale ar putea susține noi mecanisme de răspuns la urgențe, sau arhitecții jocurilor ar putea sprijini planificarea urbană.
În ceea ce privește Chang, ea plănuiește să devină un standard pentru verificarea oamenilor reali și, în cele din urmă, a intenției reale prin interacțiunile vocale.
„La fel cum HTTPS a devenit un strat de încredere implicit pentru web, credem că «dovada umană» va deveni un strat fundamental pentru sistemele bazate pe voce”, a spus ea.
Pe măsură ce IA generativă continuă să accelereze, cele mai eficiente garduri de protecție ar putea veni din înțelegerea a ceea ce face oamenii… ei bine, umani.










