Artificiell intelligens

Hur ett Mental Health AI-Verktyg Av Misstag Upptäckte Exakt Deepfake-Detektering

Published January 14, 2026

Updated April 25, 2026

Salomé Beyer Velez

När tech-jätten Open AI lanserade sitt flaggskepp Sora 2 video- och audio-genereringsmodell i september 2025, har deepfake-videor översvämmat sociala medieplattformar, vilket gör att publiken blir alltmer bekant med potentiellt farliga hyperrealistiska innehåll.

Även om Open AI ansåg att den ansvarsfulla lanseringen av Sora 2 var ett topprioritet, påstod att det skulle ge användarna “verktygen och valmöjligheten att ha kontroll över vad de ser i sin flöde” och kontroll över sin likhet från början till slut, fann en oktober 2025 studie att modellen producerade falska påståenden-videor 80% av tiden.

Från videor som mimikerade nyhetsrapporter om en moldavisk valtjänsteman som förstörde röster till fabricerade scener av en toddler som grips av invandringsmyndigheter eller en Coca-Cola-talesperson som meddelade att företaget inte skulle sponsra Super Bowl, kan insatserna för att producera missinformation i en sammanlänkad värld inte vara högre.

Bortom Sora: Vishing

Även innan Open AI:s verktyg lanserades, var skapandet och den online-spridningen av deepfake-filer på uppgång. Enligt en september 2025-rapport från cybersäkerhetsföretaget DeepStrike, ökade deepfake-innehåll från 500 000 år 2023 till en förbluffande 8 miljoner år 2025, varav mycket användes för bedrägliga ändamål.

Trenden visar inga tecken på att avta; AI-bedrägeri i USA ensam förväntas nå 40 miljarder USD år 2027.

En sådan ökning är inte begränsad till mängd. Med verktyg som Sora 2 och Google’s Veo 3, är innehåll av AI-genererade ansikten, röster och fullständiga prestationer mer realistiska än någonsin. Eftersom signaleras av datavetare och deepfake-forskare Siwei Luy, är samtida modeller kapabla att producera stabila ansikten utan förvrängning eller distorsion, medan röstkloning har korsat en “otydlig tröskel”.

Sanningen är att deepfakes är före detektering. Vad teknologiföretag säljer som roliga verktyg för att generera allt från olympiska gymnastikrutiner till sofistikerade bakgrunds-ljudlandskap, har också använts av brottslingar för att attackera företag och individer. Bara under första halvåret 2025, utlöste deepfake-incidenter förluster på 356 miljoner USD för företag och 541 miljoner USD för individer.

Traditionell deepfake-detektering – inklusive identifiering av vattenstämplar, airbrushade ansikten och metadata-kontroller – misslyckas. Och, eftersom röst-deepfakes förblir den andra vanligaste formen av AI-aktiverat bedrägeri och röst-phishing (vishing) ökade 442% år 2025, är konsekvenserna redan kända.

“Ett par sekunder av ljud räcker för att generera en övertygande klon – komplett med naturlig intonation, rytm, betoning, känsla, pauser och andningsljud”, skrev Lyu.

Vetenskapen om att Lyssna på Människor

Kintsugi, ett healthtech-startup som utvecklar AI-röstbiomarkörsteknologi för att upptäcka tecken på klinisk depression och ångest. Deras arbete började från en tydlig premis: vi måste lyssna på människor.

“Jag startade Kintsugi på grund av ett problem jag upplevde personligen. Jag tillbringade nästan fem månader med att ringa min leverantör för att boka en första terapi-tid, och ingen återringde mig någonsin. Jag fortsatte att försöka – men jag minns tydligt att om detta var min pappa eller min bror, skulle de ha slutat långt innan jag gjorde”, sa VD Grace Chang i samtal med Unite.AI.

Det Kalifornien-baserade företaget grundades 2019 som en lösning på vad Chang beskrev som en “triage- flaskhals”. Grundaren trodde att tidig upptäckt och passiv detektering kunde hjälpa människor att komma till rätt nivå av vård snabbare. Och, genom Kintsugi Voice, identifierar röstbiomarkörer klinisk depression och ångest.

Forskning finns i överflöd som bevisar den framgångsrika användningen av AI-driven tal- och röstanalys som en biomarkör för mental hälsa. En maj 2025-papper, till exempel, fann att akustiska biomarkörer kan upptäcka tidiga tecken på mental hälsa och neurodivergens, och argumenterade för integrationen av sånganalys i kliniska miljöer för att bedöma patienters potentiella kognitiva nedgång.

Röståtgärder har i själva verket en noggrannhetsgrad på 78% till 96% vid identifiering av personer med depression jämfört med de som inte har det, enligt den amerikanska psykiatriska föreningen. En annan studie använde ett ett-minuters verbalt flödestest där en person namngav så många ord som möjligt inom en given kategori – och fann 70% till 83% noggrannhet vid upptäckt av när en ämne hade både depression och ångest.

För att bedöma sina användares mental hälsa, begär Kintsugi en kort tal-klipp, efter vilket dess röstbiomarkörsteknologi analyserar tonhöjd, intonation, ton och pauser – markörer funna att vara associerade med tillstånd som depression, ångest, bipolär sjukdom och demens.

Vad Chang inte initialt förstod, var att teknologin hade låst upp en av säkerhetsindustrins mest pressande samtida utmaningar: att identifiera vad som gör mänskliga röster mänskliga.

Från Mental Hälsa till Cybersäkerhet

Medan hon deltog i en toppmöte i New York i slutet av 2025, nämnde Chang till en vän inom cybersäkerhetsområdet att hennes teams experiment med syntetiska röster hade varit besvikande.

“Vi undersökte syntetiska data för att förbättra utbildningen för våra mental-hälsomodeller, men de genererade rösterna var så olika från äkta mänskligt tal att vi kunde avgöra nästan 100% av tiden”, sa hon.

“Han stoppade mig och sa: ‘Grace – det är inte ett löst problem inom säkerhet.’ Det var ögonblicket då allt klickade. Sedan dess har samtal med säkerhets-, finansiella tjänster- och telco-företag bekräftat hur snabbt deepfake-röstattacker ökar – och hur verklig behovet är att skilja mänskliga från syntetiska röster i live-samtal”, tillade VD:n.

I april förra året varnade FBI för en skadlig text- och röstmeddelande-kampanj som utgav sig för att vara kommunikationer från seniora amerikanska tjänstemän och riktade sig mot tidigare regeringsarbetare och deras kontakter. Stora nationella banker i USA var också mål för 5,5 genomsnittliga dagliga röstmanipulationsbedrägeriförsök, och sjukhuspersonal vid Vanderbilt University Medical Center rapporterade vishing-attacker från bedragare som utgav sig för att vara vänner, chefer och kollegor.

Oavsett, deepfakes var inte initialt en del av Kintsugis arbete. Medan företagets team hade använt sig av färdiga modeller som Cartesia, Sesame och ElevenLabs för att experimentera med syntetiska röster för administrativa callcenter-agenter och utgående arbetsflöden, var deepfake-bedrägeri inte deras fokus mitt i en trång och tillgänglig marknad med modeller som Sora.

Mänskliga signaler som indikerar röstautenticitet är dock samma biomarkörer som gör någon mänsklig från början. Oavsett språk eller semantik, fungerar Kintsugi Voice med signalbehandling och den fysiska latensen av tal, och fångar subtila timing, prosodisk variabilitet, kognitiv belastning och fysiologiska markörer som reflekterar hur tal produceras… inte vad som sägs.

“Syntetiska röster kan låta flytande, men de bär inte samma biologiska och kognitiva artefakter”, sa Chang. Företagets modell är konsekvent en topp-decile-presterare i detekteringsnoggrannhet, med så lite som 3 till 5 sekunder av ljud.

Kintsugi kan vara revolutionerande för de som kämpar med mental hälsa, särskilt i områden där att få behandling med proffs tar tid och resurser. På samma sätt utgör dess teknologi en revolution för deepfake-detektering och cybersäkerhet i allmänhet: autenticitetsdetektering snarare än deepfake-igenkänning.

Framtiden Ligger på Människocentrerad Teknik

Cybersäkerhet har länge fokuserat på skadlig användning av teknologier eller förövare själva. Kintsugis oavsiktliga upptäckt, däremot, satsar på mänskligheten själv.

“Vi opererar på en helt annan yta: mänsklig autenticitet själv. LLM kan inte tillförlitligt upptäcka LLM-genererat innehåll, och artefaktbaserade metoder är sköra. Att fånga stora, kliniskt märkta dataset som kodar riktig mänsklig variabilitet är dyrt, långsamt och utanför kärnkompetensen för de flesta säkerhetsföretag — vilket gör denna approach svår att replikera”, noterade Chang.

Startuppens tillvägagångssätt föreslår också en bredare skift: tvärdomänsinnovation. De som är i täten inom hälsovård kan mycket väl leda laddningen i AI-backad vishing-detektering, precis som de som är innovatörer inom rymdteknik kan stödja nya nödresponsmekanismer, eller spelare arkitektur och stadsplanering.

När det gäller Chang, planerar hon att bli en standard för att verifiera riktiga människor och, till slut, riktiga avsikter genom röstinteraktioner.

“Liksom HTTPS blev en standard för webben, tror vi att ‘bevis på människa’ kommer att bli en grundläggande lager för röstbaserade system. Signal är början på den infrastrukturen”, sa hon.

När generativ AI fortsätter att accelerera, kan de mest effektiva skydden komma från att förstå vad som gör människor… väl, mänskliga.

Salomé Beyer Velez

Salomé är en Medellín-född journalist och senior reporter på Espacio Media Incubator. Med en bakgrund inom historia och politik betonar Salomés arbete den sociala relevansen av nya tekniker. Hon har medverkat i Al Jazeera, Latin America Reports och The Sociable, bland andra.

Unite.AI

Hur ett Mental Health AI-Verktyg Av Misstag Upptäckte Exakt Deepfake-Detektering

Bortom Sora: Vishing

Vetenskapen om att Lyssna på Människor

Från Mental Hälsa till Cybersäkerhet

Framtiden Ligger på Människocentrerad Teknik

You may like