Kunstig intelligens

Hvordan et mentalt helse-AI-verktøy tilfeldig oppdaget nøyaktig deepfake-oppdaging

Published January 14, 2026

Updated April 25, 2026

Salomé Beyer Velez

Da teknologigiganten Open AI lanserte sitt flaggskip Sora 2 video- og audio-generasjonsmodell i september 2025, har deepfake-videoer oversvømt sosiale medier, og publikum er blitt stadig mer kjent med potensielt farlige hyperrealistiske innhold.

Selv om Open AI anså en ansvarlig lansering av Sora 2 som en topprioritet, hevdet de at det ville gi brukerne “verktøyene og valgfriheten til å kontrollere hva de ser i feeden” og kontroll over deres likhet fra ende til ende, fant en studie i oktober 2025 at modellen produserte feilaktige påstandsvideoer 80% av tiden.

Fra videoer som mimret nyhetsrapporter om en moldovsk valgfunksjonær som ødela stemmesedler til fabrikkerte scener med en liten gutt som ble arrestert av immigrasjonsmyndighetene eller en Coca-Cola-talsperson som annonserte at selskapet ikke ville sponsorere Super Bowl, kunne konsekvensene av å produsere feilaktig informasjon i en sammenkoblet verden ikke være høyere.

Beyond Sora: Vishing

Selv før Open AI’s verktøy ble lansert, var skapelsen og den online spredningen av deepfake-filer på fremmarsj. Ifølge en rapport fra september 2025 fra selskapet for cybersikkerhet DeepStrike, økte deepfake-innholdet fra 500 000 i 2023 til en overveldende 8 millioner i 2025, mye av dette ble brukt til svindel.

Trenden viser ingen tegn til å stoppe; AI-svindel i USA alene forventes å nå 40 milliarder USD i 2027.

En slik økning er ikke begrenset til mengde. Med verktøy som Sora 2 og Google’s Veo 3, er innholdet av AI-genererte ansikter, stemmer og fullkroppsforestilling nå mer realistisk enn noensinne. Ettersom signalisert av datascientist og deepfake-forsker Siwei Luy, er moderne modeller i stand til å produsere stabile ansikter uten forvrengning eller forvrengning, mens stemmekloning har krysset en “umulig å skille”-terskel.

Sannheten er at deepfakes går foran oppdaging. Hva teknologiselskaper selger som morsomme verktøy for å generere alt fra olympiske turnøvelser til sofistikerte bakgrunnsskapes, har også blitt brukt av kriminelle til å angripe bedrifter og enkeltpersoner. Bare i første halvår 2025, førte deepfake-angrep til tap på 356 millioner USD for selskaper og 541 millioner USD for enkeltpersoner.

Tradisjonell deepfake-oppdaging – inkludert identifisering av vannmerker, airbrushede ansikter og metadata-sjekker – svikter. Og, ettersom stemme-deepfakes forblir den nest vanligste formen for AI-aktivt svindel og stemme-phishing (vishing) økte 442% i 2025, er konsekvensene allerede følt.

“Et par sekunder med lyd er nå nok til å generere en overbevisende klon – komplett med naturlig intonasjon, rytme, betoning, emosjon, pauser og pustelyder,” skrev Lyu.

Vitenskapen om å lytte til mennesker

Kintsugi, et helse-teknologiselskap som utvikler AI-stemme-biomarkørteknologi for å oppdage tegn på klinisk depresjon og angst. Deres arbeid startet fra en tilsynelatende enkel premisse: vi må lytte til mennesker.

“Jeg startet Kintsugi på grunn av et problem jeg selv opplevde. Jeg tilbrakte nesten fem måneder med å ringe min leverandør bare for å få en første terapi-time, og ingen returnerte noen gang mine samtaler. Jeg fortsatte å prøve – men jeg husker å tenke svært tydelig at hvis dette var min far eller min bror, ville de ha gitt opp lenge før jeg gjorde,” sa CEO Grace Chang i samtale med Unite.AI.

Det California-baserte selskapet ble grunnlagt i 2019 som en løsning på det Chang beskrev som en “triage-bottleneck”. Grunnleggeren trodde på at tidlig oppdaging og passiv kunne hjelpe folk til å komme til riktig nivå av omsorg raskere. Og, gjennom Kintsugi Voice, identifiserer stemme-biomarkører klinisk depresjon og angst.

Forskning viser at det er vellykket å bruke AI-drevet tale- og stemmeanalyse som en biomarkør for psykiske helse-tilstander. En rapport fra mai 2025 fant at akustiske biomarkører kan oppdage tidlige tegn på psykisk helse og nevrodivergens, og argumenterte for integrering av sang-analyser i kliniske settinger for å vurdere pasienters potensielle kognitive nedgang.

Stemme-målinger har en nøyaktighetsrate på 78% til 96% i å identifisere mennesker med depresjon i forhold til de uten det, ifølge American Psychiatric Association. En annen studie brukte en en-minutters verbal flytighetstest hvor en person navnga så mange ord som mulig innen en gitt kategori – og fant 70% til 83% nøyaktighet i å oppdage når en person hadde både depresjon og angst.

For å vurdere brukernes psykiske helse, ber Kintsugi om en kort taleklipp, etterfulgt av at deres stemme-biomarkørteknologi analyserer tonehøyde, intonasjon, tone og pauser – markører funnet å være assosiert med tilstander som depresjon, angst, bipolar lidelse og demens.

Hva Chang ikke opprinnelig innsett, var at teknologien hadde låst opp ett av sikkerhetsbransjens mest presserende samtidsutfordringer: å identifisere hva som gjør menneskestemmer menneskelige.

Fra psykisk helse-omsorg til cybersikkerhet

Mens hun deltok på et toppmøte i New York i slutten av 2025, nevnte Chang for en venn i cybersikkerhetsfeltet at hennes teams eksperimentering med syntetiske stemmer hadde vært skuffende.

“Vi utforsket syntetisk data for å supplere trening for våre modeller for psykisk helse, men de genererte stemmene var så forskjellige fra ekte menneskelig tale at vi kunne si nesten 100% av tiden,” sa hun.

“Han stoppet meg og sa: ‘Grace – det er ikke et løst problem i sikkerhet.’ Det var øyeblikket alt klikket på plass. Siden da har samtaler med sikkerhets-, finansielle tjenester og teleselskaper bekreftet hvor raskt deepfake-stemmeangrep øker – og hvor virkelig behovet er å skille menneskelige fra syntetiske stemmer i live-samtaler,” la CEOen til.

I april i fjor advarte FBI mot en skadelig tekst- og stemme-meldingskampanje som utgav seg for å være kommunikasjon fra senior amerikanske tjenestemenn og målrettede tidligere regjeringsansatte og deres kontakter. Store nasjonale banker i USA ble også målrettede med 5,5 gjennomsnittlige daglige stemmanipulasjons-svindelforsøk, og sykehuspersonale ved Vanderbilt University Medical Center rapporterte vishing-angrep fra personer som utgav seg for å være venner, overordnede og kolleger.

Uansett, deepfakes var ikke opprinnelig en del av Kintsugis arbeid. Mens selskapets team hadde brukt standardmodeller som Cartesia, Sesame og ElevenLabs til å eksperimentere med syntetiske stemmer for administrative call-senter-agenter og utgående arbeidsflyter, var deepfake-svindel ikke deres fokus i en travelt marked som inkluderte modeller som Sora.

Menneskelige signaler som indikerer stemme-autentisitet er de samme biomarkørene som gjør noen menneskelige fra første sted. Uavhengig av språk eller semantikk, opererer Kintsugi Voice med signalbehandling og den fysiske forsinkelsen av tale, og fanger subtile timing, prosodisk variasjon, kognitiv belastning og fysiologiske markører som reflekterer hvordan tale produseres… ikke hva som sies.

“Syntetiske stemmer kan høres flytende, men de bærer ikke de samme biologiske og kognitive artefaktene,” sa Chang. Selskapets modell er konsistent en top-decile-performer i oppdagingsnøyaktighet, og bruker så lite som 3 til 5 sekunder med lyd.

Kintsugi kan være revolusjonerende for de som sliter med psykisk helse, spesielt i områder hvor å få behandling med profesjonelle tar tid og ressurser. På samme måte kan teknologien være en revolusjon for deepfake-oppdaging og cybersikkerhet generelt: autentisitetsoppdaging i stedet for deepfake-gjenkjenning.

Fremtiden ligger i menneske-sentrert teknologi

Cybersikkerhet har lenge vært fokusert på skadelig bruk av teknologier eller forbytere selv. Kintsugis tilfeldige oppdagelse, derimot, satser på menneskeheten selv.

“Vi opererer på et helt annet overflateområde: menneskelig autentisitet selv. LLM-er kan ikke pålitelig oppdage LLM-generert innhold, og artefakt-basert metoder er skjøre. Å fange store, klinisk merkte datasets som koder virkelig menneskelig variasjon, er dyrt, langsomt og utenfor kjernekompetansen til de fleste sikkerhetsselskaper — noe som gjør denne tilnærmingen vanskelig å replikere,” noterte Chang.

Selskapets tilnærming antyder også en bredere skift: tverrfaglig innovasjon. De som er i fremkant i helsevesenet kan være de som leder an i AI-basert vishing-oppdaging, likeledes som de som innoverer i romteknologi kan støtte nye nødsituasjonsmekanismer, eller spillarkitektur og byplanlegging.

For Chang planlegger hun å bli en standard for å verifisere ekte mennesker og, til slutt, ekte intensjoner gjennom stemme-interaksjoner.

“Likeledes som HTTPS ble en standard tillitslag for weben, tror vi at ‘bevis på menneske’ vil bli et grunnleggende lag for stemme-baserte systemer. Signal er begynnelsen på denne infrastrukturen,” sa hun.

Ettersom generativ AI fortsetter å akselerere, kan de mest effektive sikkerhetstiltakene komme fra å forstå hva som gjør mennesker… vel, menneskelige.

Salomé Beyer Velez

Salomé er en journalist født i Medellín og senior reporter i Espacio Media Incubator. Med en bakgrunn i historie og politikk, legger Salomés arbeid vekt på den sosiale relevansen av nye teknologier. Hun har vært med i Al Jazeera, Latin America Reports og The Sociable, blant andre.