Connect with us

Hoe een Mental Health AI-hulpmiddel per ongeluk nauwkeurige Deepfake-detectie ontdekte

Kunstmatige intelligentie

Hoe een Mental Health AI-hulpmiddel per ongeluk nauwkeurige Deepfake-detectie ontdekte

mm

Toen de technologiegigant Open AI haar vlaggenschip Sora 2-video- en audiogeneratiemodel in september 2025 lanceerde, zijn deepfake-video’s sociale media-platforms overspoeld, waardoor het publiek steeds meer vertrouwd raakt met potentieel gevaarlijke hyperrealistische inhoud.

Hoewel Open AI de verantwoorde lancering van Sora 2 als topprioriteit beschouwde, beweerde het dat het gebruikers “de tools en opties zou geven om de controle te hebben over wat ze in hun feed zien” en controle over hun gelijkenis van begin tot eind, een onderzoek van oktober 2025 vond dat het model valse claim-video’s 80% van de tijd produceerde.

Van video’s die nadeden nieuwsberichten over een Moldavische verkiezingsfunctionaris die stembiljetten vernietigde tot gefabriceerde scènes van een peuter die door immigratiefunctionarissen werd aangehouden of een woordvoerder van Coca-Cola die aankondigde dat het bedrijf de Super Bowl niet zou sponsoren, de inzet voor het produceren van misinformatie in een met elkaar verbonden wereld kan niet hoger zijn.

Beyond Sora: Vishing

Zelfs voordat Open AI’s tool werd gelanceerd, was de creatie en online verspreiding van deepfake-bestanden in opkomst. Volgens een rapport van september 2025 van het cybersecuritybedrijf DeepStrike, steeg de deepfake-inhoud van 500.000 in 2023 tot een verbluffende 8 miljoen in 2025, waarvan een groot deel voor frauduleuze doeleinden werd gebruikt.

De trend vertoont geen tekenen van vertraging; AI-fraude in de VS alleen wordt verwacht om 40 miljard USD te bereiken tegen 2027.

Een dergelijke toename is niet beperkt tot hoeveelheid. Met tools zoals Sora 2 en Google’s Veo 3, is de inhoud van AI-gegenereerde gezichten, stemmen en full-body-uitvoeringen nu realistischer dan ooit. Aangezien aangegeven door computerwetenschapper en deepfake-onderzoeker Siwei Luy, zijn hedendaagse modellen in staat om stabiele gezichten te produceren zonder vervorming of vertekening, terwijl stemkloon technologie een “ononderscheidbaar drempel” heeft overschreden.

De waarheid is dat deepfakes de detectie voorbij hollen. Wat technologiebedrijven verkopen als leuke tools om alles van olympische gymnastiekritmes tot geavanceerde achtergrondgeluiden te genereren, is ook door criminelen gebruikt om bedrijven en individuen aan te vallen. Alleen in de eerste helft van 2025 hebben deepfake-incidenten veroorzaakt verliezen van 356 miljoen USD voor bedrijven en 541 miljoen USD voor individuen.

Traditionele deepfake-detectie – inclusief het identificeren van watermerken, airbrushed gezichten en metadata-controles – faalt. En, aangezien stemdeepfakes de tweede meest voorkomende vorm van AI-geactiveerde fraude zijn en voice phishing (vishing) steeg 442% in 2025, worden de gevolgen al gevoeld.

“Enkele seconden audio zijn nu voldoende om een overtuigende kloon te genereren – complete met natuurlijke intonatie, ritme, nadruk, emotie, pauzes en ademgeluiden,” schreef Lyu.

De Wetenschap van Luisteren naar Mensen

Kintsugi, een healthtech-startup die AI-stembiomerkertechnologie ontwikkelt om tekenen van klinische depressie en angst te detecteren. Hun werk begon vanuit een ogenschijnlijk eenvoudige premisse: we moeten naar mensen luisteren.

“Ik ben Kintsugi begonnen vanwege een probleem dat ik persoonlijk had meegemaakt. Ik heb bijna vijf maanden gebeld naar mijn zorgverlener om alleen maar een eerste therapieafspraak te plannen, en niemand heeft ooit teruggebeld. Ik bleef proberen – maar ik herinner me heel duidelijk dat als dit mijn vader of broer was, ze allang zouden zijn gestopt voordat ik dat deed,” zei CEO Grace Chang in een gesprek met Unite.AI.

Het in Californië gevestigde bedrijf werd in 2019 opgericht als oplossing voor wat Chang een “triage-bottleneck” noemde. De oprichter geloofde dat het detecteren van ernst eerder en passief kon helpen om mensen sneller de juiste zorg te geven. En, via Kintsugi Voice, identificeren stembiomarkers klinische depressie en angst.

Er is veel onderzoek dat de succesvolle toepassing van AI-gestuurde spraak- en stemanalyse als biomarker voor geestelijke gezondheidsaandoeningen aantoont. Een artikel uit mei 2025 vond dat akoestische biomarkers vroege tekenen van geestelijke gezondheid en neurodivergentie kunnen detecteren en bepleitte de integratie van zanganalyses in klinische settings om de potentiële cognitieve achteruitgang van patiënten te beoordelen.

Stemmetingen hebben in feite een nauwkeurigheidspercentage van 78% tot 96% bij het identificeren van mensen met depressie versus mensen zonder, volgens de American Psychiatric Association. Een andere studie gebruikte een eenminutestest voor verbale vaardigheid waarin een persoon zoveel mogelijk woorden noemde binnen een bepaalde categorie – en vond 70% tot 83% nauwkeurigheid bij het detecteren of een onderwerp zowel depressie als angst had.

Om de geestelijke gezondheid van hun gebruikers te beoordelen, vraagt Kintsugi om een korte spraakclip, waarna hun stembiomerkertechnologie de toon, intonatie, toon en pauzes analyseert – markers gevonden die geassocieerd worden met aandoeningen zoals depressie, angst, bipolaire stoornis en dementie.

Wat Chang aanvankelijk niet besefte, was dat de technologie een van de meest dringende uitdagingen van de beveiligingsindustrie had ontsloten: het identificeren van wat menselijke stemmen menselijk maakt.

Van Geestelijke Gezondheidszorg naar Cyberbeveiliging

Terwijl ze een top in New York bijwoonde in het najaar van 2025, vermeldde Chang tegen een vriend in het cybersecurity-veld dat het experiment van haar team met synthetische stemmen teleurstellend was.

“We waren synthetische gegevens aan het onderzoeken om onze mentale gezondheidsmodellen te trainen, maar de gegenereerde stemmen waren zo anders dan echte menselijke spraak dat we bijna 100% van de tijd konden vertellen,” zei ze.

“Hij stopte me en zei: ‘Grace – dat is geen opgelost probleem in de beveiliging.’ Dat was het moment waarop alles klikte. Sindsdien hebben gesprekken met beveiligings-, financiële dienstverlenings- en telecombedrijven bevestigd hoe snel deepfake-stem aanvallen toenemen – en hoe echt de behoefte is om menselijke stemmen van synthetische stemmen in live-gesprekken te onderscheiden,” voegde de CEO toe.

In april vorig jaar waarschuwde de FBI voor een kwaadaardige tekst- en spraakberichtcampagne die zich voordeden als communicaties van senior Amerikaanse functionarissen en die voormalige overheidsfunctionarissen en hun contacten als doelwit hadden. Grote nationale banken in de VS werden ook doelwit van 5,5 gemiddelde dagelijkse spraakmanipulatiefraudepogingen, en het ziekenhuispersoneel van de Vanderbilt University Medical Center rapporteerde vishing-aanvallen van impersonators die zich voordeden als vrienden, leidinggevenden en collega’s.

Ongeacht, deepfakes maakten oorspronkelijk geen deel uit van Kintsugi’s werk. Terwijl het team van het bedrijf off-the-shelf-modellen zoals Cartesia, Sesame en ElevenLabs had gebruikt om te experimenteren met synthetische stemmen voor administratieve callcenteragenten en uitgaande workflows, was deepfake-fraude niet hun focus in een drukke en toegankelijke markt met modellen zoals Sora.

Menselijke signalen die de authenticiteit van de stem aangeven, zijn dezelfde biomarkers die iemand menselijk maken. Ongeacht de taal of semantiek, werkt Kintsugi Voice met signaalverwerking en de fysieke latentie van spraak, waarbij subtiele timing, prosodische variabiliteit, cognitieve belasting en fysiologische markers worden vastgelegd die weerspiegelen hoe spraak wordt gegenereerd… niet wat wordt gezegd.

“Synthetische stemmen kunnen vloeiend klinken, maar ze dragen niet dezelfde biologische en cognitieve artefacten,” zei Chang. Het model van het bedrijf is consistent een top-decile-performer in detectienauwkeurigheid, met behulp van slechts 3 tot 5 seconden audio.

Kintsugi kan revolutionair zijn voor mensen die worstelen met geestelijke gezondheid, vooral in gebieden waar het krijgen van behandeling met professionals tijd en middelen vergt. Tegelijkertijd stelt de technologie van het bedrijf een revolutie voor in deepfake-detectie en cybersecurity in het algemeen: authenticiteitsdetectie in plaats van deepfake-herkenning.

De Toekomst Ligt bij Mensgerichte Technologie

Cyberbeveiliging heeft zich lange tijd gericht op de kwaadaardige toepassing van technologieën of daders zelf. De toevallige ontdekking van Kintsugi, daarentegen, zet in op de mensheid zelf.

“We opereren op een compleet ander oppervlak: menselijke authenticiteit zelf. LLM’s kunnen geen betrouwbare detectie van LLM-gegenereerde inhoud uitvoeren, en artifact-gebaseerde methoden zijn broos. Het vastleggen van grote, klinisch gelabelde datasets die echte menselijke variabiliteit coderen, is duur, langzaam en buiten het kernexpertisegebied van de meeste beveiligingsbedrijven – wat deze aanpak moeilijk te repliceren maakt,” merkte Chang op.

De aanpak van het bedrijf suggereert ook een bredere verschuiving: cross-domeininnovatie. De voorlopers in de gezondheidszorg kunnen wellicht de leiding nemen in AI-gebackte vishing-detectie, net zoals de innovators in ruimtetechnologie nieuwe noodhulpmechanismen kunnen ondersteunen, of gamersarchitectuur en stedelijke planning.

Wat Chang betreft, plant ze om de standaard te worden voor het verifiëren van echte mensen en, uiteindelijk, echte intentie via steminteracties.

“Net zoals HTTPS een standaard vertrouwenslaag voor het web is geworden, geloven we dat ‘bewijs van mens’ een fundamentenlaag voor spraakgebaseerde systemen zal worden. Signaal is het begin van die infrastructuur,” zei ze.

Terwijl generatieve AI blijft versnellen, kunnen de meest effectieve beveiligingsmaatregelen komen van het begrijpen van wat mensen… nou ja, menselijk maakt.

Salomé is een in Medellín geboren journaliste en Senior Reporter bij Espacio Media Incubator. Met een achtergrond in Geschiedenis en Politiek, benadrukt Salomé's werk de sociale relevantie van opkomende technologieën. Ze is onder andere te zien geweest in Al Jazeera, Latin America Reports, en The Sociable.