Künstliche Intelligenz

Wie ein Mental-Health-AI-Tool zufällig eine genaue Deepfake-Erkennung entdeckte

mm

Als der Technologieriese Open AI sein Flaggschiff Sora 2 Video- und Audio-Generationsmodell im September 2025 startete, wurden Deepfake-Videos in sozialen Medienplattformen überflutet, was die Zuschauer zunehmend mit potenziell gefährlichen hyperrealistischen Inhalten vertraut machte.

Obwohl Open AI den verantwortungsvollen Start von Sora 2 als oberste Priorität betrachtete, behauptete es, dass es den Benutzern “die Tools und Optionen geben würde, um Kontrolle über das zu haben, was sie in ihrem Feed sehen” und Kontrolle über ihre Ähnlichkeit von Anfang bis Ende, fand eine Studie im Oktober 2025 heraus, dass das Modell 80% der Zeit falsche Behauptungen produzierte.

Von Videos, die nachgemachte Nachrichtenberichte über einen moldawischen Wahlbeamten, der Stimmzettel zerstörte, bis hin zu gefälschten Szenen eines Kleinkindes, das von Einwanderungsbeamten festgenommen wurde, oder einem Coca-Cola-Sprecher, der ankündigte, dass das Unternehmen den Super Bowl nicht mehr sponsern würde, könnten die Folgen für die Produktion von Fehlinformationen in einer vernetzten Welt nicht höher sein.

Jenseits von Sora: Vishing

Schon bevor Open AI sein Tool startete, war die Erstellung und Online-Verbreitung von Deepfake-Dateien im Aufwind. Laut einem Bericht des Cybersicherheitsunternehmens DeepStrike aus September 2025 stieg der Deepfake-Inhalt von 500.000 im Jahr 2023 auf 8 Millionen im Jahr 2025, von denen ein Großteil für betrügerische Zwecke verwendet wurde.

Der Trend zeigt keine Anzeichen dafür, dass er aufhört; AI-Betrug in den USA allein wird voraussichtlich 40 Milliarden USD bis 2027 erreichen.

Ein solcher Anstieg ist nicht nur auf die Menge beschränkt. Mit Tools wie Sora 2 und Google’s Veo 3 sind Inhalte von AI-generierten Gesichtern, Stimmen und vollständigen Darbietungen realistischer als je zuvor. Wie signalisiert durch den Computerwissenschaftler und Deepfake-Forscher Siwei Luy, sind moderne Modelle in der Lage, stabile Gesichter ohne Verzerrungen oder Verformungen zu produzieren, während die Stimmenklonung eine “nicht zu unterscheidende Schwelle” überschritten hat.

Die Wahrheit ist, dass Deepfakes die Erkennung überholen. Was Technologieunternehmen verkaufen als lustige Tools, um alles von olympischen Turnübungen bis hin zu komplexen Hintergrund-Soundscapes zu generieren, wurde auch von Kriminellen genutzt, um Unternehmen und Einzelpersonen gleichermaßen anzugreifen. Allein im ersten Halbjahr 2025 verursachten Deepfake-Vorfälle Verluste von 356 Millionen USD für Unternehmen und 541 Millionen USD für Einzelpersonen.

Traditionelle Deepfake-Erkennung – einschließlich der Identifizierung von Wasserzeichen, airbrushierten Gesichtern und Metadaten-Checks – funktioniert nicht. Und da Stimmen-Deepfakes die zweithäufigste Form von AI-gestütztem Betrug und Stimmen-Phishing (Vishing) um 442% im Jahr 2025 anstieg, sind die Folgen bereits spürbar.

“Ein paar Sekunden Audio reichen aus, um einen überzeugenden Klon zu erstellen – mit natürlicher Intonation, Rhythmus, Betonung, Emotion, Pausen und Atemgeräuschen”, schrieb Lyu.

Die Wissenschaft des Zuhörens bei Menschen

Kintsugi, ein Healthtech-Startup, das AI-Stimmen-Biomarker-Technologie entwickelt, um Anzeichen von klinischer Depression und Angst zu erkennen. Ihre Arbeit begann mit einer scheinbar einfachen Prämisse: Wir müssen Menschen zuhören.

“Ich habe Kintsugi gegründet, weil ich ein Problem persönlich erlebt habe. Ich habe fast fünf Monate damit verbracht, meinen Anbieter anzurufen, um einen ersten Therapie-Termin zu vereinbaren, und niemand hat je zurückgerufen. Ich habe weiter versucht – aber ich erinnere mich sehr genau daran, dass ich dachte, wenn dies mein Vater oder mein Bruder wäre, hätten sie viel früher aufgehört als ich”, sagte CEO Grace Chang im Gespräch mit Unite.AI.

Das in Kalifornien ansässige Unternehmen wurde 2019 als Lösung für das Problem gegründet, das Chang als “Triage-Flaschenhals” bezeichnete. Der Gründer glaubte, dass die Erkennung von Schweregraden früher und passiv helfen könnte, Menschen schneller zu der richtigen Ebene der Versorgung zu bringen. Und durch Kintsugi Voice identifizieren Stimmen-Biomarker klinische Depression und Angst.

Es gibt zahlreiche Forschungen, die den erfolgreichen Einsatz von AI-gestützter Sprach- und Stimmenanalyse als Biomarker für psychische Erkrankungen belegen. Ein Artikel aus Mai 2025 fand heraus, dass akustische Biomarker frühe Anzeichen von psychischer Gesundheit und neurodiversen Erkrankungen erkennen können und argumentierte für die Integration von Singanalysen in klinischen Einrichtungen, um die kognitive Abnahme von Patienten zu bewerten.

Stimmen-Maße haben tatsächlich eine Genauigkeitsrate von 78% bis 96% bei der Identifizierung von Menschen mit Depressionen im Vergleich zu denen ohne, laut der American Psychiatric Association. Eine weitere Studie verwendete einen einminütigen verbalen Fluenztest, bei dem eine Person so viele Wörter wie möglich in einer bestimmten Kategorie nannte – und fand eine Genauigkeit von 70% bis 83% bei der Erkennung, ob ein Proband Depression und Angst hatte.

Um die psychische Gesundheit ihrer Benutzer zu bewerten, bittet Kintsugi um ein kurzes Sprachclip, nach dem seine Stimmen-Biomarker-Technologie die Tonhöhe, Intonation, Ton und Pausen analysiert – Marker, die in Verbindung mit Erkrankungen wie Depression, Angst, bipolare Störung und Demenz stehen.

Was Chang jedoch nicht zunächst erkannte, war, dass die Technologie eines der dringendsten Probleme der Sicherheitsbranche gelöst hatte: die Identifizierung dessen, was menschliche Stimmen menschlich macht.

Von der psychischen Gesundheitsversorgung zur Cybersicherheit

Während eines Gipfels in New York im späten Jahr 2025 erwähnte Chang gegenüber einem Freund aus dem Cybersicherheitsbereich, dass ihr Team mit synthetischen Stimmen experimentiert hatte, aber die Ergebnisse enttäuschend waren.

“Wir haben synthetische Daten verwendet, um unsere mentalen Gesundheitsmodelle zu trainieren, aber die generierten Stimmen waren so unterschiedlich von authentischen menschlichen Stimmen, dass wir fast 100% der Zeit erkennen konnten”, sagte sie.

“Er hielt mich auf und sagte: ‘Grace – das ist in der Sicherheit kein gelöstes Problem.’ Das war der Moment, in dem alles klickte. Seitdem haben Gespräche mit Sicherheits-, Finanzdienstleistungs- und Telekommunikationsunternehmen bestätigt, wie schnell Deepfake-Stimmen-Angriffe zunehmen – und wie real die Notwendigkeit ist, menschliche von synthetischen Stimmen in Live-Anrufen zu unterscheiden”, fügte die CEO hinzu.

Im April des letzten Jahres warnte das FBI vor einer bösartigen Text- und Sprachnachrichten-Kampagne, die sich als Kommunikation von hochrangigen US-Beamten ausgab und ehemalige Regierungsmitarbeiter und ihre Kontakte angriff. Große nationale Banken in den USA wurden auch mit durchschnittlich 5,5 täglichen Versuchen von Stimmen-Manipulationsbetrug angegriffen, und das Personal im Vanderbilt University Medical Center meldete Vishing-Angriffe von Impersonatoren, die sich als Freunde, Vorgesetzte und Kollegen ausgaben.

Unabhängig davon, ob Deepfakes ursprünglich in die Arbeit von Kintsugi einbezogen waren oder nicht, während das Team des Unternehmens off-the-shelf-Modelle wie Cartesia, Sesame und ElevenLabs verwendet hatte, um mit synthetischen Stimmen für administrative Callcenter-Agenten und Outbound-Workflows zu experimentieren, lag der Fokus nicht auf Deepfake-Betrug in einem überfüllten und zugänglichen Markt mit Modellen wie Sora.

Menschliche Signale, die die Authentizität von Stimmen anzeigen, sind jedoch die gleichen Biomarker, die jemanden zum Menschen machen. Unabhängig von Sprache oder Semantik funktioniert Kintsugi Voice mit Signalverarbeitung und der physischen Latenz der Sprache, wodurch subtile Timing, prosodische Variabilität, kognitive Belastung und physiologische Marker erfasst werden, die widerspiegeln, wie Sprache produziert wird… und nicht, was gesagt wird.

“Synthetische Stimmen können flüssig klingen, aber sie tragen nicht die gleichen biologischen und kognitiven Artefakte”, sagte Chang. Das Modell des Unternehmens ist ein Top-Performer in der Erkennungsgenauigkeit und verwendet nur 3 bis 5 Sekunden Audio.

Kintsugi kann revolutionär für diejenigen sein, die mit psychischen Gesundheitsproblemen kämpfen, insbesondere in Gebieten, in denen die Behandlung mit Fachleuten Zeit und Ressourcen erfordert. Gleichzeitig birgt die Technologie des Unternehmens eine Revolution für die Deepfake-Erkennung und die Cybersicherheit im Allgemeinen: Authentifizierungserkennung anstelle von Deepfake-Erkennung.

Die Zukunft liegt in der menschenzentrierten Technologie

Die Cybersicherheit hat sich lange auf den bösartigen Einsatz von Technologien oder die Täter selbst konzentriert. Die zufällige Entdeckung von Kintsugi setzt jedoch auf die Menschlichkeit selbst.

“Wir operieren auf einer völlig anderen Oberfläche: menschliche Authentizität selbst. LLMs können nicht zuverlässig LLM-generierten Inhalt erkennen, und artefaktbasierte Methoden sind zerbrechlich. Die Erfassung großer, klinisch beschrifteter Datensätze, die reale menschliche Variabilität kodieren, ist teuer, langsam und liegt außerhalb der Kernkompetenz der meisten Sicherheitsunternehmen – was diesen Ansatz schwierig zu replizieren macht”, stellte Chang fest.

Der Ansatz des Startups deutet auch auf einen umfassenderen Wandel hin: Innovationsübergreifende Zusammenarbeit. Die Pioniere im Gesundheitswesen könnten den Vorstoß in der AI-gestützten Vishing-Erkennung anführen, genauso wie die Innovatoren in der Raumfahrttechnologie neue Notfallmechanismen unterstützen oder die Architekten und Stadtplaner die Infrastruktur für die Zukunft gestalten könnten.

Chang plant, einen Standard für die Verifizierung von echten Menschen und letztendlich echter Absicht durch Sprachinteraktionen zu werden.

“Genau wie HTTPS zu einer Standard-Vertrauensebene für das Web wurde, glauben wir, dass ‘Beweis des Menschen’ zu einer grundlegenden Ebene für sprachbasierte Systeme wird. Signal ist der Beginn dieser Infrastruktur”, sagte sie.

Da generative KI weiter beschleunigt, könnten die effektivsten Schutzmaßnahmen von dem Verständnis kommen, was Menschen… nun, menschlich macht.

Salomé ist eine in Medellín geborene Journalistin und Senior-Reporterin bei Espacio Media Incubator. Mit einem Hintergrund in Geschichte und Politik betont Salomés Arbeit die gesellschaftliche Relevanz von aufkommenden Technologien. Sie wurde in Al Jazeera, Latin America Reports und The Sociable unter anderen vorgestellt.