Connect with us

Wie ein Mental-Health-KI-Tool versehentlich genaue Deepfake-Erkennung entdeckte

Künstliche Intelligenz

Wie ein Mental-Health-KI-Tool versehentlich genaue Deepfake-Erkennung entdeckte

mm

Als der Technologie-Riese Open AI seine Flaggschiff-Video- und Audio-Generations-Modell Sora 2 im September 2025 startete, überschwemmten Deepfake-Videos soziale Medien-Plattformen und machten das Publikum zunehmend mit potenziell gefährlichen hyperrealistischen Inhalten vertraut.

Obwohl Open AI den verantwortungsvollen Start von Sora 2 als oberste Priorität betrachtete und behauptete, es würde den Nutzern “die Tools und Optionen geben, um die Kontrolle über das zu haben, was sie in ihrem Feed sehen” und die Kontrolle über ihre Ähnlichkeit von Anfang bis Ende, fand eine Studie im Oktober 2025 heraus, dass das Modell 80 % der Zeit falsche Ansprüche-Videos produzierte.

Von Videos, die Nachrichtenberichte über einen moldawischen Wahlbeamten, der Stimmzettel zerstörte, nachgemachte Szenen eines Kleinkindes, das von Einwanderungsbeamten festgenommen wurde, oder eines Coca-Cola-Sprechers, der bekannt gab, dass das Unternehmen den Super Bowl nicht mehr sponsern würde, könnten die Folgen für die Produktion von Fehlinformationen in einer vernetzten Welt nicht höher sein.

Jenseits von Sora: Vishing

Schon bevor Open AIs Tool gestartet wurde, war die Erstellung und Online-Verbreitung von Deepfake-Dateien im Aufwind. Laut einem Bericht des Cybersicherheitsunternehmens DeepStrike von September 2025 stieg der Deepfake-Inhalt von 500.000 im Jahr 2023 auf 8 Millionen im Jahr 2025, von dem ein Großteil für betrügerische Zwecke verwendet wurde.

Der Trend zeigt keine Anzeichen dafür, dass er aufhört; AI-Betrug in den USA allein wird erwartet, bis 2027 40 Milliarden USD zu erreichen.

Ein solcher Anstieg ist nicht nur auf die Menge beschränkt. Mit Tools wie Sora 2 und Googles Veo 3 sind Inhalte von AI-generierten Gesichtern, Stimmen und Vollkörper-Darstellungen jetzt realistischer denn je. Da signalisiert wird von dem Computerwissenschaftler und Deepfake-Forscher Siwei Luy, sind zeitgenössische Modelle in der Lage, stabile Gesichter ohne Verzerrungen oder Verformungen zu produzieren, während die Stimmenklonung eine “nicht zu unterscheidende Schwelle” überschritten hat.

Die Wahrheit ist, dass Deepfakes die Erkennung überholen. Was Technologie-Unternehmen verkaufen als lustige Tools, um alles von olympischen Turnübungen bis hin zu komplexen Hintergrund-Klanglandschaften zu generieren, wurde auch von Kriminellen genutzt, um Unternehmen und Einzelpersonen gleichermaßen anzugreifen. Schon im ersten Halbjahr 2025 verursachten Deepfake-Vorfälle Verluste von 356 Millionen USD für Unternehmen und 541 Millionen USD für Einzelpersonen.

Traditionelle Deepfake-Erkennung – einschließlich der Identifizierung von Wasserzeichen, airbrushed Gesichtern und Metadaten-Checks – funktioniert nicht. Und da Stimmen-Deepfakes die zweithäufigste Form von AI-gestütztem Betrug und Stimmen-Phishing (Vishing) ums 442 % im Jahr 2025 anstiegen, sind die Folgen bereits spürbar.

“Einige Sekunden Audio genügen, um einen überzeugenden Klon zu erzeugen – komplett mit natürlicher Intonation, Rhythmus, Betonung, Emotion, Pausen und Atemgeräuschen”, schrieb Lyu.

Die Wissenschaft des Zuhörens bei Menschen

Kintsugi, ein Healthtech-Startup, das AI-Stimmen-Biomarker-Technologie entwickelt, um Anzeichen von klinischer Depression und Angstzuständen zu erkennen. Ihre Arbeit begann mit einer scheinbar einfachen Prämisse: Wir müssen Menschen zuhören.

“Ich habe Kintsugi gegründet, weil ich ein Problem selbst erlebt habe. Ich habe fast fünf Monate gebraucht, um nur einen Anfangstermin bei meinem Arzt zu vereinbaren, und niemand hat je zurückgerufen. Ich habe weiter probiert – aber ich erinnere mich genau daran, dass ich dachte, wenn das mein Vater oder mein Bruder wäre, hätten sie viel früher aufgehört, als ich es getan habe”, sagte CEO Grace Chang im Gespräch mit Unite.AI.

Das in Kalifornien ansässige Unternehmen wurde 2019 als Lösung für das von Chang beschriebene “Triage-Engpass”-Problem gegründet. Der Gründer glaubte, dass die Erkennung von Schweregraden früher und passiv helfen könnte, Menschen schneller zur richtigen Versorgungsebene zu bringen. Und durch Kintsugi Voice identifizieren Stimmen-Biomarker klinische Depression und Angstzustände.

Es gibt viele Forschungsergebnisse, die den erfolgreichen Einsatz von AI-gesteuerter Sprach- und Stimmenanalyse als Biomarker für psychische Gesundheitszustände belegen. Ein Beispiel ist eine Studie vom Mai 2025, die herausfand, dass akustische Biomarker frühe Anzeichen von psychischer Gesundheit und neurodiversem Verhalten erkennen können und argumentierte für die Integration von Singanalysen in klinischen Umgebungen, um den potenziellen kognitiven Rückgang von Patienten zu bewerten.

Stimmen-Maße haben tatsächlich eine Genauigkeitsrate von 78 % bis 96 % bei der Identifizierung von Menschen mit Depressionen im Vergleich zu denen ohne, laut der American Psychiatric Association. Eine weitere Studie verwendete einen einminütigen verbalen Fluenztest, bei dem eine Person so viele Wörter wie möglich innerhalb einer bestimmten Kategorie nannte – und fand eine Genauigkeit von 70 % bis 83 % bei der Erkennung, ob ein Subjekt Depressionen und Angstzustände hatte.

Um die psychische Gesundheit ihrer Nutzer zu bewerten, bittet Kintsugi um ein kurzes Sprachclip, nach dem ihre Stimmen-Biomarker-Technologie die Tonhöhe, Intonation, Ton und Pausen analysiert – Marker, die gefunden wurden, um mit Zuständen wie Depression, Angstzuständen, bipolarer Störung und Demenz in Verbindung zu stehen.

Was Chang jedoch nicht ursprünglich erkannte, war, dass die Technologie eines der dringendsten aktuellen Herausforderungen der Sicherheitsbranche gelöst hatte: die Identifizierung dessen, was menschliche Stimmen menschlich macht.

Von der psychischen Gesundheitsversorgung zur Cybersicherheit

Während sie an einem Gipfeltreffen in New York im späten Jahr 2025 teilnahm, erwähnte Chang gegenüber einem Freund aus dem Cybersicherheitsbereich, dass ihr Team mit synthetischen Stimmen experimentiert hatte, was jedoch enttäuschend war.

“Wir haben synthetische Daten erforscht, um unsere mentalen Gesundheitsmodelle zu trainieren, aber die generierten Stimmen waren so unterschiedlich von authentischer menschlicher Sprache, dass wir fast 100 % der Zeit erkennen konnten”, sagte sie.

“Er hielt mich an und sagte: ‘Grace – das ist in der Sicherheit kein gelöstes Problem.’ Das war der Moment, in dem alles klickte. Seitdem haben Gespräche mit Sicherheits-, Finanzdienstleistungs- und Telekommunikationsunternehmen bestätigt, wie schnell Deepfake-Stimmen-Angriffe zunehmen – und wie real der Bedarf ist, menschliche von synthetischen Stimmen in Live-Anrufen zu unterscheiden”, fügte der CEO hinzu.

Im April des letzten Jahres warnte das FBI vor einer bösartigen Text- und Sprachnachrichten-Kampagne, die sich als Kommunikation von hochrangigen US-Beamten ausgab und ehemalige Regierungsmitarbeiter und ihre Kontakte angriff. Große nationale Banken in den USA wurden auch mit durchschnittlich 5,5 täglichen Versuchen von Stimmen-Manipulations-Betrug angegriffen, und das Personal im Vanderbilt University Medical Center meldete Vishing-Angriffe von Betrügern, die sich als Freunde, Vorgesetzte und Kollegen ausgaben.

Unabhängig davon, ob Deepfakes ursprünglich in Kintsugis Arbeit einbezogen waren oder nicht, hatte das Unternehmen mit off-the-shelf-Modellen wie Cartesia, Sesame und ElevenLabs experimentiert, um synthetische Stimmen für administrative Callcenter-Agenten und Outbound-Workflows zu generieren, Deepfake-Betrug war jedoch nicht ihr Fokus in einem überfüllten und zugänglichen Markt mit Modellen wie Sora.

Menschliche Signale, die die Authentizität von Stimmen anzeigen, sind jedoch dieselben Biomarker, die jemanden zum Menschen machen. Unabhängig von Sprache oder Semantik funktioniert Kintsugi Voice mit Signalverarbeitung und der physischen Latenz der Sprache, erfassend subtile Timing, prosodische Variabilität, kognitive Belastung und physiologische Marker, die widerspiegeln, wie Sprache produziert wird… und nicht, was gesagt wird.

“Synthetische Stimmen können fließend klingen, aber sie tragen nicht dieselben biologischen und kognitiven Artefakte”, sagte Chang. Das Modell des Unternehmens ist konsistent ein Top-Performer in der Erkennungsgenauigkeit und verwendet nur 3 bis 5 Sekunden Audio.

Kintsugi kann revolutionär für diejenigen sein, die mit psychischen Gesundheitsproblemen kämpfen, insbesondere in Gebieten, in denen die Behandlung mit Fachleuten Zeit und Ressourcen erfordert. Gleichzeitig stellt die Technologie des Unternehmens eine Revolution für die Deepfake-Erkennung und die Cybersicherheit im Allgemeinen dar: Authentifizierung anstelle von Deepfake-Erkennung.

Die Zukunft liegt in humanzentrierter Technologie

Die Cybersicherheit hat sich lange auf den bösartigen Einsatz von Technologien oder die Täter selbst konzentriert. Kintsugis zufällige Entdeckung setzt jedoch auf die Menschlichkeit selbst.

“Wir operieren auf einer völlig anderen Oberfläche: menschliche Authentizität selbst. LLMs können nicht zuverlässig LLM-generierten Inhalt erkennen, und artefaktbasierte Methoden sind zerbrechlich. Die Erfassung großer, klinisch beschrifteter Datensätze, die reale menschliche Variabilität kodieren, ist teuer, langsam und außerhalb der Kernkompetenz der meisten Sicherheitsunternehmen – was diesen Ansatz schwierig zu replizieren macht”, stellte Chang fest.

Der Ansatz des Startups legt auch einen umfassenderen Wandel nahe: Innovationsübertragung zwischen Branchen. Die Pioniere im Gesundheitswesen könnten möglicherweise die Führung bei der AI-gestützten Vishing-Erkennung übernehmen, genauso wie Innovatoren in der Raumfahrttechnologie möglicherweise neue Notfallreaktionsmechanismen unterstützen oder Gamer-Architektur und Stadtplanung.

Chang plant, einen Standard für die Verifizierung echter Menschen und letztendlich echter Absichten durch Sprachinteraktionen zu werden.

“Genau wie HTTPS zu einer Standard-Vertrauensebene für das Web wurde, glauben wir, dass ‘Beweis des Menschen’ zu einer grundlegenden Ebene für sprachbasierte Systeme wird. Signal ist der Anfang dieser Infrastruktur”, sagte sie.

Da die generative KI weiter beschleunigt, könnten die effektivsten Schutzmaßnahmen von dem Verständnis kommen, was Menschen… nun, menschlich macht.

Salomé ist eine in Medellín geborene Journalistin und Senior-Reporterin bei Espacio Media Incubator. Mit einem Hintergrund in Geschichte und Politik betont Salomés Arbeit die gesellschaftliche Relevanz von aufkommenden Technologien. Sie wurde in Al Jazeera, Latin America Reports und The Sociable unter anderen vorgestellt.