Andersons Blickwinkel
Mit ‘Wahrscheinlichkeit’ als Deepfake-Erkennungsmetrik

Wenn künstlich generierte Videos und Audiodateien gut genug werden, werden Deepfake-Erkennungsmethoden, die auf visuellen Artefakten oder anderen herkömmlichen Signalen basieren, nicht mehr funktionieren. Aber angesichts der Tatsache, dass Menschen nur selten von ihrem vorhersehbaren Verhalten abweichen, könnte perhaps ‘Wahrscheinlichkeit’ tiefer als Signal dafür verwendet werden, ob ein Video oder ein Gerücht wahrscheinlich wahr ist.
Meinung In den frühen 1990er Jahren enthüllte der ehemalige britische Fußballspieler und Fernsehsportkommentator David Icke beiläufig in einer Talkshow, dass er ‘der Sohn Gottes’ sei – eine bizarre und unerwartete Enthüllung, die sich im Laufe der folgenden Jahrzehnte zu einer anhaltenden und elaborierte Verschwörungstheorie über eine geheime und mächtige globale Kabale von ‘Echsenmenschen’.
Mit der Internetadoption noch einige Jahre entfernt und dem Aufkommen sozialer Medien noch weiter in der Zukunft, hatte die enorme Dissonanz zwischen Ickes Berühmtheit und der Natur seiner neuen Erkenntnisse einen tiefgreifenden Einfluss auf die britische Öffentlichkeit – nicht zuletzt wegen des völligen Fehlens von Kontext oder irgendeiner Art von Vorbereitung auf diese massive Wende, von einer bekannten und etablierten Sportpersönlichkeit.
Mehr als zwanzig Jahre später trat ein ähnlicher und viel dunklerer Strang dieses gesellschaftlichen Schocks auf, als der beliebte Wohltätigkeitskampagner und Kinderfernsehmoderator Jimmy Savile posthum als serieller und räuberischer Lebenslanger Sexualstraftäter entlarvt wurde, der sein wohlwollendes öffentliches Image genutzt hatte, um seine Verbrechen zu erleichtern.
Die anschließende Operation Yewtree-Polizeiuntersuchung würde viele weitere britische Berühmtheiten mit langen Vorgeschichten von Sexualdelikten aufdecken; später würde die Verfolgung von Harvey Weinstein zu einer ähnlichen Entdeckung von Berühmtheiten mit Sexualdelikten in den USA führen, die sich zur #metoo-Bewegung entwickelte und sich dauerhaft in der amerikanischen Kultur verfestigte, in Veranstaltungen wie The Morning Show. ‘Schock’-Nachrichten schienen ein neues und abruptes Template zu entwickeln – eines, das schließlich von Deepfake-Angreifern übernommen werden würde.
Das Ende der ‘traditionellen’ Deepfake-Erkennung?
Selbst wenn soziale Medien und künstliche Intelligenz in den frühen Neunzigerjahren vorhanden gewesen wären, hätte kein Vorhersagesystem auf der Welt Ickes Chatshow-Enthüllungen vorhersehen können, die (wie ich mich gut erinnere) in den Jahren vor dem Ereignis in keiner Weise vorhergesagt wurden.
Aber wenn künstliche Intelligenz vorhanden gewesen wäre, hätte es möglicherweise einige Zeit gedauert, um eine breitere Öffentlichkeit davon zu überzeugen, dass Ickes Erklärungen nicht das Produkt von Google Veo 3 oder einem anderen der neuen Generation von hyperrealen Audio/Video-Deepfake-Frameworks waren.
Es ist erst in den letzten 6-12 Monaten, dass künstliche Intelligenz-Deepfake-Methoden effektiv genug geworden sind, um Jahre der Medien-Doomsday-Prophezeiungen über Deepfake-Wahlbeeinflussung zu erfüllen und in der Lage sind, die Art von Schnellangriff-Reputationsflecken zu generieren, die falsch, aber schwer zu tilgen sind in einer zunehmend gläubigen Kultur.
Bisher fällt die künstliche Intelligenz-Videoausgabe typischerweise kurz vor der wahren Realität, begrenzt durch technische Hürden und zunehmend polarisiert durch eine sich verbreiternde Lücke zwischen restriktiven westlichen Modellen und Chinas unzensierten Open-Source-Veröffentlichungen**.
Trotzdem bemerke ich in der Forschungsliteratur eine drohende Konzession dieses Kalten Krieges, zum Beispiel in dem neuen Paper Leistungsabfall bei der Deepfake-Erkennung†:
‘[Wir] nehmen an, dass Deepfake-Videos weiterhin maschinell erlernbare Merkmale enthalten, die sie zuverlässig von echten Videos unterscheiden. Wenn die Fähigkeiten der generativen künstlichen Intelligenz weiterhin schnell voranschreiten, kann diese Annahme möglicherweise zusammenbrechen.
‘In einem solchen Szenario bieten Wasserzeichen und andere Provenienz-Verfolgungsmethoden den einzigen Ausweg, um das Vertrauen in digitale Medien aufrechtzuerhalten.’
Jedoch räumt das gleiche Papier ein, dass Provenienz-basierte Lösungen wie die von Adobe angeführte Content Authenticity Initiative (und die vielen kleineren Forschungs Angebote der letzten 7-8 Jahre) eine so weit verbreitete Adoption erfordern, dass sie unrealistisch sind; und das Papier endet mit einer allgemeinen Note der Rückzug, wenn nicht der Niederlage.
Wenn Audio-Visuelle Deepfake-Erkennungsmethoden von generativer künstlicher Intelligenz überholt werden und die globale Adoption eines aufdringlichen Wasserzeichens oder Provenienz-Schemas an den diversen logistischen Hürden scheitert, was könnte als gemeinsames zentrales Merkmal die Erkennung von potenziell gefälschten Ausgaben ersetzen? Oder müssen wir uns mit einer Welt abfinden, in der alle Medien in Frage gestellt werden und der Lügnerdividende herrscht?
Wissensgraphen
Es scheint Zeit, Wahrscheinlichkeit und Plausibilität von ‘gemeldeten Ereignissen’ als Signalmerkmal in der Deepfake-Erkennung tiefer zu nutzen. Weiterhin kann es auch Zeit sein, die getrennten Forschungsstränge von ‘fake news’ (als textbasiertes Erzählereignis) und gefälschten Bildern/Videos zu konvergieren.
Ein Wahrscheinlichkeits-Deepfake-Metrik ist nicht dasselbe wie RAG-unterstützte Faktüberprüfung, bei der ein künstliches Intelligenz-Modell aktuelle Web-Ergebnisse abrufen kann, um Kenntnisse von Ereignissen zu erlangen, die nach seinem eigenen Stichtag auftreten, und/oder um seine Behauptungen zu bestätigen.
Vielmehr würde es Vorhersagen auf der Grundlage allgemein indikativer statistischer Trends durchführen, die aus historischen Mustern abgeleitet sind, die einer aktuellen Anfrage entsprechen.
In diesem Sinne ist eine Wahrscheinlichkeitsmethode näher an statistischer Analyse als an modernen Ansätzen in der aktuellen maschinellen Lernszene.
Obwohl sie zuvor von moderneren Transformers-Ära-Ansätzen verdrängt wurden, machen Wissensgraphen etwas von einer Rückkehr im Unternehmensbereich und scheinen für die potenzielle Bereitstellung von ‘Wahrscheinlichkeits’-Metriken in der Deepfake-Erkennung geeignet.

Ein vereinfachter Wissensgraph, der zeigt, wie Menschen, Orte, Kunstwerke und Ereignisse durch beschriftete Beziehungen miteinander verknüpft werden können, sodass Maschinen über realweltliche Entitäten und ihre Verbindungen nachdenken können. Quelle
Ein Wissensgraph ist eine Möglichkeit, Informationen zu organisieren, indem reale Dinge wie Menschen, Unternehmen, Ereignisse oder Ideen in ein Netzwerk von verbundenen Fakten kartiert werden.
Jedes Sub-Element ist ein Knoten, und die Verbindungen zwischen ihnen (Kanten) beschreiben, wie sie miteinander in Beziehung stehen. Zum Beispiel könnte ‘Microsoft’ (ein Knoten) mit ‘OpenAI’ (ein weiterer Knoten) durch eine Kante verknüpft werden, die sagt ‘ist ein Kunde von’. Diese Verbindungen werden oft in Graphendatenbanken gespeichert und folgen einer Subjekt-Prädikat-Objekt-Struktur, wie ‘Microsoft ist ein Kunde von OpenAI’.
Persistentes Gedächtnis
Eine chinesische Studie vom September dieses Jahres schlug eine trainingsfreie Methode vor, die graphbasiertes Denken verwendet, um subtile Inkonsistenzen in multimodalen Deepfakes zu erkennen.
Anstatt Rationales zu generieren oder große Modelle fein zu justieren, ruft das System Bild-Text-Paare ab, baut einen Ähnlichkeitsgraphen auf und bewertet Verbindungen, um die relevantesten Beispiele abzurufen, und diese leiten das Urteil des Modells ohne die Notwendigkeit von neuem Training:

Überblick über den GASP-ICL-Rahmen, der die Deepfake-Erkennung durch Kombination von graphbasierter Stichprobenauswahl mit Kontextlernens verbessert, sodass ein eingefrorenes visuell-sprachliches Modell Bild/Text-Paare als echt oder gefälscht klassifizieren kann, ohne Training oder Feinjustierung. Quelle
Dies ist wahrscheinlich der nächste Ansatz, zumindest der mir bekannt ist, zu einem ‘informierten’ und historisch bewussten Ansatz für die Bewertung und Verifizierung neuer Medieninhalte. Für den größten Teil analysieren Computer-Vision-Ansätze Bilder (einschließlich Videoframes und zeitliche Anomalien, die mehrere Frames umfassen), während ‘fake news’-Erkennungsframeworks weiterhin textbasierte Daten betonen, auch in multimodalen Projekten.
Feature Creep
Die Herausforderung eines prädiktiven Systems dieser Art ist der Umfang der Überwachung, die notwendig sein könnte, um den Ansatz vollständig leistungsfähig zu machen – zumindest jenseits der Analyse von Berühmtheiten und öffentlichen Figuren, für die bereits frei zugängliche Daten existieren.
Wahrscheinlich ist der ähnlichste aktuelle Ansatz in der Forschung das Feld der Vorverbrechensbekämpfung, das diverse multimodale Intelligenzsignale als ‘verdächtig’ kennzeichnet und sich als künstliche Intelligenz-Schutzschild in Veranstaltungen wie Jonathan Nolans Person of Interest (2011-2016) und Steven Spielbergs Minderheit berichten (2002) präsentiert.
Während ein Person of Interest-ähnliches allumfassendes Überwachungssystem optimale Ergebnisse liefern würde, ist es unwahrscheinlich, dass die westliche Kultur derzeit den Grad der persönlichen Aufdringlichkeit sanktionieren könnte, den Chinas interne Netzwerke ihren Bürgern auferlegen.
Wahrscheinlichkeitsbewertung
Es scheint wahrscheinlich, dass die potenzielle Effektivität eines Systems dieser Art auf die offensichtlichsten (aktuell) Verwendungszwecke für Deepfake-Inhalte beschränkt wäre: Destabilisierung (staatlich unterstützte Deepfakes); Deepfakes von Berühmtheiten und ‘Unbekannten’ (die beide als bösartig angesehen werden können, obwohl der letztere Fall tendenziell mehr Medienbesorgnis auslöst); Betrug (einschließlich Audio/Video-Deepfakes, die dazu bestimmt sind, ‘Impersonationsraubüberfälle’ durchzuführen); und politische Charakterermordung.
Ein wissensbasiertes System benötigt eine Skala von Wahrscheinlichkeiten für eine Vielzahl von möglichen Ereignissen. An einem Ende des Spektrums befinden sich allgemeine menschliche Schwächen wie fragwürdige Finanzverwaltung, Untreue, Sucht, Indiskretion usw.; am anderen Ende… die Enthüllung, dass man der Sohn Gottes ist, in einer Live-TV-Chatshow (oder Ereignisse von ähnlichem Umfang und Auswirkung).
Selbst in diesem letzteren Fall würden persönliche historische Faktoren für eine einzelne Person das Wahrscheinlichkeitsergebnis gewichten: Eine prominenten politische Figur, die öffentlich in kontroversen Angelegenheiten schwankte (wie der Wahrhaftigkeit der Mondlandungen der 1960er/70er Jahre), um Kapital bei einem zunehmend ‘alternativ’ informierten Wählerschaft zu gewinnen, könnte zusätzlichen Joker-Status in Verifizierungsroutinen erhalten, im Vergleich zu ihren zurückhaltenderen Kollegen.
Im Falle von Deepfakes von Berühmtheiten gibt es genügend realweltlichen Kontext (d. h. die 2012-Celebrity-Foto-Leaks und andere – relativ seltene – Vorfälle), um einen moderaten Lügnerdividenden in bestimmten Kontexten zu generieren; aber da diese Ausreißer-Vorfälle tendenziell als Ausnahmen dienen, die die Regel beweisen, würden die meisten der aktuellen Deepfake-Videos von Berühmtheiten als extrem ‘unwahrscheinlich’ angesehen (obwohl dies das Problem der Aneignung von Identitäten für solche Zwecke nicht löst).
Schlussfolgerung
Selbst ein gut implementiertes prädiktives System dieser Art könnte nicht für Zufall, höhere Gewalt, unvorhersehbare Ereignisse oder bösartige Ereignisse, die außerhalb jeder Aufsicht konzipiert wurden, Rechnung tragen.
Weiterhin wäre das enorme Volumen und die Tiefe der Daten, die erforderlich wären, um auch für nicht berühmte Menschen Abdeckung zu bieten, ein politischer Stolperstein – zumindest für den Moment.
Jedoch scheinen die Wahlmöglichkeiten sich zu verringern; die visuelle Analyse ist darauf vorbereitet, angesichts verbesserter generativer künstlicher Intelligenz zu scheitern, während Verifizierungs- und Provenienz-Schemata eine behindernde Last an technischer Schulden und Reibung bei der Adoption mit sich tragen. Dies macht Lösungen wie die Content Authenticity Initiative und das unerfüllte Metaphysic.ai-Gesichts-Urheberrechtssystem Metaphysic Pro herausfordernd zu popularisieren.
In ihrer breitesten Verwendung können RAG-basierte Systeme nur bestimmen, ob eine Autoritätsquelle eine unbefestigte Behauptung unterstützt; und da viele große (wahre) Nachrichtengeschichten ohne vorherigen Kontext auftauchen, ist das Fehlen einer Bestätigung durch Autoritätsquellen nicht unbedingt bedeutungsvoll.
Ihr Wert kann sich als größer erweisen, wenn sie Teil eines größeren Datenökosystems sind, das sich mit dem beschäftigt, was die meisten aktuellen Formen der künstlichen Intelligenz herausfordert – historischen Kontext.
* Nicht zu verwechseln mit den frühen Autoencoder-Veröffentlichungen, die 2017 debütierten und schließlich von überlegenen Ansätzen abgelöst werden würden.
† https://arxiv.org/abs/2511.07009
** Die normalerweise auf leistungsstärkeren Heim-PCs laufen können, anstatt nur über gate-gehaltene APIs wie ChatGPT und die Veo-Serie verfügbar zu sein.
††† Ausgenommen legitime Unterhaltungszwecke, wie professionelle visuelle Effekte in Film- und Fernsehproduktionen.
Erstveröffentlichung am Donnerstag, 13. November 2025








