Vernetzen Sie sich mit uns

Andersons Blickwinkel

Verwendung von „Wahrscheinlichkeit“ als Metrik zur Erkennung von Deepfakes

mm
Montage vor einem KI-generierten (GPT-1) Bild des im Jahr 79 n. Chr. ausbrechenden Vesuvs, mit Donald Trump aus der South Park Staffel 27 Folge 1, David Icke in der Sendung „Wogan“ im Jahr 1991 und der Politikerin Catherine Connolly.

Wenn KI-generierte Videos und Audiodateien ausreichend gut werden, funktionieren Deepfake-Detektoren, die auf visuellen Artefakten oder anderen traditionellen Signalen basieren, nicht mehr. Da Menschen aber nur selten von vorhersehbarem Verhalten abweichen, könnte die Wahrscheinlichkeit als Indikator dafür, ob ein Video oder ein Gerücht wahrscheinlich wahr ist, eine größere Rolle spielen.

 

Meinung Anfang der 1990er Jahre war der angesehene ehemalige britische Fußballspieler und Fernseh-Sportkommentator David Icke beiläufig enthüllt in einer Talkshow behauptete er, „der Sohn Gottes“ zu sein – eine bizarre und unerwartete Offenbarung, die sich in den folgenden Jahrzehnten zu einem hartnäckigen und ausgefeilte Verschwörungstheorie über eine geheime und mächtige globale Kabale von „Echsenmenschen“.

Da die Verbreitung des Internets noch einige Jahre entfernt war und das Aufkommen sozialer Medien noch in ferner Zukunft lag, hatte die schiere Diskrepanz zwischen Ickes Prominenz und der Art seiner neuen Erkenntnisse einen tiefgreifenden Einfluss auf die britische Öffentlichkeit – nicht zuletzt wegen des völligen Fehlens von Kontext oder jeglicher Vorbereitung auf diesen massiven Kurswechsel einer bekannten und etablierten Sportpersönlichkeit.

Mehr als zwanzig Jahre später ereignete sich eine ähnliche und weitaus düsterere Variante dieses gesellschaftlichen Schocks, als der beliebte Wohltätigkeitsaktivist und Kinderfernsehmoderator Jimmy Savile posthum als ein Serienmäßiger und räuberischer lebenslanger Sexualstraftäter der sein tadelloses öffentliches Image genutzt hatte, um seine Verbrechen zu begehen.

Das anschließende Operation Yewtree Die polizeilichen Ermittlungen brachten viele weitere britische Prominente mit einer langen Vorgeschichte von Sexualdelikten ans Licht; später führte die Anklage gegen Harvey Weinstein zu einer ähnlichen Aufdeckung von prominenten Sexualstraftätern in den USA, woraus die #MeToo-Bewegung entstand und die sich durch Enthüllungen wie diese dauerhaft in der amerikanischen Kultur verankerte. Der Morning Show. Die „Schocknachrichten“ schienen ein neues und abruptes Muster zu entwickeln – eines, das schließlich von Deepfake-Angreifern übernommen werden sollte.

Das Ende der „traditionellen“ Deepfake-Erkennung?

Selbst wenn es soziale Medien und künstliche Intelligenz schon Anfang der neunziger Jahre gegeben hätte, hätte kein Vorhersagesystem der Welt Ickes Enthüllungen in der Talkshow vorhersehen können, die (wie ich mich gut erinnere) in den Jahren vor dem Ereignis in keiner Weise angedeutet wurden.

Aber wenn es schon KI gegeben hätte, hätte es möglicherweise einige Zeit gedauert, ein breiteres Publikum davon zu überzeugen, dass Ickes Aussagen nicht das Produkt von … waren. Google Veo 3oder ein anderes der neuen Generationen von hyperrealistischen Audio-/Video-Deepfake-Frameworks.

Erst in den letzten 6-12 Monaten sind KI-gestützte Deepfake-Methoden effektiv genug geworden, um die Anforderungen zu erfüllen. jahrelange Untergangsprophezeiungen der Medien über Deepfake-Wahlbeeinflussung und fähig genug, die Art von Blitzartiger Reputationsschaden Das ist unwahr, aber in einer zunehmend leichtgläubigen Kultur schwer auszumerzen.

Bislang bleibt die Videoausgabe von KI in der Regel hinter dem tatsächlichen Realismus zurück, was durch folgende Faktoren begrenzt ist: technische Hürden und zunehmend polarisiert durch eine wachsende Kluft zwischen restriktiven westlichen Modellen und Chinas unzensierten Open-Source-Veröffentlichungen**.

Dennoch beobachte ich in der Forschungsliteratur zunehmend ein drohendes Eingeständnis dieses Kalten Krieges, beispielsweise in der neuen Studie. Leistungsabfall bei der Deepfake-Erkennung:

„Wir gehen davon aus, dass Deepfake-Videos weiterhin maschinell lernbare Merkmale enthalten werden, die sie zuverlässig von echten Videos unterscheiden. Da die Fähigkeiten generativer KI jedoch rasant fortschreiten, könnte diese Annahme durchaus zunichtegemacht werden.“

„In einem solchen Szenario bieten Wasserzeichen und andere Methoden zur Herkunftsverfolgung die einzige Möglichkeit, das Vertrauen in digitale Medien zu erhalten.“

Die gleiche Studie räumt jedoch ein, dass Herkunftsnachweis-basierte Lösungen wie die von Adobe angeführte Lösung … Initiative zur Authentizität von Inhalten (und die sehr vielen) kleinere Forschungsprojekte Inserate Die in den letzten 7-8 Jahren erfolgten Studien erfordern eine derart breite Akzeptanz, dass sie unrealistisch ist; und die Studie endet mit einer allgemeinen Feststellung des Rückzugs, wenn nicht gar der Niederlage.

Wenn audiovisuelle Deepfake-Erkennungsmethoden von generativer KI überholt werden und die weltweite Einführung eines aufdringlichen Wasserzeichen- oder Herkunftsnachweissystems an diversen logistischen Hürden scheitert, welches gemeinsame zentrale Merkmal könnte sie dann als Indikatoren für potenziell gefälschte Inhalte ersetzen? Oder müssen wir uns mit einer Welt abfinden, in der alle Medien in Frage gestellt werden und die Lügnerdividende setzt sich durch?

Wissensgraphen

Es scheint an der Zeit zu sein, die Hebelwirkung stärker zu nutzen. Wahrscheinlichkeit und Plausibilität Die Bedeutung von „gemeldeten Ereignissen“ als charakteristisches Signal bei der Deepfake-Erkennung ist groß. Da Video- und Audio-generative KI-Systeme zunehmend zusammenwachsen, ist es möglicherweise an der Zeit, auch die separaten Forschungsbereiche „Fake News“ (als textbasiertes narratives Ereignis) und gefälschte Bilder/Videos anzugleichen.

A Wahrscheinlichkeit Die Deepfake-Metrik ist nicht dasselbe wie RAG-unterstützt Faktenprüfung, wobei ein KI-Modell aktuelle Web-Ergebnisse einbeziehen kann, um Erkenntnisse über Ereignisse zu gewinnen, die nach seinem eigenen Ergebnis eintreten. Stichtagund/oder um seine Behauptungen zu untermauern.

Vielmehr würden Vorhersagen auf der Grundlage allgemeiner statistischer Trends getroffen, die aus historischen Mustern abgeleitet werden, welche mit der aktuellen Untersuchung übereinstimmen.

In diesem Sinne ist eine Wahrscheinlichkeitsmethode näher an der statistische Analyse als modernere Ansätze in der aktuellen Szene des maschinellen Lernens.

Obwohl sie zuvor von moderneren Ansätzen aus der Transformers-Ära in den Schatten gestellt wurden, Wissensgraphen machen so etwas wie ein Komm zurück im Unternehmensbereich und scheinen für den potenziellen Einsatz von Wahrscheinlichkeitsmetriken bei der Deepfake-Erkennung geeignet zu sein.

Ein vereinfachter Wissensgraph veranschaulicht, wie Personen, Orte, Kunstwerke und Ereignisse durch beschriftete Beziehungen verknüpft werden können, wodurch Maschinen reale Entitäten und deren Verbindungen analysieren können. Quelle: [https://blog.langchain.com/enhancing-rag-based-applications-accuracy-by-constructing-and-leveraging-knowledge-graphs/] 

Ein vereinfachter Wissensgraph, der veranschaulicht, wie Personen, Orte, Kunstwerke und Ereignisse durch beschriftete Beziehungen miteinander verknüpft werden können, wodurch Maschinen in die Lage versetzt werden, über reale Entitäten und ihre Verbindungen zu argumentieren. Quelle

Ein Wissensgraph ist eine Methode zur Organisation von Informationen, indem reale Dinge wie Personen, Unternehmen, Ereignisse oder Ideen in einem Netzwerk miteinander verbundener Fakten abgebildet werden.

Jede Unterentität ist ein Knoten, und die Verbindungen zwischen ihnen (Kanten) beschreiben ihre Beziehung zueinander. Beispielsweise könnte „Microsoft“ (ein Knoten) mit „OpenAI“ (einem anderen Knoten) durch eine Kante verbunden sein, die besagt: „ist ein Kunde von“. Diese Verbindungen werden häufig in Graphdatenbanken gespeichert und folgen einer Subjekt-Prädikat-Objekt-Struktur, etwa „Microsoft ist ein Kunde von OpenAI“.

Permanenter Speicher

Eins chinesische Studie Im September dieses Jahres wurde eine trainingsfreie Methode vorgeschlagen, die graphenbasiertes Schließen nutzt, um subtile Inkonsistenzen in multimodalen Deepfakes zu erkennen.

Anstatt Begründungen zu generieren oder Feintuning Bei großen Modellen ruft das System Bild-Text-Paare ab, erstellt einen Ähnlichkeitsgraphen und bewertet Verbindungen, um die relevantesten Beispiele abzurufen. Diese dienen dann als Grundlage für die Beurteilung des Modells, ohne dass ein neues Training erforderlich ist.

Ein Überblick über das GASP-ICL-Framework, das die Deepfake-Erkennung durch die Kombination von graphenbasierter Stichprobenauswahl mit kontextbezogenem Lernen verbessert. Dadurch kann ein statisches Bild-Sprach-Modell Bild-/Textpaare ohne Training oder Feinabstimmung als echt oder gefälscht klassifizieren. Quelle: [https://www.arxiv.org/pdf/2509.21774]

Ein Überblick über das GASP-ICL-Framework, das die Deepfake-Erkennung durch die Kombination von graphenbasierter Stichprobenauswahl mit kontextbezogenem Lernen verbessert und es einem eingefrorenen Bild-Sprach-Modell ermöglicht, Bild-/Textpaare ohne Training oder Feinabstimmung als echt oder gefälscht zu klassifizieren.  Quelle

Dies ist wohl die Arbeit, die – zumindest in meinem Umfeld – einem fundierten und geschichtsbewussten Ansatz zur Bewertung und Verifizierung neuer Medieninhalte am nächsten kommt. Computer-Vision-Verfahren analysieren nach wie vor hauptsächlich … Bildern (einschließlich Videoframes und zeitliche Anomalien (die mehrere Frames umfassen), während Frameworks zur Erkennung von „Fake News“ weiterhin textbasierte Daten betonen, selbst in multimodalen Projekten.

Feature Creep

Die Herausforderung eines solchen Vorhersagesystems besteht im Umfang der Überwachung, die erforderlich sein kann, um den Ansatz voll funktionsfähig zu machen – zumindest über die Analyse von Prominenten und Persönlichkeiten des öffentlichen Lebens hinaus, für die bereits frei zugängliche Daten existieren.

Der wohl ähnlichste aktuelle Forschungsstrang ist das Gebiet der Vorverbrechen, das diverse multimodale Intelligenzsignale als „verdächtig“ einstuft und sich in Filmen wie Jonathan Nolans als standhafte KI-Vogelscheuche präsentiert Person of Interest (2011-2016) und Steven Spielbergs Minority Report (2002).

Während Person of InterestWenn ein allumfassendes Überwachungssystem nach diesem Muster optimale Ergebnisse liefern würde, ist es derzeit unwahrscheinlich, dass die westliche Kultur das Maß an persönlicher Eingriffsintensität, das Chinas interne Netzwerke ihren Bürgern auferlegen, billigen könnte.

Daher im Hinblick auf mögliche Falschmeldungen über liefert nicht-Im Gegensatz zu Prominenten verfügen nur staatliche Stellen wie die Polizei (sowie Geburts- und Sterberegister und Finanzämter) über genügend relevante historische Informationen, um Wahrscheinlichkeiten in einem graphenbasierten Workflow zu berechnen; und selbst diese benötigen den Willen, die Kapazität, die Gesetzgebung und die Ressourcen im Stil der UdSSR, um Durchschnittsbürger in ihre Berichterstattung und Analysen einzubeziehen (d. h. über banale, aber obligatorische Datenpunkte wie Passnummern und Kfz-Kennzeichen hinaus).

Wahrscheinlichkeitsbewertung

Es erscheint wahrscheinlich, dass die potenzielle Wirksamkeit eines solchen Systems auf die offensichtlichsten (aktuellen) Anwendungsfälle beschränkt bliebe.††† für Deepfake-Inhalte: Destabilisierung (staatlich unterstützte Deepfakes); Deepfakes von Prominenten und „unbekannten“ Darstellern (was beides als böswillig angesehen werden kann, wobei der letztere Fall tendenziell größeres Medieninteresse hervorruft); Betrug (Einschließlich Audio-/Video-Deepfakes entworfen, um durchzuführen 'Identitätsdiebstähle'); und politische Rufmordkampagne.

Ein wissensbasiertes System bräuchte eine Wahrscheinlichkeitsskala für eine Vielzahl möglicher Ereignisse. Am einen Ende des Spektrums stünden alltägliche menschliche Schwächen wie fragwürdige Finanzplanung, Untreue, Sucht, Indiskretion usw.; am anderen Ende … die Offenbarung, der Sohn Gottes zu sein, in einer Live-Fernseh-Talkshow (oder Ereignisse ähnlicher Tragweite und Bedeutung).

Selbst im letzteren Fall würden persönliche historische Faktoren die Wahrscheinlichkeit des Ergebnisses beeinflussen: eine prominente politische Figur, die sich in kontroversen Angelegenheiten (wie der Glaubwürdigkeit der Mondlandungen der 1960er/70er Jahre) öffentlich uneins geäußert hat, um Kapital aus einer zunehmend einflussreichen Bevölkerung zu gewinnen. „alternativ“ informiert Wählerschaft könnte zusätzlichen Platzhalter Status in Verifizierungsroutinen im Vergleich zu ihren eher konservativen Kollegen.

Im Falle von Prominentenpornos ist ein ausreichender realweltlicher Kontext vorhanden (d. h. die Promi-Foto-Leaks 2012(unter anderem – eher seltenen – Vorfällen), um in bestimmten Kontexten eine moderate Lügnerdividende zu erzielen; da diese Ausreißer jedoch eher Ausnahmen darstellen, die die Regel bestätigen, würde der Großteil der aktuellen, auf Verbreitung basierenden Promi-Pornovideos als äußerst unwahrscheinlich gelten (was jedoch das Problem der Aneignung der Identität von Personen für solche Zwecke nicht löst).

Im Hinblick auf nationale Erschütterungen existiert eine beträchtliche Fülle statistischer Daten, die bei der Einschätzung der Wahrscheinlichkeit von „katastrophalen“ Ereignissen hilfreich sein können. Schon in der Antike wurden scheinbar „aus heiterem Himmel“ eintretende Ereignisse wie der Ausbruch des unidentifizierten Vulkans Vesuv im Jahr 79 n. Chr. vorhergesagt. wenn du genug Aufmerksamkeit geschenkt hättest; und neben der Verfügbarkeit einer Vielzahl von staatlich und von NGOs unterstützten Datenfeeds, der sich entwickelnden Fähigkeit der KI, Struktur aus Rohdaten extrahieren kann zusätzlichen historischen Kontext für die Wahrscheinlichkeitsbewertung liefern.

Fazit

Selbst ein gut implementiertes Vorhersagesystem dieser Art könnte Zufall, höhere Gewalt, ungewöhnliche Ereignisse oder böswillige Vorkommnisse, die außerhalb jeglicher Aufsicht geplant werden, nicht berücksichtigen.

Darüber hinaus wäre der schiere Umfang und die Tiefe der benötigten Daten, um auch über nicht bekannte Personen zu berichten, ein politischer Stolperstein – zumindest vorerst.

Die Auswahlmöglichkeiten scheinen sich jedoch zu verringern; bildbasierte Analysen werden angesichts verbesserter generativer KI voraussichtlich scheitern, während Verifizierungs- und Herkunftsnachweisverfahren mit einer hohen technischen Verschuldung und Akzeptanzschwierigkeiten behaftet sind. Dies macht Lösungen wie die Content Authenticity Initiative und das noch nicht realisierte Urheberrechtssystem Metaphysic.ai für Gesichter relevant. Metaphysik Pro, schwer zu popularisieren.

Im weitesten Sinne können RAG-basierte Systeme lediglich feststellen, ob eine Autoritätsquelle eine nicht verifizierte Behauptung stützt; und da viele große (wahre) Nachrichten ohne vorherigen Kontext entstehen, ist ein Mangel an Belegen durch Autoritätsquellen nicht unbedingt aussagekräftig.

Ihr Wert könnte sich als größer erweisen, wenn sie Teil eines größeren Datenökosystems werden können, das sich mit dem einen Punkt befasst, der für die meisten aktuellen Formen der KI eine Herausforderung darstellt – dem historischen Kontext.

 

* Nicht zu verwechseln mit dem frühen Autoencoder Ansätze, die 2017 Premiere feierten und später von überlegenen Methoden abgelöst wurden.

https://arxiv.org/abs/2511.07009

** Diese können in der Regel auf leistungsstärkeren Heim-PCs frei ausgeführt werden, anstatt nur über geschützte APIs wie ChatGPT und die Veo-Serie verfügbar zu sein.

††† Legitime Nutzungszwecke im Unterhaltungsbereich, wie beispielsweise professionelle visuelle Effekte in Film- und Fernsehproduktionen, werden hier nicht berücksichtigt.

Erstveröffentlichung: Donnerstag, 13. November 2025

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai