Andersons Blickwinkel

KI kann heimlich Bilder nach Gerätemarke und nicht nach Inhalt bewerten

mm
A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

Neue Forschungsergebnisse zeigen, dass populäre bildzentrierte KI-Systeme nicht nur darauf achten, was in einem Foto ist, sondern auch darauf, wie das Foto aufgenommen wurde. Versteckte Details wie die Kameratype oder die Bildqualität können leise die Ergebnisse beeinflussen, was zu falschen Ergebnissen führt – nur weil das Foto von einem anderen Gerät stammt.

 

Im Jahr 2012 wurde aufgedeckt, dass eine Reise-Website routinemäßig höhere Preise für Benutzer anzeigte, die sie als Apple-Geräte-Besitzer identifizieren konnte, und die Apple-Marke mit höherer Kaufkraft gleichsetzte. Spätere Untersuchungen kamen zu dem Schluss, dass diese geräteorientierte “Wallet-Sniffing” fast zur Routine für E-Commerce-Seiten geworden war.

Ähnlich kann die Smartphonemarke oder die Kamera, mit der ein bestimmtes Foto aufgenommen wurde, durch forensische Mittel ermittelt werden, basierend auf den bekannten Eigenschaften einer begrenzten Anzahl von Linsen in den Modellen. In solchen Fällen wird das Modell der Kamera in der Regel durch visuelle Spuren geschätzt; und, wie im Jahr 2012, ist die Kenntnis der Kameratype, die ein Bild aufgenommen hat, ein potenziell ausbeutbares Merkmal

Obwohl Kameras tendenziell erhebliche Metadaten in ein Bild einbetten, kann diese Funktion oft von Benutzern deaktiviert werden; selbst wenn sie aktiviert ist, können Verteilungsplattformen wie soziale Medien einige oder alle Metadaten aus Gründen der Logistik oder des Datenschutzes entfernen.

Trotzdem werden Metadaten in Benutzer-Upload-Bildern häufig entweder neu geschrieben oder interpretiert (anstatt gelöscht) oder bleiben intakt, als sekundäre Informationsquelle nicht über den Inhalt des Bildes, sondern über die Art und Weise, wie das Bild aufgenommen wurde. Wie der Fall von 2012 zeigte, kann diese Art von Informationen nicht nur für kommerzielle Plattformen, sondern auch potenziell für Hacker und böswillige Akteure wertvoll sein.

Zwei Perspektiven

Eine neue Forschungskooperation zwischen Japan und der Tschechischen Republik hat festgestellt, dass die Spuren, die von Kamerahardware und Bildverarbeitung (wie JPEG-Qualität oder Linsenschärfung) hinterlassen werden, nicht nur durch forensische Werkzeuge erkennbar sind, sondern auch stillschweigend in der ‘globalen Verständnis’ der führenden KI-Bildmodelle kodiert sind.

Dies umfasst CLIP und andere groß angelegte visuelle Encoder, die in allem von Suchmaschinen bis hin zu Inhaltsmoderation weit verbreitet sind. Die neue Arbeit zeigt, dass diese Modelle nicht nur interpretieren, was in einem Foto ist, sondern auch lernen, wie das Foto gemacht wurde; und diese versteckte Signal kann manchmal die sichtbare Inhalte überlagern.

Beispielbildpaare aus dem PairCams-Datensatz der Autoren, erstellt, um zu testen, wie die Kameratype die KI-Bildmodelle beeinflusst. Jedes Paar zeigt das gleiche Objekt oder die gleiche Szene, die zum gleichen Zeitpunkt mit einer Nicht-Smartphone-Kamera (links) und einer Smartphone-Kamera (rechts) aufgenommen wurde.

Beispielbildpaare aus dem PairCams-Datensatz der Autoren, erstellt, um zu testen, wie die Kameratype die KI-Bildmodelle beeinflusst. Jedes Paar zeigt das gleiche Objekt oder die gleiche Szene, die zum gleichen Zeitpunkt mit einer Nicht-Smartphone-Kamera (links) und einer Smartphone-Kamera (rechts) aufgenommen wurde.

Die Studie behauptet, dass selbst wenn KI-Modelle stark maskierte oder beschnittene Versionen eines Bildes erhalten, sie dennoch mit überraschender Genauigkeit die Marke und das Modell der Kamera erraten können. Dies bedeutet, dass der Repräsentationsraum, den diese Systeme verwenden, um Bildähnlichkeit zu beurteilen, mit irrelevanten Faktoren wie dem Benutzergerät verflochten werden kann, mit unvorhersehbaren Konsequenzen.

Beispielsweise kann in nachgelagerten Aufgaben wie Klassifizierung oder Bildabruf diese unerwünschte “Gewichtung” dazu führen, dass das System bestimmte Kameratypen bevorzugt, unabhängig von dem, was das Bild tatsächlich zeigt.

Das Papier besagt:

‘Metadaten-Labels, die in visuellen Encodern Spuren hinterlassen, können semantische Informationen überlagern und zu unvorhersehbaren Ergebnissen führen, die die Allgemeingültigkeit, Robustheit und potenziell die Vertrauenswürdigkeit der Modelle beeinträchtigen können.

‘Noch kritischer ist, dass dieser Effekt böswillig ausgenutzt werden könnte; beispielsweise könnte ein adversarischer Angriff Metadaten manipulieren, um ein Modell absichtlich zu täuschen oder zu behindern, was Risiken in sensiblen Bereichen wie Gesundheitswesen, Überwachung oder autonomen Systemen birgt.’

Die Forschung findet heraus, dass Contrastive Visual-Language (CVL)-Systeme wie CLIP, die jetzt zu den einflussreichsten Encodern in der Computer-Vision gehören, besonders anfällig für solche Rückschlüsse aus den Daten sind:

Suchergebnisse für ein Abfragebild, die zeigen, wie Grundmodell die ähnlichen Bilder nicht nur nach visuellem Inhalt, sondern auch nach versteckten Metadaten wie JPEG-Komprimierung oder Kameramodell bewertet. Die Abbildung spiegelt die Behauptung der Autoren wider, dass sowohl semantische als auch Metadaten-Labels den Repräsentationsraum des Modells formen und manchmal die Abrufergebnisse ändern.

Suchergebnisse für ein Abfragebild, die zeigen, wie Grundmodell die ähnlichen Bilder nicht nur nach visuellem Inhalt, sondern auch nach versteckten Metadaten wie JPEG-Komprimierung oder Kameramodell bewertet. Die Abbildung spiegelt die Behauptung der Autoren wider, dass sowohl semantische als auch Metadaten-Labels den Repräsentationsraum des Modells formen und manchmal die Abrufergebnisse ändern.

Die neue Forschung ist betitelt Verarbeitungs- und Aufnahmespuren in visuellen Encodern: Was weiß CLIP über Ihre Kamera? und stammt von sechs Forschern an der Universität Osaka und der Tschechischen Technischen Universität in Prag.

Methode und Daten*

Um den Einfluss versteckter Metadaten auf visuelle Encoder wie CLIP zu testen, arbeiteten die Autoren mit zwei Kategorien von Metadaten: Bildverarbeitungsparametern (wie JPEG-Komprimierung oder Schärfung) und Aufnahmeparametern (wie Kameramodell oder Belichtungseinstellungen).

Statt neue Modelle zu trainieren, bewerteten die Forscher 47 weit verbreitete visuelle Encoder in ihrem eingefrorenen, vorgebildeten Zustand, einschließlich kontrastiver Vision-Sprach-Modelle wie CLIP, selbstüberwachter Modelle wie DINO und konventionell überwachte Netze.

Für die Verarbeitungsparameter wendeten die Forscher kontrollierte Transformationen auf die ImageNet– und iNaturalist-2018-Datensätze an, einschließlich sechs JPEG-Komprimierungsstufen, drei Schärfungseinstellungen, drei Größenskalen und vier Interpolationsmethoden.

Beispiele von Bildern und zugehörigen Annotationen aus dem iNaturalist-Datensatz. Quelle: https://arxiv.org/pdf/1707.06642

Beispiele von Bildern und zugehörigen Annotationen aus dem iNaturalist-Datensatz. Quelle: https://arxiv.org/pdf/1707.06642

Die Modelle wurden getestet, um zu sehen, ob sie jedes Transformationssetting mithilfe nur des Bildinhalts wiederherstellen können, wobei erfolgreiche Vorhersagen darauf hindeuten, dass die Encoder Informationen über diese Verarbeitungswahl in ihrer internen Darstellung aufbewahren.

Um die Aufnahmeparameter zu untersuchen, erstellten die Forscher einen 356.459-Bild-Datensatz namens FlickrExif, der erhaltene Exif-Metadaten enthält, und erstellten einen zweiten Datensatz namens PairCams, der aus 730 Bildpaaren besteht, die gleichzeitig mit einer Smartphone- und einer Nicht-Smartphone-Kamera aufgenommen wurden.

Der FlickrExif-Datensatz wurde mithilfe der Flickr-API erstellt, um Bilder mit begleitenden Exif-Metadaten herunterzuladen. Zwischen 2.000 und 4.000 sicher für die Arbeit geeignete Bilder wurden pro Monat gesammelt, datiert von Anfang 2000 bis Mitte 2024, und gefiltert, um nur solche mit permissiven Lizenzen zu enthalten. Um eine Überrepräsentation durch produktive Benutzer zu vermeiden, wurde jeder einzelne Beitragsteller auf zehn Bilder pro Monat für jedes Jahr begrenzt.

Für den PairCams-Datensatz wurde jedes Foto mit automatischen Einstellungen und ohne Blitz aufgenommen, um einen Vergleich der Art und Weise zu ermöglichen, wie visuelle Encoder auf Unterschiede in der Kamerahardware allein reagieren, unabhängig vom Bildinhalt:

Weitere Beispiele aus dem PairCams-Datensatz, kuratiert von den Autoren.

Weitere Beispiele aus dem PairCams-Datensatz, kuratiert von den Autoren.

Die Autoren testeten zwei Sätze von Parametern: Bildverarbeitungsparameter, wie Komprimierung und Farbtransformationen; und Aufnahmeparameter, wie Kameramodell oder Belichtungseinstellungen:

Bildverarbeitungs- und Aufnahmeparameter, die analysiert wurden, mit Anzahl der Klassen für jeden.

Bildverarbeitungs- und Aufnahmeparameter, die analysiert wurden, mit Anzahl der Klassen für jeden.

Tests

Um zu bestimmen, ob Informationen über Bildverarbeitung und Kameratype in den Modell-Darstellungen erhalten bleiben, trainierten die Autoren einen Klassifizierer, um Metadaten-Labels direkt aus diesen Darstellungen vorherzusagen. Wenn der Klassifizierer nicht besser als zufälliges Raten abschneidet, würde dies darauf hindeuten, dass Details über Verarbeitung oder Gerät nicht von dem Modell erfasst werden.

Wenn jedoch die Leistung über dem Zufall liegt, würde dies darauf hindeuten, dass diese technischen Spuren tatsächlich kodiert sind und nachgelagerte Aufgaben beeinflussen können.

Um die Verarbeitungsspur zu testen, wiesen die Autoren jedem Trainingsbild ein zufälliges Verarbeitungseinstellung zu, wie z.B. ein bestimmtes JPEG-Komprimierungsniveau, während alle Testbilder in einem Batch die gleiche Einstellung verwendeten.

Die durchschnittliche KlassifizierungsGenauigkeit über alle Einstellungen wurde dann mit wiederholten Versuchen unter verschiedenen Zufallsseeds kombiniert, um zu bestimmen, ob technische Details der Bildverarbeitung konsistent in der internen Darstellung des Modells kodiert sind:

KlassifizierungsGenauigkeit für die Vorhersage von Bildverarbeitungsparametern aus Encoder-Darstellungen, unter Verwendung eines linearen Klassifizierers, der auf gefrorene Modelle angewendet wird. Ergebnisse werden für JPEG-Komprimierung, Schärfung, Größenskalierung und Interpolation mit drei Modellkategorien, kontrastiver Vision-Sprache (orange), überwachter (grün) und selbstüberwachter (blau) Encoder, auf ImageNet (obere Reihe) und iNaturalist 2018 (untere Reihe) ausgewertet. Zufällige-Raten-Baselines sind mit gestrichelten Linien markiert.

KlassifizierungsGenauigkeit für die Vorhersage von Bildverarbeitungsparametern aus Encoder-Darstellungen, unter Verwendung eines linearen Klassifizierers, der auf gefrorene Modelle angewendet wird. Ergebnisse werden für JPEG-Komprimierung, Schärfung, Größenskalierung und Interpolation mit drei Modellkategorien, kontrastiver Vision-Sprache (orange), überwachter (grün) und selbstüberwachter (blau) Encoder, auf ImageNet (obere Reihe) und iNaturalist 2018 (untere Reihe) ausgewertet. Zufällige-Raten-Baselines sind mit gestrichelten Linien markiert.

Über alle vier Verarbeitungsparameter hinweg zeigten kontrastive Vision-Sprach-Modelle die höchste Fähigkeit, versteckte Bildmanipulationen zu erkennen. Einige Modelle erreichten mehr als 80% Genauigkeit bei der Vorhersage von JPEG-Komprimierung, Schärfung und Größenskalierung aus ImageNet-Darstellungen.

Überwachte Encoder, insbesondere solche, die auf ConvNeXt basieren, zeigten auch starke Leistungen, während selbstüberwachte Modelle konsistent schwächer abschnitten.

Interpolation war der schwierigste Parameter, den zu erkennen, doch erreichten die besten CVL- und überwachten Modelle immer noch Ergebnisse, die deutlich über dem Zufallsbaseline von 25% auf beiden Datensätzen lagen.

Als nächstes testeten die Autoren, ob Kamera-bezogene Informationen in den Modell-Darstellungen kodiert sind, indem sie separate Trainings- und Testsets für jeden Aufnahmeparameter (wie Kameramodell oder Belichtungseinstellungen) erstellten.

Für die meisten Parameter wurden nur Klassen mit mindestens 5.000 Beispielen verwendet; 500 Bilder wurden zufällig zurückgehalten für die Tests, und die verbleibenden Beispiele wurden so heruntergesampelt, dass jede Klasse 200 Trainingsbeispiele hatte. Für die ‘Modell (alle)’- und ‘Modell (Smart)’-Parameter, die weniger Daten pro Klasse hatten, verwendeten die Autoren stattdessen Klassen mit mindestens 500 Bildern und teilten jede Klasse in Trainings- und Test-Teilmengen im Verhältnis 4:1 auf.

Fotografen wurden über Trainings-, Validierungs- und Testsets getrennt, und ein einfacher Klassifizierer wurde trainiert, um Kamera-Informationen basierend auf den Bildmerkmalen vorherzusagen.

Um sicherzustellen, dass der Klassifizierer nicht durch den semantischen Inhalt der Bilder beeinflusst wurde, wurde 90% jedes Bildes zentriert maskiert (siehe Beispiele unten). Die Autoren behaupten, dass bei diesem Maskierungsgrad alle visuellen Encoder nahezu zufällig auf ImageNet performen, was darauf hindeutet, dass der semantische Signal effektiv unterdrückt wurde:

ImageNet-ValidierungsGenauigkeit als Funktion des Maskierungsverhältnisses. Bei 90%iger Maskierung fallen alle Modelle auf nahezu zufällige Leistung bei der semantischen Label-Vorhersage zurück, was darauf hindeutet, dass semantische Hinweise effektiv unterdrückt wurden. Die Beispielbilder unten zeigen die Maskierungsgrade.

ImageNet-ValidierungsGenauigkeit als Funktion des Maskierungsverhältnisses. Bei 90%iger Maskierung fallen alle Modelle auf nahezu zufällige Leistung bei der semantischen Label-Vorhersage zurück, was darauf hindeutet, dass semantische Hinweise effektiv unterdrückt wurden. Die Beispielbilder unten zeigen die Maskierungsgrade.

Sogar bei 90%iger Maskierung jedes Bildes konnten die meisten kontrastiven Vision-Sprach-Modelle und die überwachten ConvNeXt-Encoder Kamera-bezogene Labels bei weitem über dem Zufall vorhersagen. Viele CVL-Modelle erreichten mehr als 70% Genauigkeit bei der Unterscheidung zwischen Smartphone- und Nicht-Smartphone-Bildern.

Andere überwachte Encoder, SigLIP und alle selbstüberwachten Modelle, schnitten deutlich schlechter ab. Wenn keine Maskierung angewendet wurde, zeigten CVL-Modelle erneut die stärkste Clusterung nach Kameratype, was bestätigt, dass diese Modelle Aufnahmeeigenschaften tiefer in ihre Darstellungen einbetten als die anderen:

t-SNE-Visualisierungen für zwei visuelle Encoder, wobei die Farben anzeigen, ob jedes Bild mit einer Smartphone- oder einer Nicht-Smartphone-Kamera aufgenommen wurde.

t-SNE-Visualisierungen für zwei visuelle Encoder, wobei die Farben anzeigen, ob jedes Bild mit einer Smartphone- oder einer Nicht-Smartphone-Kamera aufgenommen wurde.

Nachgelagerte Bedeutung

Nachdem festgestellt wurde, dass Metadaten die Modelle auf diese Weise beeinflussen, wurde die Neigung versteckter Verarbeitungsspuren zu stören, bewertet.

Wenn zwei Versionen desselben Bildes unterschiedlich verarbeitet wurden, wurden die Darstellungen oft nach der Verarbeitungsart und nicht nach dem Inhalt organisiert. In mehreren Fällen wurde ein stark komprimiertes Foto eines Hundes als ähnlicher zu einem nicht verwandten Bild mit dem gleichen Komprimierungsniveau behandelt als zu seiner eigenen unkomprimierten Version:

Einfluss von Verarbeitungsparametern auf semantische Vorhersage, mit semantischer KlassifizierungsGenauigkeit für ImageNet (oben) und iNaturalist (unten) unter fünf Verarbeitungsszenarien. Im Baseline-Szenario teilen alle Trainings- und Testbilder die gleiche Verarbeitungsmarke; im all-diff-Szenario verwendet das Testbild eine Verarbeitungsmarke, die nicht im Trainingsset vorhanden ist; in pos-same und neg-same ist die Verarbeitungsmarke entweder mit semantisch ähnlichen oder unähnlichen Bildern ausgerichtet; im uniform-Szenario werden Verarbeitungsmarken zufällig über das Trainingsset verteilt. Ergebnisse werden mit k = 10 für ImageNet und k = 1 für iNaturalist berichtet.

Einfluss von Verarbeitungsparametern auf semantische Vorhersage, mit semantischer KlassifizierungsGenauigkeit für ImageNet (oben) und iNaturalist (unten) unter fünf Verarbeitungsszenarien. Im Baseline-Szenario teilen alle Trainings- und Testbilder die gleiche Verarbeitungsmarke; im all-diff-Szenario verwendet das Testbild eine Verarbeitungsmarke, die nicht im Trainingsset vorhanden ist; in pos-same und neg-same ist die Verarbeitungsmarke entweder mit semantisch ähnlichen oder unähnlichen Bildern ausgerichtet; im uniform-Szenario werden Verarbeitungsmarken zufällig über das Trainingsset verteilt. Ergebnisse werden mit k = 10 für ImageNet und k = 1 für iNaturalist berichtet.

Die stärksten Verzerrungen wurden durch JPEG-Komprimierung verursacht, gefolgt von Schärfung und Größenskalierung, während Interpolation nur einen geringen Effekt hatte. Die Autoren behaupten, dass diese Ergebnisse zeigen, dass Verarbeitungsspuren semantische Informationen überlagern und bestimmen können, wie ein Bild verstanden wird.

Zusammenfassend warnen sie:

‘Obwohl wir festgestellt haben, dass Metadaten-Labels in grundlegenden visuellen Encodern kodiert sind und Hinweise auf mögliche Ursachen gegeben haben, können wir den Ursprung des Problems nicht eindeutig identifizieren. Eine weitere Untersuchung ist aufgrund der Kosten für das erneute Trainieren solcher Modelle und der häufigen Verwendung privater Datensätze und nicht offengelegter Implementierungsdetails herausfordernd.

‘Obwohl wir keine spezifischen Minderungsstrategien vorschlagen, heben wir das Problem als wichtigen Bereich für zukünftige Forschung hervor.’

Schlussfolgerung

In der Literatur gibt es ein wachsendes forensisches Interesse an den Spuren und Hinweisen auf “Methode über Inhalt”; je einfacher es ist, ein Rahmendomain oder einen bestimmten Datensatz zu identifizieren, desto einfacher ist es, diese Information in Form von – beispielsweise – Deepfake-Erkennern oder Systemen, die zur Kategorisierung der Herkunft oder des Alters von Daten und Modellen dienen, zu nutzen.

Dies steht im Widerspruch zum Kernziel der Ausbildung von KI-Modellen, das darin besteht, dass zentrale destillierte Konzepte unabhängig von der Art der Produktion kuratiert werden sollten und keine Spuren davon tragen sollten. Tatsächlich sind Datensätze und Kameramodelle mit Merkmalen und Domänen-Eigenschaften ausgestattet, die effektiv nicht von Inhalten zu trennen sind, da sie selbst eine “historische Perspektive” darstellen.

 

* Das Papier ist unkonventionell aufgebaut, und wir werden uns so gut wie möglich an seine ungewöhnliche Formatierung und Präsentation anpassen. Ein großer Teil des Materials, das normalerweise in einem (nicht existierenden) ‘Methoden’-Abschnitt stehen sollte, wurde in verschiedene Teile des Anhangs verschoben, vermutlich um den Hauptartikel auf acht Seiten zu beschränken – wenn auch auf Kosten der Klarheit. Wenn wir eine Möglichkeit, dies zu verbessern, aufgrund von Zeitmangel verpasst haben, entschuldigen wir uns.

Erstveröffentlichung am Mittwoch, 20. August 2025

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.