Andersons Blickwinkel
KI kann heimlich Bilder nach Gerätemarke und nicht nach Inhalt bewerten

Neue Forschungsergebnisse zeigen, dass populäre bildzentrierte KI-Systeme nicht nur darauf achten, was sich in einem Foto befindet, sondern auch darauf, wie das Foto aufgenommen wurde. Versteckte Details wie die Kameratype oder die Bildqualität können leise die Ergebnisse beeinflussen, was zu falschen Ergebnissen führt – nur weil das Foto von einem anderen Gerät stammt.
Im Jahr 2012 wurde aufgedeckt, dass eine Reise-Website routinemäßig höhere Preise für Benutzer anzeigte, die sie als Apple-Geräte-Besitzer identifizieren konnte, was die Apple-Marke mit höherer Kaufkraft gleichsetzte. Spätere Untersuchungen kamen zu dem Schluss, dass diese geräteorientierte “Wallet-Sniffing” fast zur Routine für E-Commerce-Seiten geworden war.
Ähnlich kann die Smartphone- oder Kameramarke, die ein bestimmtes Foto aufgenommen hat, durch forensische Mittel ermittelt werden, basierend auf den bekannten Merkmalen einer begrenzten Anzahl von Linsen in den Modellen. In solchen Fällen wird das Modell der Kamera in der Regel durch visuelle Spuren geschätzt; und wie im Jahr 2012 festgestellt, ist die Kenntnis der Kameratype, die ein Bild aufgenommen hat, ein potenziell ausnutzbares Merkmal.
Obwohl Kamerageräte tendenziell erhebliche Metadaten in ein Bild einbetten, kann diese Funktion oft von Benutzern deaktiviert werden; selbst wenn sie aktiviert ist, können Verteilungsplattformen wie soziale Medien einige oder alle Metadaten aus logistischen oder Datenschutzgründen entfernen.
Trotzdem werden Metadaten in Benutzer-Upload-Bildern häufig entweder neu geschrieben/interpretiert (anstatt gelöscht) oder als sekundäre Informationsquelle über das Bild selbst, sondern über die Aufnahme des Bildes, belassen. Wie der Fall von 2012 zeigte, kann diese Art von Informationen nicht nur für kommerzielle Plattformen, sondern auch potenziell für Hacker und böswillige Akteure wertvoll sein.
Zwei Perspektiven
Eine neue Forschungskooperation zwischen Japan und der Tschechischen Republik hat festgestellt, dass die Spuren, die von Kamerahardware und Bildverarbeitung (wie JPEG-Qualität oder Linsenschärfung) hinterlassen werden, nicht nur von forensischen Werkzeugen erkannt werden, sondern auch stillschweigend in der ‘globalen Verständnis’ von führenden KI-Bildmodellen kodiert sind.
Dies umfasst CLIP und andere große visuelle Encoder, die in allem von Suchmaschinen bis hin zu Inhaltsmoderation weit verbreitet sind. Die neue Arbeit zeigt, dass diese Modelle nicht nur interpretieren, was in einem Foto ist, sondern auch lernen, wie das Foto gemacht wurde; und dieses versteckte Signal kann manchmal die sichtbare Inhalte überlagern.

Beispielbildpaare aus dem PairCams-Datensatz der Autoren, der erstellt wurde, um zu testen, wie die Kameratype die KI-Bildmodelle beeinflusst. Jedes Paar zeigt das gleiche Objekt oder die gleiche Szene, die zur gleichen Zeit mit einem Nicht-Smartphone (links) und einem Smartphone (rechts) aufgenommen wurde. Quelle: https://arxiv.org/pdf/2508.10637
Die Studie behauptet, dass selbst wenn KI-Modelle stark maskierte oder beschnittene Versionen eines Bildes erhalten, sie den Hersteller und das Modell der Kamera mit überraschender Genauigkeit erraten können. Dies bedeutet, dass der Repräsentationsraum, den diese Systeme verwenden, um die Ähnlichkeit von Bildern zu beurteilen, mit irrelevanten Faktoren wie dem Benutzergerät verflochten werden kann, mit unvorhersehbaren Konsequenzen.
Zum Beispiel können in nachgelagerten Aufgaben wie Klassifizierung oder Bildabruf diese unerwünschten “Gewichtungen” dazu führen, dass das System bestimmte Kameratypen bevorzugt, unabhängig von dem, was das Bild tatsächlich zeigt.
Das Papier besagt:
‘Metadaten-Labels, die in visuellen Encodern Spuren hinterlassen, bis hin zur Überlagerung semantischer Informationen, können zu unvorhersehbaren Ergebnissen führen, die die Allgemeingültigkeit, Robustheit und potenziell die Vertrauenswürdigkeit der Modelle beeinträchtigen.
‘Noch kritischer ist, dass dieser Effekt böswillig ausgenutzt werden könnte; zum Beispiel könnte ein adversarischer Angriff Metadaten manipulieren, um absichtlich ein Modell zu täuschen oder zu täuschen, was in sensiblen Bereichen wie Gesundheitswesen, Überwachung oder autonomen Systemen Risiken birgt.’
Die Forschung zeigt, dass Contrastive Visual-Language (CVL)-Systeme wie CLIP, jetzt eines der einflussreichsten Encoder in der Computer-Vision, besonders wahrscheinlich solche Rückschlüsse aus den Daten ziehen:

Suchergebnisse für ein Abfragebild, die zeigen, wie Grundmodelle ähnliche Bilder nicht nur basierend auf visuellem Inhalt, sondern auch auf versteckten Metadaten wie JPEG-Komprimierung oder Kameramodell bewerten.
Das neue Papier trägt den Titel Verarbeitungs- und Aufnahmespuren in visuellen Encodern: Was weiß CLIP über Ihre Kamera? und stammt von sechs Forschern der Universität Osaka und der Tschechischen Technischen Universität in Prag.
Methode und Daten*
Um den Einfluss versteckter Metadaten auf visuelle Encoder wie CLIP zu testen, arbeiteten die Autoren mit zwei Kategorien von Metadaten: Bildverarbeitungsparametern (wie JPEG-Komprimierung oder Farbtransformationen) und Aufnahmeparametern (wie Kameramodell oder Belichtungseinstellungen).
Anstatt neue Modelle zu trainieren, bewerteten die Forscher 47 weit verbreitete visuelle Encoder in ihrem eingefrorenen, vorgebildeten Zustand, einschließlich kontrastiver Bild-Sprach-Modelle wie CLIP, selbstüberwachter Modelle wie DINO und konventionell überwachte Netzwerke.
Für Verarbeitungsparameter wendeten die Forscher kontrollierte Transformationen auf die ImageNet– und iNaturalist-2018-Datensätze an, einschließlich sechs JPEG-Komprimierungsstufen, drei Schärfungseinstellungen, drei Größenskalierungen und vier Interpolationsmethoden.

Beispiele von Bildern und zugehörigen Annotationen aus dem iNaturalist-Datensatz. Quelle: https://arxiv.org/pdf/1707.06642
Die Modelle wurden auf ihre Fähigkeit getestet, jede Transformations-Einstellung mithilfe nur des Bildinhalts zu erkennen, wobei erfolgreiche Vorhersagen darauf hindeuten, dass der Encoder Informationen über diese Verarbeitungswahlen in seiner internen Darstellung aufbewahrt.
Um Aufnahmeparameter zu untersuchen, kompilierten die Forscher einen 356.459-Bild-Datensatz namens FlickrExif, der erhaltenes Exif-Metadaten enthält, und erstellten einen zweiten Datensatz namens PairCams, der aus 730 Bildpaaren besteht, die gleichzeitig mit einem Smartphone und einer Nicht-Smartphone-Kamera aufgenommen wurden.
Der FlickrExif-Datensatz wurde mithilfe der Flickr-API erstellt, um Bilder mit begleitenden Exif-Metadaten herunterzuladen. Zwischen 2.000 und 4.000 sicher für die Arbeit geeignete Bilder wurden pro Monat gesammelt, datiert von Anfang 2000 bis Mitte 2024, und gefiltert, um nur solche mit permissiven Lizenzen zu enthalten. Um eine Überrepräsentation durch produktive Benutzer zu vermeiden, wurde jeder einzelne Beitragsteller auf zehn Bilder pro Monat für jedes Jahr begrenzt.
Für den PairCams-Datensatz wurde jedes Foto mit automatischen Einstellungen und ohne Blitz aufgenommen, was einen Vergleich der Art und Weise ermöglichte, wie visuelle Encoder auf Unterschiede in der Kamerahardware reagieren, unabhängig vom Bildinhalt:

Weitere Beispiele aus dem PairCams-Datensatz, der von den Autoren kuratiert wurde.
Die Autoren testeten zwei Sätze von Parametern: Bildverarbeitungsparameter, wie Komprimierung und Farbtransformationen; und Aufnahmeparameter, wie Kameramodell oder Belichtungseinstellungen:

Bildverarbeitungs- und Aufnahmeparameter, die analysiert wurden, mit Anzahl der Klassen für jeden.
Tests
Um zu bestimmen, ob Informationen über Bildverarbeitung und Kameratype in den visuellen Encodern erhalten bleiben, trainierten die Autoren einen Klassifizierer, um Metadaten-Labels direkt aus diesen Encodern vorherzusagen. Wenn der Klassifizierer nicht besser als zufälliges Raten abschnitt, würde dies darauf hindeuten, dass Details über Verarbeitung oder Gerät nicht vom Modell erfasst werden.
Jede Leistung über dem Zufall würde jedoch darauf hindeuten, dass diese technischen Spuren tatsächlich kodiert sind und nachgelagerte Aufgaben beeinflussen können.
Um Verarbeitungsspuren zu testen, wiesen die Autoren jedem Trainingsbild eine zufällige Verarbeitungseinstellung zu, wie zum Beispiel eine bestimmte JPEG-Komprimierungsstufe, während alle Testbilder in einem Batch die gleiche Einstellung teilten.
Die durchschnittliche Klassifizierungs-Genauigkeit über alle Einstellungen wurde dann mit wiederholten Versuchen unter verschiedenen Zufallsseeds kombiniert, so dass bestimmt werden konnte, ob technische Details der Bildverarbeitung konsistent im internen Repräsentationsraum des Modells aufbewahrt wurden:

Klassifizierungs-Genauigkeit für die Vorhersage von Bildverarbeitungsparametern aus Encodern, unter Verwendung eines linearen Klassifizierers auf eingefrorenen Modellen. Ergebnisse werden für JPEG-Komprimierung, Schärfung, Größenskalierung und Interpolation mit drei Modellkategorien, kontrastiver Bild-Sprache (orange), überwachter (grün) und selbstüberwachter (blau) Modelle, auf ImageNet (obere Zeile) und iNaturalist 2018 (untere Zeile) ausgewertet. Zufallsbaselines sind mit gestrichelten Linien markiert.
Über alle vier Verarbeitungsparameter hinweg zeigten kontrastive Bild-Sprach-Modelle die höchste Fähigkeit, versteckte Bildmanipulationen zu erkennen. Einige Modelle erreichten mehr als 80% Genauigkeit bei der Vorhersage von JPEG-Komprimierungs-, Schärfungs- und Größenskalierungs-Einstellungen aus ImageNet-Encodern.
Überwachte Encoder, insbesondere solche, die auf ConvNeXt basieren, zeigten auch starke Leistungen, während selbstüberwachte Modelle konsistent schwächer waren.
Interpolation war der schwierigste Parameter zu erkennen, doch die besten CVL- und überwachten Modelle erreichten immer noch Ergebnisse, die deutlich über dem Zufallsbaseline von 25% auf beiden Datensätzen lagen.
Als nächstes, um zu testen, ob kamera-bezogene Informationen in Modell-Darstellungen eingebettet sind, erstellten die Autoren separate Trainings- und Testsets für jeden Aufnahmeparameter (wie Kameramodell, Belichtung, Blende, ISO und Brennweite).
Für die meisten Parameter wurden nur Klassen mit mindestens 5.000 Beispielen verwendet; 500 Bilder wurden zufällig beiseite gelegt für den Test, und die verbleibenden Beispiele wurden so heruntergesampled, dass jede Klasse 200 Trainingsbeispiele hatte. Für die ‘Modell (alle)’- und ‘Modell (Smart)’-Parameter, die weniger Daten pro Klasse hatten, verwendeten die Autoren stattdessen Klassen mit mindestens 500 Bildern und teilten jede Klasse in Trainings- und Test-Teilmengen im Verhältnis 4:1 auf.
Fotografen wurden über Trainings-, Validierungs- und Testsets hinweg getrennt, und ein einfacher Klassifizierer wurde trainiert, um Kamerainformationen direkt aus den Bildmerkmalen vorherzusagen. Um sicherzustellen, dass der Klassifizierer nicht von dem semantischen Inhalt der Bilder beeinflusst wurde, wurden 90% jedes Bildes zentriert maskiert (siehe Beispiele unten). Die Autoren behaupten, dass bei diesem Maskierungsgrad alle visuellen Encoder nahezu zufällig auf ImageNet performen, was darauf hindeutet, dass das semantische Signal effektiv unterdrückt wurde:

ImageNet-Validierungs-Genauigkeit als Funktion des Maskierungsverhältnisses. Bei 90% Maskierung fallen alle Modelle auf nahezu zufällige Leistung bei semantischer Label-Vorhersage zurück, was darauf hindeutet, dass semantische Hinweise effektiv entfernt wurden. Die Beispielbilder unten veranschaulichen die Maskierungsgrade.
Sogar bei 90%iger Maskierung aller Bilder konnten die meisten kontrastiven Bild-Sprach-Modelle und die überwachten ConvNeXt-Encoder Kamerabezogene Labels noch immer bei weitem über dem Zufall erkennen. Viele CVL-Modelle übertrafen 70% Genauigkeit bei der Unterscheidung zwischen Smartphone- und Nicht-Smartphone-Bildern.
Andere überwachte Encoder, SigLIP, und alle selbstüberwachten Modelle zeigten viel schwächere Leistungen. Wenn keine Maskierung angewendet wurde, zeigten CVL-Modelle erneut die stärkste Clustering nach Kameratype, was bestätigt, dass diese Modelle Aufnahmeeigenschaften tiefer einbetten als die anderen:

t-SNE-Visualisierungen für zwei visuelle Encoder, wobei Farben angeben, ob jedes Bild mit einer Smartphone- oder einer Nicht-Smartphone-Kamera aufgenommen wurde.
Nachgelagerte Bedeutung
Nachdem festgestellt wurde, dass Metadaten die Modelle auf diese Weise beeinflussen, wurde die Neigung versteckter Verarbeitungsspuren, die Bildinterpretation zu stören, bewertet.
Wenn zwei Versionen desselben Bildes unterschiedlich verarbeitet wurden, wurden die Encoder oft nach Verarbeitungsstil und nicht nach Inhalt organisiert. In mehreren Fällen wurde ein stark komprimiertes Foto eines Hundes als ähnlicher zu einem unbefangenen Bild mit der gleichen Komprimierungs-Einstellung behandelt als zu seiner eigenen unkomprimierten Version:

Einfluss von Verarbeitungsparametern auf semantische Vorhersage, mit semantischer Klassifizierungs-Genauigkeit für ImageNet (oben) und iNaturalist (unten) unter fünf Verarbeitungsszenarien. Im Baseline-Szenario teilen alle Trainings- und Testbilder die gleiche Verarbeitungs-Label; im all-diff-Szenario verwendet das Testbild einen Verarbeitungswert, der nicht im Trainingsset vorhanden ist; in pos-same und neg-same ist das Verarbeitungs-Label entweder mit semantisch ähnlichen oder unähnlichen Bildern ausgerichtet; im uniform-Szenario werden Verarbeitungs-Labels zufällig über das Trainingsset verteilt. Ergebnisse werden unter Verwendung von k = 10 für ImageNet und k = 1 für iNaturalist gemeldet.
Die stärksten Verzerrungen wurden durch JPEG-Komprimierung verursacht, gefolgt von Schärfung und Größenskalierung, während Interpolation nur einen geringen Effekt hatte. Die Autoren behaupten, dass diese Ergebnisse zeigen, dass Verarbeitungsspuren semantische Informationen überlagern und bestimmen können, wie ein Bild verstanden wird.
Zum Schluss warnen sie:
‘Obwohl wir festgestellt haben, dass Metadaten-Labels in grundlegenden visuellen Encodern kodiert sind und Hinweise auf mögliche Ursachen gegeben haben, können wir den Ursprung des Problems nicht definitiv identifizieren. Eine weitere Untersuchung ist aufgrund der Kosten für das erneute Trainieren solcher Modelle und der häufigen Verwendung privater Datensätze und nicht offengelegter Implementierungsdetails schwierig.
‘Obwohl wir keine spezifischen Minderungs-Techniken vorschlagen, heben wir das Problem als wichtigen Bereich für zukünftige Forschung hervor.’
Schlussfolgerung
In der Literatur gibt es ein wachsendes forensisches Interesse an den Spuren und Zeichen von “Methode über Inhalt”; je einfacher es ist, ein Rahmen-Domain oder einen bestimmten Datensatz zu identifizieren, desto einfacher ist es, diese Information in Form von – zum Beispiel – Deepfake-Detektoren oder Systemen, die zur Kategorisierung der Herkunft oder des Alters von Daten und Modellen konzipiert sind, zu nutzen.
Dies widerspricht dem Kernziel der Ausbildung von KI-Modellen, das darin besteht, dass zentrale destillierte Konzepte unabhängig von der Produktionsweise kuratiert und keine Spuren davon tragen sollten. Tatsächlich haben Datensätze und Kamerageräte Eigenschaften und Domänen-Merkmale, die sich selbst als “historische Perspektive” darstellen und daher nicht von Inhalten zu trennen sind.
* Das Papier ist unkonventionell aufgebaut, und wir werden uns bemühen, es so gut wie möglich an seinem ungewöhnlichen Format und seiner Präsentation anzupassen. Ein großer Teil des Materials, das in einem (nicht existierenden) ‘Methoden’-Abschnitt hätte stehen sollen, wurde in verschiedene Teile des Anhangs verschoben, vermutlich, um das Hauptpapier auf acht Seiten zu beschränken – wenn auch auf Kosten der Klarheit. Wenn wir keine Gelegenheit hatten, dies zu verbessern, entschuldigen wir uns.
Erstveröffentlicht am Mittwoch, den 20. August 2025












