Andersons Blickwinkel

Wiederherstellung dessen, was Ihre Kamera aufgenommen hat, bevor es von KI verändert wurde

Veröffentlicht am 24. April 2026

Aktualisiert am 16. Mai 2026

Von

Martin Anderson

AI-generated image (GPT-2). A photographer examines an open DSLR as a stream of colorful fantasy creatures and glowing imagery bursts out, while he reacts with focused, subdued surprise in a studio setting.

Wie können Sie die Unverfälschtheit eines rohen Fotos vor KI-Eingriffen schützen, wenn es bereits automatisch in der Kamera mit KI verarbeitet wurde? Neue Forschung versucht, die “wahren” Rohdaten mit Hilfe von KI wiederherzustellen!

Der Anstieg der Authentizität von KI-Bildern in den letzten Jahren hat viele Gruppen und Einzelpersonen dazu veranlasst, sich gegen die daraus resultierende Erosion des Vertrauens in die Fotografie zu wehren.

Währenddessen hat die Coalition for Content Provenance and Authenticity (C2PA) versucht, einen halb-kryptographischen Standard zu verbreiten, der Metadaten-basierte Herkunftsinformationen an ein Bild anhängt, von dem Moment an, an dem es von einer unterstützten Kamera oder einem Gerät aufgenommen wird, in der Hoffnung, jede nachfolgende Verwendung von generativer KI auf diesen “Original”-Bildern aufzudecken:

Schema der Herkunft in dem C2PA-System, in dem Metadaten, die beim Aufnehmen geschrieben werden, wie ein Tagebuch hinzugefügt werden können, um übliche Anpassungen wie Helligkeit und Kontrast zuzulassen, aber größere Anpassungen aufzuzeichnen, sodass ein stark von KI verändertes Bild in Medien, die dieses System unterstützen, als solches erkennbar ist. Quelle

Die Übernahme dieses Standards war nicht so weit verbreitet, wie die Koalition gehofft hatte, und derzeit unterstützen nur 14 Kameras die Einbettung von Authentifizierungsinformationen in die Kamera.

Was interessant an der Idee der C2PA ist, einem Foto einen “Reisepass” zu geben, sobald es existiert, ist, dass es zu diesem Zeitpunkt vielleicht bereits zu spät sein kann – weil Kamerahersteller jetzt routinemäßig KI-Verarbeitung in die Erstellung des Bildes einbauen:

Aus dem 2024-Papier ‘Advocating Pixel-Level Authentication of Camera-Captured Images’: eine Illustration, wie moderne Kamerapipelines hallucinierte Inhalte bei der Aufnahme einfügen und wie Pixel-Level-Authentifizierungs-Metadaten dies aufdecken. In (A) wird ein Smartphone-Sensorbild von der ISP verarbeitet, wo KI-Module Details während der digitalen Zoom- oder Belichtungskorrektur erfinden können, was realistische Bilder mit Fehlern wie falsch gelesenen Nummernschildern erzeugt. In (B) wird eine Authentifizierungs-Maske als Metadaten eingebettet und später überlagert, um nicht-authentische Bereiche aufzudecken, sodass Benutzer ursprüngliche Daten von KI-veränderten Pixeln unterscheiden können. Quelle

Tatsächlich könnte diese KI-“Eingriff” in die Aufnahme von Rohdaten aus dem Kamerassenor letztendlich sogar zum beherrschenden Prozess werden.

Diese Art der Nachbearbeitung ist nicht dasselbe wie die aktuelle Tendenz, Fotos in der Kamera zu bearbeiten, bei der eine Telefon-App oder eine Kamera-App dem Benutzer erlaubt, ein Foto in Ruhe zu überdenken, bevor es even von dem Gerät heruntergeladen wird.

Vielmehr erfolgt die Verarbeitung in einem “Black-Box”-Routine in der Bildsignalverarbeitung (ISP) der Kamera, normalerweise in einer proprietären Laufzeit, die die Rohdaten des Sensors nicht zugänglich macht (und bedenken Sie, dass das sogenannte “reine” Kamera-RAW-Format nicht so “roh” ist).

Daher kann das Foto, wenn Sie es überhaupt sehen können, bereits KI-gestützten Verbesserungen wie Low-Light-Verbesserung, Upscaling oder sogar Mond-Ersatz unterzogen worden sein.

In vielen Fällen kann dies zu ungenauen Rekonstruktionen führen, beispielsweise von Text, der die Verwendung eines solchen Bildes als Beweis ungültig machen könnte, da ein “rohes” Bild nicht verfügbar wäre:

Aus dem neuen Papier – ein rohes Sensorbild wird von einem GenAI-aktivierten ISP verarbeitet, um ein endgültiges sRGB-Ausgabe zu erzeugen, das klarer erscheint, aber hallucinierte Details enthalten kann, wie im Beispiel des Nummernschilds, wo Zeichen während der digitalen Zoom falsch abgeleitet werden. Die wahre Szene, die in der Praxis nicht zugänglich ist, unterscheidet sich von beiden, dem KI-verbesserten Ausgabe und dem authentischen Bild vor der Halluzination. Der vorgeschlagene Ansatz ermöglicht die Wiederherstellung dieses vor-Halluzinations-Bildes, indem er wiederherstellt, was die Kameraoptik ursprünglich aufgenommen hat, bevor KI-basierte Verbesserungen den Inhalt veränderten. Quelle

Die obigen Beispiele stammen aus einem neuen Forschungspapier, das eine Lösung für “native KI-Fotos” anbietet, indem es alternative KI-Prozesse verwendet, um das geschätzte rohe und unverfälschte Bild aus dem verarbeiteten Bild zu rekonstruieren.

Die Autoren erklären:

‘Wenn KI-Modelle mit generativen oder perzeptiven Verlusten in ISPs verwendet werden, neigen sie dazu, Inhalte zu halluzinieren, was die Bildbedeutung potenziell verändern kann. Die Implikation ist, dass Bilder, die direkt aus der Kamera stammen, “falsche” Inhalte enthalten können, insbesondere in Smartphone-Kameras, wo KI-ISP-Module zunehmend eingesetzt werden.

‘Die Verwendung von GenAI in Kamerahardware markiert einen Paradigmenwechsel in der Art und Weise, wie wir Kamerabilder betrachten, und fordert die traditionelle forensische Sicht von Kamerabildern als inhärent vertrauenswürdig heraus.’

Die neue Arbeit verwendet einen sehr leichten Encoder und MLP-Decoder, der im Bild eingebettet werden kann, mit einem Gewichtsverlust von nur 180kb. Das Ziel ist die Entwicklung von Codierungssystemen, die schnell genug sind, um das ursprüngliche Bild in Echtzeit wiederherzustellen.

Aus dem neuen Papier: GenAI-basierte Super-Auflösung innerhalb der Kamera-ISP kann Gesichtszüge subtil verändern, Erscheinungsbild oder wahrgenommene Identität durch Änderungen in Blickrichtung und Mundform verändern. Low-Light-Verbesserung kann ähnlich den Bildinhalt verändern, was die Interpretation beeinflusst, obwohl die visuelle Qualität verbessert wird. Im Beispiel des QR-Codes macht die Verbesserung das Bild ansprechender, aber unmöglich zu scannen. Die Methode ermöglicht die Wiederherstellung des authentischen Bildes vor diesen Halluzinationen, indem sie ursprüngliche Gesichtsdetails und einen scannbaren QR-Code wiederherstellt.

Alternativ könnten Kamerahersteller den Benutzern Zugang zu den wirklich unverfälschten Sensor-Dumps gewähren; jedoch ist es wahrscheinlich, dass dies auf sehr hochwertige Geräte beschränkt bleibt. Im Mobil- und Consumer-Bereich wird der Zugang zu unverarbeiteten Fotos leider als “Nischen”- oder Randverfolgung angesehen.

Während Consumer-Kameras immer eine gewisse Nachbearbeitung angewendet haben, bevor die Entwicklung von Edge-KI, waren die verwendeten Algorithmen minimal “interpretativ” und nicht wahrscheinlich, den Inhalt eines Fotos in der gleichen bedeutungsvollen Weise zu verändern, wie aktuelle KI-Methoden es können.

Interessanterweise, wenn man bedenkt, wie sehr Samsungs “Mond-Ersatz-Politik” öffentliche Kritik vor einigen Jahren ausgelöst hat, ist Samsungs KI-Zentrum in Toronto einer der Teilnehmer an der neuen Arbeit, die den Titel Addressing Image Authenticity When Cameras Use Generative AI trägt und von fünf Forschern der Universität Toronto geleitet wird.

Methode

Die Autoren nutzen das einzige andere Projekt, das sich direkt mit dem Problem der Störung durch Design auseinandergesetzt hat: das 2024-Papier Advocating Pixel-Level Authentication of Camera-Captured Images, das einen “binären Authentifizierungs-Mask” vorschlug, der die von KI-Prozessen in der Kamera veränderten Bereiche kennzeichnet:

Rechts, die Authentifizierungs-Maske des 2024-Papiers zeigt die vom KI-“Glättung”-Prozess in der Kamera betroffenen Bereiche des Himmels.

Das System bot jedoch keine Methode, um ein “wahres” Bild wiederherzustellen, was die neue Arbeit anspricht, während sie eine Schuld gegenüber dem früheren Ansatz anerkennt.

Das Ziel der neuen Arbeit ist es, den Benutzern zu ermöglichen, ein Bild wiederherzustellen, das so nah wie möglich an dem ist, was tatsächlich auf den Sensor getroffen ist, bevor die Verarbeitung stattfand:

Überblick über die vorgeschlagene Methode. In (A) wird das ISP-Ausgabebild, das Halluzinationen enthält, bei der Aufnahme durch einen eingefrorenen vorab trainierten Encoder geleitet, und seine latenten Merkmale werden mit räumlichen Koordinaten kombiniert und in ein MLP eingespeist, das pro Pixel arbeitet, um das nicht-halluzinierte Bild vorherzusagen, wobei die Schulung durch einen Verlust gegen das authentische Bild geleitet wird. Die Encoder- und MLP-Gewichte werden dann als Metadaten neben dem Bild gespeichert. In (B) werden diese Gewichte bei der Inferenz aus den Metadaten abgerufen und mit dem Encoder und MLP verwendet, um das nicht-halluzinierte Bild zu rekonstruieren.

Bei der Aufnahme wird das verarbeitete Bild in der neuen Methode durch einen eingefrorenen Encoder geleitet, der es in eine kompakte latente Darstellung umwandelt. Anschließend werden die relevanten räumlichen Koordinaten mit diesen Merkmalen kombiniert und in ein leichtes MLP eingespeist, das pro Pixel arbeitet, um den ursprünglichen Bildinhalt vorherzusagen – indem es effektiv lernt, die halluzinierten Elemente durch einen Rekonstruktionsverlust gegen authentische Ziele zu subtrahieren.

Der Encoder und Decoder werden auf paaren authentischen und halluzinierten Bildern vorab trainiert, dann schnell feinabgestimmt für jedes aufgenommene Bild, wobei ihre Gewichte als Metadaten neben dem Bild selbst gespeichert werden, was nur einen kleinen Größenüberkopf hinzufügt.

Bei der Wiedergabe werden die gespeicherten Gewichte extrahiert und wiederverwendet, um den gleichen Encoder und MLP auszuführen, was die Wiederherstellung eines Bildes ermöglicht, das dem ursprünglich aufgenommenen Bild sehr nahe kommt, ohne neue synthetische Inhalte einzuführen.

Daten und Tests

Die Autoren testeten die neue Methode mit zwei der am häufigsten implementierten ISP-Nachbearbeitungsaufgaben: Super-Auflösung (SR, einschließlich für vergrößerte Bereiche) und Low-Light-Fotografie.

Für den allgemeinen (“natürlichen Bild”)-SR-Teil der Tests wurden viele Beispiele von Texten eingeschlossen, da ISP-SR-Routinen bekanntermaßen Text (z. B. von Autokennzeichen, aber siehe Beispiele früher in diesem Artikel) verändern. Da Textverzerrung ein eigenes separates Problem ist, wurde dies als Teilmenge der SR-Tests behandelt, mit dedizierten Daten.

Der oben erwähnte Encoder wurde für jede der beiden getesteten Modalitäten trainiert und jeweils basierend auf dem wahrscheinlichen KI-ISP-Modul ausgewählt, das während der Aufnahme eingeschaltet werden würde (d. h. ein “Low-Light”-Modul in dunklen Bedingungen).

Die Autoren verwendeten das DIV2K-Datensatz für die Super-Auflösungs-Schulung, unterstützt durch das beliebte RealESRGAN-Netzwerk. Im Einklang mit der oben erwähnten Arbeit von 2024 zu ISP-Störungen generierten die Forscher paarierte Daten mit unbeeinflusstem und halluzinationsbeeinflusstem Inhalt.

Für den Text-SR-Teil verwendeten die Autoren das 2023er MARCONet-Text-SR-Modell:

Aus dem 2023er MARCONet-Papier: Beispiele von realen, niedrigauflösenden und äquivalenten hochaufgelösten Texten. Quelle

Um paarierte Daten in diesem Fall zu erstellen, führten die Forscher nicht-halluzinierte Bilder durch MARCONet aus. 2000 Bilder wurden aus dem ursprünglichen Code generiert, wobei 200 für die Validierung und weitere 200 für die Tests beiseite gelegt wurden.

Für die Low-Light-Tests wurde der LOw-Light-Datensatz (LOL) aus einem chinesischen Papier von 2018 übernommen:

Aus dem chinesischen LOL-Datensatz von 2018: Beispiele von Bildern mit verschiedenen Belichtungen und Abstufungen von Dunkelheit und Verschlechterung. Quelle

Konkurrierende Frameworks

Um die Methode zu bewerten, wurden Vergleiche mit drei spezifischen Baselines durchgeführt, die unter gleichen Bedingungen trainiert wurden. Erstens wurden SIREN und NeRF vorab auf paaren authentischen und halluzinierten Bildern trainiert und dann während der Aufnahme für die gleiche Dauer wie der vorgeschlagene Ansatz feinabgestimmt, um einen direkten Vergleich zu NeRF zu ermöglichen.

Zweitens wurde ein MLP mit einer erlernten Codierung basierend auf der Hashgrid-Methode aus Instant-NGP verwendet, wobei die Hash-Tabelle-Einträge und MLP gemeinsam optimiert wurden.

Die Einbettungsgröße und Netzwerkkapazität wurden an den Ziel-Encoder und MLP angepasst, wobei Experimente sowohl die Feinabstimmung von Scratch als auch die Vorabtrainierung und nachfolgende Feinabstimmung abdeckten.

Drittens wurde ein blindes Bild-zu-Bild-Übersetzungs-Baseline mit einem 64MB NAFNet-Modell implementiert, das als Pixel-zu-Pixel-Regressions-System ohne Zugriff auf Metadaten trainiert wurde.

Während der Schulung wurde der Adam-Optimizer über PyTorch verwendet, sowohl für die Vorabtrainierung als auch für die Feinabstimmung. Der Encoder und MLP wurden für 50.000 Epochen mit einem Batch-Größe von 32 trainiert, wobei modality-spezifische Encoder für jede Aufgabe (d. h. SR, Text-SR, Low-Light) trainiert wurden.

Die Feinabstimmung erfolgte innerhalb von etwa drei Sekunden auf einem NVIDIA V100-GPU mit 32 GB VRAM. Die Autoren bemerken, dass, obwohl die On-Device-Optimierung das Zielumfeld und Szenario ist, es nicht realistisch war, dies für alle Frameworks zu implementieren, und daher alle Tests in einem Desktop-Umgebung durchgeführt wurden:

Leistungsvergleich gegen Metadaten-assistierte MLP-basierte Baselines, einschließlich SIREN, NeRF und der Hash-Grid-Methode, sowie blindes Wiederherstellungsverfahren mit NAFNet. Ergebnisse werden in PSNR in Dezibel über drei Aufgaben berichtet: natürliche Bild-Super-Auflösung auf DIV2K; Text-Super-Auflösung auf MARCONet; und Low-Light-Verbesserung auf LOL, wobei der vorgeschlagene Ansatz die höchsten Punktzahlen in jedem Fall erreicht.

Bei MLP-basierten Ansätzen hing die Leistung stark von der Eingabedarstellung ab, wobei Modelle, die nur mit räumlichen Koordinaten trainiert wurden, während der Vorabtrainierung und der begrenzten Feinabstimmungsphase Schwierigkeiten hatten. Die Hinzufügung von Farbinformationen führte zu besseren Ergebnissen.

Blindes Wiederherstellungsverfahren mit NAFNet funktionierte gut auf DIV2K, wo die Abbildung von degradierten zu sauberen Bildern relativ stabil war, aber auf MARCONet und LOL zusammenbrach, wo mehrere plausible Rekonstruktionen existierten und das Modell nicht über die erforderliche Information verfügte, um diese Mehrdeutigkeit aufzulösen.

Dieser Effekt war am deutlichsten bei der Low-Light-Verbesserung, wo die ursprüngliche Helligkeit der Szene nicht zuverlässig aus dem verarbeiteten Bild allein abgeleitet werden konnte.

Die Autoren erklären:

‘[In] den synthetischen MARCONet-Daten werden Bilder mit unterschiedlicher Verschlechterung auf dasselbe halluzinierte Bild abgebildet. Es kann aus den Ergebnissen ersehen werden, dass unser vorgeschlagener Ansatz die Konkurrenten in allen Datensätzen übertrifft.’

Im obigen Vergleich kann man sehen, wie gut verschiedene Methoden funktionieren, abhängig von der Zeit, die sie zum Laufen gebracht werden, wenn ein Foto aufgenommen wird. Das Training eines Modells von Scratch für jedes Bild kann starke Ergebnisse liefern, wie bei SIREN, NeRF und Hash-Grid zu sehen ist – aber dies dauert zu lange, um in einer Kamera praktisch zu sein.

Stattdessen erledigt der vorgeschlagene Ansatz die meiste Arbeit im Voraus, mit einer schnellen Anpassung bei der Aufnahme, was es ermöglicht, bessere Ergebnisse innerhalb enger Zeitlimits (3, 5 oder zehn Sekunden) zu liefern.

Oben sind qualitative Ergebnisse auf DIV2K zu sehen, wo Verbesserungsverfahren sichtbare Halluzinationen einführten. Ein GAN-basiertes Super-Auflösungs-Modell änderte die Augenfarbe, und blindes Wiederherstellungsverfahren hatte Schwierigkeiten, das ursprüngliche Bild zu rekonstruieren. NeRF und Hash-Grid produzierten Artefakte in strukturierten Bereichen wie Fenstern und Text, während der vorgeschlagene Ansatz dem authentischen Bild näher kam.

Schließlich zeigt die obige Abbildung Ergebnisse auf dem LOL-Datensatz, wobei die Helligkeit für die Visualisierung skaliert wurde.

Blindes Wiederherstellungsverfahren konnte die unbekannte Helligkeitsskala nicht auflösen, während der vorgeschlagene Ansatz Texturen und veränderte Zeichen besser rekonstruierte, wie z. B. die Korrektur eines “1” in “i”, ohne Artefakte hinzuzufügen.

Schlussfolgerung

Es ist wahrscheinlich nicht strittig, noch nie strittig war, dass “die Kamera nie lügt”. Jede Entscheidung darüber, was zu fotografieren ist und wann, sowie wie es präsentiert und kontextualisiert wird, ist in der Tat eine politische oder soziale Entscheidung.

Even die ältesten Methoden der Nachbearbeitung, wie Dodge und Burn (die längst auf Photoshop-Tools übertragen wurden), sind hochgradig subjektive Akte der künstlerischen Entscheidung und Vorliebe.

Dennoch ist es kein Grund, auf das Ziel “objektiver” Bildaufnahmen zu verzichten; und es scheint vernünftig, dass der durchschnittliche Verbraucher, auch wenn es mit einiger Schwierigkeit verbunden ist, Zugang zu den “unverfälschten” rohen Sensor-Dumps der Fotos haben sollte, die er macht, wenn er will; oder zumindest, dass er die ISP-Nachbearbeitung auf nicht-KI-Algorithmen beschränken darf, wie er es bevorzugen mag.

Erstveröffentlichung am Freitag, dem 24. April 2026