Ângulo de Anderson

Restaurando o que a sua câmera capturou antes de o AI alterá-lo

mm
AI-generated image (GPT-2). A photographer examines an open DSLR as a stream of colorful fantasy creatures and glowing imagery bursts out, while he reacts with focused, subdued surprise in a studio setting.

Como você pode proteger a santidade de uma fotografia bruta de interferência do AI quando ela já foi processada automaticamente pelo AI dentro da câmera? Nova pesquisa busca restaurar os dados ‘verdadeiros’ do sensor – também com o AI!

 

O aumento da autenticidade de imagens do AI nos últimos anos ou mais tem causado muitos grupos e indivíduos a se mobilizar contra a subsequente erosão da confiança na fotografia.

No mesmo período, a Coalizão para Proveniência e Autenticidade de Conteúdo (C2PA) tentou difundir um padrão semi-cryptográfico que anexa informações de proveniência baseadas em metadados a uma imagem, desde o momento em que ela é capturada por uma câmera ou dispositivo compatível, na esperança de desmascarar qualquer uso subsequente de AI geradora nessas ‘imagens originais’:

Esquema de proveniência no sistema C2PA, onde metadados escritos no momento da captura podem ser adicionados como um diário, permitindo ajustes costumeiros como brilho e contraste, mas registrando ajustes importantes para que uma imagem fortemente alterada pelo AI seja exibida como tal em meios de comunicação que suportam esse sistema. Fonte  - https://spec.c2pa.org/specifications/specifications/1.2/specs/

Esquema de proveniência no sistema C2PA, onde metadados escritos no momento da captura podem ser adicionados como um diário, permitindo ajustes costumeiros como brilho e contraste, mas registrando ajustes importantes, para que uma imagem fortemente alterada pelo AI seja exibida como tal em meios de comunicação que suportam esse sistema. Fonte

A adoção do padrão não foi tão ampla quanto a coalizão havia esperado, e atualmente apenas 14 câmeras suportam a gravação de informações de autenticidade dentro da câmera.

O que é interessante sobre a ideia da C2PA de dar a uma foto um ‘passaporte’ assim que ela vem a existir, é que, nesse momento, talvez já seja tarde demais – porque os fabricantes de câmeras agora rotineiramente incorporam processamento de AI na própria criação da imagem:

Do artigo de 2024 'Advocating Pixel-Level Authentication of Camera-Captured Images': uma ilustração de como os pipelines de câmera modernos introduzem conteúdo alucinado no momento da captura e como a autenticação de metadados de nível de pixel expõe isso. Em (A), uma imagem de sensor de smartphone é processada pelo ISP, onde módulos de AI podem inventar detalhes durante o zoom digital ou correção de exposição, produzindo imagens realistas com erros, como dígitos de placas de licença mal lidos. Em (B), uma máscara de autenticação é incorporada como metadados e posteriormente sobreposta para revelar regiões não autênticas, permitindo que os usuários distinguam dados originais de pixels alterados pelo AI.  Fonte – https://ieeexplore.ieee.org/ielx7/6287639/10380310/10478521.pdf?tp=&arnumber=10478521&isnumber=10380310&ref=aHR0cHM6Ly9zY2hvbGFyLmdvb2dsZS5jb20ucHkv

Do artigo de 2024 ‘Advocating Pixel-Level Authentication of Camera-Captured Images’: uma ilustração de como os pipelines de câmera modernos introduzem conteúdo alucinado no momento da captura e como a autenticação de metadados de nível de pixel expõe isso. Em (A), uma imagem de sensor de smartphone é processada pelo ISP, onde módulos de AI podem inventar detalhes durante o zoom digital ou correção de exposição, produzindo imagens realistas com erros, como dígitos de placas de licença mal lidos. Em (B), uma máscara de autenticação é incorporada como metadados e posteriormente sobreposta para revelar regiões não autênticas, permitindo que os usuários distinguam dados originais de pixels alterados pelo AI.  Fonte

Na verdade, essa interferência do AI na captura de dados brutos da câmera poderia eventualmente se tornar o processo governante.

Esse tipo de pós-processamento não é o mesmo que a tendência atual de alterar fotos na câmera, em que um aplicativo de telefone ou um aplicativo de câmera permite que o usuário repense uma foto com tranquilidade antes de baixá-la do dispositivo.

Mais especificamente, o processamento acontece em uma rotina ‘caixa preta’ no processador de sinal de imagem (ISP) da câmera, geralmente em um tempo de execução proprietário que não expõe ou torna disponível os dados brutos do sensor (e considere que o formato de câmera RAW supostamente ‘puro’ não é tão ‘puro’).

Portanto, quando você consegue ver a foto, ela pode ter sido submetida a melhorias auxiliadas por AI, como melhoria de baixa luz, escalonamento ou até substituição da lua.

Em muitos casos, isso pode levar a reconstruções imprecisas, por exemplo, de texto, que podem invalidar o uso de tal imagem como evidência, pois uma imagem ‘bruta’ real não estaria disponível:

Do novo artigo - uma imagem de sensor RAW é processada por um ISP habilitado para GenAI para produzir uma saída sRGB final que parece mais clara, mas pode conter detalhes alucinados, como mostrado no exemplo da placa de licença, onde os caracteres são inferidos incorretamente durante o zoom digital. A cena real, que não é acessível na prática, difere tanto da saída melhorada pelo AI quanto da imagem autêntica anterior à alucinação. A abordagem proposta permite a recuperação dessa imagem pré-alucinação, restaurando o que a óptica da câmera originalmente capturou antes que as melhorias baseadas em AI modificassem o conteúdo. Fonte - https://arxiv.org/pdf/2604.21879

Do novo artigo – uma imagem de sensor RAW é processada por um ISP habilitado para GenAI para produzir uma saída sRGB final que parece mais clara, mas pode conter detalhes alucinados, como mostrado no exemplo da placa de licença, onde os caracteres são inferidos incorretamente durante o zoom digital. A cena real, que não é acessível na prática, difere tanto da saída melhorada pelo AI quanto da imagem autêntica anterior à alucinação. A abordagem proposta permite a recuperação dessa imagem pré-alucinação, restaurando o que a óptica da câmera originalmente capturou antes que as melhorias baseadas em AI modificassem o conteúdo. Fonte

Os exemplos acima vêm de um novo artigo de pesquisa que oferece uma solução para ‘fotos nativas do AI’, usando processos de AI alternativos para reconstruir a imagem bruta e não adulterada estimada a partir da imagem processada.

Os autores afirmam:

‘Quando modelos de AI treinados com perdas gerativas ou perceptuais são usados em ISPs, eles são propensos a alucinar conteúdo, potencialmente alterando o significado da imagem. A implicação é que as imagens diretamente saídas da câmera podem conter conteúdo ‘falso’, especialmente em câmeras de smartphone, onde módulos de AI-ISP estão vendo uma adoção crescente.

‘O uso de GenAI em hardware de câmera marca uma mudança de paradigma em como vemos as imagens da câmera e desafia a visão forense tradicional de imagens capturadas pela câmera como inherentemente confiáveis.’

O novo trabalho usa um codificador leve e um MLP decodificador, que pode ser incluído dentro da imagem com uma penalidade de peso de apenas 180kb. O objetivo é o desenvolvimento de sistemas de codificação rápidos o suficiente para reextrair a imagem original em tempo real.

Do novo artigo: super-resolução baseada em GenAI dentro do ISP da câmera pode alterar sutilmente recursos faciais, mudando a aparência ou identidade percebida por meio de mudanças no olhar e forma da boca. A melhoria de baixa luz pode modificar o conteúdo da imagem de forma semelhante, afetando a interpretação, apesar de melhorar a qualidade visual. No exemplo do código QR, a melhoria torna a imagem mais atraente, mas torna o código ilegível. O método permite a recuperação da imagem autêntica antes dessas alucinações, restaurando detalhes faciais originais e um código QR legível.

Do novo artigo: super-resolução baseada em GenAI dentro do ISP da câmera pode alterar sutilmente recursos faciais, mudando a aparência ou identidade percebida por meio de mudanças no olhar e forma da boca. A melhoria de baixa luz pode modificar o conteúdo da imagem de forma semelhante, afetando a interpretação, apesar de melhorar a qualidade visual. No exemplo do código QR, a melhoria torna a imagem mais atraente, mas torna o código ilegível. O método permite a recuperação da imagem autêntica antes dessas alucinações, restaurando detalhes faciais originais e um código QR legível.

Alternativamente, os fabricantes de câmeras poderiam dar aos usuários acesso aos dumps de sensor não adulterados; no entanto, isso parece provável de permanecer restrito a equipamentos de alta gama. No espaço de consumo e popular, infelizmente, o acesso a fotos não processadas pode ser considerado um objetivo ‘de nicho’ ou marginal.

Enquanto as câmeras de consumidor sempre aplicaram algum nível de pós-processamento, antes do advento do AI de borda, os algoritmos usados eram minimamente ‘interpretativos’ e não prováveis de alterar o conteúdo de uma foto da mesma forma significativa que os métodos de AI atuais podem.

Interessantemente, considerando a extensão com que a política de ‘substituição da lua’ da Samsung foi sujeita a críticas públicas alguns anos atrás, o Centro de AI da Samsung em Toronto é um dos participantes do novo trabalho, que é intitulado Addressing Image Authenticity When Cameras Use Generative AI, e é liderado por contribuições de cinco pesquisadores da Universidade de Toronto.

Método

Os autores utilizam o único outro projeto que parece ter abordado diretamente a questão da perturbação por design: o artigo de 2024 Advocating Pixel-Level Authentication of Camera-Captured Images, que propôs uma ‘máscara de autenticação binária’ que delimita áreas alteradas por processos de AI dentro da câmera:

À direita, a 'máscara de autenticação' do artigo de 2024 revela áreas do céu afetadas por processos de 'suavização' do AI em uma câmera.

À direita, a ‘máscara de autenticação’ do artigo de 2024 revela áreas do céu afetadas por processos de ‘suavização’ do AI em uma câmera.

No entanto, o sistema não ofereceu um método para recuperar uma imagem ‘verdadeira’, o que o novo trabalho aborda, enquanto reconhece uma dívida para com o trabalho anterior.

O objetivo do novo trabalho é permitir que os usuários recuperem uma imagem o mais próxima possível do que realmente atingiu o sensor antes que o processamento ocorresse:

Visão geral do método proposto. Em (A), no momento da captura, a imagem de saída do ISP que contém alucinações é passada por um codificador pré-treinado congelado, e suas características latentes são combinadas com coordenadas espaciais e alimentadas em um MLP que opera por pixel para prever a imagem não alucinada, com treinamento orientado por uma perda contra a imagem autêntica. Os pesos do codificador e do MLP são então salvos como metadados ao lado da imagem. Em (B), no momento da inferência, esses pesos são recuperados dos metadados e usados com o codificador e o MLP para reconstruir a imagem não alucinada.

Visão geral do método proposto. Em (A), no momento da captura, a imagem de saída do ISP que contém alucinações é passada por um codificador pré-treinado congelado, e suas características latentes são combinadas com coordenadas espaciais e alimentadas em um MLP que opera por pixel para prever a imagem não alucinada, com treinamento orientado por uma perda contra a imagem autêntica. Os pesos do codificador e do MLP são então salvos como metadados ao lado da imagem. Em (B), no momento da inferência, esses pesos são recuperados dos metadados e usados com o codificador e o MLP para reconstruir a imagem não alucinada.

No momento da captura, no novo método, a imagem processada é passada por um codificador congelado que a converte em uma representação latente compacta.  Posteriormente, as coordenadas espaciais relevantes são combinadas com esses recursos e alimentadas em um MLP leve que opera por pixel, para prever o conteúdo da imagem original – aprendendo, efetivamente, a subtrair os elementos alucinados por meio de uma perda de reconstrução, contra alvos autênticos.

O codificador e o decodificador são pré-treinados em conjuntos de dados emparelhados autênticos e alucinados, então rapidamente ajustados para cada imagem capturada, com seus pesos armazenados como metadados ao lado da foto em si, adicionando apenas uma pequena sobrecarga de tamanho.

No momento da visualização, esses pesos armazenados são extraídos e reutilizados para executar o mesmo codificador e MLP, permitindo a recuperação de uma imagem que se aproxima de perto do que o sensor da câmera originalmente capturou, sem introduzir novo conteúdo sintético.

Dados e Testes

Os autores testaram o novo método usando duas das tarefas de pós-processamento do ISP mais comumente implementadas: super-resolução (SR, incluindo para áreas ampliadas); e fotografia de baixa luz.

Para a seção de SR de ‘imagens naturais’ dos testes, muitos exemplos de texto foram incluídos nos dados, pois as rotinas de SR do ISP são conhecidas por alterar o texto (por exemplo, de placas de licença de carros, mas veja exemplos anteriores no artigo). Como a distorção do texto é um problema discreto por si só, isso foi tratado como um subconjunto dos testes de SR, com dados dedicados.

O codificador mencionado anteriormente foi treinado para cada uma das duas modalidades testadas, e cada um foi selecionado com base em qual módulo de AI do ISP provavelmente seria ativado durante a captura (por exemplo, um módulo de ‘baixa luz’, em condições escuras).

Os autores usaram o conjunto de dados DIV2K para o treinamento de super-resolução, impulsionado pela rede RealESRGAN popular. Em linha com o trabalho de 2024 sobre interferência do ISP, os pesquisadores geraram dados emparelhados com conteúdo afetado e não afetado por alucinações.

Para a seção de SR de texto, os autores usaram o modelo de SR de texto MARCONet de 2023:

Do artigo MARCONet de 2023, exemplos de textos de baixa resolução e equivalentes ampliados no mundo real. Fonte - https://arxiv.org/pdf/2303.14726

Do artigo MARCONet de 2023, exemplos de textos de baixa resolução e equivalentes ampliados no mundo real. Fonte

Para criar dados emparelhados, os pesquisadores executaram imagens não alucinadas pelo MARCONet. Dois mil imagens foram geradas a partir do código original do projeto, com 200 reservados para validação, juntamente com outros 200 para teste.

Para os testes de baixa luz, o conjunto de dados LOw-Light (LOL) do artigo chinês de 2018 foi adotado:

Do conjunto de dados LOL chinês de 2018, exemplos entre parênteses das mesmas imagens em diferentes exposições e níveis de escuridão e degradação. Fonte - https://arxiv.org/pdf/1808.04560

Do conjunto de dados LOL chinês de 2018, exemplos entre parênteses das mesmas imagens em diferentes exposições e níveis de escuridão e degradação. Fonte

Frameworks Rivais

Para avaliar o método, comparações foram feitas com três linhas de base específicas treinadas sob condições correspondentes. Primeiro, SIREN e NeRF foram pré-treinados em imagens autênticas e alucinadas emparelhadas e, em seguida, ajustados no momento da captura pelo mesmo período que a abordagem proposta, oferecendo uma comparação direta com NeRF.

Em segundo lugar, um MLP com uma codificação aprendida com base no método hashgrid do Instant-NGP foi usado, com as entradas da tabela de hash e do MLP otimizadas conjuntamente.

O tamanho da incorporação e a capacidade da rede foram correspondidos ao codificador e ao MLP alvo, com experimentos cobrindo tanto a otimização por imagem a partir do zero quanto o pré-treinamento seguido de ajuste fino.

Terceiro, uma linha de base de tradução de imagem cega para imagem foi implementada usando um modelo NAFNet de 64MB, treinado como um sistema de regressão pixel a pixel sem acesso a metadados.

Em treinamento, o otimizador Adam foi usado sobre PyTorch, tanto para pré-treinamento quanto para ajuste fino. O codificador e o MLP foram treinados por 50.000 épocas com um tamanho de lote de 32, com codificadores modais específicos treinados para cada tarefa (por exemplo, SR, SR de texto, baixa luz).

O ajuste fino ocorreu por cerca de três segundos em uma GPU NVIDIA V100 com 32GB de VRAM. Os autores observam que, embora a otimização no dispositivo seja o ambiente e cenário alvo, não foi realista implementá-lo para todos os frameworks, e, portanto, todos os testes foram realizados em um ambiente de desktop:

Comparações de desempenho contra linhas de base MLP com assistência de metadados, incluindo SIREN, NeRF e o método hash-grid, ao lado da recuperação cega usando NAFNet. Os resultados são relatados em decibéis de PSNR em três tarefas: super-resolução de imagens naturais no DIV2K; super-resolução de texto no MARCONet; e melhoria de baixa luz no LOL, com o método proposto alcançando as pontuações mais altas em cada caso.

Comparações de desempenho contra linhas de base MLP com assistência de metadados, incluindo SIREN, NeRF e o método hash-grid, ao lado da recuperação cega usando NAFNet. Os resultados são relatados em decibéis de PSNR em três tarefas: super-resolução de imagens naturais no DIV2K; super-resolução de texto no MARCONet; e melhoria de baixa luz no LOL, com o método dos autores alcançando as pontuações mais altas em cada caso.

Para as abordagens baseadas em MLP, o desempenho dependia fortemente da representação de entrada, onde os modelos treinados usando apenas coordenadas espaciais lutaram durante o pré-treinamento e não conseguiram melhorar durante a fase de ajuste fino limitada. Adicionar informações de cor levou a resultados mais fortes.

A recuperação cega usando NAFNet se saiu bem no DIV2K, onde o mapeamento de imagens degradadas para limpas era relativamente estável, mas falhou no MARCONet e LOL, onde existiam reconstruções plausíveis múltiplas e o modelo carecia de informações para resolver essa ambiguidade.

Esse efeito foi mais pronunciado na melhoria de baixa luz, onde a luminosidade original da cena não podia ser inferida com confiabilidade a partir da imagem processada sozinha.

Os autores afirmam:

‘[No] conjunto de dados sintéticos MARCONet, imagens com diferentes forças de borramento mapeiam a mesma imagem alucinada. Pode ser visto nos resultados que nossa abordagem proposta supera os concorrentes em todos os conjuntos de dados.’

Na comparação acima, podemos ver como bem diferentes métodos se saem dependendo do tempo que eles têm para executar no momento em que uma foto é tirada. Treinar um modelo a partir do zero para cada imagem pode produzir resultados fortes, como visto com SIREN, NeRF e hash-grid – mas isso leva muito tempo para ser prático dentro de uma câmera.

Em vez disso, o método dos autores faz a maior parte do trabalho com antecedência, com um ajuste rápido no momento da captura, permitindo que ele entregue melhores resultados dentro de limites de tempo apertados (3, 5 ou dez segundos).

Comparações de desempenho contra linhas de base MLP com assistência de metadados, incluindo SIREN, NeRF e o método hash-grid, ao lado da recuperação cega usando NAFNet. Os resultados são relatados em decibéis de PSNR em três tarefas: super-resolução de imagens naturais no DIV2K; super-resolução de texto no MARCONet; e melhoria de baixa luz no LOL, com o método proposto alcançando as pontuações mais altas em cada caso.

Comparações de desempenho contra linhas de base MLP com assistência de metadados, incluindo SIREN, NeRF e o método hash-grid, ao lado da recuperação cega usando NAFNet. Os resultados são relatados em decibéis de PSNR em três tarefas: super-resolução de imagens naturais no DIV2K; super-resolução de texto no MARCONet; e melhoria de baixa luz no LOL, com o método dos autores alcançando as pontuações mais altas em cada caso. Por favor, consulte o artigo original para (ligeiramente) melhor resolução.

Aqui estão mostrados resultados qualitativos no DIV2K, onde os métodos de melhoria introduziram alucinações visíveis. Um modelo de super-resolução baseado em GAN alterou a cor dos olhos, e a recuperação cega lutou para reconstruir a imagem original. NeRF e hash-grid produziram artefatos em regiões estruturadas, como janelas e texto, enquanto o método proposto se aproximou mais da imagem autêntica.

Finalmente, na figura acima, vemos resultados no conjunto de dados LOL, com brilho escalado para visualização.

A recuperação cega não conseguiu resolver a escala de brilho desconhecida, enquanto o método proposto reconstruiu melhor texturas e restaurou caracteres alterados, como corrigir um ‘1’ de volta para ‘i’, sem adicionar artefatos.

Conclusão

Provavelmente não é argumentável, nem nunca foi, que ‘a câmera nunca mente’. Cada decisão sobre o que fotografar e quando fotografá-lo, juntamente com como apresentá-lo e contextualizá-lo, é, na verdade, uma decisão política ou social.

Mesmo os métodos mais antigos de pós-processamento, como dodge e burn (já transferidos para ferramentas do Photoshop) são atos altamente subjetivos de decisão artística e preferência.

No entanto, isso não é motivo para desistir do objetivo de capturas de imagens ‘objetivas’; e parece razoável que o consumidor médio deva ser permitido, mesmo com alguma dificuldade, a acessar os ‘desmassados’ dumps de sensor brutos das fotos que tiram, se quiserem; ou pelo menos, que sejam permitidos a restringir o pós-processamento do ISP a algoritmos não baseados em AI, como possam preferir.

 

Publicado pela primeira vez na sexta-feira, 24 de abril de 2026

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.