Connect with us

A Inteligência Artificial Pode Secretamente Classificar Imagens por Marca de Dispositivo, Não por Conteúdo

Ângulo de Anderson

A Inteligência Artificial Pode Secretamente Classificar Imagens por Marca de Dispositivo, Não por Conteúdo

mm
A robot preferring a Mac over other junked laptops in the blurred background. Flux 1D and Firefly, via Krita.

Nova pesquisa descobre que sistemas de inteligência artificial baseados em imagens populares não apenas olham para o que está em uma foto, mas também capturam como a foto foi tirada. Detalhes ocultos, como o tipo de câmera ou a qualidade da imagem, podem afetar silenciosamente o que a IA pensa que vê, levando a resultados errados – apenas porque a foto veio de um dispositivo diferente.

 

Em 2012, foi revelado que um site de viagens estava rotineiramente mostrando preços mais altos para usuários que podiam deduzir que estavam navegando em dispositivos Apple, equiparando a marca Apple com um poder de compra mais alto. Uma investigação posterior concluiu que essa “detecção de carteira” focada no dispositivo havia se tornado quase rotineira para sites de comércio eletrônico.

Da mesma forma, qual smartphone ou dispositivo de captura tirou uma fotografia particular pode ser deduzido por meios forenses, com base nas características conhecidas de uma quantidade limitada de lentes nos modelos. Nesses casos, o modelo de um dispositivo de captura é geralmente estimado por traços visuais; e, como no incidente de 2012, saber que tipo de câmera tirou uma imagem é uma característica potencialmente explorável.

Embora os dispositivos de captura tendam a incorporar metadados significativos em uma imagem, esse recurso pode ser frequentemente desativado pelos usuários; mesmo onde está ativado, plataformas de distribuição, como redes sociais, podem remover alguns ou todos os metadados, seja por razões logísticas ou de privacidade, ou ambos.

No entanto, metadados em imagens carregadas por usuários são frequentemente reescritos/interpretados (em vez de excluídos) ou deixados intactos, como uma fonte secundária de informação não sobre o que está na foto, mas sobre como a foto foi tirada. Como o caso de 2012 revelou, informações desse tipo podem ser valiosas – não apenas para plataformas comerciais, mas também, potencialmente, para hackers e atores mal-intencionados.

Dois Pontos de Vista

Uma nova colaboração de pesquisa entre o Japão e a República Tcheca descobriu que os traços deixados por hardware de câmera e processamento de imagem (como qualidade JPEG ou afinação de lente) não são apenas detectáveis por ferramentas forenses, mas também são silenciosamente codificados na ‘compreensão global’ de modelos de visão de IA de ponta.

Isso inclui CLIP e outros grandes codificadores visuais, que são amplamente usados em tudo, desde mecanismos de busca até moderação de conteúdo. O novo trabalho demonstra que esses modelos não apenas interpretam o que está na foto, mas também podem aprender como a foto foi feita; e esse sinal oculto pode, às vezes, superar o conteúdo visível.

Exemplos de pares de imagens do conjunto de dados PairCams dos autores, criado para testar como o tipo de câmera afeta os modelos de imagem de IA. Cada par mostra o mesmo objeto ou cena fotografado no mesmo momento usando um não smartphone (esquerda) e um smartphone (direita). Fonte: https://arxiv.org/pdf/2508.10637

Exemplos de pares de imagens do conjunto de dados PairCams dos autores, criado para testar como o tipo de câmera afeta os modelos de imagem de IA. Cada par mostra o mesmo objeto ou cena fotografado no mesmo momento usando um não smartphone (esquerda) e um smartphone (direita). Fonte: https://arxiv.org/pdf/2508.10637

O estudo afirma que, mesmo quando os modelos de IA são dados versões fortemente mascaradas ou recortadas de uma imagem, eles ainda podem adivinhar a marca e o modelo da câmera com surpreendente precisão. Isso significa que o espaço de representação que esses sistemas usam para julgar a semelhança de imagens pode se tornar emaranhado com fatores irrelevantes, como o dispositivo do usuário, com consequências imprevisíveis.

Por exemplo, em tarefas downstream, como classificação ou recuperação de imagens, esse “peso” indesejável pode fazer com que o sistema favoreça certos tipos de câmera, independentemente do que a imagem realmente mostra.

O artigo afirma:

‘Rótulos de metadados deixando traços em codificadores visuais ao ponto de ofuscar informações semânticas podem levar a resultados imprevisíveis, comprometendo a generalização, a robustez e potencialmente minando a confiabilidade dos modelos.

‘Mais criticamente, esse efeito pode ser explorado maliciosamente; por exemplo, um ataque adversarial pode manipular metadados para intencionalmente enganar ou enganar um modelo, apresentando riscos em domínios sensíveis como saúde, vigilância ou sistemas autônomos.’

O artigo descobre que sistemas de Visão-Contrastiva-Linguagem (CVL), como CLIP, agora um dos codificadores mais influentes em visão computacional, são particularmente propensos a obter essas inferências a partir dos dados:

Resultados de busca para uma imagem de consulta, mostrando como os modelos de base classificam imagens semelhantes com base não apenas no conteúdo visual, mas também em metadados ocultos, como compressão JPEG ou modelo de câmera. A figura reflete a afirmação dos autores de que tanto rótulos semânticos quanto metadados moldam o espaço de representação do modelo, às vezes alterando os resultados de recuperação.

Resultados de busca para uma imagem de consulta, mostrando como os modelos de base classificam imagens semelhantes com base não apenas no conteúdo visual, mas também em metadados ocultos, como compressão JPEG ou modelo de câmera.

O novo artigo é intitulado Traces de processamento e aquisição em codificadores visuais: O que CLIP sabe sobre sua câmera?, e vem de seis pesquisadores em todo o Japão e a Universidade Técnica da República Tcheca em Praga.

Método e Dados*

Para testar a influência de metadados ocultos em codificadores visuais, como CLIP, os autores trabalharam com duas categorias de metadados: parâmetros de processamento de imagem (como compressão JPEG ou transformações de cor) e parâmetros de aquisição (como modelo de câmera ou configurações de exposição).

Em vez de treinar novos modelos, os pesquisadores avaliaram 47 codificadores visuais amplamente usados em seu estado pré-treinado e congelado, incluindo modelos de visão-contrastiva-linguagem, como CLIP, modelos auto-supervisionados, como DINO, e redes supervisionadas.

Para parâmetros de processamento, os pesquisadores aplicaram transformações controladas nos conjuntos de dados ImageNet e iNaturalist 2018, incluindo seis níveis de compressão JPEG, três configurações de afinação, três escalas de redimensionamento e quatro métodos de interpolação.

Exemplos de imagens e anotações associadas do conjunto de dados iNaturalist. Fonte: https://arxiv.org/pdf/1707.06642

Exemplos de imagens e anotações associadas do conjunto de dados iNaturalist. Fonte: https://arxiv.org/pdf/1707.06642

Os modelos foram testados em sua capacidade de recuperar cada configuração de transformação usando apenas o conteúdo da imagem, com previsões bem-sucedidas indicando que o codificador retém informações sobre essas escolhas de processamento em sua representação interna.

Para examinar parâmetros de aquisição, os pesquisadores compilaram um conjunto de dados de 356.459 imagens chamado FlickrExif, contendo metadados Exif preservados, e construíram um segundo conjunto de dados chamado PairCams, composto por 730 pares de imagens capturadas simultaneamente com um smartphone e uma câmera não smartphone.

O conjunto de dados FlickrExif foi construído usando a API do Flickr para baixar imagens com metadados Exif acompanhantes. Entre 2.000 e 4.000 imagens seguras para trabalho foram coletadas por mês, datadas de início de 2000 até meados de 2024, e filtradas para incluir apenas aquelas com licenças permissivas. Para prevenir a super-representação por usuários prolíficos, cada contribuidor individual foi limitado a dez imagens por mês para qualquer ano dado.

Para o conjunto de dados PairCams, cada foto foi tirada usando configurações automáticas e sem flash, permitindo uma comparação de como os codificadores visuais respondem às diferenças em hardware de câmera sozinho, independentemente do conteúdo da imagem:

Mais exemplos do conjunto de dados PairCams curados pelos autores.

Mais exemplos do conjunto de dados PairCams curados pelos autores.

Os autores testaram para dois conjuntos de parâmetros: parâmetros de processamento de imagem, como compressão e transformações de cor; e parâmetros de aquisição de imagem, como modelo de câmera ou configurações de exposição:

Parâmetros de processamento e aquisição de imagem analisados, com número de classes para cada.

Parâmetros de processamento e aquisição de imagem analisados, com número de classes para cada.

Testes

Para determinar se informações sobre processamento de imagem e tipo de câmera são preservadas dentro das representações de codificadores visuais, os autores treinaram um classificador para prever rótulos de metadados diretamente a partir dessas representações. Se o classificador performou não melhor do que adivinhação aleatória, sugeriria que detalhes sobre processamento ou dispositivo não são capturados pelo modelo.

No entanto, qualquer desempenho acima do acaso indicaria que esses traços técnicos estão de fato sendo codificados e poderiam influenciar tarefas downstream.

Para testar traços de processamento, os autores atribuíram a cada imagem de treinamento um rótulo de processamento aleatório, como um nível particular de compressão JPEG, enquanto todas as imagens de teste em um lote compartilhavam o mesmo ajuste.

A precisão de classificação média em todos os ajustes foi então combinada com ensaios repetidos sob diferentes sementes aleatórias, para que pudesse ser determinado se detalhes técnicos de processamento de imagem eram consistentemente capturados na representação interna do modelo:

Precisão de classificação para prever parâmetros de processamento de imagem a partir de representações de codificador, usando um classificador linear aplicado a modelos congelados. Resultados são mostrados para compressão JPEG, afinação, redimensionamento e interpolação, com três categorias de modelo, visão-contrastiva-linguagem (laranja), supervisionada (verde) e auto-supervisionada (azul), avaliadas em ImageNet (linha superior) e iNaturalist 2018 (linha inferior). Linhas de base de adivinhação aleatória são marcadas com linhas tracejadas.

Precisão de classificação para prever parâmetros de processamento de imagem a partir de representações de codificador, usando um classificador linear aplicado a modelos congelados. Resultados são mostrados para compressão JPEG, afinação, redimensionamento e interpolação, com três categorias de modelo, visão-contrastiva-linguagem (laranja), supervisionada (verde) e auto-supervisionada (azul), avaliadas em ImageNet (linha superior) e iNaturalist 2018 (linha inferior). Linhas de base de adivinhação aleatória são marcadas com linhas tracejadas.

Em todos os quatro parâmetros de processamento, os modelos de visão-contrastiva-linguagem mostraram a maior capacidade de reconhecer manipulações de imagem ocultas. Alguns dos modelos alcançaram mais de 80% de precisão quando previssem configurações de compressão JPEG, afinação e redimensionamento a partir de representações de ImageNet.

Os codificadores supervisionados, particularmente aqueles baseados em ConvNeXt, também performaram fortemente, enquanto os modelos auto-supervisionados foram consistentemente mais fracos.

A interpolação foi o parâmetro mais difícil de detectar, mas os principais modelos CVL e supervisionados ainda alcançaram resultados bem acima da linha de base aleatória de 25% em ambos os conjuntos de dados.

Em seguida, para testar se informações de câmera estão incorporadas nas representações do modelo, os autores criaram conjuntos de treinamento e teste separados para cada parâmetro de aquisição (como marca de câmera, modelo de câmera, exposição, abertura, ISO e distância focal).

Para a maioria dos parâmetros, apenas classes com pelo menos 5.000 exemplos foram usadas; 500 imagens foram aleatoriamente definidas para teste, e os exemplos restantes foram subamostrados para que cada classe tivesse 200 amostras de treinamento. Para os parâmetros ‘modelo (todos)’ e ‘modelo (smart)’, que tinham menos dados por classe, os autores usaram classes com pelo menos 500 imagens e dividiram cada classe em subconjuntos de treinamento e teste na proporção de quatro para um.

Fotógrafos foram mantidos separados em conjuntos de treinamento, validação e teste, e um classificador simples foi treinado para prever informações de câmera com base nas características da imagem.

Para garantir que o classificador não fosse influenciado pelo conteúdo semântico das imagens, 90% de cada imagem foi mascarado centralmente (veja exemplos abaixo). Os autores afirmam que, nesse nível de mascaramento, todos os codificadores visuais performam perto do acaso em ImageNet, indicando que o sinal semântico foi efetivamente suprimido:

Precisão de classificação de ImageNet como uma função da razão de mascaramento. Em 90% de mascaramento, todos os modelos caem para perto do desempenho aleatório na previsão de rótulos semânticos, indicando que as dicas semânticas foram efetivamente removidas. As imagens de exemplo na parte inferior ilustram os níveis de mascaramento.

Precisão de classificação de ImageNet como uma função da razão de mascaramento. Em 90% de mascaramento, todos os modelos caem para perto do desempenho aleatório na previsão de rótulos semânticos, indicando que as dicas semânticas foram efetivamente removidas. As imagens de exemplo na parte inferior ilustram os níveis de mascaramento.

Mesmo com 90% de cada imagem mascarada, a maioria dos modelos de visão-contrastiva-linguagem e os codificadores supervisionados ConvNeXt ainda previram rótulos relacionados à câmera em níveis bem acima do acaso. Muitos modelos CVL excederam 70% de precisão em distinguir imagens de smartphone de não smartphone.

Outros codificadores supervisionados, SigLIP, e todos os modelos auto-supervisionados performaram muito pior. Quando nenhum mascaramento foi aplicado, os modelos CVL mostraram novamente a maior capacidade de agrupamento por tipo de câmera, confirmando que esses modelos incorporam informações de aquisição mais profundamente do que os outros:

Visualizações t-SNE para dois codificadores visuais, com cores indicando se cada imagem foi capturada por uma câmera smartphone ou não smartphone.

Visualizações t-SNE para dois codificadores visuais, com cores indicando se cada imagem foi capturada por uma câmera smartphone ou não smartphone.

Significância Downstream

Tendo estabelecido que metadados influenciam os modelos dessa maneira, a propensão para traços de processamento ocultos interferir com a interpretação de imagens foi então avaliada.

Quando duas versões da mesma imagem foram processadas de maneira diferente, as representações frequentemente foram organizadas de acordo com o estilo de processamento em vez do conteúdo. Em vários casos, uma foto fortemente comprimida de um cachorro foi tratada como mais semelhante a uma imagem não relacionada com o mesmo ajuste de compressão do que à sua própria versão não comprimida:

Impacto de parâmetros de processamento na previsão semântica, apresentando precisão de classificação semântica para ImageNet (topo) e iNaturalist (fundo) sob cinco configurações de processamento. Na linha de base, todas as imagens de treinamento e teste compartilham o mesmo rótulo de processamento; no conjunto all-diff, a imagem de teste usa um valor de processamento não presente no conjunto de treinamento; em pos-same e neg-same, o rótulo de processamento é alinhado com imagens semanticamente semelhantes ou dissimilares; no conjunto uniforme, rótulos de processamento são atribuídos aleatoriamente ao longo do conjunto de treinamento. Resultados são relatados usando k = 10 para ImageNet e k = 1 para iNaturalist.

Impacto de parâmetros de processamento na previsão semântica, apresentando precisão de classificação semântica para ImageNet (topo) e iNaturalist (fundo) sob cinco configurações de processamento. Na linha de base, todas as imagens de treinamento e teste compartilham o mesmo rótulo de processamento; no conjunto all-diff, a imagem de teste usa um valor de processamento não presente no conjunto de treinamento; em pos-same e neg-same, o rótulo de processamento é alinhado com imagens semanticamente semelhantes ou dissimilares; no conjunto uniforme, rótulos de processamento são atribuídos aleatoriamente ao longo do conjunto de treinamento. Resultados são relatados usando k = 10 para ImageNet e k = 1 para iNaturalist.

As distorções mais fortes foram causadas pela compressão JPEG, seguida por afinação e redimensionamento, enquanto a interpolação produziu apenas um efeito menor. Os autores afirmam que esses resultados demonstram que traços de processamento podem superar informações semânticas e ditar como uma imagem é compreendida.

Em conclusão, eles advertiram:

‘Embora tenhamos identificado que rótulos de metadados são codificados em codificadores visuais fundamentais e fornecido dicas sobre causas potenciais, não podemos definitivamente apontar a fonte do problema. Investigar isso mais a fundo é desafiador devido ao custo de retreinar esses modelos e ao uso frequente de conjuntos de dados privados e detalhes de implementação não divulgados.

‘Embora não proponhamos técnicas de mitigação específicas, destacamos a questão como uma área importante para pesquisas futuras.’

Conclusão

Na literatura, há um interesse forense crescente com relação aos traços e sinais de ‘método sobre conteúdo’; quanto mais fácil for identificar um domínio de moldura ou um conjunto de dados específico, mais fácil será aproveitar essa informação na forma de, por exemplo, detectores de deepfakes, ou sistemas projetados para categorizar a proveniência ou a idade de dados e modelos.

Isso vai contra a intenção central de treinar modelos de IA, que é que conceitos centrais distillados sejam curados independentemente dos meios de produção e não devem conter nenhum traço deles. Na verdade, conjuntos de dados e dispositivos de captura têm características e traços de domínio que são efetivamente impossíveis de separar do conteúdo, porque, em si mesmos, também representam uma ‘perspectiva histórica’.

 

* O artigo é apresentado de forma não convencional, e vamos nos adaptar da melhor forma possível à sua formatação e apresentação incomuns. Uma grande quantidade de material que deveria estar em uma seção de ‘Método’ (inexistente) foi transferida para diversas partes do apêndice, presumivelmente para restringir o artigo principal a oito páginas – embora com o considerável custo da clareza. Se perdemos alguma oportunidade de melhorar isso, devido à falta de tempo, pedimos desculpas.

Publicado pela primeira vez na quarta-feira, 20 de agosto de 2025

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.