Connect with us

Imagens Autoautenticadas por meio da Simples Compressão JPEG

Ângulo de Anderson

Imagens Autoautenticadas por meio da Simples Compressão JPEG

mm
Source: https://www.pexels.com/photo/woman-in-gray-tank-top-showing-distress-3812745/

Preocupações sobre os riscos impostos por imagens manipuladas têm surgido regularmente na pesquisa nos últimos anos, particularmente à luz de um novo surto de frameworks de edição de imagens baseados em IA capazes de alterar imagens existentes, em vez de criá-las do zero.

A maioria dos sistemas de detecção propostos para lidar com esse tipo de conteúdo se enquadra em uma de duas categorias: a primeira é a marca d’água – uma abordagem de fallback incorporada ao framework de veracidade de imagem agora promovido pela Coalizão para a Proveniência e Autenticidade de Conteúdo (C2PA).

O procedimento de marca d'água do C2PA é um fallback, caso o conteúdo da imagem se separe de seu manifesto original e contínuo. Fonte: https://www.imatag.com/blog/enhancing-content-integrity-c2pa-invisible-watermarking

O procedimento de marca d’água do C2PA é um fallback, caso o conteúdo da imagem se separe de seu manifesto original e contínuo. Fonte: https://www.imatag.com/blog/enhancing-content-integrity-c2pa-invisible-watermarking

Esses ‘sinais secretos’ devem ser subsequentemente robustos aos procedimentos automáticos de re-encoding/otimização que ocorrem frequentemente enquanto uma imagem transita por redes sociais e por portais e plataformas – mas eles nem sempre são resilientes ao tipo de re-encoding com perda aplicado por meio da compressão JPEG (e apesar da concorrência de pretensos como webp, o formato JPEG ainda é usado para cerca de 74,5% de todas as imagens de sites).

A segunda abordagem é tornar as imagens evidentes de manipulação, como inicialmente proposto no artigo de 2013 Esquema de Autenticação de Integridade de Imagem Baseado na Teoria do Ponto Fixo. Em vez de confiar em marcas d’água ou assinaturas digitais, esse método usou uma transformação matemática chamada Convolução e Desconvolução Gaussiana (GCD) para impulsionar as imagens em direção a um estado estável que se quebraria se alterado.

Resultados de localização de manipulação usando uma imagem de ponto fixo com uma relação sinal-ruído de pico (PSNR) de 59,7802 dB. Retângulos brancos indicam as regiões submetidas a ataques. Painel A (esquerda) exibe as modificações aplicadas, incluindo ruído localizado, filtragem e ataques de cópia. Painel B (direita) mostra a saída de detecção correspondente, destacando as áreas manipuladas identificadas pelo processo de autenticação. Fonte: https://arxiv.org/pdf/1308.0679

Do artigo ‘Esquema de Autenticação de Integridade de Imagem Baseado na Teoria do Ponto Fixo’: resultados de localização de manipulação usando uma imagem de ponto fixo com uma relação sinal-ruído de pico (PSNR) de 59,7802 dB. Retângulos brancos indicam as regiões submetidas a ataques. Painel A (esquerda) exibe as modificações aplicadas, incluindo ruído localizado, filtragem e ataques de cópia. Painel B (direita) mostra a saída de detecção correspondente, destacando as áreas manipuladas identificadas pelo processo de autenticação. Fonte: https://arxiv.org/pdf/1308.0679

O conceito é talvez mais facilmente entendido no contexto de reparar um tecido de renda delicado: não importa quão fino seja o artesanato empregado na reparação do filigrana, a seção reparada será inevitavelmente discernível.

Essa transformação, quando aplicada repetidamente a uma imagem em escala de cinza, gradualmente impulsiona a imagem em direção a um estado onde aplicar a transformação novamente não produz mais alterações.

Essa versão estável da imagem é chamada de ponto fixo. Pontos fixos são raros e altamente sensíveis a alterações – qualquer pequena modificação em uma imagem de ponto fixo quase certamente quebrará seu status de ponto fixo, tornando fácil detectar manipulação.

Como usual com essas abordagens, os artefatos da compressão JPEG podem ameaçar a integridade do esquema:

À esquerda, vemos uma marca d'água aplicada ao rosto da icônica imagem 'Lenna' (Lena), que é clara sob compressão normal. À direita, com 90% de compressão JPEG, podemos ver que a distinção entre a marca d'água percebida e o crescimento do ruído JPEG está diminuindo. Após múltiplas regravações ou nos ajustes de compressão mais altos, a maioria dos esquemas de marca d'água enfrenta problemas com artefatos de compressão JPEG. Fonte: https://arxiv.org/pdf/2106.14150

À esquerda, vemos uma marca d’água aplicada ao rosto da icônica imagem ‘Lenna’ (Lena), que é clara sob compressão normal. À direita, com 90% de compressão JPEG, podemos ver que a distinção entre a marca d’água percebida e o crescimento do ruído JPEG está diminuindo. Após múltiplas regravações ou nos ajustes de compressão mais altos, a maioria dos esquemas de marca d’água enfrenta problemas com artefatos de compressão JPEG. Fonte: https://arxiv.org/pdf/2106.14150

E se, em vez disso, os artefatos de compressão JPEG pudessem ser usados como o principal meio de obtenção de um ponto fixo? Nesse caso, não haveria necessidade de sistemas adicionais, pois o mesmo mecanismo que normalmente causa problemas para a marca d’água e a detecção de manipulação formaria a base do próprio framework de detecção de manipulação.

Compressão JPEG como Linha de Base de Segurança

Um sistema como esse é apresentado em um novo artigo de dois pesquisadores da Universidade de Buffalo, na Universidade Estadual de Nova York. Intitulado Imagem Evidente de Manipulação Usando Pontos Fixos JPEG, o novo trabalho se baseia no trabalho de 2013 e em trabalhos relacionados, oficialmente formulando seus princípios centrais, pela primeira vez, e ingeniosamente aproveitando a compressão JPEG em si como um método para potencialmente produzir uma imagem ‘autoautenticada’.

Os autores expandem:

‘O estudo revela que uma imagem permanece inalterada após passar por várias rodadas do mesmo processo de compressão e descompressão JPEG. ‘

‘Em outras palavras, se um único ciclo de compressão e descompressão JPEG for considerado uma transformação da imagem, referida como uma transformação JPEG, então essa transformação exibe a propriedade de ter pontos fixos, ou seja, imagens que permanecem inalteradas quando a transformação JPEG é aplicada.’

Da novo artigo, uma ilustração da convergência de pontos fixos JPEG. Na linha superior, vemos uma imagem de exemplo passando por compressão JPEG repetida, com cada iteração mostrando o número e a localização de pixels alterados; na linha inferior, a distância L2 pixel a pixel entre iterações consecutivas é plotada em diferentes configurações de qualidade de compressão. Ironia, nenhuma resolução melhor dessa imagem está disponível. Fonte: https://arxiv.org/pdf/2504.17594

Da novo artigo, uma ilustração da convergência de pontos fixos JPEG. Na linha superior, vemos uma imagem de exemplo passando por compressão JPEG repetida, com cada iteração mostrando o número e a localização de pixels alterados; na linha inferior, a distância L2 pixel a pixel entre iterações consecutivas é plotada em diferentes configurações de qualidade de compressão. Ironia, nenhuma resolução melhor dessa imagem está disponível. Fonte: https://arxiv.org/pdf/2504.17594

Em vez de introduzir transformações ou marcas d’água externas, o novo artigo define o processo JPEG em si como um sistema dinâmico. Nesse modelo, cada ciclo de compressão e descompressão move a imagem em direção a um ponto fixo. Os autores provam que, após um número finito de iterações, qualquer imagem atinge ou aproxima um estado em que a compressão adicional não produzirá alterações.

Os pesquisadores afirmam*:

‘Qualquer alteração na imagem causará desvios dos pontos fixos JPEG, que podem ser detectados como alterações nos blocos JPEG após um único ciclo de compressão e descompressão JPEG…

‘As imagens evidentes de manipulação propostas com base em pontos fixos JPEG têm duas vantagens. Primeiramente, as imagens evidentes de manipulação eliminam a necessidade de armazenamento externo de recursos verificáveis, como exigido por esquemas de impressão digital de imagem [esquemas], ou a incorporação de traços ocultos, como em métodos de marca d’água de imagem. A própria imagem serve como prova de autenticidade, tornando o esquema intrinsicamente autoevidente.

‘Em segundo lugar, como o JPEG é um formato amplamente utilizado e frequentemente a última etapa na pipeline de processamento de imagem, o método proposto é resiliente às operações JPEG. Isso contrasta com a abordagem original [abordagem] que pode perder traços de integridade devido ao JPEG.’

A principal percepção do artigo é que a convergência JPEG não é apenas um subproduto de seu design, mas um resultado matematicamente inevitável de suas operações. A transformada do cosseno discreto, quantização, arredondamento e truncamento juntos formam uma transformação que (sob as condições certas) leva a um conjunto previsível de pontos fixos.

Esquema para o processo de compressão/descompressão JPEG formulado para o novo trabalho.

Esquema para o processo de compressão/descompressão JPEG formulado para o novo trabalho.

Ao contrário da marca d’água, esse método não requer sinal incorporado. A única referência é a própria consistência da imagem sob compressão adicional. Se a recompressão não produz alterações, a imagem é presumida autêntica. Se produz, a manipulação é indicada pela divergência.

Testes

Os autores validaram esse comportamento usando um milhão de patches de imagem em escala de cinza de 8×8 pixels gerados aleatoriamente. Ao aplicar compressão e descompressão JPEG repetidas a esses patches sintéticos, eles observaram que a convergência para um ponto fixo ocorre dentro de um número finito de etapas. Esse processo foi monitorado medindo a distância L2 pixel a pixel entre iterações consecutivas, com as diferenças diminuindo até que os patches se estabilizassem.

Diferença L2 entre iterações consecutivas para um milhão de patches de 8x8, medidas sob diferentes qualidades de compressão JPEG. Cada processo começa com um patch de imagem comprimido por JPEG e rastreia a redução da diferença em compressões repetidas.

Diferença L2 entre iterações consecutivas para um milhão de patches de 8×8, medidas sob diferentes qualidades de compressão JPEG. Cada processo começa com um patch de imagem comprimido por JPEG e rastreia a redução da diferença em compressões repetidas.

Para avaliar a detecção de manipulação, os autores construíram imagens evidentes de manipulação JPEG e aplicaram quatro tipos de ataques: ruído de sal e pimenta; operações de cópia e movimentação; emenda de fontes externas; e compressão JPEG dupla usando uma tabela de quantização diferente.

Exemplo de imagens RGB de ponto fixo com detecção e localização de manipulação, incluindo os quatro métodos de perturbação usados pelos autores. Na linha inferior, podemos ver que cada estilo de perturbação trai a si mesmo em relação à imagem de ponto fixo gerada.

Exemplo de imagens RGB de ponto fixo com detecção e localização de manipulação, incluindo os quatro métodos de perturbação usados pelos autores. Na linha inferior, podemos ver que cada estilo de perturbação trai a si mesmo em relação à imagem de ponto fixo gerada.

Após a manipulação, as imagens foram recomprimidas usando a matriz de quantização original. Desvios do ponto fixo foram detectados identificando blocos de imagem que exibiam diferenças não nulas após a recompressão, permitindo tanto a detecção quanto a localização de regiões manipuladas.

Como o método é baseado inteiramente em operações JPEG padrão, as imagens de ponto fixo funcionam perfeitamente com visualizadores e editores de JPEG regulares; mas os autores observam que se a imagem for recomprimida em um nível de qualidade diferente, ela pode perder seu status de ponto fixo, o que poderia quebrar a autenticação e precisa ser tratado com cuidado no uso do mundo real.

Embora esse método não seja apenas uma ferramenta para analisar a saída JPEG, ele também não adiciona muita complexidade. Em princípio, poderia ser inserido em fluxos de trabalho existentes com mínimo custo ou interrupção.

O artigo reconhece que um adversário sofisticado pode tentar criar alterações adversárias que preservem o status de ponto fixo; mas os pesquisadores argumentam que tais esforços provavelmente introduziriam artefatos visíveis, minando o ataque.

Embora os autores não afirmem que as imagens JPEG de ponto fixo possam substituir sistemas de proveniência mais amplos, como o C2PA, eles sugerem que os métodos de ponto fixo poderiam complementar os frameworks de metadados externos, oferecendo uma camada adicional de evidência de manipulação que persiste mesmo quando os metadados são removidos ou perdidos.

Conclusão

A abordagem de ponto fixo JPEG oferece uma alternativa simples e autocontida aos sistemas de autenticação convencionais, não requerendo metadados incorporados, marcas d’água ou arquivos de referência externos, e derivando a autenticidade diretamente do comportamento previsível do processo de compressão.

Dessa forma, o método reivindica a compressão JPEG – uma fonte frequente de degradação de dados – como um mecanismo de verificação de integridade. Nesse aspecto, o novo artigo é uma das abordagens mais inovadoras e inventivas para o problema que encontrei nos últimos anos.

O novo trabalho aponta para uma mudança para longe de adições em camadas para segurança e em direção a abordagens que aproveitam as características intrínsecas da mídia em si. À medida que os métodos de manipulação crescem em sofisticação, técnicas que testam a estrutura interna da imagem podem começar a importar mais.

Além disso, muitos sistemas alternativos propostos para lidar com esse problema introduzem fricção significativa, exigindo alterações em fluxos de trabalho de processamento de imagem estabelecidos há muito tempo, ou até décadas, e que exigiriam uma justificativa muito mais forte para reequipar.

 

* Minha conversão das citações em linha dos autores para links.

Publicado pela primeira vez na sexta-feira, 25 de abril de 2025

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.