Ângulo de Anderson

Introduzindo Imagens Geradas por IA na Luz com HDR

mm
AI-generated image (GPT-2): 'A mother and daughter take a selfie in a bedroom, with an empty dark closet in one version and a brightly revealed, surprised furry creature inside it in the other.'

Imagens e vídeos gerados por IA podem ser impressionantes, mas não atendem ao padrão ‘profissional’ – um problema que um novo projeto de pesquisa busca resolver.

 

Na comunidade audiovisual profissional, uma das objeções mais frequentes à invasão da IA é a falta atual de padrões profissionais de reprodução de imagem e vídeo. Não menos importante é a capacidade de trabalhar com imagens e vídeos em High Dynamic Range (HDR).

Imagens HDR são o equivalente moderno de uma prática fotográfica do século XIX/XX chamada bracketing, onde a mesma foto é tirada várias vezes com quantidades crescentes de luz permitidas para atingir a emulsão do filme:

Acima, uma sequência curta de imagens bracketeadas. Inserida abaixo, a faixa de dinâmica que pode ser extrapolada dessas fotos em uma única imagem. Fonte – Alex Wise Photography - https://www.alexwisephotography.net/blog/2013/01/12/automatic-exposure-bracketing-aeb-explained/

Acima, uma sequência curta de imagens bracketeadas. Inserida abaixo, a faixa de dinâmica que pode ser extrapolada dessas fotos em uma única imagem. Fonte

Na fotografia tradicional, isso resultava em várias fotos que, com alguma expertise e esforço, podiam ser compostas em uma única impressão que se beneficiasse de todos os níveis de detalhe disponíveis na faixa de exposições. Mas não era um processo trivial ou fácil.

Esses dias, uma sequência de imagens ‘auto-bracketeadas’ pode produzir várias imagens ou ser combinada em uma única imagem HDR – efetivamente, uma multiplicidade de exposições em uma imagem, que aplicações de edição de imagem compatíveis com HDR, como o Photoshop, podem iterar e permitir que o fotógrafo orquestre em uma imagem de saída ideal.

Se você está se perguntando por que deveria se importar, ou como isso afeta sua própria fotografia, a ilustração para este artigo pretende demonstrar isso de uma maneira familiar:

Acima, à esquerda, vemos um exemplo típico de uma imagem sRGB (ou seja, não HDR). Apenas clarear (mostrado à direita) não não mostra o monstro no armário, porque esse detalhe foi descartado quando o fotógrafo e os processos automatizados da câmera decidiram o que priorizar na foto:

Abaixo, há uma indicação (à esquerda) de como o ‘lavado’ o primeiro plano teria que ser no momento da exposição para registrar o monstro no armário em uma foto não HDR, e (à direita) como o monstro é mergulhado na escuridão quando a exposição é feita para o primeiro plano bem iluminado:

Abaixo, vemos o tipo de detalhe que pode ser ‘resgatado’ de uma imagem ou sequência HDR. Nesse caso, o monstro estava ‘escondido’ nos registros visuais mais baixos da sequência HDR, em um nível onde o restante do conteúdo teria sido ‘queimado’ em branco (acima, à esquerda). Ao especificar que uma ampla gama de níveis de brilho deve ser expressa, seletivamente, na mesma imagem, esses elementos dissonantes podem ser compostos em uma única imagem racional:

Uma imagem não HDR é conhecida como imagem referenciada para exibição, e uma imagem HDR de alta gama é conhecida como imagem referenciada para a cena.

Vídeo HDR também existe, e esse tipo de versatilidade tonal e ductilidade realmente dá aos cineastas alguma liberdade para resgatar, graduar e interpretar imagens de várias maneiras criativas e consistentes; não surpreendentemente, então, que os criativos sejam relutantes em trabalhar com a saída ‘achatada’ sRGB típica da maioria dos quadros gerativos de IA.

HDR em IA

Naturalmente, a cena de pesquisa está interessada em trazer os quadros gerados por IA para a era HDR. No entanto, não é uma tarefa trivial, tanto devido à arquitetura fundamental dos sistemas gerativos de difusão, quanto porque bons dados HDR ocupam muito espaço em disco, tornando-os conjuntos desajeitados; consequentemente, conjuntos de dados adequados para a tarefa são escassos.

No entanto, uma colaboração entre uma universidade em Cingapura e a Adobe Research está oferecendo um método para produzir sequências de imagens HDR, em uma metodologia que pode ser teoricamente aplicada a vídeo, bem como a imagens estáticas:

Do site do projeto para o novo trabalho, exemplos de saída de imagem para texto 'bracketeada'. Fonte - https://github.com/ykdai/LinearGen

Do site do projeto para o novo trabalho, exemplos de saída de imagem para texto ‘bracketeada’. Fonte

O novo sistema gera várias versões alinhadas da mesma imagem em diferentes níveis de brilho e aprende quão brilhante a cena realmente era, então combina essas em um único resultado que mantém detalhes em sombras e highlights, permitindo que edições posteriores de exposição ou cor se comportem mais como ajustes de uma captura de câmera real, em vez de ajustes frágeis de uma imagem totalmente processada.

O sistema aproveita uma diversidade de diferentes modelos para a tarefa, incluindo variantes de Qwen e Flux:

Exemplos do novo artigo, mostrando como o sistema pode gerar múltiplas versões de exposição da mesma cena, mantendo a estrutura subjacente fixa. A partir de um mapa de bordo simples, o modelo produz imagens consistentes em configurações muito escuras a muito claras, seja a prompt descreva luz da lua, luz do sol, pôr do sol ou até um pequeno objeto como um balão, com o assunto e a composição permanecendo estáveis, enquanto apenas a iluminação muda. O método pode variar o brilho de uma maneira controlada, como uma câmera, em vez de derivar ou inventar novo conteúdo à medida que a exposição muda. Fonte - https://arxiv.org/pdf/2604.21008

Exemplos do novo artigo, mostrando como o sistema pode gerar múltiplas versões de exposição da mesma cena, mantendo a estrutura subjacente fixa. A partir de um mapa de bordo simples, o modelo produz imagens consistentes em configurações muito escuras a muito claras, seja a prompt descreva luz da lua, luz do sol, pôr do sol ou até um pequeno objeto como um balão, com o assunto e a composição permanecendo estáveis, enquanto apenas a iluminação muda. O método pode variar o brilho de uma maneira controlada, como uma câmera, em vez de derivar ou inventar novo conteúdo à medida que a exposição muda. Fonte

Os autores afirmam:

‘Gerar imagens lineares é desafiador, pois os VAEs pré-treinados em modelos de difusão latente lutam para preservar simultaneamente highlights e sombras extremos devido à faixa de dinâmica e profundidade de bits mais altas.

‘Para isso, representamos uma imagem linear como uma sequência de exposições, cada uma capturando uma porção específica da faixa de dinâmica, e propomos uma arquitetura de fluxo de correspondência baseada em DiT para geração de exposições condicionais por texto.

‘Além disso, demonstramos aplicações downstream, incluindo edição de imagem linear orientada por texto e geração condicionada por estrutura via ControlNet.’

O novo trabalho é intitulado Geração de Imagem Linear por Síntese de Exposições, e vem de quatro autores da S-Lab na Universidade Tecnológica de Nanyang, Adobe NextCam e Adobe Research. Além da página do projeto e do vídeo do YouTube que acompanha o lançamento, há também um repositório GitHub (atualmente escasso) e a promessa de um lançamento de conjunto de dados.

Embora os autores forneçam muitos exemplos de saída do sistema no site associado, os leitores precisarão de um monitor compatível com HDR para realmente distinguir as características da saída HDR apresentada. No entanto, encontre o vídeo de visão geral dos pesquisadores no final deste artigo – mas esteja ciente de que as diferenças entre os exemplos mostrados podem não ser claras em um monitor não HDR.

Método e Dados

Os autores enfatizam a extensão com que a coleta de dados é um desafio nessa busca particular:

‘Adquirir um grande número de imagens lineares é extremamente desafiador na prática. Além disso, a maioria dos conjuntos de dados HDR públicos são panorâmicos (portanto, se concentrando quase exclusivamente em conteúdo de cena em grande escala) ou não fornece imagens lineares reais, tornando-os inadequados para nossos propósitos.

‘Portanto, usamos principalmente conjuntos de dados de imagem RAW como base para o treinamento.’

Os pesquisadores fizeram um uso criativo das poucas opções disponíveis, aproveitando o conjunto de dados RAISE como dados de treinamento reais e o conjunto de dados MIT-Adobe FiveK como dados de avaliação*.

Para construir dados de treinamento HDR utilizáveis, os pesquisadores processaram os arquivos de câmera RAW por meio de um pipeline padronizado para remover peculiaridades específicas da câmera, convertendo as imagens em um formato linear consistente e referenciado para a cena:

O sistema começa com ruído representando quatro níveis de exposição da mesma cena, juntamente com um prompt de texto e um token de brilho, e os processa por meio de blocos de transformadores empilhados que mantêm as diferentes exposições alinhadas, ajustando a iluminação. Em seguida, prevê tanto o conjunto de imagens de exposição quanto uma escala de brilho geral e, subsequentemente, decodifica e combina-os em uma única imagem referenciada para a cena, mantendo detalhes em sombras e highlights.

Esquema para o fluxo de trabalho dos autores: o sistema começa com ruído representando quatro níveis de exposição da mesma cena, juntamente com um prompt de texto e um token de brilho. Isso é processado por meio de blocos de transformadores empilhados que mantêm as diferentes exposições alinhadas, ajustando a iluminação. O sistema então prevê tanto o conjunto de imagens de exposição quanto uma escala de brilho geral e, subsequentemente, decodifica e combina-os em uma única imagem referenciada para a cena, mantendo detalhes em sombras e highlights.

Isso envolveu reconstruir RGB completo a partir de dados do sensor, aplicar correção de cor, normalizar o balanço de branco e brevemente mover para um espaço de cor perceptual para denoising antes de retornar a um sinal linear limpo. A luz real na cena foi então recuperada usando as configurações de exposição da câmera, para que cada pixel refletisse a luminosidade real em vez de uma aproximação pronta para exibição.

Como esses valores podem variar muito, os dados foram então estabilizados escalonando cada imagem com base em sua própria distribuição de brilho, usando estatísticas de meio-tom e highlight para evitar imagens lavadas e highlights queimados, obtendo finalmente uma imagem linear normalizada que preservava a faixa real de luz na cena, enquanto permanecia estável o suficiente para treinamento.

Rótulos de texto para as imagens foram então criados com o modelo Qwen2.5-VL 7B, com prompts criados para corresponder às características do modelo Flux que seria usado no momento da geração.

Cada imagem foi dividida em ‘fatias’ de exposição e passada por um codificador VAE compartilhado, convertendo todas as exposições em um espaço latente comum projetado para capturar a faixa completa de brilho. Os latentes foram então refinados a partir do ruído e decodificados de volta em imagens, permitindo uma reconstrução consistente em regiões escuras e claras, sem colapsá-las em uma única exposição ‘achatada’.

Ajuste fino de LoRA foi usado para adaptar o backbone pré-treinado do Flux aos dados de imagem linear com parâmetros mínimos, ajudando o modelo de transformadores de difusão única (single-DiT) a permanecer estável, mesmo à medida que o brilho variava entre as exposições.

A atenção auto-modulada de exposição (coluna central na ilustração do esquema acima) foi introduzida para processar conjuntamente todas as exposições, permitindo que a luminosidade fosse ajustada por exposição, mantendo a estrutura e o detalhe fino alinhados.

Embelezamento posicional rotativo 3D (3D-R[o]PE) foi usado para codificar tanto a posição espacial quanto a identidade da exposição, para que o modelo pudesse distinguir a qual exposição cada token pertencia, enquanto preservava a consistência espacial, permitindo uma separação limpa da variação de brilho do conteúdo da cena.

Visão geral do conjunto de dados usado no estudo, mostrando como as imagens são distribuídas por tipo de conteúdo e cenas internas versus externas, ao lado da distribuição de valores de brilho nos dados processados. Os histogramas plotam a luminância e a escala de radiação em espaço logarítmico, ilustrando como a luminosidade do mundo real pode variar amplamente, com valores de radiação mais altos correspondendo a cenas fisicamente mais brilhantes e destacando a forte faixa de dinâmica que o modelo é treinado para lidar.

Visão geral do conjunto de dados usado no estudo, mostrando como as imagens são distribuídas por tipo de conteúdo e cenas internas versus externas, ao lado da distribuição de valores de brilho nos dados processados. Os histogramas plotam a luminância e a escala de radiação em espaço logarítmico, ilustrando como a luminosidade do mundo real pode variar amplamente, com valores de radiação mais altos correspondendo a cenas fisicamente mais brilhantes e destacando a forte faixa de dinâmica que o modelo é treinado para lidar.

3D-RoPE separou onde um recurso estava e ‘de qual exposição ele vem’ em sinais separados, para que a variação de brilho pudesse ser ajustada independentemente, sem corromper detalhes espaciais.

Testes

Os pesquisadores usaram Flux-dev como o quadro gerativo, com o treinamento ocorrendo em quatro GPUs NVIDIA A100, cada uma com 80GB de VRAM. O tamanho do lote foi definido em 4 (por GPU), por 10.000 iterações.

Ajuste fino de LoRA usou um rank de 64. O otimizador AdamW foi usado em uma taxa de aprendizado de 2×102 (para o aspecto de modulação de exposição).

Os autores observam que, embora haja dois trabalhos anteriores semelhantes em escopo, nenhum deles foi um candidato óbvio para uma fase de teste. O trabalho de 2022 liderado pelo Max Planck GlowGAN é limitado a gerar categorias de imagens específicas, enquanto o Bracket Diffusion de 2025 (também liderado pelo Instituto Max Planck) pode gerar apenas uma imagem HDR de 256x256px e leva vários minutos para fazer isso.

Do artigo original do GlowGAN, imagens de baixa faixa de dinâmica (LDR) perdem detalhes em sombras e highlights, enquanto o modelo aprende a produzir versões HDR que retêm detalhes em diferentes níveis de brilho e permitem a recuperação de regiões saturadas por meio de mapeamento de tom inverso. Fonte - https://arxiv.org/pdf/2211.12352

Do artigo original do GlowGAN, imagens de baixa faixa de dinâmica (LDR) perdem detalhes em sombras e highlights, enquanto o modelo aprende a produzir versões HDR que retêm detalhes em diferentes níveis de brilho e permitem a recuperação de regiões saturadas por meio de mapeamento de tom inverso. Fonte

Portanto, na ausência de linhas de base diretas para geração de imagens lineares, os autores compararam seu método com versões adaptadas de modelos existentes fortes, em vez de alternativas construídas com propósito.

Um conjunto de experimentos (‘T2I Fine-Tuning’) ajustou o modelo de difusão de texto-para-imagem Flux usando LoRA, treinando-o para gerar imagens lineares diretamente e avaliando como um modelo T2I de estado da arte se adaptou a esse domínio.

Uma segunda comparação (‘T2V fine-tuning’) usou o modelo de texto-para-vídeo Wan 2.1, cujo VAE comprime várias frames em um latente compartilhado; nesse setup, quatro exposições foram codificadas em uma única representação latente e decodificadas de volta, testando se um pipeline de vídeo poderia modelar a variação de exposição.

O terceiro conjunto de experimentos (‘T2I Model Inflation’) comparou contra CameraCtrl e Generative Photography, que ambos estendem modelos de difusão de imagem por meio de módulos temporais, para produzir saídas multi-quadro. Esses também foram ajustados finamente nos mesmos dados, para uma comparação consistente.

Métricas usadas foram Fréchet Inception Distance (FID); Aesthetic Score (AS); Naturalness Image Quality Evaluator (NIQUE); CLIP Sim score; e Luminance Similarity (LS):

Uma comparação do método dos autores contra várias linhas de base adaptadas para gerar imagens lineares referenciadas para a cena. Modelos de texto-para-imagem (Flux) e texto-para-vídeo (Wan 2.1) são ajustados finamente com LoRA para testar como os sistemas gerativos existentes lidam com essa configuração, enquanto CameraCtrl e Generative Photography estendem modelos de difusão com componentes temporais. Algumas pontuações estão faltando, porque certos modelos não podem produzir consistentemente exposições alinhadas, que são necessárias para recuperar a faixa de dinâmica completa. Ao longo das métricas relatadas, o novo método alcança os resultados globais mais fortes, particularmente em medidas relacionadas à qualidade da imagem e à reconstrução de brilho precisa.

Uma comparação do método dos autores contra várias linhas de base adaptadas para gerar imagens lineares referenciadas para a cena. Modelos de texto-para-imagem (Flux) e texto-para-vídeo (Wan 2.1) são ajustados finamente com LoRA para testar como os sistemas gerativos existentes lidam com essa configuração, enquanto CameraCtrl e Generative Photography estendem modelos de difusão com componentes temporais. Algumas pontuações estão faltando, porque certos modelos não podem produzir consistentemente exposições alinhadas, que são necessárias para recuperar a faixa de dinâmica completa. Ao longo das métricas relatadas, o novo método alcança os resultados globais mais fortes, particularmente em medidas relacionadas à qualidade da imagem e à reconstrução de brilho precisa.

Quanto a esses resultados, os autores afirmam:

‘Devido à ampla distribuição de imagens lineares, ajustar finamente o modelo T2I diretamente em dados lineares torna difícil equilibrar detalhes de sombra e highlight. Métodos de inflação do modelo T2I sofrem de faixa de dinâmica limitada e degradação significativa da qualidade da imagem, mesmo após o ajuste fino.

‘Para o ajuste fino T2V, a amostragem temporal 4x do Wan 2.1 entrelaça os 4 brackets de exposição em uma única representação latente, causando uma discordância de distribuição severa que não pode ser resolvida apenas com ajuste fino.

‘Ao modelar diretamente as propriedades referenciadas para a cena usando exposições, nosso método alcança uma qualidade visual superior e faixa de dinâmica em todas as linhas de base.’

Uma comparação com Flux ajustado finamente com LoRA e Wan 2.1, ilustrando como cada método lida com mudanças de exposição nas mesmas cenas. Abordagens concorrentes tendem a perder detalhes em regiões muito escuras ou muito claras, enquanto o método proposto mantém estrutura consistente e recupera detalhes úteis em toda a faixa de exposições. Por favor, consulte o artigo de origem e o site do projeto para exemplos de resultados de melhor qualidade.

Uma comparação com Flux ajustado finamente com LoRA e Wan 2.1, ilustrando como cada método lida com mudanças de exposição nas mesmas cenas. Abordagens concorrentes tendem a perder detalhes em regiões muito escuras ou muito claras, enquanto o método proposto mantém estrutura consistente e recupera detalhes úteis em toda a faixa de exposições. Por favor, consulte o artigo de origem e o site do projeto para exemplos de resultados de melhor qualidade.

Por favor, consulte a seção de experimentos estendidos e materiais suplementares do artigo de origem para testes adicionais.

Conclusão

Para profissionais de mídia, como aqueles que trabalham na produção de filmes e TV, a mesma saída que capturou a imaginação (e, cada vez mais, a ira) do mundo os deixou impassíveis, desde que quase todas as suas pipelines dependem de alguma forma de capturas HDR.

Portanto, este é um projeto oportuno, representando uma funcionalidade que se espera se torne um padrão opcional em novos quadros – embora certamente vá pelo menos dobrar os tempos de renderização; claramente, também, a latência precisará ser seriamente abordada se o conteúdo de IA HDR não for relegado à categoria ‘pós-produção’ em vez de ’em câmera’.

 

* Normalmente mostraríamos exemplos, mas como o leitor pode não ter um monitor compatível com HDR, omitimos esses neste caso.

Publicado pela primeira vez no domingo, 26 de abril de 2026

Escritor sobre aprendizado de máquina, especialista em síntese de imagem humana. Ex-chefe de conteúdo de pesquisa da Metaphysic.ai.