Angle d’Anderson

IntĂ©grer les images gĂ©nĂ©rĂ©es par l’IA avec la technologie HDR

mm
AI-generated image (GPT-2): 'A mother and daughter take a selfie in a bedroom, with an empty dark closet in one version and a brightly revealed, surprised furry creature inside it in the other.'

Les images et les vidéos générées par l’IA peuvent être impressionnantes, mais elles ne répondent pas aux normes professionnelles – un problème que un nouveau projet de recherche cherche à résoudre.

 

Dans la communauté audiovisuelle professionnelle, l’une des objections les plus fréquentes à l’égard de l’encroachment de l’IA est le manque actuel de normes professionnelles de reproduction d’images et de vidéos. Et pas des moindres, la capacité de travailler avec des images et des vidéos à haute gamme dynamique (HDR).

Les images HDR sont l’équivalent moderne d’une pratique photographique du 19e/20e siècle appelée bracketing, où la même photo est prise plusieurs fois avec des quantités croissantes de lumière autorisées à atteindre l’émulsion de la pellicule :

Ci-dessus, une courte sĂ©quence de bracketing. En bas, la gamme dynamique Ă©levĂ©e qui peut ĂȘtre extrapolĂ©e Ă  partir de ces photos dans une seule image. Source - Alex Wise Photography - https://www.alexwisephotography.net/blog/2013/01/12/automatic-exposure-bracketing-aeb-explained/

Ci-dessus, une courte séquence de bracketing. En bas, la gamme dynamique élevée qui peut être extrapolée à partir de ces photos dans une seule image. Source

Dans la photographie traditionnelle, cela a abouti à plusieurs photos qui, avec une certaine expertise et un certain effort, pouvaient être composées en une seule photo qui bénéficiait de tous les différents niveaux de détail disponibles dans la plage des expositions. Mais ce n’était pas un processus trivial ou facile.

Ces jours-ci, une séquence d’images ‘auto-bracketée’ peut soit produire plusieurs images, soit être combinée en une seule image HDR – essentiellement une multiplicité d’expositions en une seule image, que les applications de traitement d’images HDR telles que Photoshop peuvent itérer, et permettre au photographe d’orchestrer en une seule image de sortie idéale.

Si vous vous demandez pourquoi vous devriez vous en soucier, ou comment cela affecte votre propre photographie, l’illustration de cet article est destinée à le démontrer de manière familière :

Ci-dessus, à gauche, nous voyons un exemple typique d’une image sRGB (c’est-à-dire non-HDR). Juste en l’éclaircissant (montré à droite) ne montre pas le monstre dans le placard, car ce détail a été éliminé lorsque le photographe et les processus automatisés de l’appareil photo ont décidé de ce qui devait être prioritaire dans la photo :

En bas, une indication (à gauche) de la façon dont le premier plan serait ‘lavé’ au moment de l’exposition pour enregistrer le monstre dans le placard dans une photo non-HDR, et (à droite) de la façon dont le monstre est plongé dans l’obscurité lorsque l’exposition est faite pour le premier plan éclairé :

En bas, nous voyons le type de détail qui peut être ‘sauvé’ à partir d’une image ou d’une séquence HDR. Dans ce cas, le monstre se ‘cachait’ dans les registres visuels les plus bas de la séquence HDR, à un niveau où le reste du contenu aurait été ‘surexposé’ en blanc presque pur (en haut à gauche). En spécifiant qu’une large gamme de niveaux de luminosité doit être exprimée, de manière sélective, dans la même image, ces éléments dissonants peuvent être composés en une seule image rationnelle :

Une image non-HDR est connue sous le nom d’image référée à l’affichage, et une image HDR à haute gamme est connue sous le nom d’image référée à la scène.

La vidéo HDR est également une chose, et ce type de polyvalence et de ductilité tonale donne vraiment aux cinéastes une certaine latitude pour sauver, grader et interpréter les rushes de manière créative et cohérente ; il n’est donc pas surprenant que les créatifs soient réticents à travailler avec la sortie sRGB ‘aplatie’ typique de la plupart des cadres génératifs d’IA.

HDR dans l’IA

Naturellement, la scène de la recherche est intéressée à amener les cadres générés par l’IA à l’ère HDR. Cependant, ce n’est pas une tâche triviale, à la fois en raison de l’architecture fondamentale des systèmes génératifs basés sur la diffusion, et parce que de bonnes données HDR prennent beaucoup d’espace disque, ce qui rend les collections peu maniables ; par conséquent, les ensembles de données adaptés à la tâche sont rares.

Cependant, une collaboration entre une université de Singapour et Adobe Research propose une méthode pour produire des séquences d’images HDR, dans une méthodologie qui peut théoriquement être appliquée à la vidéo ainsi qu’aux images fixes :

À partir du site du projet pour le nouveau travail, des exemples de sortie 'bracketĂ©e' de texte-Ă -image. Source - https://github.com/ykdai/LinearGen

À partir du site du projet pour le nouveau travail, des exemples de sortie ‘bracketée’ de texte-à-image. Source

Le nouveau système génère plusieurs versions alignées de la même image à différents niveaux de luminosité et apprend à quel point la scène est vraiment lumineuse, puis les combine en un seul résultat qui conserve les détails à la fois dans les ombres et les hautes lumières, permettant des modifications d’exposition ou de couleur ultérieures pour se comporter plus comme des ajustements d’une capture de caméra réelle, plutôt que des ajustements fragiles d’une image entièrement traitée.

Le système utilise une diversité de différents modèles pour la tâche, y compris des variantes de Qwen et Flux :

Des exemples du nouveau document, montrant comment le systĂšme peut gĂ©nĂ©rer plusieurs versions d'exposition de la mĂȘme scĂšne tout en gardant la structure sous-jacente fixe. À partir d'une carte de bord simple, le modĂšle produit des images cohĂ©rentes sur des rĂ©glages trĂšs sombres Ă  trĂšs lumineux, que la invite dĂ©crit la lumiĂšre de la lune, la lumiĂšre du soleil, le coucher de soleil ou mĂȘme un petit objet comme un ballon, avec le sujet et la composition restant stables alors que seule la lumiĂšre change. La mĂ©thode peut varier la luminositĂ© d'une maniĂšre contrĂŽlĂ©e, similaire Ă  une camĂ©ra, plutĂŽt que de dĂ©river ou d'inventer de nouveaux contenus Ă  mesure que l'exposition change. Source - https://arxiv.org/pdf/2604.21008

Des exemples du nouveau document, montrant comment le système peut générer plusieurs versions d’exposition de la même scène tout en gardant la structure sous-jacente fixe. À partir d’une carte de bord simple, le modèle produit des images cohérentes sur des réglages très sombres à très lumineux, que la invite décrit la lumière de la lune, la lumière du soleil, le coucher de soleil ou même un petit objet comme un ballon, avec le sujet et la composition restant stables alors que seule la lumière change. La méthode peut varier la luminosité d’une manière contrôlée, similaire à une caméra, plutôt que de dériver ou d’inventer de nouveaux contenus à mesure que l’exposition change. Source

Les auteurs déclarent :

‘Générer des images linéaires est difficile, car les VAE pré-entraînés dans les modèles de diffusion latente ont du mal à préserver simultanément les hautes lumières et les ombres extrêmes en raison de la gamme dynamique et de la profondeur de bits plus élevées.

‘À cette fin, nous représentons une image linéaire comme une séquence de réglages d’exposition, chacun capturant une partie spécifique de la gamme dynamique, et proposons une architecture de flux de correspondance basée sur DiT pour la génération de réglages d’exposition conditionnés par le texte.

‘Nous démontrons en outre des applications en aval, notamment l’édition d’images linéaires guidée par le texte et la génération conditionnée par la structure via ControlNet.’

Le nouveau travail est intitulé Génération d’images linéaires par synthèse de réglages d’exposition, et provient de quatre auteurs issus de S-Lab à l’Université technologique de Nanyang, Adobe NextCam et Adobe Research. Outre la page du projet et la vidéo YouTube qui accompagne la publication, il existe également un dépôt GitHub (actuellement peu fourni), et la promesse d’une publication de données.

Bien que les auteurs fournissent de nombreux exemples de sortie du système sur la page du projet associée, les lecteurs devront disposer d’un moniteur HDR pour vraiment distinguer les caractéristiques de la sortie HDR présentée. Néanmoins, veuillez trouver la vidéo YouTube des chercheurs intégrée à la fin de cet article – mais soyez conscient que les différences entre les exemples présentés peuvent ne pas être claires sur un moniteur non-HDR.

Méthode et données

Les auteurs soulignent l’étendue à laquelle la collecte de données est un défi dans cette poursuite particulière :

‘Acquérir un grand nombre d’images linéaires est extrêmement difficile dans la pratique. De plus, la plupart des ensembles de données HDR publics sont soit panoramiques (se concentrant ainsi presque exclusivement sur le contenu de scènes à grande échelle), soit ne fournissent pas d’images linéaires réelles, ce qui les rend inadaptés à nos fins.

‘Par conséquent, nous utilisons principalement des ensembles de données d’images RAW comme base pour l’entraînement.’

Les chercheurs ont fait un usage créatif des quelques options à leur disposition, en exploitant l’ensemble de données RAISE comme données réelles d’entraînement, et l’ensemble de données MIT-Adobe FiveK comme données d’évaluation*.

Pour construire des données d’entraînement HDR utilisables, les chercheurs ont passé les fichiers de caméra RAW à travers un pipeline standardisé pour éliminer les particularités spécifiques à la caméra, en les convertissant en un format linéaire cohérent et référé à la scène :

Le systĂšme commence avec du bruit reprĂ©sentant quatre niveaux d'exposition de la mĂȘme scĂšne, ainsi qu'une invite de texte et un jeton de luminositĂ©, et les traite Ă  travers des blocs de transformateurs empilĂ©s qui maintiennent les diffĂ©rentes expositions alignĂ©es tout en ajustant la luminositĂ©. Il prĂ©dit ensuite Ă  la fois l'ensemble d'images d'exposition, ainsi qu'une Ă©chelle de luminositĂ© globale, et les dĂ©code ensuite et les combine en une seule image rĂ©fĂ©rĂ©e Ă  la scĂšne, conservant les dĂ©tails Ă  la fois dans les ombres et les hautes lumiĂšres.

Schéma pour le flux de travail des auteurs : le système commence avec du bruit représentant quatre niveaux d’exposition de la même scène, ainsi qu’une invite de texte et un jeton de luminosité. Cela est ensuite traité à travers des blocs de transformateurs empilés qui maintiennent les différentes expositions alignées, tout en ajustant la luminosité. Le système prédit ensuite à la fois l’ensemble d’images d’exposition, ainsi qu’une échelle de luminosité globale, et les décode ensuite et les combine en une seule image référée à la scène, conservant les détails à la fois dans les ombres et les hautes lumières.

Cela a impliqué la reconstruction de la pleine RGB à partir des données du capteur, l’application d’une correction des couleurs, la normalisation de la balance des blancs, et un bref passage dans un espace de couleur perceptive pour le débruitage avant de revenir à un signal linéaire propre. La lumière réelle de la scène a ensuite été récupérée à l’aide des réglages d’exposition de la caméra, de sorte que chaque pixel reflète la luminosité réelle plutôt qu’une approximation prête à l’affichage.

Puisque de telles valeurs peuvent varier considérablement, les données ont ensuite été stabilisées en mettant à l’échelle chaque image en fonction de sa propre distribution de luminosité, en utilisant les statistiques de milieu et de hautes lumières pour éviter à la fois les images surexposées et les hautes lumières surexposées, obtenant finalement une image linéaire normalisée qui conserve la véritable gamme de lumière de la scène, tout en restant suffisamment stable pour l’entraînement.

Les étiquettes de texte pour les images ont ensuite été créées avec le modèle Qwen2.5-VL 7B, avec des invites conçues pour correspondre aux caractéristiques du modèle Flux qui serait utilisé au moment de la génération.

Chaque image a été divisée en ‘tranches’ d’exposition et passée à travers un encodeur VAE partagé, en convertissant toutes les expositions en un espace latent commun conçu pour capturer la pleine gamme de luminosité. Les latents ont ensuite été raffinés à partir du bruit, et décodés en images, permettant une reconstruction cohérente à travers les régions sombres et lumineuses, sans les faire s’effondrer en une seule exposition ‘aplatie’.

Un affinage LoRA a été utilisé pour adapter le modèle Flux pré-entraîné aux données d’images linéaires avec un minimum de paramètres supplémentaires, aidant le modèle de transformateurs de diffusion unique (single-DiT) à rester stable, même lorsque la luminosité varie à travers les réglages d’exposition.

L’attention auto-modulée par exposition (colonne centrale de l’illustration de schéma ci-dessus) a été introduite pour traiter conjointement toutes les expositions, permettant de ajuster la luminosité par exposition tout en gardant la structure et les détails fins alignés.

Un codage de position spatiale rotatif 3D (3D-R[o]PE) a été utilisé pour encoder à la fois la position spatiale et l’identité d’exposition, de sorte que le modèle puisse distinguer à laquelle tranche chaque jeton appartenait, tout en préservant la cohérence spatiale, permettant une séparation propre de la variation de luminosité du contenu de la scène.

Un aperçu de l'ensemble de données utilisé dans l'étude, montrant comment les images sont réparties sur les types de contenu et les scÚnes intérieures par rapport aux scÚnes extérieures, ainsi que la répartition des valeurs de luminosité dans les données traitées. Les histogrammes tracent la luminance et l'échelle de rayonnement dans l'espace log, illustrant à quel point la luminosité du monde réel peut varier, avec des valeurs de rayonnement plus élevées correspondant à des scÚnes physiquement plus lumineuses et mettant en évidence la forte gamme dynamique que le modÚle est entraßné à gérer.

Un aperçu de l’ensemble de données utilisé dans l’étude, montrant comment les images sont réparties sur les types de contenu et les scènes intérieures par rapport aux scènes extérieures, ainsi que la répartition des valeurs de luminosité dans les données traitées. Les histogrammes tracent la luminance et l’échelle de rayonnement dans l’espace log, illustrant à quel point la luminosité du monde réel peut varier, avec des valeurs de rayonnement plus élevées correspondant à des scènes physiquement plus lumineuses et mettant en évidence la forte gamme dynamique que le modèle est entraîné à gérer.

Le 3D-RoPE a séparé se trouvait une fonction et ‘d’où vient l’exposition’ en signaux distincts, de sorte que la variation de luminosité puisse être ajustée de manière indépendante, sans corrompre les détails spatiaux.

Tests

Les chercheurs ont utilisé Flux-dev comme cadre génératif, avec une formation sur quatre GPU NVIDIA A100, chacun avec 80 Go de VRAM. La taille de lot a été fixée à 4 (par GPU), sur 10 000 itérations.

L’affinage LoRA a utilisé un rang de 64. L’optimiseur AdamW a été utilisé à un taux d’apprentissage de 2×102 (pour l’aspect de modulation d’exposition).

Les auteurs notent que bien qu’il existe deux travaux antérieurs similaires en portée, aucun n’était un candidat évident pour une phase de test. La sortie menée par Max Planck en 2022 GlowGAN est limitée à la génération de catégories d’images spécifiques, tandis que Bracket Diffusion (à nouveau mené par l’Institut Max Planck) en 2025 ne peut générer qu’une image HDR à 256x256px, et prend plusieurs minutes pour le faire.

À partir du document original GlowGAN, des images typiques Ă  faible gamme dynamique (LDR) perdent des dĂ©tails dans les ombres et les hautes lumiĂšres, tandis que le modĂšle apprend Ă  produire des versions HDR qui conservent des dĂ©tails Ă  travers les niveaux de luminositĂ© et permettent la rĂ©cupĂ©ration de rĂ©gions saturĂ©es via la cartographie de ton inverse. Source - https://arxiv.org/pdf/2211.12352

À partir du document original GlowGAN, des images typiques à faible gamme dynamique (LDR) perdent des détails dans les ombres et les hautes lumières, tandis que le modèle apprend à produire des versions HDR qui conservent des détails à travers les niveaux de luminosité et permettent la récupération de régions saturées via la cartographie de ton inverse. Source

Par conséquent, en l’absence de lignes de base directes pour la génération d’images linéaires, les auteurs ont comparé leur méthode avec des versions adaptées de modèles existants, plutôt que des alternatives spécialement conçues.

Un ensemble d’expériences (‘T2I Fine-Tuning’) a affiné le modèle de diffusion d’image-à-texte Flux en utilisant LoRA, en l’entraînant pour générer des images linéaires directement, et en évaluant comment un modèle T2I d’état de l’art s’adapte à ce domaine.

Une deuxième comparaison (‘T2V fine-tuning’) a utilisé le modèle d’image-à-vidéo Wan 2.1, dont le VAE compressé plusieurs cadres en une représentation latente partagée ; dans cet ensemble, quatre réglages d’exposition ont été codés dans une seule représentation latente, puis décodés à nouveau, en testant si un pipeline de type vidéo pouvait modéliser la variation d’exposition.

Le troisième ensemble d’expériences (‘T2I Model Inflation’) a comparé contre CameraCtrl et Generative Photography, qui étendent les modèles de diffusion d’images via des modules temporels, pour produire des sorties multi-cadres. Ceux-ci ont également été affinés sur les mêmes données, pour une comparaison cohérente.

Les métriques utilisées étaient Fréchet Inception Distance (FID) ; Score esthétique (AS) ; Évaluateur de qualité d’image naturelle (NIQUE) ; Score CLIP Sim ; et Similarité de luminosité (LS) :

Une comparaison de la mĂ©thode des auteurs avec plusieurs lignes de base adaptĂ©es pour la gĂ©nĂ©ration d'images linĂ©aires rĂ©fĂ©rĂ©es Ă  la scĂšne. Les modĂšles d'image-Ă -texte (Flux) et d'image-Ă -vidĂ©o (Wan 2.1) sont affinĂ©s avec LoRA pour tester Ă  quel point les systĂšmes gĂ©nĂ©ratifs existants gĂšrent ce paramĂštre, tandis que CameraCtrl et Generative Photography Ă©tendent les modĂšles de diffusion avec des composants temporels. Certains scores sont manquants, car certains modĂšles ne peuvent pas produire de maniĂšre fiable des rĂ©glages d'exposition cohĂ©rents, qui sont nĂ©cessaires pour rĂ©cupĂ©rer la gamme dynamique complĂšte. À travers les mĂ©triques rapportĂ©es, la nouvelle mĂ©thode obtient les rĂ©sultats globaux les plus forts, en particulier sur les mesures liĂ©es Ă  la qualitĂ© d'image et Ă  la reconstruction prĂ©cise de la luminositĂ©.

Une comparaison de la méthode des auteurs avec plusieurs lignes de base adaptées pour la génération d’images linéaires référées à la scène. Les modèles d’image-à-texte (Flux) et d’image-à-vidéo (Wan 2.1) sont affinés avec LoRA pour tester à quel point les systèmes génératifs existants gèrent ce paramètre, tandis que CameraCtrl et Generative Photography étendent les modèles de diffusion avec des composants temporels. Certains scores sont manquants, car certains modèles ne peuvent pas produire de manière fiable des réglages d’exposition cohérents, qui sont nécessaires pour récupérer la gamme dynamique complète. À travers les métriques rapportées, la nouvelle méthode obtient les résultats globaux les plus forts, en particulier sur les mesures liées à la qualité d’image et à la reconstruction précise de la luminosité.

En ce qui concerne ces résultats, les auteurs déclarent :

‘En raison de la large distribution des images linéaires, l’affinage direct du modèle T2I sur des données linéaires rend difficile l’équilibre entre les détails d’ombre et de hautes lumières. Les méthodes d’inflation du modèle T2I souffrent à la fois d’une gamme dynamique limitée et d’une dégradation significative de la qualité d’image, même après affinage.

‘Pour l’affinage T2V, la compression temporelle 4x de Wan 2.1 entrelace les 4 réglages d’exposition en une représentation latente unique, provoquant un décalage de distribution grave qui ne peut pas être résolu par l’affinage seul.

‘En modélisant directement les propriétés référées à la scène en utilisant des réglages d’exposition, notre méthode atteint une qualité visuelle et une gamme dynamique supérieures à toutes les lignes de base.’

Une comparaison avec les Flux et Wan 2.1 affinĂ©s avec LoRA, illustrant comment chaque mĂ©thode gĂšre les changements d'exposition Ă  travers les mĂȘmes scĂšnes. Les approches concurrentes ont tendance Ă  perdre des dĂ©tails dans les rĂ©gions trĂšs sombres ou trĂšs lumineuses, tandis que la mĂ©thode proposĂ©e maintient une structure cohĂ©rente et rĂ©cupĂšre des dĂ©tails utilisables Ă  travers toute la gamme d'expositions.

Une comparaison avec les Flux et Wan 2.1 affinés avec LoRA, illustrant comment chaque méthode gère les changements d’exposition à travers les mêmes scènes. Les approches concurrentes ont tendance à perdre des détails dans les régions très sombres ou très lumineuses, tandis que la méthode proposée maintient une structure cohérente et récupère des détails utilisables à travers toute la gamme d’expositions. Veuillez vous référer au document source et au site du projet pour de meilleurs exemples de résultats.

Veuillez vous référer à la section d’expériences étendues et de matériel supplémentaire du document source pour d’autres tests.

Conclusion

Pour les professionnels des médias, tels que ceux qui travaillent dans la production de films et de télévision, la même sortie qui a capturé l’imagination (et, de plus en plus, l’ire) du monde les a laissés non impressionnés, puisque presque tous leurs pipelines dépendent d’une manière ou d’une autre de captures HDR.

Par conséquent, c’est un projet opportun, représentant une fonctionnalité qu’on espérerait devenir une norme facultative à travers les nouveaux cadres – bien qu’il soit certain de doubler au moins les temps de rendu ; clairement, également, la latence devra être sérieusement abordée si le contenu HDR de l’IA ne doit pas être relégué à la catégorie ‘en post’ plutôt qu’en caméra. https://www.youtube.com/watch?v=VNEu86Otzjc * Normalement, nous montrerions des exemples, mais comme le lecteur peut ne pas avoir un moniteur HDR, nous les omettons dans ce cas. Publié pour la première fois dimanche 26 avril 2026

Écrivain sur l'apprentissage automatique, spĂ©cialiste de domaine en synthĂšse d'images humaines. Ancien responsable du contenu de recherche chez Metaphysic.ai.