Intelligence artificielle
La définition insaisissable de ‘Deepfake’

Une étude nouvelle et convaincante en provenance d’Allemagne critique la définition du terme ‘deepfake’ dans l’Acte IA de l’UE comme étant trop vague, en particulier dans le contexte de la manipulation d’images numériques. Les auteurs soutiennent que l’accent mis par l’Acte sur le contenu qui ressemble à des personnes ou à des événements réels – mais qui pourrait potentiellement apparaître faux – manque de clarté.
Ils soulignent également que les exceptions de l’Acte pour l’édition standard (c’est-à-dire les modifications mineures apportées aux images à l’aide de l’IA) ne tiennent pas compte de l’influence omniprésente de l’IA dans les applications grand public et de la nature subjective des conventions artistiques qui précèdent l’avènement de l’IA.
La législation imprécise sur ces questions donne lieu à deux risques majeurs : un « effet refroidissant », où la portée interprétative large de la loi étouffe l’innovation et l’adoption de nouveaux systèmes ; et un « effet délinquant », où la loi est considérée comme excessivement intrusive ou sans importance.
Dans les deux cas, les lois vagues transfèrent essentiellement la responsabilité d’établir des définitions légales pratiques aux décisions judiciaires futures – une approche prudente et aversive aux risques de la législation.
Les technologies de manipulation d’images basées sur l’IA restent notablement en avance sur la capacité de la législation à les aborder, il semblerait. Par exemple, un exemple notable de l’élasticité croissante du concept de post-traitement « automatique » basé sur l’IA est la fonction « Optimiseur de scène » des appareils photo Samsung récents, qui peut remplacer les images prises par l’utilisateur de la lune (un sujet difficile) par une image « raffinée » basée sur l’IA :
<img class=" wp-image-210152" src="https://www.unite.ai/wp-content/uploads/2024/12/samsung-moon-photo.jpg" alt="En haut à gauche, un exemple de l'étude d'une image réelle prise par un utilisateur de la lune, à gauche d'une version améliorée par Samsung créée automatiquement avec l'Optimiseur de scène ; À droite, l'illustration officielle de Samsung du processus derrière cela ; En bas à gauche, des exemples de l'utilisateur Reddit u/ibreakphotos, montrant (à gauche) une image de la lune délibérément floue et (à droite), la réinterprétation de cette image par Samsung – même si la photo source était une image d'un moniteur, et non la lune réelle. Sources (dans le sens des aiguilles d'une montre à partir du haut à gauche) : https://arxiv.org/pdf/2412.09961 ; https://www.samsung.com/uk/support/mobile-devices/how-galaxy-cameras-combine-super-resolution-technologies-with-ai-to-produce-high-quality-images-of-the-moon/ ; https:/reddit.com/r/Android/comments/11nzrb0/samsung_space_zoom_moon_shots_are_fake_and_here/
Dans le coin inférieur gauche de l'image ci-dessus, nous voyons deux images de la lune. Celle de gauche est une photo prise par un utilisateur Reddit. Ici, l’image a été délibérément floue et réduite par l’utilisateur.
À sa droite, nous voyons une photo de la même image dégradée prise avec un appareil photo Samsung doté d’un post-traitement basé sur l’IA. L’appareil photo a automatiquement « amélioré » l’objet « lune » reconnu, même si ce n’était pas la lune réelle.
L’article critique plus profondément la fonction Meilleur cliché intégrée aux récents smartphones Google – une fonction controverse basée sur l’IA qui édite les « meilleurs » éléments d’une photo de groupe, en scannant plusieurs secondes d’une séquence photographique afin que les sourires soient avancés ou retardés dans le temps au besoin – et que personne ne soit montré au milieu d’un clignement d’œil.
L’article soutient que ce type de processus composite a le potentiel de fausser les événements :
‘[Dans] un cadre de photo de groupe typique, un spectateur moyen considérerait probablement toujours la photo résultante comme authentique. Le sourire qui est inséré existait dans les quelques secondes suivant la prise de la photo restante.
‘D’un autre côté, la durée de dix secondes de la fonction Meilleur cliché est suffisante pour un changement d’humeur. Une personne pourrait avoir cessé de sourire tandis que le reste du groupe rit d’une blague à ses dépens.
‘Par conséquent, nous supposons qu’une telle photo de groupe peut bien constituer un deepfake.’
L’article est intitulé Qu’est-ce qu’un deepfake ? La frontière floue entre le traitement légitime et la manipulation en vertu de l’Acte IA de l’UE, et provient de deux chercheurs du Laboratoire de droit computationnel de l’Université de Tübingen et de l’Université de la Sarre.
Vieilles astuces
La manipulation du temps en photographie est bien plus ancienne que l’IA grand public. Les auteurs de l’article notent l’existence de techniques bien plus anciennes qui peuvent être considérées comme « non authentiques », telles que la concaténation de plusieurs images séquentielles en une photo à haute gamme dynamique (HDR) ou une photo panoramique « cousue ».
En effet, certaines des plus anciennes et des plus amusantes fausses photos ont été traditionnellement créées par des écoliers courant d’un bout à l’autre d’un groupe scolaire, devant la trajectoire des appareils photo panoramiques qui étaient autrefois utilisés pour la photographie de groupe et sportive – permettant ainsi à l’élève d’apparaître deux fois dans la même image :

La tentation de tromper les appareils photo panoramiques lors des photos de groupe était trop grande pour de nombreux élèves, qui étaient prêts à risquer une mauvaise séance au bureau du directeur afin de se « cloner » dans les photos scolaires. Source : https://petapixel.com/2012/12/13/double-exposure-a-clever-photo-prank-from-half-a-century-ago/
À moins que vous ne preniez une photo en mode RAW, qui envoie essentiellement le capteur de l’objectif de l’appareil photo à un fichier très grand sans aucune interprétation, il est probable que vos photos numériques ne soient pas complètement authentiques. Les systèmes d’appareil photo appliquent régulièrement des algorithmes d’« amélioration » tels que le netteté d’image et la balance des blancs, par défaut – et ont fait cela depuis l’origine de la photographie numérique grand public.
Les auteurs de l’article soutiennent que même ces anciens types d’augmentation de photo numérique ne représentent pas la « réalité », puisque de telles méthodes sont conçues pour rendre les photos plus agréables, et non plus « réelles ».
L’étude suggère que l’Acte IA de l’UE, même avec des amendements ultérieurs tels que les considérants 123-127, place toutes les sorties photographiques dans un cadre probatoire inadapté au contexte dans lequel les photos sont produites ces jours-ci, par opposition à la nature (nominalement objective) des images de caméras de sécurité ou de la photographie médico-légale. La plupart des images abordées par l’Acte IA sont plus susceptibles de provenir de contextes où les fabricants et les plateformes en ligne promeuvent activement l’interprétation créative des photos, y compris l’utilisation de l’IA.
Les chercheurs suggèrent que les photos « n’ont jamais été une représentation objective de la réalité ». Des considérations telles que l’emplacement de l’appareil photo, la profondeur de champ choisie et les choix d’éclairage contribuent tous à rendre une photographie profondément subjective.
L’article observe que les tâches de « nettoyage » de routine – telles que la suppression de la poussière du capteur ou des lignes électriques indésirables d’une scène autrement bien composée – n’étaient que semi-automatisées avant l’avènement de l’IA : les utilisateurs devaient sélectionner manuellement une région ou initier un processus pour atteindre le résultat souhaité.
Aujourd’hui, ces opérations sont souvent déclenchées par des invites textuelles de l’utilisateur, notamment dans des outils comme Photoshop. Au niveau grand public, de telles fonctionnalités sont de plus en plus automatisées sans input utilisateur – un résultat qui est apparemment considéré par les fabricants et les plateformes comme « évidemment souhaitable ».
Le sens dilué de ‘Deepfake’
Un défi central pour la législation sur les images altérées et générées par l’IA est l’ambiguïté du terme ‘deepfake’, qui a vu son sens notablement étendu au cours des deux dernières années.
À l’origine, les termes ne s’appliquaient qu’à la sortie vidéo de systèmes basés sur auto-encodeurs tels que DeepFaceLab et FaceSwap, tous deux dérivés de code anonyme publié sur Reddit à la fin de 2017.
À partir de 2022, l’arrivée de modèles de diffusion latente (LDM) tels que Stable Diffusion et Flux, ainsi que des systèmes de texte-vidéo tels que Sora, a permis l’échange d’identité et la personnalisation, à une résolution, une polyvalence et une fidélité améliorées. Il est maintenant possible de créer des modèles basés sur la diffusion qui peuvent dépeindre des célébrités et des politiciens. Puisque le terme ‘deepfake’ était déjà un trésor qui attire les gros titres pour les producteurs de médias, il a été étendu pour couvrir ces systèmes.
Plus tard, dans les médias et la littérature de recherche, le terme est venu à inclure l’usurpation d’identité basée sur le texte. À ce stade, le sens original de ‘deepfake’ était presque perdu, tandis que son sens étendu était constamment en évolution et de plus en plus dilué.
Mais puisque le mot était si incendiaire et galvanisant, et était à ce stade un puissant repère politique et médiatique, il s’est avéré impossible de s’en débarrasser. Il a attiré les lecteurs sur les sites Web, le financement pour les chercheurs et l’attention pour les politiciens. Cette ambiguïté lexicale est l’objet principal de la nouvelle recherche.
Comme l’observent les auteurs, l’article 3(60) de l’Acte IA de l’UE établit quatre conditions qui définissent un ‘deepfake’.
1 : Vrai lune
Premièrement, le contenu doit être généré ou manipulé, c’est-à-dire soit créé à partir de zéro à l’aide de l’IA (génération) ou modifié à partir de données existantes (manipulation). L’article met en évidence la difficulté de distinguer les résultats d’édition d’image « acceptables » et les deepfakes manipulateurs, étant donné que les photos numériques ne sont, dans tous les cas, jamais de véritables représentations de la réalité.
L’article soutient qu’une lune générée par Samsung est arguablement authentique, puisque la lune est peu susceptible de changer d’apparence, et puisque le contenu généré par l’IA, formé à partir d’images lunaires réelles, est donc susceptible d’être précis.
Cependant, les auteurs déclarent également que puisque le système Samsung a été montré pour générer une image « améliorée » de la lune dans un cas où l’image source n’était pas la lune elle-même, cela serait considéré comme un ‘deepfake’.
Il serait impraticable de dresser une liste exhaustive de cas d’utilisation différents autour de cette fonctionnalité ad hoc. Par conséquent, la charge de définition semble passer, une fois encore, aux tribunaux.
2 : TextFakes
Deuxièmement, le contenu doit être sous la forme d’image, d’audio ou de vidéo. Le contenu texte, bien qu’il soit soumis à d’autres obligations de transparence, n’est pas considéré comme un deepfake en vertu de l’Acte IA. Cela n’est pas abordé dans les détails de la nouvelle étude, bien qu’il puisse avoir un impact notable sur l’efficacité des visuels deepfakes (voir ci-dessous).
3 : Problèmes du monde réel
Troisièmement, le contenu doit resembler à des personnes, des objets, des lieux, des entités ou des événements existants. Cette condition établit une connexion avec le monde réel, ce qui signifie que les images entièrement fabriquées, même si elles sont photoréalistes, ne seraient pas qualifiées de deepfakes. Le considérant 134 de l’Acte IA de l’UE met l’accent sur l’aspect « ressemblance » en ajoutant le mot « de manière appréciable » (un décalage apparent aux jugements juridiques ultérieurs).
Les auteurs, en citant des travaux antérieurs, se demandent si un visage généré par l’IA doit appartenir à une personne réelle, ou s’il doit seulement être suffisamment similaire à une personne réelle, afin de satisfaire cette définition.
Par exemple, comment peut-on déterminer si une séquence d’images photoréalistes représentant le politicien Donald Trump a l’intention d’usurper son identité, si les images (ou les textes joints) ne mentionnent pas spécifiquement son nom ? Reconnaissance faciale ? Enquêtes auprès des utilisateurs ? Une définition du « bon sens » d’un juge ?
En revenant au problème des « TextFakes » (voir ci-dessus), les mots constituent souvent une partie importante de l’acte d’un visuel deepfake. Par exemple, il est possible de prendre une image (non modifiée) ou une vidéo de ‘personne a’‘, et dire, dans un commentaire ou un post sur les médias sociaux, que l’image est de ‘personne b’‘ (en supposant que les deux personnes se ressemblent).
Dans un tel cas, aucune IA n’est nécessaire, et le résultat peut être frappant – mais une telle approche à faible technologie constitue-t-elle également un ‘deepfake’ ?
4 : Retouche, remodelage
Enfin, le contenu doit apparaître authentique ou véridique à une personne. Cette condition met l’accent sur la perception des téléspectateurs humains. Le contenu qui n’est reconnu que comme représentant une personne ou un objet réel par un algorithme ne serait pas considéré comme un deepfake.
De toutes les conditions de 3(60), celle-ci défère le plus clairement au jugement ultérieur d’un tribunal, car elle n’autorise pas d’interprétation via des moyens techniques ou mécanisés.
Il existe clairement certaines difficultés inhérentes à parvenir à un consensus sur une telle stipulation subjective. Les auteurs observent, par exemple, que différentes personnes, et différents types de personnes (tels que les enfants et les adultes), peuvent être diversement disposés à croire en un deepfake particulier.
Les auteurs notent en outre que les capacités avancées de l’IA d’outils tels que Photoshop remettent en question les définitions traditionnelles de « deepfake ». Bien que ces systèmes puissent inclure des garanties de base contre un contenu controversé ou interdit, ils étendent considérablement le concept de « retouche ». Les utilisateurs peuvent maintenant ajouter ou supprimer des objets de manière convaincante et photoréaliste, atteignant un niveau professionnel d’authenticité qui redéfinit les limites de la manipulation d’images.
Les auteurs déclarent :
‘Nous soutenons que la définition actuelle de deepfakes dans l’Acte IA et les obligations correspondantes ne sont pas suffisamment spécifiées pour relever les défis posés par les deepfakes. En analysant le cycle de vie d’une photo numérique, de la prise de vue à la fonctionnalité d’édition numérique, nous constatons que :
‘(1.) Les deepfakes sont mal définis dans l’Acte IA de l’UE. La définition laisse trop de place pour savoir ce qu’est un deepfake.
‘(2.) Il n’est pas clair comment des fonctions d’édition telles que la fonction « Meilleur cliché » de Google peuvent être considérées comme une exception aux obligations de transparence.
‘(3.) L’exception pour les images substantiellement éditées soulève des questions sur ce qui constitue une édition substantielle de contenu et si cette édition doit être perceptible par une personne naturelle.’
Prendre exception
L’Acte IA de l’UE contient des exceptions que les auteurs estiment très permissives. L’article 50(2), déclarent-ils, offre une exception dans les cas où la majorité de l’image source d’origine n’est pas modifiée. Les auteurs notent :
‘Qu’est-ce qui peut être considéré comme du contenu au sens de l’article 50(2) dans les cas d’audio, d’images et de vidéos numériques ? Par exemple, dans le cas des images, devons-nous considérer l’espace des pixels ou l’espace visible perceptible par les humains ? Des manipulations substantielles dans l’espace des pixels peuvent ne pas changer la perception humaine, et d’un autre côté, de petites perturbations dans l’espace des pixels peuvent changer la perception de manière spectaculaire.’
Les chercheurs fournissent l’exemple d’ajouter un pistolet à la photo d’une personne qui pointe sur quelqu’un. En ajoutant le pistolet, on modifie au plus 5 % de l’image ; cependant, la signification sémantique de la partie modifiée est notable. Par conséquent, il semble que cette exception ne tient pas compte de la compréhension « de bon sens » de l’effet qu’un petit détail peut avoir sur la signification globale d’une image.
La section 50(2) permet également des exceptions pour une fonction d’« édition standard ». Puisque l’Acte ne définit pas ce que signifie « édition standard », même des fonctionnalités de post-traitement aussi extrêmes que la fonction Meilleur cliché de Google semblent être protégées par cette exception, observent les auteurs.
Conclusion
L’intention déclarée du nouveau travail est d’encourager l’étude interdisciplinaire sur la réglementation des deepfakes, et de servir de point de départ pour de nouveaux dialogues entre les informaticiens et les universitaires en droit.
Cependant, l’article lui-même succombe à la tautologie à plusieurs points : il utilise fréquemment le terme ‘deepfake’ comme si son sens était évident, tout en visant l’Acte IA de l’UE pour avoir échoué à définir ce qu’est réellement un deepfake.
Publié pour la première fois le lundi 16 décembre 2024










