Intelligence Artificielle
Des chercheurs développent une nouvelle méthode pour contrôler la génération d'images IA

Des chercheurs de la North Carolina State University ont développé une nouvelle méthode de contrôle de la génération d'images par intelligence artificielle (IA), qui pourrait être utilisée dans des domaines tels que les véhicules autonomes.
Génération d'images conditionnelles et autres techniques
La génération d'images conditionnelles est une tâche d'IA qui implique que des systèmes d'IA créent des images basées sur un ensemble spécifique de conditions, que l'utilisateur peut demander. Des techniques plus récentes sont allées encore plus loin et intègrent des conditions pour une mise en page d'image, ce qui permet aux utilisateurs de spécifier les types d'objets qu'ils souhaitent voir apparaître à des endroits spécifiques de l'écran.
La nouvelle méthode de pointe développée par les chercheurs de l'université s'appuie sur toutes ces techniques et permet aux utilisateurs d'avoir plus de contrôle sur les images tout en conservant certaines caractéristiques sur une série d'images.
Tianfu Wu est co-auteur du document de recherche et professeur adjoint de génie informatique à NC State.
« Notre approche est hautement reconfigurable », déclare Wu. « Comme les approches précédentes, la nôtre permet aux utilisateurs de faire en sorte que le système génère une image basée sur un ensemble spécifique de conditions. Mais la nôtre vous permet également de conserver cette image et de l'enrichir. Par exemple, les utilisateurs pourraient demander à l'IA de créer une scène de montagne. Les utilisateurs pourraient alors demander au système d'ajouter des skieurs à cette scène.
Manipuler des éléments
Avec la nouvelle méthode, les utilisateurs peuvent également autoriser l'IA à manipuler des éléments afin qu'ils soient identiques de manière identifiable tout en se déplaçant ou en changeant d'une manière ou d'une autre. Un tel exemple serait l'IA créant une série d'images où les skieurs se tournent vers le spectateur tout en se déplaçant à travers un paysage.
"Une application pour cela serait d'aider les robots autonomes à" imaginer "à quoi pourrait ressembler le résultat final avant de commencer une tâche donnée", explique Wu. « Vous pouvez également utiliser le système pour générer des images pour la formation à l'IA. Ainsi, au lieu de compiler des images à partir de sources externes, vous pouvez utiliser ce système pour créer des images afin de former d'autres systèmes d'IA.
La nouvelle approche a été testée avec l'ensemble de données COCO-Stuff et l'ensemble de données Visual Genome, et basée sur les normes de qualité d'image, elle surpasse les techniques de pointe précédentes.
"Notre prochaine étape consiste à voir si nous pouvons étendre ce travail à la vidéo et aux images en trois dimensions", a déclaré Wu.
Afin de former la nouvelle approche, les chercheurs ont dû s'appuyer sur une station de travail à 4 GPU compte tenu de la forte puissance de calcul requise. Malgré cela, le déploiement du système est encore moins coûteux en termes de calcul.
"Nous avons constaté qu'un GPU vous offre une vitesse presque en temps réel", déclare Wu.
« En plus de notre article, nous avons publié le code source de cette approche sur GitHub. Cela dit, nous sommes toujours ouverts à la collaboration avec des partenaires du secteur. »












