Intelligence artificielle

Les chercheurs dĂ©veloppent une nouvelle mĂ©thode pour contrĂŽler la gĂ©nĂ©ration d’images par l’IA

mm

Les chercheurs de l’Université d’État de Caroline du Nord ont développé une nouvelle méthode pour contrôler la génération d’images par l’intelligence artificielle (IA), qui pourrait être utilisée dans des domaines tels que les véhicules autonomes.

Génération d’images conditionnelles et autres techniques

La génération d’images conditionnelles est une tâche d’IA qui consiste à faire créer des images par des systèmes d’IA en fonction d’un ensemble spécifique de conditions, que l’utilisateur peut demander. Les nouvelles techniques ont encore amélioré cela et incorporé des conditions pour la disposition d’une image, ce qui permet aux utilisateurs de spécifier les types d’objets qu’ils veulent voir apparaître à des endroits spécifiques sur l’écran.

La nouvelle méthode de pointe développée par les chercheurs de l’université s’appuie sur toutes ces techniques, et elle permet aux utilisateurs d’avoir plus de contrôle sur les images tout en conservant certaines caractéristiques à travers une série d’images.

Tianfu Wu est co-auteur de la publication de recherche et professeur adjoint de génie informatique à NC State.

« Notre approche est hautement reconfigurable », déclare Wu. « Comme les approches précédentes, la nôtre permet aux utilisateurs de faire générer une image par le système en fonction d’un ensemble spécifique de conditions. Mais la nôtre permet également de conserver cette image et d’y ajouter des éléments. Par exemple, les utilisateurs pourraient faire créer par l’IA une scène de montagne. Les utilisateurs pourraient ensuite faire ajouter des skieurs à cette scène. »

Manipulation d’éléments

Avec la nouvelle méthode, les utilisateurs peuvent également permettre à l’IA de manipuler des éléments de telle sorte qu’ils soient identifiables comme étant les mêmes tout en bougeant ou en changeant d’une certaine manière. Un exemple de cela serait la création par l’IA d’une série d’images où des skieurs se tournent vers le spectateur tout en se déplaçant dans un paysage.

« Une application possible pour cela serait d’aider les robots autonomes à « imaginer » à quoi pourrait ressembler le résultat final avant de commencer une tâche donnée », déclare Wu. « Vous pourriez également utiliser le système pour générer des images pour la formation de l’IA. Au lieu de compiler des images à partir de sources externes, vous pourriez utiliser ce système pour créer des images pour former d’autres systèmes d’IA. »

La nouvelle approche a été testée avec le jeu de données COCO-Stuff et le jeu de données Visual Genome, et sur la base des normes de qualité d’image, elle surpasse les techniques de pointe précédentes.

« Notre prochaine étape consiste à voir si nous pouvons étendre ce travail à la vidéo et aux images tridimensionnelles », déclare Wu.

Pour former la nouvelle approche, les chercheurs ont dû s’appuyer sur une station de travail 4-GPU compte tenu de la puissance de calcul lourde requise. Malgré cela, le déploiement du système est encore moins coûteux en termes de calcul.

« Nous avons constaté qu’un GPU vous donne presque une vitesse en temps réel », déclare Wu.

« En plus de notre publication, nous avons mis le code source de cette approche à disposition sur GitHub. Cela dit, nous sommes toujours ouverts à la collaboration avec des partenaires de l’industrie. »

Alex McFarland est un journaliste et écrivain en intelligence artificielle qui explore les derniers développements en intelligence artificielle. Il a collaboré avec de nombreuses startups et publications en intelligence artificielle dans le monde entier.