Intelligence Artificielle
Contrôleur humanoïde masqué d'Intel : une nouvelle approche pour la génération de mouvements humains physiquement réalistes et dirigeables

Des chercheurs de Intel Labs, en collaboration avec des experts universitaires et industriels, ont introduit une technique révolutionnaire pour générer des mouvements humains réalistes et dirigeables à partir d'entrées éparses et multimodales. Leur travail, mis en avant lors de la Conférence européenne sur la vision par ordinateur (ECCV 2024) vise à surmonter les défis liés à la génération de comportements humains naturels et physiques chez des personnages humanoïdes de grande dimension. Cette recherche s'inscrit dans le cadre d'une initiative plus vaste d'Intel Labs visant à faire progresser la vision par ordinateur et l'apprentissage automatique.
Intel Labs et ses partenaires ont récemment présenté six articles de pointe à l'ECCV 2024, une conférence de premier plan organisée par le Association européenne de vision par ordinateur (ECVA).
Le papier Générer des mouvements humains physiquement réalistes et dirigeables à partir d'entrées multimodales Intel a présenté des innovations, notamment une nouvelle stratégie de défense pour protéger les modèles texte-image contre les attaques de type red teaming basées sur des invites et le développement d'un ensemble de données à grande échelle conçu pour améliorer la cohérence spatiale de ces modèles. Parmi ces contributions, le document souligne l'engagement d'Intel à faire progresser la modélisation générative tout en donnant la priorité à la modélisation générative. IA responsable pratiques.
Générer des mouvements humains réalistes à l'aide d'entrées multimodales
Le contrôleur humanoïde masqué (MHC) d'Intel est un système révolutionnaire conçu pour générer des mouvements de type humain dans des environnements physiques simulés. Contrairement aux méthodes traditionnelles qui s'appuient largement sur des données de capture de mouvement entièrement détaillées, le MHC est conçu pour gérer des données d'entrée éparses, incomplètes ou partielles provenant de diverses sources. Ces sources peuvent inclure des contrôleurs de réalité virtuelle, qui peuvent uniquement suivre les mouvements de la main ou de la tête ; des entrées de joystick qui ne donnent que des commandes de navigation de haut niveau ; un suivi vidéo, où certaines parties du corps peuvent être occultées ; ou même des instructions abstraites dérivées d'invites textuelles.
L'innovation de cette technologie réside dans sa capacité à interpréter et à combler les lacunes lorsque les données sont manquantes ou incomplètes. Elle y parvient grâce à ce qu'Intel appelle la Rattrapage, combinaison et achèvement (CCC) capacités:
- Rattraper:Cette fonctionnalité permet au MHC de récupérer et de resynchroniser son mouvement lorsque des perturbations se produisent, par exemple lorsque le système démarre dans un état de défaillance, comme un personnage humanoïde qui est tombé. Le système peut rapidement corriger ses mouvements et reprendre un mouvement naturel sans réentraînement ni ajustements manuels.
- Combiner:MHC peut combiner différentes séquences de mouvements, par exemple en fusionnant les mouvements du haut du corps d'une action (par exemple, agiter la main) avec les actions du bas du corps d'une autre (par exemple, marcher). Cette flexibilité permet de générer des comportements entièrement nouveaux à partir de données de mouvement existantes.
- Complété:Lorsque des données d'entrée éparses, telles que des données partielles sur les mouvements du corps ou des directives de haut niveau vagues, le MHC peut inférer et générer intelligemment les parties manquantes du mouvement. Par exemple, si seuls les mouvements des bras sont spécifiés, le MHC peut générer de manière autonome les mouvements des jambes correspondants pour maintenir l'équilibre physique et le réalisme.
Le résultat est un système de génération de mouvement hautement adaptable, capable de créer des mouvements fluides, réalistes et physiquement précis, même avec des directives incomplètes ou sous-spécifiées. Cela rend MHC idéal pour les applications dans les jeux, la robotique, la réalité virtuelle et tout scénario où un mouvement humain de haute qualité est nécessaire mais où les données d'entrée sont limitées.
L'impact du CMH sur les modèles de mouvement génératif
Le contrôleur humanoïde masqué (MHC) fait partie d'un effort plus vaste d'Intel Labs et de ses collaborateurs pour créer de manière responsable des modèles génératifs, notamment ceux qui alimentent la conversion de texte en image et Génération 3D tâches. Comme discuté à l'ECCV 2024, cette approche a des implications importantes pour des industries comme la robotique, la réalité virtuelle, les jeux et la simulation, où la génération de mouvements humains réalistes est cruciale. En incorporant des entrées multimodales et en permettant au contrôleur de passer de manière transparente d'un mouvement à l'autre, le MHC peut gérer des conditions réelles où les données des capteurs peuvent être bruyantes ou incomplètes.
Ces travaux d'Intel Labs s'ajoutent à d'autres recherches avancées présentées à l'ECCV 2024, telles que leur nouvelle défense pour les modèles texte-image et le développement de techniques pour améliorer la cohérence spatiale dans la génération d'images. Ensemble, ces avancées illustrent le leadership d'Intel dans le domaine de la vision par ordinateur, en mettant l'accent sur le développement de technologies d'IA sécurisées, évolutives et responsables.
Conclusion
Le contrôleur humanoïde masqué (MHC), développé par Intel Labs et des collaborateurs universitaires, représente une avancée cruciale dans le domaine de la génération de mouvements humains. En s'attaquant au problème complexe de contrôle de la génération de mouvements réalistes à partir d'entrées multimodales, le MHC ouvre la voie à de nouvelles applications dans la réalité virtuelle, les jeux, la robotique et la simulation. Cette recherche, présentée à l'ECCV 2024, démontre l'engagement d'Intel à faire progresser l'IA responsable et la modélisation générative, contribuant ainsi à des technologies plus sûres et plus adaptatives dans divers domaines.