Intelligenza Artificiale
Controller umanoide mascherato di Intel: un nuovo approccio alla generazione di movimenti umani fisicamente realistici e direzionabili

ricercatori provenienti da Laboratori Intel, in collaborazione con esperti accademici e del settore, hanno introdotto una tecnica rivoluzionaria per generare un movimento umano realistico e direzionabile da input sparsi e multimodali. Il loro lavoro, evidenziato al Conferenza europea sulla visione artificiale (ECCV 2024), si concentra sul superamento delle sfide legate alla generazione di comportamenti umani naturali basati sulla fisica in personaggi umanoidi ad alta dimensione. Questa ricerca fa parte di un'iniziativa più ampia di Intel Labs per promuovere la visione artificiale e l'apprendimento automatico.
Intel Labs e i suoi partner hanno recentemente presentato sei articoli all'avanguardia all'ECCV 2024, una conferenza di primo piano organizzata dal Associazione Europea per la Visione Computerizzata (CEVA).
La carta Generazione di movimenti umani fisicamente realistici e direzionabili da input multimodali ha presentato innovazioni tra cui una nuova strategia di difesa per proteggere i modelli text-to-image dagli attacchi di red teaming basati su prompt e lo sviluppo di un dataset su larga scala progettato per migliorare la coerenza spaziale in questi modelli. Tra questi contributi, il documento evidenzia la dedizione di Intel al progresso della modellazione generativa, dando priorità AI responsabile pratiche.
Generazione di movimenti umani realistici utilizzando input multimodali
Il Masked Humanoid Controller (MHC) di Intel è un sistema rivoluzionario progettato per generare movimenti simili a quelli umani in ambienti di fisica simulata. A differenza dei metodi tradizionali che si basano in gran parte su dati di motion capture completamente dettagliati, l'MHC è progettato per gestire dati di input sparsi, incompleti o parziali da una varietà di fonti. Queste fonti possono includere controller VR, che potrebbero tracciare solo i movimenti delle mani o della testa; input di joystick che forniscono solo comandi di navigazione di alto livello; tracciamento video, in cui alcune parti del corpo potrebbero essere occluse; o persino istruzioni astratte derivate da prompt di testo.
L'innovazione della tecnologia risiede nella sua capacità di interpretare e colmare le lacune in cui i dati sono mancanti o incompleti. Ciò avviene tramite ciò che Intel definisce il Recuperare, combinare e completare (CCC) capacità :
- Raggiungere: Questa caratteristica consente all'MHC di recuperare e risincronizzare il suo movimento quando si verificano delle interruzioni, come quando il sistema si avvia in uno stato di errore, come un personaggio umanoide caduto. Il sistema può correggere rapidamente i suoi movimenti e riprendere il movimento naturale senza riaddestramento o regolazioni manuali.
- Combinare: MHC può fondere insieme diverse sequenze di movimento, come ad esempio unire i movimenti della parte superiore del corpo da un'azione (ad esempio, salutare) con le azioni della parte inferiore del corpo da un'altra (ad esempio, camminare). Questa flessibilità consente la generazione di comportamenti completamente nuovi da dati di movimento esistenti.
- Completato: Quando vengono forniti input sparsi, come dati parziali sui movimenti del corpo o vaghe direttive di alto livello, l'MHC può dedurre e generare in modo intelligente le parti mancanti del movimento. Ad esempio, se vengono specificati solo i movimenti del braccio, l'MHC può generare autonomamente i corrispondenti movimenti delle gambe per mantenere l'equilibrio fisico e il realismo.
Il risultato è un sistema di generazione di movimento altamente adattabile in grado di creare movimenti fluidi, realistici e fisicamente accurati, anche con direttive incomplete o non specificate. Ciò rende MHC ideale per applicazioni in gaming, robotica, realtà virtuale e qualsiasi scenario in cui sia necessario un movimento umanoide di alta qualità ma i dati di input siano limitati.
L'impatto dell'MHC sui modelli di movimento generativo
Il Masked Humanoid Controller (MHC) fa parte di uno sforzo più ampio da parte di Intel Labs e dei suoi collaboratori per costruire in modo responsabile modelli generativi, compresi quelli che alimentano il testo in immagine e Generazione 3D task. Come discusso all'ECCV 2024, questo approccio ha implicazioni significative per settori come la robotica, la realtà virtuale, il gaming e la simulazione, in cui la generazione di movimenti umani realistici è fondamentale. Incorporando input multimodali e consentendo al controller di passare senza problemi da un movimento all'altro, l'MHC può gestire condizioni del mondo reale in cui i dati dei sensori potrebbero essere rumorosi o incompleti.
Questo lavoro di Intel Labs si affianca ad altre ricerche avanzate presentate all'ECCV 2024, come la loro nuova difesa per i modelli testo-immagine e lo sviluppo di tecniche per migliorare la coerenza spaziale nella generazione di immagini. Insieme, questi progressi mettono in mostra la leadership di Intel nel campo della visione artificiale, con un focus sullo sviluppo di tecnologie AI sicure, scalabili e responsabili.
Conclusione
Il Masked Humanoid Controller (MHC), sviluppato da Intel Labs e collaboratori accademici, rappresenta un passo avanti fondamentale nel campo della generazione del movimento umano. Affrontando il complesso problema di controllo della generazione di movimenti realistici da input multimodali, l'MHC apre la strada a nuove applicazioni in VR, gaming, robotica e simulazione. Questa ricerca, presentata all'ECCV 2024, dimostra l'impegno di Intel nel promuovere l'intelligenza artificiale responsabile e la modellazione generativa, contribuendo a tecnologie più sicure e adattive in vari domini.