Kunstig intelligens
NVIDIA Cosmos: Fremme af fysisk AI med simulationer

Udviklingen af fysisk AI-systemer, såsom robotter på fabriksgulve og selvstyrende køretøjer på gaderne, afhænger stærkt af store, højkvalitetsdataser til træning. Dog er indsamling af virkelighedsdata kostbar, tidskrævende og ofte begrænset til få store tech-virksomheder. NVIDIA’s Cosmos-platform løser denne udfordring ved at bruge avancerede fysiksimuleringer til at generere realistiske syntetiske data i stor skala. Dette giver ingeniører mulighed for at træne AI-modeller uden omkostningerne og forsinkelserne forbundet med indsamling af virkelighedsdata. Denne artikel diskuterer, hvordan Cosmos forbedrer adgangen til essentiel træningsdata og accelererer udviklingen af sikre, pålidelige AI til virkelighedsapplikationer.
Forståelse af fysisk AI
Fysisk AI henviser til kunstig intelligenssystemer, der kan percipere, forstå og handle inden for den fysiske verden. I modsætning til traditionel AI, der måske analyserer tekst eller billeder, må fysisk AI beskæftige sig med virkelighedens kompleksiteter som rumlige relationer, fysiske kræfter og dynamiske miljøer. For eksempel skal en selvstyrende bil kunne genkende fodgængere, forudsige deres bevægelser og justere sin rute i realtid, samtidig med at man tager hensyn til faktorer som vejr og vejforhold. Ligeså skal en robot i et lager kunne navigere rundt i hindringer og manipulere objekter med præcision.
Udviklingen af fysisk AI er udfordrende, fordi det kræver enorme mængder data til at træne modeller på diverse virkelighedsscenarier. Indsamling af disse data, enten det er timer af køretøjfilm eller robotiske opgavedemonstrationer, kan være tidskrævende og dyrt. Desuden kan testning af AI i den virkelige verden være risikabelt, da fejl kan føre til ulykker. NVIDIA Cosmos løser disse udfordringer ved at bruge fysikbaserede simuleringer til at generere realistiske syntetiske data. Denne tilgang forenkler og accelererer udviklingen af fysisk AI-systemer.
Hvad er World Foundation Models?
I centrum af NVIDIA Cosmos er en samling af AI-modeller kaldet world foundation models (WFMs). Disse AI-modeller er specifikt designed til at simulere virtuelle miljøer, der ligner den fysiske verden. Ved at generere fysikbevidste videoer eller scenarier simulerer WFMs, hvordan objekter interagerer baseret på rumlige relationer og fysiske love. For eksempel kunne en WFM simulere en bil, der kører gennem en regnstorm, og vise, hvordan vand påvirker trækkraft eller hvordan forlygter reflekterer af våde overflader.
WFMs er afgørende for fysisk AI, fordi de giver en sikker, kontrollerbar plads til at træne og teste AI-systemer. I stedet for at indsamle virkelighedsdata kan udviklere bruge WFMs til at generere syntetiske data – realistiske simuleringer af miljøer og interaktioner. Denne tilgang reducerer ikke kun omkostningerne, men accelererer også udviklingsprocessen og giver mulighed for at teste komplekse, sjældne scenarier (såsom usædvanlige trafiksituationer) uden de risici, der er forbundet med testning i den virkelige verden. WFMs er generelle modeller, der kan tilpasses til specifikke anvendelser, ligesom store sprogmodeller tilpasses til opgaver som oversættelse eller chatbots.
Præsentation af NVIDIA Cosmos
NVIDIA Cosmos er en platform designet til at enable udviklere til at bygge og tilpasse WFMs til fysisk AI-applikationer, især i selvstyrende køretøjer (AVs) og robotteknologi. Cosmos integrerer avancerede generative modeller, dataprocesseringsværktøjer og sikkerhedsfunktioner til at udvikle AI-systemer, der interagerer med den fysiske verden. Platformen er open source, med modeller tilgængelige under permissive licenser.
Nøglekomponenter i platformen omfatter:
- Generative World Foundation Models (WFMs): Forudtrænede modeller, der simulerer fysiske miljøer og interaktioner.
- Avancerede Tokenizers: Værktøjer, der effektivt komprimerer og processor data for hurtigere modeltræning.
- Accelereret Data Processing Pipeline: Et system til håndtering af store datamængder, drevet af NVIDIA’s computermiljø.
En nøgleinnovation i Cosmos er dens resonansmodel for fysisk AI. Denne model giver udviklere mulighed for at oprette og ændre virtuelle verdener. De kan tilpasse simuleringer til specifikke behov, såsom test af en robots evne til at samle objekter eller vurdering af en selvstyrende køretøjs reaktion på pludselige hindringer.
Nøglefunktioner i NVIDIA Cosmos
NVIDIA Cosmos tilbyder forskellige komponenter til at løse specifikke udfordringer i fysisk AI-udvikling:
- Cosmos Transfer WFMs: Disse modeller tager struktureret videoinput, såsom segmenteringskort, dybdekort eller lidar-scans, og genererer kontrollerbare, fotorealistiske videooutput. Denne funktion er særligt nyttig til at oprette syntetiske data til træning af perception AI, såsom systemer, der hjælper selvstyrende køretøjer med at identificere objekter eller robotter med at genkende deres omgivelser.
- Cosmos Predict WFMs: Cosmos Predict-modeller genererer virtuelle verdensstater baseret på multimodale input, herunder tekst, billeder og video. De kan forudsige fremtidige scenarier, såsom hvordan en scene måske udvikler sig over tid, og understøtte multi-ramme-generering for komplekse sekvenser. Udviklere kan tilpasse disse modeller ved hjælp af NVIDIA’s fysisk AI-datasæt for at møde deres specifikke behov, såsom forudsige fodgængernes bevægelser eller robotternes handlinger.
- Cosmos Reason WFM: Cosmos Reason-modellen er en fuldt tilpasselig WFM med rumligt og tidsmæssigt bevidsthed. Dens resonansfunktion giver mulighed for at forstå både rumlige relationer og hvordan de ændrer sig over tid. Modellen bruger kæde-af-tanke-resonans til at analysere video-data og forudsige resultater, såsom om en person vil gå ind i en fodgængerovergang eller en kasse vil falde af en hylder.
Anvendelser og brugsområder
NVIDIA Cosmos har allerede en betydelig indvirkning på branchen, med flere førende virksomheder, der adopterer platformen til deres fysisk AI-projekter. Disse tidlige adopterer fremhæver Cosmos’ fleksibilitet og praktiske indvirkning på tværs af forskellige sektorer:
- 1X: Bruger Cosmos til avanceret robotteknologi til at forbedre deres evne til at udvikle AI-drevne robotter.
- Agility Robotics: Udvider deres samarbejde med NVIDIA til at anvende Cosmos til humanoid robot-systemer.
- Figure AI: Bruger Cosmos til at fremme humanoid robotteknologi, med fokus på AI, der kan udføre komplekse opgaver.
- Foretellix: Anvender Cosmos i selvstyrende køretøjs-simulation til at generere en bred vifte af testscenarier.
- Skild AI: Bruger Cosmos til at udvikle AI-drevne løsninger til forskellige anvendelser.
- Uber: Integrerer Cosmos i deres selvstyrende køretøjsudvikling til at forbedre træningsdata for selvstyrende systemer.
- Oxa: Bruger Cosmos til at accelerere industrielt mobilitetsautomatisering.
- Virtual Incision: Undersøger Cosmos til kirurgisk robotteknologi til at forbedre præcision i sundhedssektoren.
Disse brugsområder demonstrerer, hvordan Cosmos kan møde en bred vifte af behov, fra transport til sundhedssektor, ved at give syntetiske data til træning af disse fysisk AI-systemer.
Fremtidige implikationer
Lanceringen af NVIDIA Cosmos er vigtig for udviklingen af fysisk AI-systemer. Ved at tilbyde en open-source-platform med kraftfulde værktøjer og modeller giver NVIDIA adgang til fysisk AI-udvikling for en bredere kreds af udviklere og organisationer. Dette kunne føre til betydelige fremskridt i flere områder.
I autonom transport kunne forbedret træningsdata og simuleringer føre til sikrere og mere pålidelige selvstyrende køretøjer. I robotteknologi kunne den hurtigere udvikling af robotter, der kan udføre komplekse opgaver, transformere brancher som fabrikation, logistik og sundhedssektor. I sundhedssektoren kunne teknologier som kirurgisk robotteknologi, som undersøges af Virtual Incision, forbedre præcision og resultater i medicinske procedurer.
Sammenfatning
NVIDIA Cosmos spiller en vital rolle i udviklingen af fysisk AI. Denne platform giver udviklere mulighed for at generere højkvalitets syntetiske data ved at tilbyde forudtrænede, fysikbaserede world foundation models (WFMs) til at oprette realistiske simuleringer. Med sin open-source-adgang, avancerede funktioner og etiske sikkerhedsforanstaltninger giver Cosmos mulighed for hurtigere og mere effektiv AI-udvikling. Platformen er allerede med til at drive betydelige fremskridt i brancher som transport, robotteknologi og sundhedssektor, ved at give syntetiske data til opbygning af intelligente systemer, der interagerer med den fysiske verden.












