Artificiell intelligens
NVIDIA Cosmos: Aktiverar fysisk AI med simuleringar

Utvecklingen av fysiska AI-system, såsom robotar på fabriksgolv och autonoma fordon på gatorna, är beroende av stora, högkvalitativa datamängder för utbildning. Att samla in data från den verkliga världen är dock dyrt, tidskrävande och ofta begränsat till ett fåtal stora teknikföretag. NVIDIA’s Cosmos plattform möter denna utmaning genom att använda avancerade fysiksimuleringar för att generera realistiska syntetiska data i stor skala. Detta möjliggör för ingenjörer att utbilda AI-modeller utan de kostnader och förseningar som är förknippade med insamling av data från den verkliga världen. Den här artikeln diskuterar hur Cosmos förbättrar tillgången till viktig utbildningsdata och accelererar utvecklingen av säkra, tillförlitliga AI för verkliga tillämpningar.
Att förstå fysisk AI
Fysisk AI refererar till artificiell intelligens som kan uppfatta, förstå och agera i den fysiska världen. Till skillnad från traditionell AI, som kan analysera text eller bilder, måste fysisk AI hantera verkliga världens komplexiteter som rumsliga relationer, fysiska krafter och dynamiska miljöer. Till exempel behöver en självkörande bil känna igen fotgängare, förutsäga deras rörelser och justera sin bana i realtid, samtidigt som den tar hänsyn till faktorer som väder och vägförhållanden. På samma sätt måste en robot i ett lager navigera runt hinder och manipulera föremål med precision.
Att utveckla fysisk AI är utmanande eftersom det kräver stora mängder data för att utbilda modeller på olika verkliga scenarier. Att samla in dessa data, antingen det är timmar av körningsfilmer eller robotiska uppgiftsdemonstrationer, kan vara tidskrävande och dyrt. Dessutom kan det vara riskabelt att testa AI i den verkliga världen, eftersom misstag kan leda till olyckor. NVIDIA Cosmos möter dessa utmaningar genom att använda fysikbaserade simuleringar för att generera realistiska syntetiska data. Detta förenklar och accelererar utvecklingen av fysiska AI-system.
Vad är världsgrundmodeller?
I kärnan av NVIDIA Cosmos finns en samling AI-modeller som kallas världsgrundmodeller (WFMs). Dessa AI-modeller är specifikt utformade för att simulera virtuella miljöer som nära återger den fysiska världen. Genom att generera fysikmedvetna videor eller scenarier simulerar WFMs hur föremål interagerar baserat på rumsliga relationer och fysiska lagar. Till exempel kunde en WFM simulera en bil som kör genom en regnskur, vilket visar hur vatten påverkar greppet eller hur strålkastare reflekterar mot våta ytor.
WFMs är avgörande för fysisk AI eftersom de tillhandahåller en säker, kontrollerbar miljö för att utbilda och testa AI-system. Istället för att samla in data från den verkliga världen kan utvecklare använda WFMs för att generera syntetiska data – realistiska simuleringar av miljöer och interaktioner. Detta tillvägagångssätt reducerar inte bara kostnader utan accelererar också utvecklingsprocessen och möjliggör testning av komplexa, sällsynta scenarier (såsom ovanliga trafiksituationer) utan de risker som är förknippade med testning i den verkliga världen. WFMs är allmänna modeller som kan finjusteras för specifika tillämpningar, liknande hur stora språkmodeller anpassas för uppgifter som översättning eller chatbots.
Att presentera NVIDIA Cosmos
NVIDIA Cosmos är en plattform som är utformad för att möjliggöra för utvecklare att bygga och anpassa WFMs för fysiska AI-tillämpningar, särskilt inom autonoma fordon (AVs) och robotik. Cosmos integrerar avancerade generativa modeller, datahanteringsverktyg och säkerhetsfunktioner för att utveckla AI-system som interagerar med den fysiska världen. Plattformen är öppen källkod, med modeller tillgängliga under permissiva licenser.
Nyckelkomponenter i plattformen inkluderar:
- Generativa världsgrundmodeller (WFMs): Förunderutbildade modeller som simulerar fysiska miljöer och interaktioner.
- Avancerade tokenisatorer: Verktyg som effektivt komprimerar och bearbetar data för snabbare modellutbildning.
- Accelererad dataprocesseringspipeline: Ett system för hantering av stora datamängder, driven av NVIDIA:s beräkningsinfrastruktur.
En nyhet med Cosmos är dess resonemangsmodell för fysisk AI. Denna modell ger utvecklare möjlighet att skapa och modifiera virtuella världar. De kan anpassa simuleringar till specifika behov, såsom testning av en robots förmåga att plocka upp föremål eller utvärdering av en AV:s reaktion på ett plötsligt hinder.
Nyckelfunktioner i NVIDIA Cosmos
NVIDIA Cosmos tillhandahåller olika komponenter för att möta specifika utmaningar i fysisk AI-utveckling:
- Cosmos Transfer WFMs: De här modellerna tar strukturerade videoinmatningar, såsom segmenteringskartor, djupkartor eller lidarskanningar, och genererar kontrollerbara, fotorealistiska videoutgångar. Denna funktion är särskilt användbar för att skapa syntetiska data för att utbilda perceptions-AI, såsom system som hjälper AVs att identifiera föremål eller robotar som känner igen sin omgivning.
- Cosmos Predict WFMs: Cosmos Predict-modeller genererar virtuella världstillstånd baserat på multimodala inmatningar, inklusive text, bilder och video. De kan förutsäga framtida scenarier, såsom hur en scen kan utvecklas över tid, och stödja multiframgenerering för komplexa sekvenser. Utvecklare kan anpassa dessa modeller med hjälp av NVIDIA:s fysiska AI-dataset för att möta sina specifika behov, såsom förutsägelse av fotgängarrörelser eller robotiska handlingar.
- Cosmos Reason WFM: Cosmos Reason-modellen är en fullständigt anpassningsbar WFM med rumslig och tidsmässig medvetenhet. Dess resonemangs förmåga möjliggör förståelse av både rumsliga relationer och hur de förändras över tid. Modellen använder kedjeresonemang för att analysera videodata och förutsäga resultat, såsom om en person kommer att kliva in i en övergångsställe eller om en låda kommer att falla av en hylla.
Tillämpningar och användningsfall
NVIDIA Cosmos har redan en betydande inverkan på branschen, med flera ledande företag som antar plattformen för sina fysiska AI-projekt. Dessa tidiga antagare betonar Cosmos flexibilitet och praktiska inverkan över olika sektorer:
- 1X: Använder Cosmos för avancerad robotik för att förbättra sin förmåga att utveckla AI-drivna robotar.
- Agility Robotics: Utökar sitt partnerskap med NVIDIA för att använda Cosmos för humanoida robotiska system.
- Figure AI: Använder Cosmos för att förbättra humanoid robotik, med fokus på AI som kan utföra komplexa uppgifter.
- Foretellix: Tillämpar Cosmos i autonoma fordonssimuleringar för att generera en bred variation av testscenarier.
- Skild AI: Använder Cosmos för att utveckla AI-drivna lösningar för olika tillämpningar.
- Uber: Integrerar Cosmos i sin utveckling av autonoma fordon för att förbättra utbildningsdata för självkörande system.
- Oxa: Använder Cosmos för att accelerera industriell mobilitetsautomatisering.
- Virtual Incision: Undersöker Cosmos för kirurgisk robotik för att förbättra precisionen inom hälso- och sjukvården.
Dessa användningsfall visar hur Cosmos kan möta en mängd olika behov, från transport till hälso- och sjukvård, genom att tillhandahålla syntetiska data för utbildning av dessa fysiska AI-system.
Framtida implikationer
Lanseringen av NVIDIA Cosmos är viktig för utvecklingen av fysiska AI-system. Genom att erbjuda en öppen källkodsplattform med kraftfulla verktyg och modeller gör NVIDIA det möjligt för en bredare krets av utvecklare och organisationer att utveckla fysisk AI. Detta kan leda till betydande framsteg inom flera områden.
Inom autonom transport kan förbättrad utbildningsdata och simuleringar leda till säkrare och mer tillförlitliga självkörande bilar. Inom robotik kan den snabbare utvecklingen av robotar som kan utföra komplexa uppgifter förvandla industrier som tillverkning, logistik och hälso- och sjukvård. Inom hälso- och sjukvård kan tekniker som kirurgisk robotik, som undersöks av Virtual Incision, förbättra precisionen och resultaten av medicinska ingrepp.
Sammanfattning
NVIDIA Cosmos spelar en avgörande roll i utvecklingen av fysisk AI. Denna plattform möjliggör för utvecklare att generera högkvalitativa syntetiska data genom att tillhandahålla förutbildade, fysikbaserade världsgrundmodeller (WFMs) för att skapa realistiska simuleringar. Med sin öppna källkodsåtkomst, avancerade funktioner och etiska skyddsanordningar möjliggör Cosmos en snabbare och mer effektiv AI-utveckling. Plattformen driver redan fram betydande framsteg inom branscher som transport, robotik och hälso- och sjukvård, genom att tillhandahålla syntetiska data för att bygga intelligenta system som interagerar med den fysiska världen.












