Artificiell intelligens
NVIDIA Cosmos: Etablerar fysisk AI med simuleringar

Utvecklingen av fysiska AI-system, såsom robotar på fabriksgolv och autonoma fordon på gatorna, är starkt beroende av stora, högkvalitativa datamängder för utbildning. Att samla in verkliga data är dock dyrt, tidskrävande och ofta begränsat till ett fåtal stora techföretag. NVIDIA’s Cosmos-plattform möter denna utmaning genom att använda avancerade fysiksimuleringar för att generera realistiska syntetiska data i stor skala. Detta möjliggör för ingenjörer att utbilda AI-modeller utan de kostnader och förseningar som är förknippade med insamling av verkliga data. Den här artikeln diskuterar hur Cosmos förbättrar tillgången till väsentlig utbildningsdata och accelererar utvecklingen av säkra, tillförlitliga AI för verkliga tillämpningar.
Förstå fysisk AI
Fysisk AI syftar på artificiella intelligenssystem som kan uppfatta, förstå och agera i den fysiska världen. Till skillnad från traditionell AI, som kanske analyserar text eller bilder, måste fysisk AI hantera verkliga världens komplexiteter som rumsliga relationer, fysiska krafter och dynamiska miljöer. Till exempel behöver en självkörande bil känna igen fotgängare, förutsäga deras rörelser och justera sin bana i realtid, samtidigt som den tar hänsyn till faktorer som väder och vägförhållanden. På samma sätt måste en robot i ett lager navigera hinder och manipulera föremål med precision.
Att utveckla fysisk AI är utmanande eftersom det kräver stora mängder data för att utbilda modeller på olika verkliga scenarier. Att samla in dessa data, antingen det är timmar av körningsfilmer eller robotiska uppgiftsdemonstrationer, kan vara tidskrävande och dyrt. Dessutom kan testning av AI i den verkliga världen vara riskfyllt, eftersom misstag kan leda till olyckor. NVIDIA Cosmos möter dessa utmaningar genom att använda fysikbaserade simuleringar för att generera realistiska syntetiska data. Detta förenklar och accelererar utvecklingen av fysiska AI-system.
Vad är världens grundmodeller?
I kärnan av NVIDIA Cosmos finns en samling av AI-modeller som kallas världens grundmodeller (WFMs). Dessa AI-modeller är specifikt utformade för att simulera virtuella miljöer som nära motsvarar den fysiska världen. Genom att generera fysikmedvetna videor eller scenarier simulerar WFMs hur föremål interagerar baserat på rumsliga relationer och fysiska lagar. Till exempel kunde en WFM simulera en bil som kör genom en regnskur, visar hur vatten påverkar greppet eller hur strålkastarna reflekteras av våta ytor.
WFMs är avgörande för fysisk AI eftersom de tillhandahåller en säker, kontrollerbar miljö för att utbilda och testa AI-system. Istället för att samla in verkliga data kan utvecklare använda WFMs för att generera syntetiska data – realistiska simuleringar av miljöer och interaktioner. Detta tillvägagångssätt minskar inte bara kostnaderna utan accelererar också utvecklingsprocessen och möjliggör testning av komplexa, sällsynta scenarier (såsom ovanliga trafiksituationer) utan de risker som är förknippade med testning i den verkliga världen. WFMs är allmänna modeller som kan finjusteras för specifika tillämpningar, liknande hur stora språkmodeller anpassas för uppgifter som översättning eller chattbotar.
Presentation av NVIDIA Cosmos
NVIDIA Cosmos är en plattform som är utformad för att möjliggöra för utvecklare att bygga och anpassa WFMs för fysiska AI-tillämpningar, särskilt inom autonoma fordon (AV) och robotik. Cosmos integrerar avancerade generativa modeller, datahanteringsverktyg och säkerhetsfunktioner för att utveckla AI-system som interagerar med den fysiska världen. Plattformen är öppen källkod, med modeller tillgängliga under permissiva licenser.
Nyckelkomponenter i plattformen inkluderar:
- Generativa världens grundmodeller (WFMs): Förunderutbildade modeller som simulerar fysiska miljöer och interaktioner.
- Avancerade tokenisatorer: Verktyg som effektivt komprimerar och bearbetar data för snabbare modellutbildning.
- Accelererad dataprocesseringspipeline: Ett system för hantering av stora datamängder, driven av NVIDIA:s beräkningsinfrastruktur.
En nyhet med Cosmos är dess resonemodell för fysisk AI. Denna modell ger utvecklare möjlighet att skapa och modifiera virtuella världar. De kan anpassa simuleringar till specifika behov, såsom testning av en robots förmåga att plocka upp föremål eller utvärdering av en AV:s reaktion på ett plötsligt hinder.
NVIDIA Cosmos nyckelfunktioner
NVIDIA Cosmos tillhandahåller olika komponenter för att hantera specifika utmaningar i fysisk AI-utveckling:
- Cosmos Transfer WFMs: Dessa modeller tar strukturerade videoinmatningar, såsom segmenteringskartor, djupkartor eller lidarskanningar, och genererar kontrollerbara, fotorealistiska videoutgångar. Denna funktion är särskilt användbar för att skapa syntetiska data för att utbilda perceptions-AI, såsom system som hjälper AV att identifiera föremål eller robotar som känner igen sin omgivning.
- Cosmos Predict WFMs: Cosmos Predict-modeller genererar virtuella världstillstånd baserat på multimodala inmatningar, inklusive text, bilder och video. De kan förutsäga framtida scenarier, såsom hur en scen kan utvecklas över tid, och stödja multiframgenerering för komplexa sekvenser. Utvecklare kan anpassa dessa modeller med hjälp av NVIDIA:s fysiska AI-dataset för att möta sina specifika behov, såsom förutsägelse av fotgängarrörelser eller robotiska handlingar.
- Cosmos Reason WFM: Cosmos Reason-modellen är en fullständigt anpassningsbar WFM med rumslig och tidsmässig medvetenhet. Dess resonemöjlighet möjliggör för den att förstå både rumsliga relationer och hur de förändras över tid. Modellen använder kedjetänkande resonemang för att analysera videodata och förutsäga resultat, såsom om en person kommer att kliva in i en övergångsställe eller om en låda kommer att falla av en hylla.
Tillämpningar och användningsfall
NVIDIA Cosmos har redan en betydande inverkan på branschen, med flera ledande företag som antar plattformen för sina fysiska AI-projekt. Dessa tidiga antagare belyser Cosmos flexibilitet och praktiska inverkan inom olika sektorer:
- 1X: Använder Cosmos för avancerad robotik för att förbättra sin förmåga att utveckla AI-drivna robotar.
- Agility Robotics: Utökar sitt samarbete med NVIDIA för att använda Cosmos för humanoida robotiska system.
- Figure AI: Använder Cosmos för att förbättra humanoidrobotik, med fokus på AI som kan utföra komplexa uppgifter.
- Foretellix: Tillämpar Cosmos i autonoma fordonssimuleringar för att generera en bred variation av testscenarier.
- Skild AI: Använder Cosmos för att utveckla AI-drivna lösningar för olika tillämpningar.
- Uber: Integrerar Cosmos i sin utveckling av autonoma fordon för att förbättra utbildningsdata för självkörande system.
- Oxa: Använder Cosmos för att påskynda industriell mobilitetsautomatisering.
- Virtual Incision: Undersöker Cosmos för kirurgisk robotik för att förbättra precisionen inom hälso- och sjukvården.
Dessa användningsfall visar hur Cosmos kan möta en bred variation av behov, från transport till hälso- och sjukvård, genom att tillhandahålla syntetiska data för utbildning av dessa fysiska AI-system.
Framtida implikationer
Lanseringen av NVIDIA Cosmos är viktig för utvecklingen av fysiska AI-system. Genom att erbjuda en öppen källkodsplattform med kraftfulla verktyg och modeller gör NVIDIA det möjligt för en bredare krets av utvecklare och organisationer att delta i fysisk AI-utveckling. Detta kan leda till betydande framsteg inom flera områden.
Inom autonoma transporter kan förbättrad utbildningsdata och simuleringar leda till säkrare och mer tillförlitliga självkörande bilar. Inom robotik kan den snabbare utvecklingen av robotar som kan utföra komplexa uppgifter omvandla branscher som tillverkning, logistik och hälso- och sjukvård. Inom hälso- och sjukvård kan tekniker som kirurgisk robotik, som undersökts av Virtual Incision, förbättra precisionen och resultaten av medicinska procedurer.
Sammanfattning
NVIDIA Cosmos spelar en avgörande roll i utvecklingen av fysisk AI. Denna plattform möjliggör för utvecklare att generera högkvalitativa syntetiska data genom att tillhandahålla förutbildade, fysikbaserade världens grundmodeller (WFMs) för att skapa realistiska simuleringar. Med sin öppna källkodsåtkomst, avancerade funktioner och etiska skyddsanordningar möjliggör Cosmos snabbare, mer effektiv AI-utveckling. Plattformen driver redan fram betydande framsteg inom branscher som transport, robotik och hälso- och sjukvård, genom att tillhandahålla syntetiska data för att bygga intelligenta system som interagerar med den fysiska världen.












