Künstliche Intelligenz
NVIDIA Cosmos: Empowering Physical AI with Simulations

Die Entwicklung von physikalischen KI-Systemen, wie z.B. Robotern auf Fabrikböden und autonomen Fahrzeugen auf den Straßen, hängt stark von großen, hochwertigen Datensätzen für die Ausbildung ab. Die Erfassung von Echtdaten ist jedoch teuer, zeitaufwändig und oft auf einige große Technologieunternehmen beschränkt. NVIDIA’s Cosmos-Plattform geht dieses Problem durch den Einsatz von fortschrittlichen Physik-Simulationen an, um realistische synthetische Daten im großen Maßstab zu generieren. Dies ermöglicht es Ingenieuren, KI-Modelle ohne die Kosten und Verzögerungen im Zusammenhang mit der Erfassung von Echtdaten auszubilden. Dieser Artikel diskutiert, wie Cosmos den Zugang zu wesentlichen Trainingsdaten verbessert und die Entwicklung von sicheren, zuverlässigen KI für reale Anwendungen beschleunigt.
Verständnis von Physical AI
Physical AI bezieht sich auf künstliche Intelligenz-Systeme, die die physische Welt wahrnehmen, verstehen und darin handeln können. Im Gegensatz zu herkömmlicher KI, die möglicherweise Text oder Bilder analysiert, muss Physical AI mit realen Weltkomplexitäten wie räumlichen Beziehungen, physikalischen Kräften und dynamischen Umgebungen umgehen. Zum Beispiel muss ein selbstfahrendes Auto Fußgänger erkennen, ihre Bewegungen vorhersagen und seinen Pfad in Echtzeit anpassen, während es Faktoren wie Wetter und Straßenbedingungen berücksichtigt. Ebenso muss ein Roboter in einem Lagerhaus Hindernisse navigieren und Objekte mit Präzision manipulieren.
Die Entwicklung von Physical AI ist herausfordernd, da sie große Mengen an Daten erfordert, um Modelle auf diverse reale Szenarien auszubilden. Die Erfassung dieser Daten, sei es Stunden von Fahrvideo oder robotischen Aufgaben-Demonstrationen, kann zeitaufwändig und teuer sein. Darüber hinaus kann das Testen von KI in der realen Welt riskant sein, da Fehler zu Unfällen führen können. NVIDIA Cosmos geht diese Herausforderungen durch den Einsatz von physikbasierten Simulationen an, um realistische synthetische Daten zu generieren. Dieser Ansatz vereinfacht und beschleunigt die Entwicklung von Physical AI-Systemen.
Was sind World Foundation Models?
Im Kern von NVIDIA Cosmos befindet sich eine Sammlung von KI-Modellen, die als World Foundation Models (WFMs) bezeichnet werden. Diese KI-Modelle sind speziell dafür entwickelt, virtuelle Umgebungen zu simulieren, die der physischen Welt sehr ähnlich sind. Durch die Generierung von physikbewussten Videos oder Szenarien simulieren WFMs, wie Objekte aufgrund von räumlichen Beziehungen und physikalischen Gesetzen interagieren. Zum Beispiel könnte ein WFM ein Auto simulieren, das durch einen Regensturm fährt, und zeigen, wie Wasser die Traktion beeinflusst oder wie Scheinwerfer von nassen Oberflächen reflektiert werden.
WFMs sind für Physical AI von entscheidender Bedeutung, da sie einen sicheren, kontrollierbaren Raum bieten, um KI-Systeme auszubilden und zu testen. Anstatt Echtdaten zu sammeln, können Entwickler WFMs verwenden, um synthetische Daten zu generieren – realistische Simulationen von Umgebungen und Interaktionen. Dieser Ansatz reduziert nicht nur die Kosten, sondern beschleunigt auch den Entwicklungsprozess und ermöglicht das Testen komplexer, seltener Szenarien (wie ungewöhnliche Verkehrssituationen) ohne die Risiken, die mit dem Testen in der realen Welt verbunden sind. WFMs sind allgemeine Modelle, die für spezifische Anwendungen fein abgestimmt werden können, ähnlich wie große Sprachmodelle für Aufgaben wie Übersetzung oder Chatbots adaptiert werden.
Enthüllung von NVIDIA Cosmos
NVIDIA Cosmos ist eine Plattform, die Entwicklern ermöglicht, WFMs für Physical AI-Anwendungen, insbesondere in autonomen Fahrzeugen (AVs) und Robotik, zu erstellen und anzupassen. Cosmos integriert fortschrittliche generative Modelle, Datenverarbeitungstools und Sicherheitsfunktionen, um KI-Systeme zu entwickeln, die mit der physischen Welt interagieren. Die Plattform ist Open Source, mit Modellen, die unter permissiven Lizenzen verfügbar sind.
Schlüsselkomponenten der Plattform umfassen:
- Generative World Foundation Models (WFMs): Vorausgebildete Modelle, die physische Umgebungen und Interaktionen simulieren.
- Erweiterte Tokenizer: Tools, die Daten effizient komprimieren und verarbeiten, um die Modellausbildung zu beschleunigen.
- Beschleunigte Datenverarbeitungspipeline: Ein System für die Verarbeitung von großen Datensätzen, das von NVIDIA’s Recheninfrastruktur angetrieben wird.
Eine wichtige Neuerung von Cosmos ist sein Reasoning-Modell für Physical AI. Dieses Modell bietet Entwicklern die Möglichkeit, virtuelle Welten zu erstellen und zu modifizieren. Sie können Simulationen an ihre spezifischen Bedürfnisse anpassen, wie z.B. das Testen der Fähigkeit eines Roboters, Objekte aufzunehmen, oder die Bewertung der Reaktion eines AVs auf ein plötzliches Hindernis.
Schlüsselmerkmale von NVIDIA Cosmos
NVIDIA Cosmos bietet verschiedene Komponenten, um spezifische Herausforderungen in der Entwicklung von Physical AI zu adressieren:
- Cosmos Transfer WFMs: Diese Modelle nehmen strukturierte Video-Eingaben, wie z.B. Segmentierungs-Karten, Tiefen-Karten oder Lidar-Scans, und generieren kontrollierbare, photorealistische Video-Ausgaben. Diese Fähigkeit ist besonders nützlich für die Erstellung von synthetischen Daten zum Trainieren von Wahrnehmungs-KI, wie z.B. Systemen, die AVs helfen, Objekte zu erkennen oder Robotern, ihre Umgebung zu erkennen.
- Cosmos Predict WFMs: Cosmos Predict-Modelle generieren virtuelle Weltzustände auf der Grundlage von multimodalen Eingaben, einschließlich Text, Bildern und Video. Sie können zukünftige Szenarien vorhersagen, wie z.B. wie eine Szene im Laufe der Zeit evolviert, und unterstützen die Generierung von komplexen Sequenzen. Entwickler können diese Modelle mithilfe von NVIDIA’s Physical AI-Datensatz an ihre spezifischen Bedürfnisse anpassen, wie z.B. die Vorhersage von Fußgängerbewegungen oder robotischen Aktionen.
- Cosmos Reason WFM: Das Cosmos Reason-Modell ist ein vollständig anpassbares WFM mit räumlich-zeitlicher Wahrnehmung. Seine Reasoning-Fähigkeit ermöglicht es, sowohl räumliche Beziehungen als auch deren Veränderungen im Laufe der Zeit zu verstehen. Das Modell verwendet eine kettenartige Reasoning-Fähigkeit, um Video-Daten zu analysieren und Ergebnisse vorherzusagen, wie z.B. ob eine Person in eine Fußgängerzone eintritt oder eine Box von einem Regal fällt.
Anwendungen und Einsatzfälle
NVIDIA Cosmos hat bereits einen bedeutenden Einfluss auf die Branche, mit mehreren führenden Unternehmen, die die Plattform für ihre Physical AI-Projekte adoptieren. Diese frühen Adoptierer unterstreichen die Vielseitigkeit und praktische Auswirkung von Cosmos in verschiedenen Branchen:
- 1X: Verwendung von Cosmos für fortschrittliche Robotik, um ihre Fähigkeit zu verbessern, KI-getriebene Roboter zu entwickeln.
- Agility Robotics: Erweiterung ihrer Partnerschaft mit NVIDIA, um Cosmos für humanoid-robotische Systeme zu nutzen.
- Figure AI: Verwendung von Cosmos, um humanoid-robotische Systeme zu verbessern, mit Fokus auf KI, die komplexe Aufgaben ausführen kann.
- Foretellix: Anwendung von Cosmos in der autonomen Fahrzeug-Simulation, um eine breite Palette von Test-Szenarien zu generieren.
- Skild AI: Verwendung von Cosmos, um KI-getriebene Lösungen für verschiedene Anwendungen zu entwickeln.
- Uber: Integration von Cosmos in die Entwicklung von autonomen Fahrzeugen, um Trainingsdaten für selbstfahrende Systeme zu verbessern.
- Oxa: Verwendung von Cosmos, um die industrielle Mobilitätsautomatisierung zu beschleunigen.
- Virtual Incision: Erforschung von Cosmos für robotische Chirurgie, um die Präzision in der Gesundheitsversorgung zu verbessern.
Diese Einsatzfälle demonstrieren, wie Cosmos eine breite Palette von Bedürfnissen decken kann, von Transport bis Gesundheitsversorgung, indem es synthetische Daten für das Trainieren dieser Physical AI-Systeme bereitstellt.
Zukünftige Auswirkungen
Der Start von NVIDIA Cosmos ist wichtig für die Entwicklung von Physical AI-Systemen. Durch die Bereitstellung einer Open-Source-Plattform mit leistungsstarken Tools und Modellen macht NVIDIA die Entwicklung von Physical AI für eine breitere Palette von Entwicklern und Organisationen zugänglich. Dies könnte zu bedeutenden Fortschritten in verschiedenen Bereichen führen.
In der autonomen Transportation könnten verbesserte Trainingsdaten und Simulationen zu sichereren und zuverlässigeren selbstfahrenden Autos führen. In der Robotik könnte die schnellere Entwicklung von Robotern, die komplexe Aufgaben ausführen können, Branchen wie Fertigung, Logistik und Gesundheitsversorgung transformieren. In der Gesundheitsversorgung könnten Technologien wie robotische Chirurgie, wie von Virtual Incision erforscht, die Präzision und Ergebnisse von medizinischen Eingriffen verbessern.
Zusammenfassung
NVIDIA Cosmos spielt eine wichtige Rolle bei der Entwicklung von Physical AI. Diese Plattform ermöglicht es Entwicklern, hochwertige synthetische Daten durch die Bereitstellung von vorausgebildeten, physikbasierten World Foundation Models (WFMs) für die Erstellung realistischer Simulationen zu generieren. Mit seinem Open-Source-Zugang, seinen erweiterten Funktionen und ethischen Sicherheitsvorkehrungen ermöglicht Cosmos eine schnellere, effizientere KI-Entwicklung. Die Plattform treibt bereits bedeutende Fortschritte in Branchen wie Transportation, Robotik und Gesundheitsversorgung voran, indem sie synthetische Daten für die Entwicklung intelligenter Systeme bereitstellt, die mit der physischen Welt interagieren.












