Connect with us

Künstliche Intelligenz

Können AI-Modelle der Welt tatsächlich physikalische Gesetze verstehen?

mm
Image produced by ChatGPT-4o, depicting diverse objects exhibiting aberrant physical properties. The prompt was developed conversationally

Die große Hoffnung für Vision-Language-AI-Modelle ist, dass sie eines Tages in der Lage sein werden, eine größere Autonomie und Vielseitigkeit zu entwickeln und Prinzipien physikalischer Gesetze in ähnlicher Weise zu inkorporieren, wie wir durch frühe Erfahrungen ein angeborenes Verständnis dieser Prinzipien entwickeln.

Zum Beispiel entwickeln Kinder bei Ballspielen ein Verständnis für die Kinematik der Bewegung und der Wirkung von Gewicht und Oberflächentextur auf die Traektorie. Ebenso werden Interaktionen mit alltäglichen Szenarien wie Bädern, verschütteten Getränken, dem Ozean, Schwimmbädern und anderen diversen Flüssigkeitskörpern ein vielseitiges und skalierbares Verständnis dafür vermitteln, wie Flüssigkeiten unter Schwerkraft verhalten.

Sogar die Postulate weniger häufiger Phänomene – wie Verbrennung, Explosionen und architektonische Gewichtsverteilung unter Druck – werden unbewusst durch die Exposition gegenüber Fernsehsendungen und Filmen oder sozialen Medien-Videos aufgenommen.

Erst wenn wir die Prinzipien hinter diesen Systemen auf akademischer Ebene studieren, “retrofitten” wir unsere intuitiven (aber uninformierten) mentalen Modelle davon.

Meister der Einheit

Derzeit sind die meisten AI-Modelle im Gegensatz dazu spezialisierter und viele von ihnen werden entweder fein abgestimmt oder von Grund auf auf Bild- oder Video-Datensätzen trainiert, die sehr spezifisch für bestimmte Anwendungsfälle sind, anstatt darauf ausgelegt zu sein, ein allgemeines Verständnis der Gesetze zu entwickeln.

Andere können das Aussehen eines Verständnisses physikalischer Gesetze präsentieren; aber sie können tatsächlich nur Beispiele aus ihren Trainingsdaten reproduzieren, anstatt wirklich die Grundlagen von Bereichen wie der Bewegungsphysik zu verstehen, um wirklich neue (und wissenschaftlich plausible) Darstellungen aus Benutzeranfragen zu erzeugen.

In diesem kritischen Moment der Produktivierung und Kommerzialisierung generativer AI-Systeme liegt es an uns und an der Prüfung der Investoren, die handwerkliche Marketing-Neuigkeit von neuen AI-Modellen von der Realität ihrer Einschränkungen zu unterscheiden.

Eines der interessantesten Papiere im November, das von Bytedance Research geleitet wurde, beschäftigte sich mit diesem Problem und erforschte die Lücke zwischen den scheinbaren und tatsächlichen Fähigkeiten von “Allzweck”-generativen Modellen wie Sora.

Die Arbeit kam zu dem Schluss, dass die generierten Ausgaben von Modellen dieser Art bei dem aktuellen Stand der Technik wahrscheinlicher sind, Beispiele aus ihren Trainingsdaten nachzuahmen, als tatsächlich ein vollständiges Verständnis der zugrunde liegenden physikalischen Einschränkungen zu demonstrieren, die in der realen Welt operieren.

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.