Vernetzen Sie sich mit uns

Künstliche Intelligenz

Neue Technik ermöglicht es der KI, einige physikalische Aspekte intuitiv zu verstehen

mm

Künstliche Intelligenz ist schon seit einiger Zeit in der Lage, ein Verständnis der Physik durch Reinforcement Learning zu entwickeln, allerdings mit einer neuen Technik entwickelt von Forschern am MIT könnte Ingenieuren dabei helfen, Modelle zu entwerfen, die ein intuitives Verständnis der Physik demonstrieren.

Psychologische Untersuchungen haben gezeigt, dass Menschen die Gesetze der Physik bis zu einem gewissen Grad intuitiv verstehen. Säuglinge haben Erwartungen daran, wie Objekte interagieren und sich bewegen sollen, und Verstöße gegen diese Erwartungen führen dazu, dass die Säuglinge überrascht reagieren. Die vom MIT-Team durchgeführte Forschung hat das Potenzial, nicht nur neue Anwendungen der künstlichen Intelligenz voranzutreiben, sondern auch Psychologen dabei zu helfen, zu verstehen, wie Kleinkinder die Welt wahrnehmen und etwas über sie lernen.

Das vom MIT-Team entworfene Modell heißt ADEPT und funktioniert, indem es Vorhersagen darüber trifft, wie sich Objekte in einem physischen Raum verhalten sollten. Das Modell beobachtet Objekte und verfolgt dabei eine „Überraschungsmetrik“. Wenn etwas Unerwartetes passiert, reagiert das Modell mit einer Erhöhung seines Überraschungswerts. Unerwartete und scheinbar unmögliche Aktionen wie das Teleportieren oder Verschwinden eines Objekts werden zu einem dramatischen Anstieg der Überraschung führen.

Das Ziel des Forschungsteams bestand darin, sein Modell dazu zu bringen, das gleiche Maß an Überraschung zu registrieren, das Menschen empfinden, wenn sie Objekte sehen, die sich auf unplausible Weise verhalten.

ADEPT besteht aus zwei Hauptkomponenten: einer Physik-Engine und einem inversen Grafikmodul. Die Physik-Engine ist dafür verantwortlich, vorherzusagen, wie sich ein Objekt bewegen wird, und eine zukünftige Darstellung eines Objekts aus einer Reihe möglicher Zustände vorherzusagen. Währenddessen ist das inverse Grafikmodul für die Erstellung der Darstellungen von Objekten verantwortlich, die in die Physik-Engine eingespeist werden.

Das inverse Grafikmodul verfolgt verschiedene Attribute wie Geschwindigkeit, Form und Ausrichtung eines Objekts und extrahiert diese Informationen aus Videobildern. Das inverse Grafikmodul konzentriert sich nur auf die hervorstechendsten Details und ignoriert Details, die der Physik-Engine nicht dabei helfen, das Objekt zu interpretieren und neue Zustände vorherzusagen. Indem man sich nur auf die wichtigsten Details konzentriert, kann das Modell besser auf neue Objekte verallgemeinert werden. Die Physik-Engine übernimmt dann diese Objektbeschreibungen und simuliert komplexeres physikalisches Verhalten wie Fließfähigkeit oder Steifigkeit, um Vorhersagen darüber zu treffen, wie sich das Objekt verhalten sollte.

Nach diesem Aufnahmevorgang beobachtet das Modell den tatsächlichen nächsten Frame im Video, anhand dessen es seine Wahrscheinlichkeitsverteilung in Bezug auf mögliches Objektverhalten neu berechnet. Die Überraschung ist umgekehrt proportional zur Wahrscheinlichkeit, mit der ein Ereignis eintreten sollte, und registriert nur dann eine große Überraschung, wenn eine große Diskrepanz zwischen dem besteht, was das Modell als nächstes erwartet, und dem, was tatsächlich als nächstes passiert.

Das Forschungsteam brauchte eine Möglichkeit, die Überraschung seines Modells mit der Überraschung von Menschen zu vergleichen, die das gleiche Objektverhalten beobachten. In der Entwicklungspsychologie testen Forscher Säuglinge häufig, indem sie ihnen zwei verschiedene Videos zeigen. In einem Video wird ein Objekt präsentiert, das sich so verhält, wie man es von Objekten in der realen Welt erwarten würde, und nicht durch spontanes Verschwinden oder Teleportieren. Im anderen Video und Objekt verstößt es auf irgendeine Weise gegen die Gesetze der Physik. Das Forschungsteam nutzte dieselben Grundkonzepte und ließ 60 Erwachsene 64 verschiedene Videos sowohl erwarteten als auch unerwarteten körperlichen Verhaltens ansehen. Anschließend wurden die Teilnehmer gebeten, ihre Überraschung zu verschiedenen Zeitpunkten im Video auf einer Skala von 1 bis 100 zu bewerten.

Die Analyse der Leistung des Modells zeigte, dass es bei Videos, in denen ein Objekt hinter eine Wand bewegt wurde und nach dem Entfernen der Wand verschwand, recht gut funktionierte und in diesen Fällen typischerweise dem Überraschungsniveau von Menschen entsprach. Das Modell schien auch von Videos überrascht zu sein, in denen Menschen keine Überraschung zeigten, obwohl sie dies wohl hätten tun sollen. Damit sich beispielsweise ein Objekt mit einer bestimmten Geschwindigkeit hinter eine Wand bewegt und sofort auf der anderen Seite der Wand wieder auftaucht, muss es entweder teleportiert worden sein oder eine drastische Geschwindigkeitssteigerung erfahren haben.

Im Vergleich zur Leistung herkömmlicher neuronaler Netze, die aus Beobachtungen lernen können, aber die Darstellung eines Objekts nicht explizit protokollieren, stellten die Forscher fest, dass das ADEPT-Netzwerk viel genauer zwischen überraschenden und nicht überraschenden Szenen unterscheiden konnte und dass die Leistung von ADEPT damit übereinstimmte menschliche Reaktionen näher zu betrachten.

Das MIT-Forschungsteam möchte mehr Forschung betreiben und tiefere Einblicke in die Art und Weise gewinnen, wie Kleinkinder die Welt um sich herum beobachten und aus diesen Beobachtungen lernen und ihre Erkenntnisse in neue Versionen des ADEPT-Modells einfließen lassen.

Blogger und Programmierer mit Spezialisierung auf Maschinelles lernen und Tiefes Lernen Themen. Daniel hofft, anderen dabei zu helfen, die Macht der KI für das soziale Wohl zu nutzen.