Künstliche Intelligenz
KI-Forscher entwickeln ein Videospiel-Modell, das vergangene Ereignisse remembers

Ein Team von Forschern im KI-Labor von Uber hat kürzlich ein System von KI-Algorithmen entwickelt, das sowohl menschliche Spieler als auch andere KI-Systeme bei klassischen Atari-Videospielen übertraf. Das von den Forschern entwickelte KI-System ist in der Lage, zuvor erfolgreiche Strategien zu remembern und neue Strategien auf der Grundlage dessen zu entwickeln, was in der Vergangenheit funktioniert hat. Das Forschungsteam glaubt, dass die von ihnen entwickelten Algorithmen potenzielle Anwendungen in anderen technischen Bereichen wie der Sprachverarbeitung und der Robotik haben.
Die typische Methode, um KI-Systeme zu erstellen, die Videospiele spielen können, besteht darin, ein Verstärkungslernalgorithmus zu verwenden. Verstärkungslernalgorithmen lernen, eine Aufgabe auszuführen, indem sie eine Reihe von möglichen Aktionen erkunden und nach jeder Aktion mit einer Art von Verstärkung (einer Belohnung oder Bestrafung) versehen werden. Im Laufe der Zeit lernt das KI-Modell, welche Aktionen zu größeren Belohnungen führen, und es wird wahrscheinlicher, dass es diese Aktionen ausführt. Leider haben Verstärkungslernalgorithmen Schwierigkeiten, wenn sie auf Datenpunkte stoßen, die nicht mit anderen im Datensatz übereinstimmen.
Laut dem Forschungsteam ist der Grund, warum ihr Ansatz noch nicht von anderen KI-Forschern in Betracht gezogen wurde, dass die Strategie von der “intrinsischen Motivation” abweicht, die typischerweise in der Verstärkungslernung verwendet wird. Das Problem mit einem intrinsischen Motivationsansatz ist, dass das Modell anfällig für “Vergessen” von potenziell belohnenden Bereichen ist, die noch erforscht werden sollten. Dieses Phänomen wird als “Abkopplung” bezeichnet. Als Folge davon kann das Modell, wenn es auf unerwartete Daten stößt, Bereiche vergessen, die noch erforscht werden sollten.
Laut TechXplore hat das Forschungsteam ein Lernalgorithmus entwickelt, der flexibler und in der Lage ist, auf unerwartete Daten zu reagieren. Die Forscher überwanden dieses Problem, indem sie einen Algorithmus einführten, der alle Aktionen remembern kann, die von einer vorherigen Version des Modells ausgeführt wurden, als es versuchte, ein Problem zu lösen. Wenn das KI-Modell auf einen Datenpunkt stößt, der nicht mit dem übereinstimmt, was es bisher gelernt hat, überprüft es seine Speicherkarte. Das Modell identifiziert dann, welche Strategien erfolgreich waren und welche nicht, und wählt Strategien entsprechend.
Wenn das Modell ein Videospiel spielt, sammelt es Screenshots des Spiels, während es spielt, und erstellt ein Log seiner Aktionen. Die Bilder werden nach Ähnlichkeit gruppiert, wodurch klare Punkte in der Zeit entstehen, auf die das Modell zurückgreifen kann. Der Algorithmus kann die protokollierten Bilder verwenden, um zu einem interessanten Punkt in der Zeit zurückzukehren und von dort aus weiter zu erkunden. Wenn das Modell feststellt, dass es verliert, greift es auf die Screenshots zurück und versucht eine andere Strategie.
Wie die BBC erklärt, gibt es auch das Problem, gefährliche Szenarien für den KI-Agenten zu handhaben, der das Spiel spielt. Wenn der Agent auf eine Gefahr stößt, die ihn töten kann, würde dies verhindern, dass er zu Bereichen zurückkehrt, die noch erforscht werden sollten, ein Problem, das als “Entgleisung” bezeichnet wird. Das KI-Modell handhabt Entgleisungsprobleme durch einen separaten Prozess, der von dem verwendet wird, um die Erforschung alter Bereiche zu fördern.
Das Forschungsteam ließ das Modell 55 Atari-Spiele spielen. Diese Spiele werden häufig verwendet, um die Leistung von KI-Modellen zu benchmarken, aber die Forscher fügten eine Wendung hinzu. Die Forscher fügten zusätzliche Regeln zu den Spielen hinzu, indem sie dem Modell sagten, nicht nur den höchsten Punktestand zu erreichen, sondern auch, einen noch höheren Punktestand zu erreichen, wenn es das Spiel noch einmal spielt. Als die Ergebnisse der Leistung des Modells analysiert wurden, stellten die Forscher fest, dass ihr KI-System andere KI-Systeme bei den Spielen etwa 85% der Zeit übertraf. Das KI-System spielte besonders gut das Spiel Montezuma’s Revenge, ein Plattformspiel, in dem der Spieler Hindernisse vermeidet und Schätze sammelt. Das Spiel schlug den Rekord für einen menschlichen Spieler und erzielte auch einen höheren Punktestand als jedes andere KI-System.
Laut den Uber-KI-Forschern haben die Strategien, die das Forschungsteam verwendet hat, Anwendungen in Branchen wie der Robotik. Roboter profitieren von der Fähigkeit, zu remembern, welche Aktionen erfolgreich waren, welche nicht funktioniert haben und welche noch nicht ausprobiert wurden.












