Connect with us

DeepMinds neuer KI-Algorithmus kann die Regeln eines Spiels lernen, während er spielt

Künstliche Intelligenz

DeepMinds neuer KI-Algorithmus kann die Regeln eines Spiels lernen, während er spielt

mm

Alphabet’s Tochterunternehmen DeepMind hat kürzlich ein KI-System entwickelt, das in der Lage ist, die Regeln eines Spiels zu lernen, während es spielt. Während DeepMind bereits beeindruckende KI-Modelle entwickelt hat, die Spiele wie Schach, Shogi, Go und Videospiele meistern können, müssen diese Modelle vorher mit den Regeln des Spiels versorgt werden. DeepMinds neuer KI-Algorithmus stellt daher eine bemerkenswerte Verbesserung gegenüber früheren KI-Algorithmen dar, die Spiele über Reinforcement-Learning erlernen.

KI-System – MuZero

In einem kürzlich in der Zeitschrift Nature veröffentlichten Artikel hat DeepMind detailliert beschrieben, wie ihr neues KI-System funktioniert. Der neue KI-Algorithmus, der den Namen MuZero trägt, kann die Regeln eines Spiels lernen, während er spielt, dank eines Prinzips namens „look-ahead search“. Wie von Engadget berichtet, verwendet MuZero die look-ahead search, um zu bestimmen, welche Züge ausgeführt werden sollten, basierend auf den wahrscheinlichsten Antworten der Gegner.
Wenn man alle möglichen Züge in Spielen wie Schach betrachtet, kann MuZero die Züge priorisieren und auf die wahrscheinlichsten und relevantesten Züge eingrenzen. MuZero wird dann sowohl aus erfolgreichen als auch aus erfolglosen Manövern lernen. Anstatt alle möglichen Faktoren zu modellieren, berücksichtigt es nur die Faktoren, die für die Entscheidung am relevantesten sind. MuZero destilliert im Wesentlichen die Vielzahl von potenziellen Variablen, die berücksichtigt werden können, auf die wichtigsten und einflussreichsten Merkmale. Diese Merkmale werden in einem tree-basierten Suchalgorithmus dargestellt. Die Möglichkeiten innerhalb des Baums werden dann mit einem gelernten Modell kombiniert, das auf den Merkmalen der Testumgebung basiert. Die look-ahead search wird nachdem die relevantesten Aspekte einer Umgebung identifiziert wurden, durchgeführt.
Um zu einer endgültigen Entscheidung zu gelangen, werden drei Faktoren berücksichtigt.
MuZero berücksichtigt das Ergebnis der vorherigen Wahl, die aktuelle Position, die es einnimmt, und die potenziellen Aktionen, die es als nächstes ausführen kann. Dieser Ansatz übertrifft Ansätze, die zuvor von DeepMind verwendet wurden, einschließlich der grundlegenden look-ahead search und tree-basierter Modelle. MuZero erwies sich als mindestens so gut wie AlphaZero im Schach, Shogi und Go, und als es das Spiel Ms. Pac-Man spielte, konnte MuZero nur etwa sechs oder sieben Züge auf einmal berücksichtigen. Trotz dieser Einschränkung konnte die KI immer noch sehr gut performen. DeepMind hat auch MuZeros Fähigkeiten getestet, indem es die Anzahl der Simulationen begrenzte, die es durchführen konnte, bevor es sich für einen Zug entscheiden musste. Im Allgemeinen performte das Programm umso besser, je mehr Zeit es hatte, um mögliche Züge zu berücksichtigen.
Der leitende Forschungswissenschaftler bei DeepMind, David Silver, erklärte via TechXplore, dass MuZero das erste KI-Modell ist, das in der Lage ist, seine eigene Darstellung der Regeln einer Umgebung zu generieren und diese Darstellung zu verwenden, um Aktionen zu planen.
“Erstmals haben wir ein System, das in der Lage ist, sein eigenes Verständnis davon, wie die Welt funktioniert, aufzubauen und dieses Verständnis zu verwenden, um diese Art von sophisticated look-ahead planning durchzuführen, wie man es zuvor bei Spielen wie Schach gesehen hat”, sagte Silver. “(MuZero) kann von Null anfangen und einfach durch Trial und Error sowohl die Regeln der Welt entdecken als auch diese Regeln verwenden, um eine Art von superhumaner Leistung zu erzielen.”

Mögliche Anwendungen

Eine KI, die tatsächlich in der Lage ist, die Einschränkungen einer Aufgabe zu lernen und innerhalb dieser Einschränkungen zu operieren, hat eine Vielzahl von möglichen Anwendungen. MuZero könnte für Aufgaben wie Video-Komprimierung eingesetzt werden, die historisch gesehen schwierig zu automatisieren waren, da es viele verschiedene Video-Formate und Komprimierungsmodi gibt. MuZero konnte eine Komprimierungsverbesserung von etwa 5 % erzielen. Dies könnte Auswirkungen auf die große Anzahl von Videos haben, die von Google und YouTube gehostet werden. Neben Videos untersucht DeepMind auch die Verwendung der gleichen MuZero-Techniken für die Gestaltung von Proteinen und die Programmierung von Robotern.
Laut Wendy Hall, Professorin für Informatik an der University of Southampton, stellt MuZero “einen bedeutenden Schritt nach vorne” für Reinforcement-Learning-Algorithmen dar. Hall ist jedoch besorgt, dass die Algorithmen missbraucht werden könnten. Zum Beispiel hat die US Air Force bereits auf frühe Forschungsarbeiten, die MuZero abdecken, Bezug genommen, um ein KI-System zu erstellen, das Raketen von U-2-Spionageflugzeugen aus starten kann. Dies trotz der Tatsache, dass DeepMinds Forscher ihre Opposition gegen die Verwendung ihrer Algorithmen für tödliche Waffen ausgedrückt haben und die Lethal Autonomous Weapons Pledge unterzeichnet haben, um zu argumentieren, dass jede tödliche Technologie unter menschlicher Kontrolle bleiben sollte.
Silver erklärte, dass DeepMind in die Zukunft blickt und darauf abzielt, Algorithmen zu entwickeln, die so leistungsfähig und vielseitig sind wie das Gehirn. Der erste Schritt zur Erstellung vielseitiger und flexibler Algorithmen ist es, zu verstehen, was es bedeutet, wenn ein System intelligent ist, und Intelligenz ist mit der Fähigkeit verbunden, die Muster und Regeln einer komplexen Umgebung zu erkennen.

Blogger und Programmierer mit Spezialisierungen in Machine Learning und Deep Learning Themen. Daniel hofft, anderen zu helfen, die Macht von KI für das soziale Wohl zu nutzen.