Künstliche Intelligenz
DeepMinds neues KI-System kann die Regeln eines Spiels während des Spiels lernen

Alphabets Tochterunternehmen DeepMind hat kürzlich ein KI-System entwickelt, das in der Lage ist, die Regeln eines Spiels während des Spiels zu lernen. Während DeepMind bereits beeindruckende KI-Modelle entwickelt hat, die Spiele wie Schach, Shogi, Go und Videospiele meistern können, müssen diese Modelle vorher mit den Regeln des Spiels versorgt werden. DeepMinds neues KI-System stellt daher eine bemerkenswerte Verbesserung gegenüber früheren KI-Algorithmen dar, die Spiele durch Verstärkungslernen erlernen.
KI-System – MuZero
In einem kürzlich in der Zeitschrift Nature veröffentlichten Artikel hat DeepMind detailliert beschrieben, wie ihr neues KI-System funktioniert. Das neue KI-System, genannt MuZero, kann die Regeln eines Spiels während des Spiels dank eines Prinzips namens “look-ahead search” lernen. wie von Engadget berichtet, verwendet MuZero die look-ahead search, um zu bestimmen, welche Züge auf der Grundlage der wahrscheinlichsten Antworten der Gegner ausgeführt werden sollten.
Wenn man alle möglichen Züge in Spielen wie Schach berücksichtigt, kann MuZero die Züge priorisieren und auf die wahrscheinlichsten und relevantesten Züge eingrenzen. MuZero lernt dann aus erfolgreichen und erfolglosen Manövern. Anstatt alle möglichen Faktoren zu modellieren, berücksichtigt es nur die Faktoren, die für die Entscheidung relevant sind. MuZero destilliert die Vielzahl von potenziellen Variablen, die berücksichtigt werden können, auf die wichtigsten und einflussreichsten Merkmale. Diese Merkmale werden in einem tree-basierten Suchalgorithmus dargestellt. Die Möglichkeiten innerhalb des Baums werden dann mit einem gelernten Modell kombiniert, das auf den Merkmalen der Testumgebung basiert. Die look-ahead search wird nachdem die relevantesten Aspekte einer Umgebung identifiziert wurden, durchgeführt.
Um zu einer endgültigen Entscheidung zu gelangen, werden drei Faktoren berücksichtigt.
MuZero berücksichtigt das Ergebnis der vorherigen Wahl, die aktuelle Position, die es einnimmt, und die möglichen Aktionen, die es als Nächstes ausführen kann. Dieser Ansatz übertrifft frühere Ansätze, die von DeepMind verwendet wurden, einschließlich der grundlegenden look-ahead search und tree-basierten Modelle. MuZero erwies sich als mindestens so gut wie AlphaZero im Schach, Shogi und Go, und als es das Spiel Ms. Pac-Man spielte, konnte MuZero nur etwa sechs oder sieben Züge gleichzeitig berücksichtigen. Trotz dieser Einschränkung konnte die KI dennoch sehr gut performen. DeepMind hat auch MuZeros Fähigkeiten getestet, indem es die Anzahl der Simulationen begrenzte, die es vor einer Entscheidung durchführen konnte. Im Allgemeinen performte das Programm umso besser, je mehr Zeit es hatte, um mögliche Züge zu berücksichtigen.
Der leitende Forschungswissenschaftler bei DeepMind, David Silver, erklärte via TechXplore, dass MuZero das erste KI-Modell ist, das seine eigene Darstellung der Regeln einer Umgebung generieren kann und diese Darstellung verwenden kann, um Aktionen zu planen.
“Erstmals haben wir ein System, das in der Lage ist, sein eigenes Verständnis davon, wie die Welt funktioniert, aufzubauen und dieses Verständnis zu verwenden, um diese Art von komplexer look-ahead-Planung durchzuführen, die man zuvor bei Spielen wie Schach gesehen hat”, sagte Silver. “(MuZero) kann von Null anfangen und durch Trial und Error sowohl die Regeln der Welt entdecken als auch diese Regeln verwenden, um eine Art übermenschliche Leistung zu erzielen.”
Mögliche Anwendungen
Ein KI-System, das tatsächlich in der Lage ist, die Einschränkungen einer Aufgabe zu lernen und innerhalb dieser Einschränkungen zu arbeiten, hat eine Vielzahl von möglichen Anwendungen. MuZero könnte für Aufgaben wie Video-Komprimierung eingesetzt werden, die historisch gesehen schwierig zu automatisieren waren, da es viele verschiedene Video-Formate und Komprimierungsmodi gibt. MuZero konnte eine Komprimierungsverbesserung von etwa 5% erzielen. Dies könnte Auswirkungen auf die große Anzahl von Videos haben, die von Google und YouTube gehostet werden. Darüber hinaus untersucht DeepMind auch die Verwendung der gleichen MuZero-Techniken für die Gestaltung von Proteinen und die Programmierung von Robotern.
Laut Wendy Hall, Professorin für Informatik an der University of Southampton, stellt MuZero “einen bedeutenden Schritt nach vorne” für Verstärkungsalgorithmen dar. Hall ist jedoch besorgt, dass die Algorithmen missbraucht werden könnten. Zum Beispiel hat die US-Luftwaffe bereits auf frühe Forschungsarbeiten zu MuZero Bezug genommen, um ein KI-System zu entwickeln, das Raketen von U-2-Spionageflugzeugen aus starten kann. Dies trotz der Tatsache, dass DeepMinds Forscher ihre Opposition gegen die Verwendung ihrer Algorithmen für tödliche Waffen ausgedrückt haben und die Lethal Autonomous Weapons Pledge unterzeichnet haben, um zu argumentieren, dass jede tödliche Technologie unter menschlicher Kontrolle bleiben sollte.
Silver erklärte, dass DeepMind in die Zukunft blickt und darauf abzielt, Algorithmen zu entwickeln, die so leistungsstark und vielseitig wie das Gehirn sind. Der erste Schritt bei der Schaffung von vielseitigen und flexiblen Algorithmen ist es, zu verstehen, was es bedeutet, wenn ein System intelligent ist, und Intelligenz ist mit der Fähigkeit verbunden, Muster und Regeln einer komplexen Umgebung zu erkennen. Die Fähigkeit, Muster und Regeln zu erkennen, ist der Schlüssel zu echter Intelligenz, und DeepMind ist entschlossen, diese Fähigkeit in ihre zukünftigen KI-Systeme zu integrieren, um sie noch leistungsfähiger und vielseitiger zu machen.












