Stummel Informatiker nutzen positive Verstärkung, um Robotern beizubringen – Unite.AI
Vernetzen Sie sich mit uns

Robotik

Informatiker nutzen positive Verstärkung, um Robotern etwas beizubringen

Aktualisiert on
Bild: Johns Hopkins University

Informatiker der Johns Hopkins University haben die seit langem bekannte Trainingstechnik der positiven Verstärkung, die häufig zum Trainieren von Tieren wie Hunden eingesetzt wird, auf einen Roboter übertragen, damit dieser sich selbst neue Tricks beibringen kann. Zu diesen neuen Fähigkeiten gehörte die Fähigkeit, Blöcke zu stapeln. 

Der Roboter heißt Spot und kann den Forschern zufolge Fähigkeiten innerhalb von Tagen erlernen, die normalerweise etwa einen Monat dauern.

Positive Verstärkung

Das Team nutzte positive Verstärkung, um die Fähigkeiten des Roboters zu verbessern. Die Geschwindigkeit, mit der das Team dies tun konnte, erleichtert den Einsatz dieser Art von Robotern in der realen Welt.

Die Arbeit wurde veröffentlicht in IEEE-Robotik- und Automatisierungsbriefe, mit dem Titel "Guter Roboter!: Effizientes Verstärkungslernen für mehrstufige visuelle Aufgaben mit Sim-to-Real-Transfer."  

Andrew Hundt ist Doktorand an der Johns Hopkins University und Hauptautor der Studie. 

„Die Frage hier war: Wie bringen wir den Roboter dazu, eine Fähigkeit zu erlernen?“ er sagte. „Ich hatte Hunde, daher weiß ich, dass Belohnungen funktionieren, und das war die Inspiration für die Entwicklung des Lernalgorithmus.“

Einer der Gründe, warum positive Verstärkung bei Computern funktioniert, ist, dass sie kein intuitives Gehirn haben, was bedeutet, dass sie im Grunde eine leere Leinwand sind, auf die alles projiziert werden kann. Mit anderen Worten: Sie müssen alles aus dem Nichts lernen. Eine der effektivsten Lernmethoden für Computer ist Versuch und Irrtum, woran Robotiker auch heute noch arbeiten.

Genau das haben die Forscher getan, als sie ein Belohnungssystem für den Roboter entwickelten, ähnlich dem Prozess, einen Hund durch das Geben von Leckerlis zu trainieren. Der Unterschied besteht darin, dass der Roboter numerische Punkte erhält, wenn er eine Aufgabe korrekt erledigt. 

Hundetrainingsmethoden helfen, Robotern das Erlernen neuer Tricks beizubringen

Erlernte Fähigkeiten

Beim Erlernen des Stapelns von Blöcken musste der Roboter lernen, sich auf konstruktive Aktionen zu konzentrieren. Bei der Spot-Methode erhielt der Roboter höhere Punkte, wenn er beim Stapeln der Blöcke korrekte Verhaltensweisen ausführte. Auf der anderen Seite hat es für falsches Verhalten nichts gebracht. Die höchste Punktzahl wurde erzielt, wenn ein Stapel aus vier Blöcken vervollständigt wurde, wobei der letzte Block oben lag.

Die Forscher sahen bei dieser Methode einen großen Erfolg: Der Roboter lernte in Tagen, was früher Wochen gedauert hätte. Durch das Training eines simulierten Roboters verkürzte das Team die Übungszeit, bevor es zum Spot-Roboter wechselte.

„Der Roboter will die höhere Punktzahl“, sagte Hundt. „Es lernt schnell das richtige Verhalten, um die beste Belohnung zu erhalten. Tatsächlich brauchte der Roboter früher einen Monat Übung, um eine 100-prozentige Genauigkeit zu erreichen. Wir haben es in zwei Tagen geschafft.“ 

Neben dem Erlernen des Stapelns von Blöcken nutzte der Roboter auch die positive Verstärkung, um andere Aufgaben zu erlernen, beispielsweise das Spielen eines simulierten Navigationsspiels. 

„Am Anfang hat der Roboter keine Ahnung, was er tut, aber er wird mit jeder Übung besser und besser. Es gibt nie auf und versucht immer wieder zu stapeln und ist in der Lage, die Aufgabe zu 100 % zu erledigen“, sagte Hundt.

Zu den möglichen Anwendungen dieser Methode gehören unter anderem die Schulung von Haushaltsrobotern für bestimmte Aufgaben sowie die Verbesserung autonomer Fahrzeuge.

„Unser Ziel ist es, irgendwann Roboter zu entwickeln, die komplexe Aufgaben in der realen Welt erledigen können – wie Produktmontage, Pflege älterer Menschen und Operationen“, sagte Hager. „Wir wissen derzeit nicht, wie man solche Aufgaben programmiert – die Welt ist zu komplex. Aber Arbeiten wie diese zeigen uns, dass die Idee vielversprechend ist, dass Roboter lernen können, wie sie solche realen Aufgaben auf sichere und effiziente Weise erledigen können.

Alex McFarland ist ein KI-Journalist und Autor, der sich mit den neuesten Entwicklungen in der künstlichen Intelligenz beschäftigt. Er hat mit zahlreichen KI-Startups und Publikationen weltweit zusammengearbeitet.