Stummel Roboter können komplizierte Aufgaben aus wenigen Demonstrationen lernen – Unite.AI
Vernetzen Sie sich mit uns

Robotik

Roboter sind in der Lage, komplizierte Aufgaben anhand weniger Demonstrationen zu erlernen

Aktualisiert on

Im Rahmen einer der neuesten Entwicklungen auf dem Gebiet der Robotik haben Forscher der University of Southern California (USC) ein System entwickelt, mit dem Roboter mit wenigen Demonstrationen komplizierte Aufgaben erlernen können. Noch beeindruckender ist, dass einige der Demonstrationen unvollkommen sein können.

Die Forschung wurde am 18. November auf der Conference on Robot Learning (CoRL) mit dem Titel „Learning from Demonstrations Using Signal Temporal Logic“ vorgestellt.

Das System

Die Qualität jeder Demonstration wird gemessen, damit das System aus seinen Erfolgen und Misserfolgen lernen kann. Im Gegensatz zu aktuellen Methoden, die mindestens 100 Demonstrationen erfordern, um eine bestimmte Aufgabe zu lehren, sind beim neuen System nur wenige erforderlich. Intuitiv gesehen ähnelt die Art und Weise, wie diese Roboter lernen, der Art und Weise, wie Menschen voneinander lernen. Beispielsweise beobachten Menschen andere und lernen von ihnen, wie sie Aufgaben erfolgreich oder unvollständig erledigen.

Aniruddh Puranic ist der Hauptautor der Forschung und ein Ph.D. Student der Informatik an der USC Viterbi School of Engineering.

„Viele maschinelle Lern- und Reinforcement-Learning-Systeme erfordern große Datenmengen und Hunderte von Demonstrationen – man braucht einen Menschen, der immer wieder demonstriert, was nicht machbar ist“, sagte Puranic.

„Außerdem verfügen die meisten Menschen nicht über Programmierkenntnisse, um explizit anzugeben, was der Roboter tun muss, und ein Mensch kann unmöglich alles demonstrieren, was ein Roboter wissen muss“, fuhr er fort. „Was ist, wenn der Roboter auf etwas stößt, das er noch nie gesehen hat? Das ist eine zentrale Herausforderung.“

Die Forscher verwendeten „Signal Temporal Logic“ oder STL, um die Qualität der Demonstrationen zu bestimmen, sie entsprechend zu ordnen und inhärente Belohnungen zu schaffen.

Es gibt zwei Hauptgründe, warum sich die Forscher für STL entschieden haben:

  1. Durch das Lernen durch Demonstrationen können Roboter Unvollkommenheiten oder sogar unsichere Verhaltensweisen und unerwünschte Handlungen erkennen.
  2. Die Qualität der Demonstrationen kann je nach Benutzer unterschiedlich sein, und einige Demonstrationen sind bessere Indikatoren für das gewünschte Verhalten als andere.

Durch die Entwicklung des Systems auf diese Weise kann der Roboter immer noch aus den unvollständigen Demonstrationen lernen, auch wenn diese nicht den logischen Anforderungen entsprechen. Mit anderen Worten: Es zieht seine eigene Schlussfolgerung über Genauigkeit oder Erfolg.

Stefanos Nikolaidis ist Co-Autor und Assistenzprofessor für Informatik am USC Viterbi.

„Sagen wir, Roboter lernen aus verschiedenen Arten von Demonstrationen – das können praktische Demonstrationen, Videos oder Simulationen sein – wenn ich etwas mache, das sehr unsicher ist, werden Standardansätze eines von zwei Dingen bewirken: Entweder sie werden es völlig ignorieren.“ Oder noch schlimmer: Der Roboter lernt das Falsche“, sagt Nikolaidis.

„Im Gegensatz dazu nutzt diese Arbeit auf sehr intelligente Weise einige vernünftige Überlegungen in Form von Logik, um zu verstehen, welche Teile der Demonstration gut sind und welche nicht“, fährt er fort. „Im Grunde ist es genau das, was auch Menschen tun.“

Signalzeitlogik

Mithilfe von STL, einer ausdrucksstarken mathematischen Symbolsprache, können Roboter über aktuelle und zukünftige Ergebnisse nachdenken. Vor STL stützte sich die Forschung auf „lineare zeitliche Logik“.

Jyo Deshmukh ist ein ehemaliger Toyota-Ingenieur und Assistenzprofessor für Informatik an der USC.

„Wenn wir in die Welt der cyberphysikalischen Systeme wie Roboter und selbstfahrende Autos eintauchen, in der die Zeit von entscheidender Bedeutung ist, wird die lineare zeitliche Logik etwas umständlich, weil sie über Folgen von wahren/falschen Werten für Variablen nachdenkt, während STL das Nachdenken darüber ermöglicht.“ physische Signale“, sagt Deshmukh.

Das Forscherteam war vom Erfolg des Systems überrascht.

„Im Vergleich zu einem hochmodernen Algorithmus, der in großem Umfang in Robotikanwendungen eingesetzt wird, sieht man einen Größenordnungsunterschied darin, wie viele Demonstrationen erforderlich sind“, sagt Nikolaidis.

Den Forschern zufolge könnten die Systeme aus Fahrsimulatoren und eventuell Videos lernen. Der nächste Schritt besteht darin, es an echten Robotern zu testen, da die ersten Tests an einem Spielesimulator durchgeführt wurden. Das System wird für Anwendungen wie Haushalte, Lagerhäuser und Weltraumforschungsrover nützlich sein.

„Wenn wir wollen, dass Roboter gute Teamkollegen sind und Menschen helfen, müssen sie zunächst lernen und sich sehr effizient an die Vorlieben der Menschen anpassen“, sagt Nikolaidis. „Unsere Methode sorgt dafür.“

Alex McFarland ist ein KI-Journalist und Autor, der sich mit den neuesten Entwicklungen in der künstlichen Intelligenz beschäftigt. Er hat mit zahlreichen KI-Startups und Publikationen weltweit zusammengearbeitet.