Connect with us

Robotik

Roboter können komplizierte Aufgaben aus wenigen Demonstrationen lernen

mm

In einer der neuesten Entwicklungen im Bereich der Robotik haben Forscher an der University of Southern California (USC) ein System entwickelt, mit dem Roboter komplizierte Aufgaben mit wenigen Demonstrationen lernen können. Noch beeindruckender ist, dass einige der Demonstrationen unvollkommen sein können.

Die Forschung wurde auf der Konferenz für Roboter-Lernen (CoRL) am 18. November vorgestellt, mit dem Titel “Lernen aus Demonstrationen mit Signal-Temporal-Logik.”

Das System

Die Qualität jeder Demonstration wird gemessen, damit das System aus seinen Erfolgen und Misserfolgen lernen kann. Im Gegensatz zu aktuellen Methoden, die mindestens 100 Demonstrationen erfordern, um eine bestimmte Aufgabe zu lehren, benötigt das neue System nur wenige. Auf intuitive Weise lernen diese Roboter ähnlich wie Menschen voneinander. Zum Beispiel beobachten und lernen Menschen von anderen, die Aufgaben erfolgreich oder unvollkommen ausführen.

Aniruddh Puranic ist der Hauptautor der Forschung und ein Ph.D.-Student in Informatik an der USC Viterbi School of Engineering.

“Viele maschinelle Lern- und Verstärkungs-Lern-Systeme erfordern große Mengen an Daten und hunderte von Demonstrationen – man benötigt einen Menschen, der wiederholt demonstriert, was nicht machbar ist”, sagte Puranic.

“Außerdem haben die meisten Menschen keine Programmierkenntnisse, um explizit zu sagen, was der Roboter tun muss, und ein Mensch kann nicht possibly alles demonstrieren, was ein Roboter wissen muss”, fuhr er fort. “Was passiert, wenn der Roboter auf etwas trifft, das er noch nie gesehen hat? Das ist eine Schlüsselherausforderung.”

Die Forscher nutzten “Signal-Temporal-Logik” oder STL, um die Qualität der Demonstrationen zu bestimmen, sie entsprechend zu bewerten und inhärente Belohnungen zu erstellen.

Es gibt zwei Hauptgründe, warum die Forscher sich für STL entschieden:

  1. Indem Roboter durch Demonstrationen lernen, können sie Unvollkommenheiten oder sogar unsichere Verhaltensweisen und unerwünschte Aktionen übernehmen.
  2. Demonstrationen können je nach Benutzer, der sie bereitstellt, in ihrer Qualität variieren, und einige Demonstrationen sind bessere Indikatoren für das gewünschte Verhalten als andere.

Indem das System auf diese Weise entwickelt wurde, kann der Roboter auch aus unvollkommenen Demonstrationen lernen, auch wenn sie nicht den Logik-Anforderungen entsprechen. Mit anderen Worten, er zieht seine eigenen Schlüsse über Genauigkeit oder Erfolg.

Stefanos Nikolaidis ist ein Co-Autor und ein Assistant Professor für Informatik an der USC Viterbi.

“Angenommen, Roboter lernen aus verschiedenen Arten von Demonstrationen – es könnte eine praktische Demonstration, Videos oder Simulationen sein – wenn ich etwas tue, das sehr unsicher ist, werden Standardansätze eines von zwei Dingen tun: Entweder werden sie es vollständig ignorieren oder schlimmer noch, der Roboter wird das Falsche lernen”, sagt Nikolaidis.

“Im Gegensatz dazu verwendet diese Arbeit auf sehr intelligente Weise einige allgemeine Vernunft in Form von Logik, um zu verstehen, welche Teile der Demonstration gut und welche Teile nicht gut sind”, fährt er fort. “In der Tat tut dies genau das, was auch Menschen tun.”

Signal-Temporal-Logik

Roboter können durch STL über aktuelle und zukünftige Ergebnisse nachdenken, was eine ausdrucksstarke mathematische symbolische Sprache ist. Vor STL basierte die Forschung auf “linearer Temporal-Logik”.

Jyo Deshmukh ist ein ehemaliger Toyota-Ingenieur und Assistant Professor für Informatik an der USC.

“Wenn wir in die Welt der cyber-physischen Systeme wie Roboter und selbstfahrende Autos eintreten, wo Zeit entscheidend ist, wird die lineare Temporal-Logik ein bisschen umständlich, da sie über Sequenzen von Wahr/Falsch-Werten für Variablen nachdenkt, während STL es ermöglicht, über physische Signale nachzudenken”, sagt Deshmukh.

Das Team der Forscher war von dem Erfolg des Systems überrascht.

“Im Vergleich zu einem State-of-the-Art-Algorithmus, der ausgiebig in Roboter-Anwendungen verwendet wird, sehen Sie einen Unterschied von der Größenordnung, wie viele Demonstrationen erforderlich sind”, sagt Nikolaidis.

Laut den Forschern könnten die Systeme aus Fahr-Simulatoren und schließlich aus Videos lernen. Der nächste Schritt besteht darin, es auf echten Robotern zu testen, da die anfänglichen Tests auf einem Spiel-Simulator durchgeführt wurden. Das System wird für Anwendungen wie Haushaltsumgebungen, Lagerhäuser und Raumfahrzeug-Rover nützlich sein.

“Wenn wir wollen, dass Roboter gute Teammitglieder sind und Menschen helfen, müssen sie zuerst menschliche Präferenzen sehr effizient lernen und anpassen”, sagt Nikolaidis. “Unsere Methode bietet das.”

Alex McFarland ist ein KI-Journalist und Schriftsteller, der die neuesten Entwicklungen im Bereich der künstlichen Intelligenz erforscht. Er hat mit zahlreichen KI-Startups und Veröffentlichungen weltweit zusammengearbeitet.