Künstliche Intelligenz
Technik ermöglicht es KI, weit in die Zukunft zu denken

Ein Team von Forschern von MIT, dem MIT-IBM Watson AI Lab und anderen Institutionen hat einen neuen Ansatz entwickelt, der es künstlichen Intelligenz (KI)-Agenten ermöglicht, eine weitsichtige Perspektive zu erlangen. Mit anderen Worten: Die KI kann weit in die Zukunft denken, wenn sie ihre Verhaltensweisen berücksichtigt, die die Verhaltensweisen anderer KI-Agenten beinhalten, wenn sie eine Aufgabe ausführen.
Die Forschung soll auf der Konferenz über neuronale Informationsverarbeitungssysteme präsentiert werden.
KI berücksichtigt zukünftige Aktionen anderer Agenten
Das von dem Team erstellte Machine-Learning-Framework ermöglicht es kooperativen oder konkurrierenden KI-Agenten, zu berücksichtigen, was andere Agenten tun werden. Dies nicht nur über die nächsten Schritte, sondern vielmehr, wenn die Zeit gegen Unendlichkeit geht. Die Agenten passen ihr Verhalten entsprechend an, um das zukünftige Verhalten anderer Agenten zu beeinflussen und so optimale, langfristige Lösungen zu erreichen.
Laut dem Team könnte das Framework beispielsweise von einer Gruppe autonomer Drohnen verwendet werden, die zusammenarbeiten, um einen verlorenen Wanderer zu finden. Es könnte auch von selbstfahrenden Fahrzeugen verwendet werden, um die zukünftigen Bewegungen anderer Fahrzeuge vorherzusagen und so die Sicherheit der Passagiere zu verbessern.
Dong-Ki Kim ist ein Graduiertenschüler im MIT Laboratory for Information and Decision Systems (LIDS) und Lead-Autor der Forschungsarbeit.
“Wenn KI-Agenten kooperieren oder konkurrieren, ist es am wichtigsten, wenn ihre Verhaltensweisen sich zu einem bestimmten Zeitpunkt in der Zukunft konvergieren”, sagt Kim. “Es gibt viele vorübergehende Verhaltensweisen auf dem Weg, die nicht sehr viel in der langen Frist zählen. Das Erreichen dieses konvergierten Verhaltens ist das, was uns wirklich interessiert, und wir haben jetzt eine mathematische Möglichkeit, dies zu ermöglichen.”
Das Problem, das die Forscher angegangen sind, wird als Multi-Agenten-Verstärkungslernen bezeichnet, wobei Verstärkungslernen eine Form des Machine-Learnings ist, bei der KI-Agenten durch Trial und Error lernen.
Wenn es multiple kooperative oder konkurrierende Agenten gibt, die gleichzeitig lernen, kann der Prozess viel komplexer werden. Wenn Agenten mehr zukünftige Schritte anderer Agenten sowie ihr eigenes Verhalten und dessen Einfluss auf andere berücksichtigen, erfordert das Problem zu viel Rechenleistung.
KI denkt über Unendlichkeit nach
“Die KI will wirklich über das Ende des Spiels nachdenken, aber sie wissen nicht, wann das Spiel enden wird”, sagt Kim. “Sie müssen überlegen, wie sie ihr Verhalten bis in die Unendlichkeit anpassen können, um zu einem bestimmten Zeitpunkt in der Zukunft zu gewinnen. Unser Paper schlägt im Wesentlichen ein neues Ziel vor, das es der KI ermöglicht, über Unendlichkeit nachzudenken.”
Es ist unmöglich, Unendlichkeit in einen Algorithmus zu integrieren, daher haben die Forscher das System so konzipiert, dass die Agenten sich auf einen zukünftigen Punkt konzentrieren, an dem ihr Verhalten mit dem anderer Agenten konvergiert. Dies wird als Gleichgewicht bezeichnet, und ein Gleichgewichtspunkt bestimmt die langfristige Leistung der Agenten.
Es ist möglich, dass in einem Multi-Agenten-Szenario mehrere Gleichgewichte existieren, und wenn ein effektiver Agent das zukünftige Verhalten anderer Agenten aktiv beeinflusst, können sie ein wünschenswertes Gleichgewicht aus der Sicht des Agents erreichen. Wenn alle Agenten sich gegenseitig beeinflussen, konvergieren sie zu einem allgemeinen Konzept, das als “aktives Gleichgewicht” bezeichnet wird.
FURTHER-Framework
Das Machine-Learning-Framework des Teams wird FURTHER genannt und ermöglicht es Agenten, zu lernen, wie sie ihr Verhalten anpassen können, basierend auf ihren Interaktionen mit anderen Agenten, um ein aktives Gleichgewicht zu erreichen.
Das Framework basiert auf zwei Machine-Learning-Modulen. Das erste ist ein Inferenzmodul, das es einem Agenten ermöglicht, das zukünftige Verhalten anderer Agenten und die Lernalgorithmen, die sie verwenden, basierend auf vorherigen Aktionen zu erraten. Die Informationen werden dann in das Verstärkungslernmodul eingespeist, auf das der Agent angewiesen ist, um sein Verhalten anzupassen und andere Agenten zu beeinflussen.
“Die Herausforderung bestand darin, über Unendlichkeit nachzudenken. Wir mussten viele verschiedene mathematische Werkzeuge verwenden, um dies zu ermöglichen, und einige Annahmen treffen, um es in der Praxis zu ermöglichen”, sagt Kim.
Das Team hat seine Methode gegen andere Multi-Agenten-Verstärkungslern-Frameworks in verschiedenen Szenarien getestet, in denen die KI-Agenten, die FURTHER verwendeten, besser abschnitten.
Der Ansatz ist dezentralisiert, sodass die Agenten unabhängig lernen, zu gewinnen. Darüber hinaus ist er besser geeignet, um zu skalieren, im Vergleich zu anderen Methoden, die einen zentralen Computer erfordern, um die Agenten zu steuern.
Laut dem Team könnte FURTHER in einer Vielzahl von Multi-Agenten-Problemen eingesetzt werden. Kim hofft insbesondere auf dessen Anwendungen in der Wirtschaft, wo es verwendet werden könnte, um eine solide Politik in Situationen zu entwickeln, in denen es viele interagierende Entitäten mit Verhaltensweisen und Interessen gibt, die sich im Laufe der Zeit ändern.












