Künstliche Intelligenz

KI kann spezifische unerwünschte Verhaltensweisen mit neuen Algorithmen vermeiden

Published November 23, 2019

Updated April 5, 2026

Daniel Nelson

Da KI-Algorithmen und -Systeme immer komplexer werden und größere Verantwortung übernehmen, wird es immer wichtiger, sicherzustellen, dass KI-Systeme gefährliches, unerwünschtes Verhalten vermeiden. Kürzlich hat ein Team von Forschern der University of Massachusetts Amherst und Stanford eine Studie veröffentlicht, die zeigt, wie spezifisches KI-Verhalten vermieden werden kann, indem eine Technik verwendet wird, die präzise mathematische Anweisungen liefert, die zur Anpassung des Verhaltens einer KI verwendet werden können.

Laut TechXplore basierte die Forschung auf der Annahme, dass unfair/unsichere Verhaltensweisen mit mathematischen Funktionen und Variablen definiert werden können. Wenn dies zutrifft, sollte es Forschern möglich sein, Systeme zu trainieren, um diese spezifischen Verhaltensweisen zu vermeiden. Das Forschungsteam zielt darauf ab, ein Toolkit zu entwickeln, das von KI-Nutzern verwendet werden kann, um anzugeben, welche Verhaltensweisen sie vermeiden möchten, und es ermöglicht KI-Ingenieuren, zuverlässig ein System zu trainieren, das unerwünschtes Verhalten in realen Szenarien vermeidet.

Phillip Thomas, der erste Autor der Studie und Assistenzprofessor für Informatik an der U of Michigan Amherst, erklärte, dass das Forschungsteam zeigen möchte, dass die Designer von Machine-Learning-Algorithmen es KI-Nutzern erleichtern können, unerwünschtes Verhalten zu beschreiben und es sehr wahrscheinlich ist, dass das KI-System dieses Verhalten vermeidet.

Das Forschungsteam testete ihre Technik, indem sie sie auf ein häufiges Problem in der Datenwissenschaft anwendeten, den Geschlechterbias. Das Forschungsteam zielt darauf ab, die Algorithmen, die zur Vorhersage des GPA von College-Studenten verwendet werden, fairer zu machen, indem sie den Geschlechterbias reduzieren. Das Forschungsteam verwendete ein experimentelles Dataset und instruierte ihr KI-System, die Erstellung von Modellen zu vermeiden, die systematisch die GPAs für ein Geschlecht unterschätzten oder überschätzten. Als Ergebnis der Anweisungen des Forschungsteams erstellte der Algorithmus ein Modell, das die Studenten-GPAs besser vorhersagte und wesentlich weniger systemischen Geschlechterbias als bisherige Modelle aufwies. Bisherige GPA-Vorhersagemodelle litten unter Bias, da Bias-Reduktionsmodelle oft zu begrenzt waren, um nützlich zu sein, oder überhaupt kein Bias-Reduktionsmodell verwendet wurde.

Ein anderes Algorithmus wurde auch von dem Forschungsteam entwickelt. Dieser Algorithmus wurde in einer automatisierten Insulinpumpe implementiert und sollte sowohl Leistung als auch Sicherheit ausbalancieren. Automatisierte Insulinpumpen müssen entscheiden, wie groß die Insulindosis für einen Patienten sein sollte. Nach dem Essen sollte die Pumpe idealerweise eine Insulindosis abgeben, die groß genug ist, um den Blutzuckerspiegel im Zaum zu halten. Die abgegebenen Insulindosen dürfen weder zu groß noch zu klein sein.

Machine-Learning-Algorithmen sind bereits gut darin, Muster in der Reaktion eines Individuums auf Insulindosen zu erkennen, aber diese bestehenden Analysemethoden können es Ärzten nicht ermöglichen, Ergebnisse zu spezifizieren, die vermieden werden sollten, wie z.B. niedrige Blutzuckerkrisen. Im Gegensatz dazu konnte das Forschungsteam eine Methode entwickeln, die so trainiert werden kann, dass sie Insulindosen abgibt, die innerhalb der beiden Extreme bleiben und weder Unter- noch Überdosierung verursachen. Obwohl das System noch nicht bereit ist, an realen Patienten getestet zu werden, könnte ein komplexeres KI-System auf Basis dieses Ansatzes die Lebensqualität für Menschen mit Diabetes verbessern.

In der Forschungsstudie beziehen sich die Forscher auf den Algorithmus als “Seledonian”-Algorithmus. Dies bezieht sich auf die drei Gesetze der Robotik, die von dem Sci-Fi-Autor Isaac Asimov beschrieben wurden. Die Implikation ist, dass das KI-System “kein menschliches Wesen verletzen oder durch Untätigkeit zulassen, dass ein menschliches Wesen zu Schaden kommt.” Das Forschungsteam hofft, dass ihr Rahmenwerk es KI-Forschern und -Ingenieuren ermöglichen wird, eine Vielzahl von Algorithmen und Systemen zu erstellen, die gefährliches Verhalten vermeiden. Emma Brunskill, Senior-Autorin der Studie und Assistenzprofessorin für Informatik an der Stanford, erklärte TechXplore:

“Wir möchten KI vorantreiben, die die Werte ihrer menschlichen Nutzer respektiert und das Vertrauen, das wir in autonome Systeme setzen, rechtfertigt.”

Unite.AI

KI kann spezifische unerwünschte Verhaltensweisen mit neuen Algorithmen vermeiden

You may like