Ethik

Forscher entwickeln Algorithmen, die darauf abzielen, schlechtes Verhalten in KI zu verhindern

Published November 26, 2019

Updated April 5, 2026

Ljubinko Zivkovic

Neben all den Fortschritten und Vorteilen, die die künstliche Intelligenz bisher gezeigt hat, gab es auch Berichte über unerwünschte Nebenwirkungen wie Rassismus und Geschlechtervorurteile in der KI. So stellt sciencealert.com die Frage: „Wie können Wissenschaftler sicherstellen, dass fortschrittliche Denksysteme fair oder sogar sicher sein können?“

Die Antwort könnte in dem Bericht von Forschern an der Stanford- und der University of Massachusetts Amherst liegen, der den Titel Verhinderung unerwünschten Verhaltens intelligenter Maschinen trägt. Wie eurekaalert.org in seiner Geschichte über diesen Bericht bemerkt, beginnt die KI nun, sensible Aufgaben zu übernehmen, sodass „Politiker von Informatikern verlangen, dass sie Garantien dafür bieten, dass automatisierte Systeme so konzipiert wurden, um unerwünschte Ergebnisse wie übermäßiges Risiko oder Rassismus und Geschlechtervorurteile zu minimieren oder sogar vollständig zu vermeiden.“

Der von diesem Team von Forschern vorgestellte Bericht „entwirft eine neue Technik, die ein vages Ziel wie die Vermeidung von Geschlechtervorurteilen in präzise mathematische Kriterien übersetzt, die es einem maschinellen Lernalgorithmus ermöglichen, eine KI-Anwendung so zu trainieren, dass sie dieses Verhalten vermeidet.”

Das Ziel war, wie Emma Brunskill, eine Assistenzprofessorin für Informatik an der Stanford und Seniorautorin des Papiers, betont, „wir möchten KI vorantreiben, die die Werte ihrer menschlichen Nutzer respektiert und das Vertrauen, das wir in autonome Systeme setzen, rechtfertigt.”

Die Idee war, “unsichere” oder “unfaire” Ergebnisse oder Verhaltensweisen in mathematischen Begriffen zu definieren. Dies würde, so die Forscher, es ermöglichen, „Algorithmen zu erstellen, die aus Daten lernen können, wie sie diese unerwünschten Ergebnisse mit hoher Sicherheit vermeiden können.”

Das zweite Ziel war, „eine Reihe von Techniken zu entwickeln, die es den Nutzern ermöglichen, anzugeben, welche Arten von unerwünschtem Verhalten sie einschränken möchten, und es maschinellen Lern-Designern ermöglichen, mit Zuversicht vorherzusagen, dass ein System, das mit vergangenen Daten trainiert wurde, in realen Umgebungen verlässlich sein kann.”

ScienceAlert sagt, dass das Team dieses neue System ‘Seldonian’ Algorithmen genannt hat, nach der Hauptfigur von Isaac Asimovs berühmter Foundation-Serie von Science-Fiction-Romanen. Philip Thomas, ein Assistenzprofessor für Informatik an der University of Massachusetts Amherst und Erstautor des Papiers, bemerkt, “Wenn ich einen Seldonian-Algorithmus für Diabetes verwenden würde, kann ich angeben, dass unerwünschtes Verhalten gefährlich niedriger Blutzuckerspiegel oder Hypoglykämie bedeutet.”

“Ich kann zum Computer sagen: ‘Während du versuchst, den Regler in der Insulinpumpe zu verbessern, ändere nichts, was die Häufigkeit von Hypoglykämie erhöhen würde.’ Die meisten Algorithmen bieten keine Möglichkeit, diese Art von Einschränkung auf das Verhalten zu legen; es war nicht in den frühen Designs enthalten.”

Thomas fügt hinzu, dass „dieses Seldonian-Framework es maschinellen Lern-Designern ermöglichen wird, Verhaltensvermeidungsanweisungen in alle Arten von Algorithmen zu integrieren, auf eine Weise, die es ihnen ermöglicht, die Wahrscheinlichkeit zu bewerten, dass trainierte Systeme in der realen Welt ordnungsgemäß funktionieren.”

Emma Brunskill bemerkt auch, dass “darüber nachzudenken, wie wir Algorithmen erstellen können, die Werte wie Sicherheit und Fairness am besten respektieren, unerlässlich ist, da die Gesellschaft zunehmend auf KI angewiesen ist.”

Unite.AI

Forscher entwickeln Algorithmen, die darauf abzielen, schlechtes Verhalten in KI zu verhindern

You may like