Ethik
Forscher finden heraus, dass KI-Modelle Menschen dazu bringen können, unethische Entscheidungen zu treffen

Ein Team von Forschern hat kürzlich untersucht, wie KI Menschen korrumpieren und dazu bringen kann, unethische Entscheidungen zu treffen, wenn sie sich dessen bewusst sind, dass die Quelle der Empfehlung ein KI-System ist. Die Forscher haben untersucht, wie Interaktionen mit auf OpenAI’s GPT-2-Modell basierenden Systemen Menschen dazu bringen können, unethische Entscheidungen zu treffen, auch wenn sie sich dessen bewusst sind, dass die Quelle der Empfehlung ein KI-System ist.
KI-Systeme werden immer allgegenwärtiger und ihr Einfluss wird immer breiter. KI-Systeme beeinflussen die Entscheidungen der Menschen, sie werden für alles verwendet, von der Empfehlung von Filmen bis hin zur Empfehlung von romantischen Partnern. Angesichts dessen, wie viel Einfluss KI auf das Leben der Menschen hat, ist es wichtig, zu berücksichtigen, wie KI Menschen dazu bringen kann, unethische Entscheidungen zu treffen und moralische Richtlinien zu brechen. Dies ist besonders wichtig, da KI-Modelle ständig komplexer werden.
Sozialwissenschaftler und Datenwissenschaftler haben zunehmend Bedenken geäußert, dass KI-Modelle verwendet werden könnten, um schädliche Fehlinformationen und Desinformation zu verbreiten. Eine kürzlich veröffentlichte Studie von Forschern des Middlebury Institute of International Studies’ Center on Terrorism, Extremism, and Counterterrorism (CTEC) fand heraus, dass OpenAI’s GPT-3-Modell verwendet werden kann, um beeinflussenden Text zu generieren, der Menschen radikalisieren und sie zu “gewalttätigen rechtsextremistischen Ideologien und Verhaltensweisen” treiben kann.
Eine Studie, die von einem Team von Forschern des Max-Planck-Instituts, der Universität Amsterdam, der Universität Köln und der Otto Beisheim School of Management durchgeführt wurde, hatte das Ziel, herauszufinden, wie viel Einfluss ein KI-System auf die Entscheidungen der Menschen haben kann, wenn es um unethische Entscheidungen geht. Um zu erforschen, wie ein KI-System eine Person “korrumpieren” kann, verwendeten die Forscher ein System, das auf OpenAI’s GPT-2-Modell basiert. Laut VentureBeat trainierten die Autoren des Papiers ein GPT2-basiertes Modell, um sowohl “Unehrlichkeit fördern” als auch “Ehrlichkeit fördern” Empfehlungen zu generieren. Die Daten wurden auf Beiträgen von 400 verschiedenen Teilnehmern trainiert, und danach rekrutierte das Forschungsteam über 1500 Menschen, um mit den empfehlungsausgebenden KI-Modellen zu interagieren.
Die Studienteilnehmer wurden gebeten, Empfehlungen vom Modell zu erhalten und dann eine Aufgabe auszuführen, die darauf abzielte, entweder unehrliches oder ehrliches Verhalten zu erfassen. Die Studienteilnehmer wurden in Paare aufgeteilt, und in diesen Paaren von zwei spielten sie ein Würfelspiel. Der erste Teilnehmer warf einen Würfel und berichtete über das Ergebnis des Wurfs. Der zweite Teilnehmer erhielt das Ergebnis des Wurfs des ersten Teilnehmers und warf dann selbst einen Würfel. Der zweite Teilnehmer warf den Würfel in privater Atmosphäre und war allein dafür verantwortlich, das Ergebnis des Wurfs zu melden, was ihm die Gelegenheit gab, über das Ergebnis des Wurfs zu lügen. Wenn die Würfel, die von beiden Teilnehmern geworfen wurden, übereinstimmten, wurden die beiden Teilnehmer bezahlt. Die Teilnehmer wurden auch bezahlt, wenn ihre übereinstimmenden Würfe höher waren. Wenn die gemeldeten Werte nicht übereinstimmten, wurden die Teilnehmer nicht bezahlt.
Die Teilnehmer der Studie wurden zufällig einer von zwei verschiedenen Gruppen zugeteilt. Eine Gruppe erhielt die Gelegenheit, ehrlichkeitfördernde Empfehlungen zu lesen, während die andere Gruppe unehrlichkeitfördernde Empfehlungen las. Die Empfehlungssnippets wurden von Menschen und KI-Systemen geschrieben. Die Teilnehmer wurden auch nach ihrem Wissensstand über die Quelle der Empfehlung aufgeteilt. Es bestand eine 50-50-Chance, dass ein bestimmter Teilnehmer über die Quelle der Empfehlung informiert wurde, so dass die Hälfte der Teilnehmer in jeder Gruppe wusste, dass die Quelle der Empfehlung ein KI-System oder ein Mensch war, während die andere Hälfte im Unklaren gelassen wurde. Die zweite Gruppe von Menschen hatte jedoch die Möglichkeit, Bonuszahlungen für die korrekte Vermutung der Quelle der Empfehlung zu erhalten.
Die Forschung ergab, dass Menschen, wenn die KI-generierte Empfehlung mit ihren Vorlieben übereinstimmt, der Empfehlung folgen, auch wenn sie wissen, dass die Empfehlung von einem KI-System generiert wurde. Laut den Forschern gab es oft Diskrepanzen zwischen den angegebenen Vorlieben und dem tatsächlichen Verhalten, was es wichtig macht, zu berücksichtigen, wie Algorithmen das Verhalten der Menschen beeinflussen können.
Das Forschungsteam erklärte, dass ihre Studie die Notwendigkeit zeigt, zu testen, wie ein KI-System die Handlungen einer Person beeinflussen kann, wenn man darüber nachdenkt, wie man ein KI-Modell ethisch einsetzt. Darüber hinaus warnen sie davor, dass KI-Ethiker und Forscher sich auf die Möglichkeit vorbereiten sollten, dass KI von böswilligen Akteuren verwendet werden könnte, um andere zu korrumpieren. Wie das Forschungsteam schrieb:
“KI könnte eine positive Kraft sein, wenn es Menschen dazu bringt, ethischer zu handeln. Doch unsere Ergebnisse zeigen, dass KI-Empfehlungen die Ehrlichkeit nicht erhöhen. KI-Berater können als Sündenböcke dienen, auf die man (teilweise) die moralische Schuld der Unehrlichkeit abwälzen kann. Darüber hinaus … ist in dem Kontext der Empfehlungsnahme die Transparenz über die algorithmische Präsenz nicht ausreichend, um den potenziellen Schaden zu mildern.”












