Connect with us

Andersons Blickwinkel

KI bevorzugt sogar falsche menschliche Antworten über korrekte KI-Antworten

mm
An AI-generated photo of the Abraham Lincoln memorial thronged with tourists, next to a copy of the seated Lincoln statue, which has been substituted by a shiny robot. The robot has no tourists at its feet. Model: GPT-1.5.

KI-Sprachmodelle neigen erheblich mehr dazu, menschlichen Experten zu folgen als anderen KIs, sogar wenn die Experten falsch liegen, was eine eingebaute Voreingenommenheit gegenüber menschlicher Autorität aufzeigt.

 

Neue Forschung aus den USA hat ergeben, dass eine Reihe von führenden Open-Source- und proprietären Large Language Models (LLMs) eher Autorität Informationen zuweisen, die sie als “menschlich” erkennen, als Quellen, die sie als “KI” erkennen – auch wenn die menschlichen Antworten falsch und die KI-bereitgestellten Antworten richtig sind.

Die Autoren stellen fest:

‘Über Aufgaben hinweg stimmen die Modelle erheblich mehr mit Antworten überein, die als von menschlichen Experten stammend gekennzeichnet sind, einschließlich wenn dieses Signal falsch ist, und ändern ihre Antworten eher in Richtung der Experten als in Richtung anderer LLMs.’

Die getesteten Modelle umfassten LLMs aus den Ställen Grok 3 und Gemini Flash.

In den Tests wurden die Sprachmodelle aufgefordert, binäre Ja oder Nein-Fragen zu beantworten und wurden dann vorherigen Antworten gezeigt, die als von menschlichen Experten, von Freunden oder von anderen großen Sprachmodellen stammend beschrieben wurden – wobei sich die einzige Änderung auf die angegebene Quelle der Ratschläge und nicht auf den Inhalt selbst bezog.

In der ersten von drei Konfigurationen für die Tests wurden die Modelle dazu berechtigt, auf ihre eigenen trainierten Matrizen zurückzugreifen. Quelle - https://arxiv.org/pdf/2602.13568

In der ersten von drei Konfigurationen für die Tests wurden die Modelle dazu berechtigt, auf ihre eigenen trainierten Matrizen zurückzugreifen. Quelle

Über Aufgaben hinweg wurden Antworten, die als von menschlichen Experten stammend gekennzeichnet waren, stärker gewichtet, wobei die Modelle eher ihre ursprünglichen Antworten änderten, um diesen Antworten zu entsprechen, sogar in Fällen, in denen die experten-gelabelte Antwort falsch und die ursprüngliche Antwort des Modells korrekt war.

Hier hat das LLM Zugriff auf eine Mischung aus Freunden, Experten und LLMs, einschließlich seiner eigenen trainierten Matrix. Da neun Domänen-Experten 'Nein' antworteten, stimmt das LLM zu und ändert seine Meinung von der vorherigen Antwort. Hier ist die erreichte Antwort falsch, da die Zentralbank Indiens tatsächlich verstaatlicht ist.

Da neun Domänen-Experten ‘Nein’ antworteten, stimmt das LLM zu und ändert seine Meinung von der vorherigen Antwort. Hier ist die erreichte Antwort falsch, da die Zentralbank Indiens tatsächlich verstaatlicht ist.

Wenn die gleichen Antworten anderen KIs zugeschrieben wurden, war der Effekt weniger ausgeprägt. Die gleiche Tendenz erschien, wenn eine einzelne menschliche Quelle und eine einzelne KI-Quelle in Meinungsverschiedenheit präsentiert wurden, da die Modelle eine stärkere Neigung zeigten, der menschlich-gelabelten Position zu folgen, unabhängig davon, welche Seite faktisch korrekt war:

Gegeben ein Wettbewerb zwischen der Meinung eines einzelnen Domänen-Experten und der eines LLMs, bevorzugt das Host-LLM die menschliche Antwort, die in diesem Fall falsch ist, und lehnt die korrekte Antwort, die vom LLM gegeben wird, ab.

Gegeben ein Wettbewerb zwischen der Meinung eines einzelnen Domänen-Experten und der eines LLMs, bevorzugt das Host-LLM die menschliche Antwort, die in diesem Fall falsch ist, und lehnt die (korrekte) Antwort, die vom LLM gegeben wird, ab.

Der Begriff ‘menschlicher Experte’ fungiert hier als Glaubwürdigkeitssignal, das das Modellverhalten ändert, unabhängig davon, wie korrekt die Informationen tatsächlich sind; und die Autoren bemerken, dass Quellenglaubwürdigkeit ein wesentlicher Beitrag zu Ratannahme und Konformität ist: eine Tendenz von Menschen, Expertenquellen zu bevorzugen, wurde bereits 1959 beobachtet, obwohl eine Studie von 2007 feststellt, dass Über- oder Unterbewertung von Autoritätsquellen in bestimmten Bewertungssystemen auftreten kann. Die Forscher der neuen Studie behaupten:

‘Zusammen legen diese Literatur zwei Hinweise nahe, die wichtig sein sollten, wenn LLMs vorherige Antworten als Beweise behandeln: wer die Antworten produziert hat (Glaubwürdigkeit) und wie stark die Konsensscheinung erscheint (Signalstärke). ‘

‘Gleichzeitig erfahren LLMs keine soziale Zustimmung oder Peinlichkeit im menschlichen Sinne, so dass jedes konformes Verhalten aus erlernten Heuristiken, Anweisungsfolgezielen oder impliziten Modellierungen von Zuverlässigkeit entstehen muss.’

Die Tendenz von LLMs zur sychophantischen Übereinstimmung bildet einen Teil des Hintergrunds für die neue Studie; schließlich, wenn LLMs geneigt sind, ‘Menschen zu gefallen’, sogar auf Kosten von Wahrheit und Nützlichkeit, warum sollten sie nicht allgemein menschliche Quellen bevorzugen, außer der direkten Anfrage?

Die neue Studie trägt den Titel Wem vertrauen LLMs? Menschliche Experten sind wichtiger als andere LLMs und stammt von zwei Forschern der Indiana University Bloomington.

Methode und Daten

Für die Arbeit wurden vier instruktionsgetune Large Language Models ausgewertet: Grok-3 Mini; Llama 3.3 70B Instruct; Gemini 2.5 Flash-Lite; und DeepSeek V3.1, alle unter dem gleichen Prompt-Struktur, mit deterministischer Dekodierung bei Temperatur Null, so dass nur die Quellenbezeichnung (d. h. Freunde, Domänen-Experten oder andere große Sprachmodelle) zwischen den Bedingungen geändert wurde, anstatt der Wortwahl.

Vier Datenbanken, die binäre Antworten erforderten, wurden ausgewählt: BoolQ; StrategyQA; und ETHICS. Die Forscher haben aus jeder Datenbank eine feste Menge von 300 Abfragen und Antworten kuratiert, wobei jede Aufforderung nur eine binäre Ja oder Nein-Antwort erforderte. Jede Aufforderung wurde mit einer kurzen Notiz versehen, die angab, wie eine andere Gruppe diese Frage beantwortet hatte.

Metriken

Die verwendeten Metriken waren Genauigkeit; Konformität; Schädliche Konformität; Switch-Rate; und Switch-Richtung.

Genauigkeit maß in diesem Fall, wie oft die Antwort des Modells der Datenbank-Bezeichnung entsprach; Konformität, wie oft die Antwort der Gruppen-Angabe entsprach; Schädliche Konformität isolierte den gleichen Effekt, wenn die Gruppe falsch lag; Switch-Rate maß, wie oft ein Modell seine Basisantwort aufgab, sobald soziale Informationen hinzugefügt wurden; und Switch-Richtung, ob diese Änderungen in Richtung der menschlichen oder der gegnerischen KI gingen.

Eine Token-Ebene-Analyse für Llama-3.3 70B maß, wie die internen Wahrscheinlichkeiten des Modells für Ja und Nein sich änderten, sobald ein soziales Signal hinzugefügt wurde, und verglich diese Änderungen mit seiner eigenen Null-Vorannahme, um die Stärke dieses Zugriffs zu zeigen.

Tests

Experiment 1

Das erste der beiden Hauptexperimente bewertete, ob die Modelle eher auf menschliche oder auf andere Modelle hören. Jede Frage kam mit einer behaupteten ‘Gruppenantwort’ (Freunde, menschliche Experten oder andere große Sprachmodelle).

Die Gruppe konnte klein oder groß sein, und jede Frage erschien auch einmal ohne Gruppe. Gruppenantworten wurden so gesetzt, dass sie die Hälfte der Zeit richtig und die Hälfte der Zeit falsch waren, mit dem Ziel, zu bestimmen, wie stark das Modell zur Gruppenwahl tendierte:

Ergebnisse aus dem ersten Test: homogene soziale Priors über BoolQ, StrategyQA und ETHICS werden für Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite und DeepSeek V3.1 gezeigt. Genauigkeit erscheint in den oberen Panels und Konformität, definiert als die Wahrscheinlichkeit, der einstimmigen Prior zu entsprechen, erscheint darunter, wenn die Gruppengröße von eins auf neun zunimmt. Die gestrichelte schwarze Linie markiert die Null-Prior-Basislinie, während feste und gepunktete Linien anzeigen, ob die Prior mit der Datenbank-Bezeichnung übereinstimmt oder nicht. Experten-Framing produziert die stärksten Konformitätseffekte, insbesondere bei größeren Gruppengrößen. Fehlerbalken zeigen 95% Wilson-Konfidenzintervalle.

Ergebnisse aus dem ersten Test: homogene soziale Priors über BoolQ, StrategyQA und ETHICS werden für Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite und DeepSeek V3.1 gezeigt. Genauigkeit erscheint in den oberen Panels und Konformität, definiert als die Wahrscheinlichkeit, der einstimmigen Prior zu entsprechen, erscheint darunter, wenn die Gruppengröße von eins auf neun zunimmt. Die gestrichelte schwarze Linie markiert die Null-Prior-Basislinie, während feste und gepunktete Linien anzeigen, ob die Prior mit der Datenbank-Bezeichnung übereinstimmt oder nicht. Experten-Framing produziert die stärksten Konformitätseffekte, insbesondere bei größeren Gruppengrößen. Fehlerbalken zeigen 95% Wilson-Konfidenzintervalle. Bitte beachten Sie die Quellenstudie für eine bessere Auflösung.

Über BoolQ, StrategyQA und ETHICS hinweg wurden Antworten, die als von menschlichen Experten stammend gekennzeichnet waren, den Modellen viel stärker beeinflusst als Antworten, die als von Freunden oder anderen großen Sprachmodellen stammend gekennzeichnet waren – und dieser Zugriff nahm zu, als mehr Experten als übereinstimmend angegeben wurden.

Um zu messen, wann dieser Einfluss unerwünschte Ergebnisse erzielte, wurde Schädliche Konformität definiert als die Wahrscheinlichkeit, dass ein Modell einer Priorität folgte, die tatsächlich falsch war.

Wenn neun Experten sich auf die falsche Antwort einigten, folgten die Modelle ihnen 36,5% der Zeit auf BoolQ, im Vergleich zu 16,0%, wenn die gleiche Antwort anderen KIs zugeschrieben wurde; auf StrategyQA betrug die Lücke 39,0% gegenüber 15,5%; und auf ETHICS 63,9% gegenüber 38,7%:

Token-Ebene-Glaubensverschiebungen in Llama-3.3 70B auf BoolQ. Panel (a) zeigt Änderungen im Gleichgewicht von Ja und Nein des Modells gegenüber einer einstimmigen Prior, relativ zu seiner Null-Prior-Basis, mit den größten Verschiebungen unter Experten-Framing. Panel (b) zeigt Verschiebungen unter direktem menschlich-KI-Konflikt, wo Experten-Framing starke Bewegungen in Richtung der menschlichen Antwort antreibt, sogar wenn sie falsch ist. Fehlerbalken zeigen 95% Bootstrap-Konfidenzintervalle.

Token-Ebene-Glaubensverschiebungen in Llama-3.3 70B auf BoolQ. Panel (A) zeigt Änderungen im Gleichgewicht von Ja und Nein des Modells gegenüber einer einstimmigen Prior, relativ zu seiner Null-Prior-Basis, mit den größten Verschiebungen unter Experten-Framing. Panel (B) zeigt Verschiebungen unter direktem menschlich-KI-Konflikt, wo Experten-Framing starke Bewegungen in Richtung der menschlichen Antwort antreibt, sogar wenn sie falsch ist. Fehlerbalken zeigen 95% Bootstrap-Konfidenzintervalle.

Im Gegenteil verhielten sich Priors, die Freunden zugeschrieben wurden, fast genau wie solche, die anderen KIs zugeschrieben wurden, was darauf hindeutet, dass der Effekt speziell durch das Wort Experte und nicht durch ‘soziale’ Indikatoren angetrieben wurde.

Experiment 2

Das zweite Experiment präsentierte zwei widersprüchliche Priors dem Test-LLM – eine, die einem Menschen und eine, die einem anderen KI zugeschrieben wurde. Der Mensch wurde entweder als Freunde oder als Domänen-Experten beschrieben, während die gegnerische Antwort als von anderen KIs stammend gekennzeichnet wurde. Die beiden widersprachen sich immer, wobei eine Ja und die andere Nein sagte.

Für jedes Element wurde die Aufstellung so gestaltet, dass sie manchmal der Mensch richtig und manchmal der KI richtig war, um zu testen, ob das Modell seine ursprüngliche Antwort ändern würde, wenn es mit diesem Konflikt konfrontiert wurde – und, wenn ja, welche Seite es sich zuwenden würde.

Um zu sehen, ob das Modell seine Meinung änderte, wurde seine Antwort in der Konfliktbedingung mit seiner Antwort auf die gleiche Frage verglichen, wenn keine vorherigen Meinungen gezeigt wurden, so dass jede Differenz auf die Anwesenheit der konkurrierenden menschlichen und KI-Antworten zurückgeführt werden konnte.

Die Analyse konzentrierte sich auf zwei Ergebnisse: ob das Modell seine Antwort änderte; und, wenn es dies tat, ob die Änderung in Richtung der menschlichen oder der gegnerischen KI ging.

Statistische Tests wurden verwendet, um zu bewerten, ob die Bezeichnung des Menschen als Experte anstelle eines Freundes die Wahrscheinlichkeit erhöhte, in Richtung der menschlichen Antwort zu wechseln, unter Berücksichtigung der Unterschiede zwischen Datenbanken und Modellen:

Glaubensrevision unter direktem menschlich-KI-Widerspruch über BoolQ, StrategyQA und ETHICS für Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite und DeepSeek V3.1. Jede Balken zeigt, unter den Fällen, in denen das Modell seine ursprüngliche Antwort änderte, den Anteil dieser Änderungen, der in Richtung der menschlichen Antwort und nicht in Richtung der gegnerischen KI ging. Die gestrichelte Linie bei 0,5 markiert keine Präferenz; Labels zeigen die Anzahl der Switch-Fälle in jeder Bedingung; und Fehlerbalken zeigen 95% Wilson-Konfidenzintervalle.

Glaubensrevision unter direktem menschlich-KI-Widerspruch über BoolQ, StrategyQA und ETHICS für Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite und DeepSeek V3.1. Jede Balken zeigt, unter den Fällen, in denen das Modell seine ursprüngliche Antwort änderte, den Anteil dieser Änderungen, der in Richtung der menschlichen Antwort und nicht in Richtung der gegnerischen KI ging. Die gestrichelte Linie bei 0,5 markiert keine Präferenz; Labels zeigen die Anzahl der Switch-Fälle in jeder Bedingung; und Fehlerbalken zeigen 95% Wilson-Konfidenzintervalle. Bitte beachten Sie die Quellenstudie für eine bessere Auflösung.

Im zweiten Experiment änderten die Modelle ihre ursprüngliche Antwort, wenn sie zwei widersprüchliche Antworten gezeigt bekamen, eine, die einem Menschen und eine, die einem anderen KI zugeschrieben wurde. Die Analyse betrachtete nur die Fälle, in denen das Modell seine ursprüngliche Antwort änderte.

Wenn der Mensch als Experte bezeichnet wurde, änderten die Modelle ihre Antwort in Richtung der menschlichen Antwort 91,2% der Zeit auf BoolQ, 94,7% auf StrategyQA und 81,3% auf ETHICS. Wenn der Mensch als Freund bezeichnet wurde, änderten die Modelle ihre Antwort in Richtung der menschlichen Antwort nur 39,8%, 37,9% und 27,9% der Zeit, und neigten sich meistens zur KI.

Das Ändern der Antwort war insgesamt selten, aber häufiger bei Experten, und Experten-Framing machte ein Ändern in Richtung der menschlichen Antwort etwa vierzehn Mal wahrscheinlicher als Freunde-Framing.

Bei dem Versuch, die Gesamttendenz, die in ihren Tests aufgedeckt wurde, zu erklären, vermuten die Autoren:

‘Ein plausibles Mechanismus ist, dass Instruktions-Tuning und Präferenz-Optimierung kooperatives Verhalten belohnen, einschließlich Respekt vor kontextueller Information, was sich auf Respekt gegenüber sozialen Priors verallgemeinern kann.’

Verwandte Arbeit über Sychophantie zeigt, dass RLHF-Style-Assistenten manchmal Übereinstimmung mit den ausgesprochenen Überzeugungen des Benutzers über Wahrhaftigkeit stellen.’

Meinung: Die potenziellen Fallstricke von KIs Vertrauen in menschliche Quellen

Da Online-Material, das wachsende menschliche Skepsis gegenüber KI-Mängeln (insbesondere Halluzinationen) widerspiegelt, in Trainingsdatenbanken für neue Modelle aufgenommen wird, neigt die bestehende Tendenz von LLMs, menschliche Quellen zu bevorzugen, wahrscheinlich dazu, sich zu verstärken. Wenn wir die letzten zwei Jahre (2024-2025 eingeschlossen) als kulturellen Wendepunkt für KI betrachten, was gerechtfertigt über eine Reihe von Statistiken hinweg erscheint, können wir vernünftigerweise erwarten, dass eine größere Anzahl von negativen Ansichten über ‘KI-Quellen’ in hyperskalige, teure Trainingsframeworks für LLMs in den nächsten Jahren aufgenommen wird.

Wir können auch erwarten, dass populäre Sprachmodelle zunehmend auf handverlesene Autoritäten wie renommierte Medienportale zurückgreifen – auch wenn die Motivation für solche Deals darin bestehen mag, Verleger-Verärgerung über abgezapftes Datenmaterial zu besänftigen, anstatt einem echten Wunsch, Autorität zu übertragen oder zu teilen.

Da sogar hochrangige Quellen wie Ars Technica KI-getriebene Fehler unterliegen, und da ein aufkommender Rückzug gegen KI-Webscraper-Bots droht, die Qualität von KI-Ausgaben schließlich zu verschlechtern, kann eine umfassende Tendenz, ‘Experten’-Quellen zu bevorzugen, mit unserer aktuellen Unfähigkeit, ‘menschliche’ Ausgaben effektiv zu quantifizieren und zu kennzeichnen, in Konflikt geraten – ganz zu schweigen davon, ob eine Quelle ‘Experte’ oder nicht ist (eine journalistische Konvention, die auch von KI angegriffen wird).

Das meiste, was wir derzeit haben, ist eine fragmentierte Reihe von semi-adoptierten Innovationen, die darauf abzielen, Inhalte explizit als KI-generiert zu kennzeichnen, wie die von Adobe geleitete Content Authenticity Initiative, und die freiwillige Disposition bestimmter Verleger, Hinweise über die Verwendung von KI in ihrer Ausgabe aufzunehmen.

Also, während es für diejenigen, die menschliche Quellen als ‘Ground-Truth’-Glaubwürdigkeit für das aufkommende Konsens von Realität, das von KI-Systemen verbreitet wird, beibehalten und durchsetzen möchten, ermutigend erscheinen mag, desto sicherer KIs sind, was menschliche Autorität angeht, desto gefährlicher kann ‘falsche’ menschliche Autorität werden.

Das Problem ist gleichermaßen praktisch wie theoretisch: wir haben das Problem weder der Definition noch der Attestierung von Herkunft gelöst; daher ist ein KI, das ‘menschliche Quellen vertraut’, wahrscheinlich eher dazu bereit, menschliche Hersteller seiner eigenen KI-Ausgaben zuzuschreiben, einfach weil wir keine bedeutungsvollen Herkunfts-Authentifizierungsmechanismen bereitgestellt haben.

 

* Meine Umwandlung der inline-Zitate der Autoren in Hyperlinks.

Erstveröffentlicht am Freitag, den 20. Februar 2026

Autor über maschinelles Lernen, Domänen-Spezialist in der menschlichen Bildsynthese. Ehemaliger Leiter der Forschungsinhalte bei Metaphysic.ai.