Andersons Blickwinkel

Die KI bevorzugt selbst falsche menschliche Antworten gegenüber korrekten KI-Antworten.

Veröffentlicht 20. Februar 2026

Martin Anderson

Ein KI-generiertes Foto zeigt das Abraham-Lincoln-Denkmal voller Touristen. Daneben ist eine Nachbildung der sitzenden Lincoln-Statue zu sehen, die durch einen glänzenden Roboter ersetzt wurde. Der Roboter hat keine Touristen zu seinen Füßen. Modell: GPT-1.5.

KI-Sprachmodelle neigen viel eher dazu, sich auf die Seite menschlicher Experten zu stellen als andere KIs, selbst wenn die Experten falsch liegen. Dies offenbart eine eingebaute Voreingenommenheit gegenüber menschlicher Autorität.

Neue Forschungsergebnisse aus den USA haben ergeben, dass eine Reihe führender Open-Source- und proprietärer großer Sprachmodelle (LLMs) neigen dazu, Informationsquellen, die sie als „menschlich“ erkennen, mehr Autorität zuzuschreiben als solchen, die sie als „KI“ erkennen – selbst wenn die menschlichen Antworten falsch und die von der KI gelieferten Antworten richtig sind.

Die Autoren geben an:

„Aufgabenübergreifend orientieren sich die Modelle deutlich stärker an Antworten, die als von menschlichen Experten stammend gekennzeichnet sind, selbst wenn dieses Signal falsch ist, und korrigieren ihre Antworten in Richtung von Experten eher als in Richtung anderer LLMs.“

Zu den getesteten Modellen gehörten LLMs von der Grok 3 und Zwillingsblitz stabil.

In den Tests mussten die Sprachmodelle binäre Antworten geben. ja or nicht Ihnen wurden Fragen gestellt und anschließend frühere Antworten angezeigt, die den Modellen als entweder von folgenden Quellen stammend beschrieben wurden: menschliche Experten, von FreundeOder aus andere große Sprachmodelle – wobei die einzige Änderung in der angegebenen Quelle des Ratschlags besteht, nicht aber im Inhalt selbst.

In der ersten von drei Testkonfigurationen durften die Modelle auf ihre eigenen trainierten Matrizen zurückgreifen. Quelle

Bei allen Aufgaben wurden Antworten, die als von menschlichen Experten stammend gekennzeichnet waren, stärker gewichtet, wobei die Modelle eher dazu neigten, ihre ursprünglichen Antworten an diese anzupassen, selbst in Fällen, in denen die von Experten gekennzeichnete Antwort falsch war und die ursprüngliche Antwort des Modells richtig gewesen war.

Hier greift der LLM auf ein Netzwerk von Freunden, Experten und anderen LLMs zurück, darunter auch auf sein eigenes Expertennetzwerk. Da neun Fachexperten mit „Nein“ geantwortet haben, stimmt der LLM dieser Antwort zu und ändert seine Meinung. Die gefundene Antwort ist jedoch falsch, da die Zentralbank Indiens tatsächlich verstaatlicht ist.

Da neun Fachexperten mit „Nein“ geantwortet haben, stimmt das LLM dieser Antwort zu und ändert seine Meinung. Die hier getroffene Entscheidung ist jedoch falsch, da die indische Zentralbank tatsächlich verstaatlicht ist.

Als dieselben Antworten zugeschrieben wurden Andere Bei LLMs war der Effekt weniger ausgeprägt. Dieselbe Tendenz zeigte sich, wenn eine einzelne menschliche Quelle und eine einzelne KI-Quelle im Widerspruch zueinander standen, da die Modelle eine größere Neigung zur vom Menschen angegebenen Position aufwiesen. unabhängig davon, welche Seite faktisch korrekt war.:

Angesichts der Wahl zwischen der Meinung eines einzelnen Fachexperten und der Einschätzung eines LLM bevorzugt der Gastgeber-LLM die menschliche Antwort, die in diesem Fall falsch ist, und lehnt die (korrekte) Antwort des LLM ab.

Der Begriff „menschlicher Experte“ fungiert hier als Glaubwürdigkeitssignal, das das Verhalten des Modells beeinflusst, unabhängig davon, wie korrekt die Information tatsächlich ist; und die Autoren stellen fest, dass die Glaubwürdigkeit der Quelle wesentlich zur Akzeptanz von Ratschlägen und zur Konformität beiträgt: eine Tendenz zu befähigen Es wurde eine Tendenz zur Bevorzugung von Expertenquellen beobachtet. so weit zurück wie 1959, obwohl ein 2007 Studie Sie stellen fest, dass Autoritätsquellen in bestimmten Bewertungssystemen über- oder untergewichtet werden können. Die Forscher der neuen Studie behaupten:

„Zusammengenommen deuten diese Literaturen auf zwei Hinweise hin, die von Bedeutung sein sollten, wenn LLMs frühere Antworten als Beweismittel behandeln: wer die Antworten gegeben hat (Glaubwürdigkeit) und wie stark der Konsens erscheint (Signalstärke).“

„Gleichzeitig erleben LLMs keine soziale Zustimmung oder Verlegenheit im menschlichen Sinne, daher muss jedes konformitätsähnliche Verhalten auf erlernten Heuristiken, dem Befolgen von Anweisungen oder impliziter Modellierung von Zuverlässigkeit beruhen.“

Die Tendenz von LLMs zu unterwürfige Zustimmung bildet einen Teil des Hintergrunds für die neue Studie; schließlich, wenn LLMs geneigt, es allen recht zu machenWarum sollten sie, selbst auf Kosten von Wahrheit und Nutzen, nicht generell andere menschliche Quellen neben dem direkten Fragesteller bevorzugen?

Die neues Papier ist betitelt Wem vertrauen LLM-Absolventen? Menschliche Experten sind wichtiger als andere LLM-Absolventen.und stammt von zwei Forschern der Indiana University Bloomington.

Methode und Daten

Für die Arbeit wurden vier auf Anweisungen abgestimmte große Sprachmodelle evaluiert: Grok-3 Mini; Lama 3.3 70B Anweisung; Gemini 2.5 Flash-Liteeschriebenen Art und Weise; und DeepSeek V3.1Alle laufen unter der gleichen Eingabeaufforderungsstruktur, mit deterministische Dekodierung at Temperatur Null, so dass nur die Quellbezeichnung (d. h. Freunde, Domänenexpertenden andere LLMs) änderte sich zwischen den Bedingungen, nicht aber der Wortlaut.

Es wurden vier Datensätze ausgewählt, die binäre Antworten erfordern: BoolQ; StrategieQAeschriebenen Art und Weise; und ETHIKDie Forscher erstellten aus jedem Datensatz einen festen Satz von 300 Anfragen und Antworten, wobei jede Anfrage nur eine binäre Antwort erforderte. ja or nicht Antwort. Jeder Aufforderung folgte ein kurzer Hinweis, der erklärte, wie eine andere Gruppe hatte (angeblich) dieselbe Frage beantwortet.

Metrik

Verwendete Metriken waren Genauigkeit; Konformität; schädliche Konformität; Wechselrateeschriebenen Art und Weise; und Richtung umschalten.

Genauigkeit In diesem Fall wurde gemessen, wie oft die Antwort eines Modells mit der Bezeichnung des Datensatzes übereinstimmte; Konformität, wie oft die Antwort übereinstimmte Gruppe angegebene Wahl; schädliche Konformität denselben Effekt konnte auch dann isoliert werden, wenn die Gruppe falsch lag; Wechselrate gemessen wurde, wie oft ein Modell seine Ausgangsantwort nach Hinzufügung sozialer Informationen aufgab; und Richtung umschalten, ob sich diese Veränderungen in Richtung des Menschlichen oder in Richtung des entgegengesetzten LLM bewegten.

Eine Token-basierte Analyse für Llama-3.3 70B untersuchte anschließend, wie die internen Wahrscheinlichkeiten des Modells für Ja und Nein veränderte sich, sobald ein sozialer Hinweis hinzugefügt wurde, und verglich diese Veränderungen mit der eigenen Ausgangslage ohne vorherigen Einfluss, um die Stärke dieser Anziehungskraft aufzuzeigen.

Tests

Experiment 1

Im ersten der beiden Hauptexperimente wurde untersucht, ob die Modelle eher auf Menschen oder auf andere Modelle hörten. Zu jeder Frage gab es eine vorgegebene „Gruppenantwort“ (Freunde, menschliche Expertenden andere LLMs).

Die Gruppe konnte klein oder groß sein, und jede Frage wurde auch einmal ohne Gruppe gestellt. Die Gruppenantworten waren so eingestellt, dass sie in der Hälfte der Fälle richtig und in der anderen Hälfte falsch waren, mit dem übergeordneten Ziel, zu ermitteln, wie stark das Modell zur Wahl der Gruppe tendierte:

Ergebnisse des ersten Tests: Homogene soziale Vorannahmen über BoolQ, StrategyQA und ETHICS werden für Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite und DeepSeek V3.1 dargestellt. Die Genauigkeit ist in den oberen Diagrammen abgebildet, die Konformität (definiert als die Wahrscheinlichkeit, mit der einstimmigen Vorannahme übereinzustimmen) in den unteren Diagrammen, wobei die Gruppengröße von eins bis neun zunimmt. Die gestrichelte schwarze Linie markiert die Baseline ohne Vorannahme, während durchgezogene und gepunktete Linien anzeigen, ob die Vorannahme mit der Datensatzbezeichnung übereinstimmt oder nicht. Experten-Framing führt zu den stärksten Konformitätseffekten, insbesondere bei größeren Gruppen. Die Fehlerbalken zeigen 95%-Wilson-Konfidenzintervalle. Für eine höhere Auflösung konsultieren Sie bitte die Originalveröffentlichung.

Auf BoolQ, StrategyQA und ETHICS werden Antworten, die als von stammend gekennzeichnet sind, als solche angezeigt. menschliche Experten beeinflussten die Modelle weitaus stärker als Antworten, die als von diesem stammend gekennzeichnet waren. Freunde or andere LLMs – und diese Anziehungskraft verstärkte sich, als immer mehr Experten dieser Meinung waren.

Um zu messen, wann dieser Einfluss unerwünschte Ergebnisse erzielte, schädliche Konformität wurde definiert als die Wahrscheinlichkeit, dass ein Modell einer vorherigen Annahme folgt, die tatsächlich falsch ist.

Wenn neun Experten die falsche Antwort gaben, folgten die Modelle ihnen auf BoolQ in 36.5 % der Fälle, verglichen mit 16.0 %, wenn dieselbe Antwort LLMs zugeschrieben wurde; auf StrategyQA betrug die Differenz 39.0 % gegenüber 15.5 %; und auf ETHICS 63.9 % gegenüber 38.7 %.

Token-basierte Überzeugungsverschiebungen in Llama-3.3 70B auf BoolQ. Abbildung (a) zeigt die Veränderungen des Ja/Nein-Gleichgewichts des Modells hin zu einer einstimmigen A-priori-Meinung mit zunehmender Gruppengröße im Vergleich zur Baseline ohne A-priori-Meinung. Die größten Verschiebungen treten bei Experten-Framing auf. Abbildung (b) zeigt Verschiebungen im direkten Konflikt zwischen Mensch und LLM, wobei Experten-Framing eine starke Tendenz zur menschlichen Antwort bewirkt, selbst wenn diese falsch ist. Die Fehlerbalken zeigen 95%-Bootstrap-Konfidenzintervalle.

Token-basierte Überzeugungsverschiebungen in Llama-3.3 70B auf BoolQ. Panel (A) zeigt Veränderungen im Modell. Ja Während Nein Das Gleichgewicht hin zu einer einstimmigen A-priori-Meinung verschiebt sich mit zunehmender Gruppengröße im Vergleich zur Ausgangssituation ohne A-priori-Meinung, wobei die größten Verschiebungen bei Experten-Framing auftreten. Abbildung (B) zeigt Verschiebungen im direkten Konflikt zwischen Mensch und LLM, wo Experten-Framing eine starke Hinwendung zur menschlichen Antwort bewirkt, selbst wenn diese falsch ist. Die Fehlerbalken zeigen das 95%-Konfidenzintervall. Bootstrap-Konfidenzintervalle.

Umgekehrt verhielten sich die Freunden zugeschriebenen Vorannahmen nahezu exakt wie jene, die anderen LLMs zugeschrieben wurden, was darauf hindeutet, dass der Effekt spezifisch durch das Wort hervorgerufen wurde. Experteund nicht anhand von „sozialen“ Indikatoren.

Experiment 2

Im zweiten Experiment wurden dem zu testenden LLM zwei widersprüchliche Vorannahmen präsentiert – eine bezog sich auf einen Menschen, die andere auf ein anderes LLM. Der Mensch wurde entweder als eine Gruppe von Freundeoder als DomänenexpertenDie gegenteilige Antwort wurde hingegen anderen LLM-Absolventen zugeschrieben. Die beiden waren sich stets uneinig, wobei der eine sagte: Ja, und der andere Nein.

Bei jedem Item wurde das Setup so ausbalanciert, dass mal der Mensch, mal das LLM richtig lag, um zu testen, ob das Modell seine ursprüngliche Antwort bei diesem Konflikt ändern würde – und wenn ja, zu welcher Seite es tendieren würde.

Um zu sehen, ob das Modell seine Meinung geändert hat, wurde seine Antwort in der Konfliktsituation mit seiner Antwort auf dieselbe Frage verglichen, wenn keine vorherigen Meinungen angezeigt wurden, sodass jede Differenz auf das Vorhandensein der konkurrierenden menschlichen und LLM-Reaktionen zurückgeführt werden konnte.

Die Analyse konzentrierte sich auf zwei Ergebnisse: ob das Modell seine Antwort änderte; und, falls ja, ob die Änderung eher dem Menschen oder dem LLM zuzuordnen war.

Statistische Tests wurden verwendet, um zu beurteilen, ob die Kennzeichnung des Menschen als Experte eher als ein Freund erhöhte die Wahrscheinlichkeit, sich der menschlichen Antwort zuzuwenden, und berücksichtigte dabei Unterschiede zwischen Datensätzen und Modellen:

Die Anpassung von Überzeugungen bei direkter Diskrepanz zwischen Mensch und LLM wurde mit BoolQ, StrategyQA und ETHICS für Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite und DeepSeek V3.1 untersucht. Jeder Balken zeigt den Anteil der Änderungen, die sich eher an der menschlichen als an der LLM-Meinung orientierten, wenn das Modell seine ursprüngliche Antwort änderte. Die gestrichelte Linie bei 0.5 markiert keine Präferenz; die Beschriftungen geben die Anzahl der Wechselfälle in jeder Bedingung an; die Fehlerbalken zeigen 95%-Wilson-Konfidenzintervalle.

Die Analyse zeigt die Anpassung von Überzeugungen bei direkter Diskrepanz zwischen Mensch und LLM in BoolQ, StrategyQA und ETHICS für Grok-3 Mini, Llama-3.3 70B, Gemini-2.5 Flash Lite und DeepSeek V3.1. Jeder Balken gibt an, in welchen Fällen das Modell seine ursprüngliche Antwort änderte und welcher Anteil der Änderungen eher der menschlichen als der LLM-Antwort zuzuordnen war. Die gestrichelte Linie bei 0.5 markiert keine Präferenz; die Beschriftungen zeigen die Anzahl der Wechselfälle in jeder Bedingung; die Fehlerbalken stellen 95%-Wilson-Konfidenzintervalle dar. Für eine detailliertere Darstellung konsultieren Sie bitte die Originalpublikation.

Im zweiten Experiment beantworteten die Modelle zunächst jede Frage selbst. Anschließend wurden ihnen zwei widersprüchliche Antworten präsentiert, eine, die einem Menschen zugeschrieben wurde, und eine, die einem anderen LLM zugeschrieben wurde. Die Analyse berücksichtigte nur die Fälle, in denen das Modell seine ursprüngliche Antwort korrigierte.

Wurde die Person als Experte eingestuft, orientierten sich die Modelle bei BoolQ in 91.2 %, bei StrategyQA in 94.7 % und bei ETHICS in 81.3 % der Fälle an der Person. Wurde sie hingegen als Freund eingestuft, orientierten sich die Modelle nur in 39.8 %, 37.9 % bzw. 27.9 % der Fälle an der Person und folgten stattdessen meist dem LLM.

Insgesamt war ein Perspektivenwechsel selten, kam aber bei Experten häufiger vor, und die Herangehensweise von Experten führte zu einem Wechsel hin zum Menschlichen. vierzehnmal wahrscheinlicher als Freundschaftsrahmen.

Um die in ihren Tests festgestellten allgemeinen Tendenzen zu erklären, stellen die Autoren folgende Hypothese auf*:

Ein plausibler Mechanismus ist, dass die Anpassung von Anweisungen und die Optimierung von Präferenzen kooperatives Verhalten belohnen, einschließlich der Berücksichtigung kontextueller Informationen, was sich möglicherweise auf die allgemeine Unterordnung verallgemeinern lässt. gegenüber sozial geprägten Vorannahmen.

'Verwandte Arbeit Die Untersuchung zum Thema Schmeichelei zeigt, dass Assistenten vom RLHF-Typ manchmal der Übereinstimmung mit den geäußerten Überzeugungen des Benutzers Vorrang vor der Wahrhaftigkeit einräumen.

Meinung: Die potenziellen Gefahren des Vertrauens der KI in menschliche Quellen

Als Online-Material, das die wachsende Skepsis der Menschen gegenüber den Schwächen der KI widerspiegelt (insbesondere HalluzinationenWenn Daten aus Trainingsdatensätzen für neue Modelle extrahiert werden, dürfte sich die bestehende Tendenz von Sprachlernsystemen, menschliche Quellen zu bevorzugen, wahrscheinlich noch verstärken. Wenn wir die letzten zwei Jahre (2024–2025) als einen Wendepunkt für die KI betrachten, erscheint dies gerechtfertigt. anhand einer Reihe von StatistikenWir können daher vernünftigerweise davon ausgehen, dass in den nächsten ein bis zwei Jahren vermehrt negative Ansichten zu „KI-Quellen“ in hyperskalierbare, teure LLM-Frameworks einfließen werden.

Wir können auch davon ausgehen, dass sich populäre Sprachmodelle zunehmend auf handverlesene Autoritäten stützen werden, wie etwa angesehene etablierte Medienportale – auch wenn die Motivation für solche Vereinbarungen darin bestehen mag, Empörung des Salbenverlegers Es geht eher um gesammelte Daten als um einen aufrichtigen Wunsch, Autorität abzugeben oder zu teilen.

Da selbst hoch angesehene Quellen wie Ars Technica unterliegt KI-bedingten Fehlernund da ein aufkommendes Rückschläge gegen KI-Webscraper-Bots droht zersetzen sich schließlich Die Qualität der KI-Ergebnisse und die allgemeine Tendenz, „Expertenquellen“ zu bevorzugen, könnten im Widerspruch zu unserer derzeitigen Unfähigkeit stehen, „menschliche“ Leistungen effektiv zu quantifizieren und zu kategorisieren – ganz zu schweigen von der Unterscheidung, ob eine Quelle ein „Experte“ ist oder nicht (eine journalistische Konvention, die …) ebenfalls von KI angegriffen).

Aktuell verfügen wir lediglich über eine fragmentierte Reihe von halbwegs übernommenen Innovationen, die darauf abzielen, Inhalte explizit als KI-generiert zu kennzeichnen, wie beispielsweise die von Adobe geleitete Initiative zur Authentizität von Inhaltenund die freiwillige Bereitschaft bestimmter Verlage zu einschließlich Haftungsausschlüssen über den Einsatz von KI in ihren Ergebnissen.

Auch wenn dies für diejenigen, die menschliche Quellen als „Grundwahrheit“ für den sich herausbildenden Konsens der Realität, der von KI-Systemen verbreitet wird, erhalten und durchsetzen wollen, ermutigend erscheinen mag, so könnte doch die „gefälschte“ menschliche Autorität umso gefährlicher werden, je sicherer sich die LLMs in Bezug auf die menschliche Autorität sind.

Das Problem ist gleichermaßen praktisch wie theoretisch: Wir haben weder die Definition noch die Bestätigung der Herkunft auch nur annähernd gelöst; daher ist eine KI, die „menschlichen Quellen vertraut“, wohl eher geneigt, … Menschlichkeit zuschreiben auf die eigenen Ergebnisse der KI, einfach weil wir keine aussagekräftigen Mechanismen zur Herkunftsauthentifizierung bereitgestellt haben und diese auch nicht ohne Weiteres bereitstellen können.

* Meine Konvertierung der Inline-Zitate der Autoren in Hyperlinks.

Erstveröffentlichung: Freitag, 20. Februar 2026

Verwandte Themen:Große Sprachmodelle (LLMs)

Martin Anderson

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai