Vernetzen Sie sich mit uns

Andersons Blickwinkel

KI-Modelle bevorzugen menschliches Schreiben gegenüber KI-generiertem Schreiben

mm
William Shakespeare beim Armdrücken mit einem Roboter. Der Stil sollte weder illustrationsartig noch cartoonhaft sein, sondern fotorealistisch, im Stil eines Werbefotos für „Real Steel“ + Variationen. GPT-4o, Flux Kontext, Firefly.

Laut einer neuen Studie zeigen ChatGPT und ähnliche Modelle eine klare Vorliebe für Text, den sie für von Menschen geschrieben halten, selbst wenn diese Annahme falsch ist. Schon die bloße Bezeichnung von Text als „menschengemacht“ veranlasst KI-Modelle dazu, ihn zu bevorzugen – und ironischerweise könnten sie dieses Vorurteil von uns lernen.

 

Begriffe wie Authentizität, Herkunft und gemeinsame menschliche Erfahrungen könnten bei KI-Entwicklungen eine größere Rolle spielen. Überfall Im Bereich des kreativen Schreibens gibt es mehr zu beachten, als bisher ersichtlich war: Tests, die im Rahmen einer neuen Studie in Princeton durchgeführt wurden, haben ergeben, dass eine Reihe wichtiger Closed- und Open-Source-Sprachmodelle, darunter ChatGPT, ihrer Meinung nach „von Menschen erstellte“ Texte bevorzugen.

Selbst wenn die Beschriftungen der Schreibproben vertauscht waren, fanden sowohl KI-Modelle als auch menschliche Teilnehmer weiterhin Fehler am von der KI geschriebenen Text und wiederholten damit die gleiche Kritik, die sie geäußert hatten, als der Text korrekt beschriftet war.

Die Forscher glauben, dass ein Teil des Grundes darin liegen könnte, dass die wachsende menschliche Feindseligkeit gegenüber generativer KI, die sich offenbar manifestiert neue und interessante Veranstaltungen täglich, könnte in die KI-Systeme selbst zurückfließen. Sie weisen darauf hin, dass KI KI-Schreiben sogar noch mehr ablehnt als Menschen und erklären*:

„Die 13 von uns getesteten KI-Modelle zeigten eine Verzerrung von 34.3 Prozentpunkten im Vergleich zu 13.7 Prozentpunkten bei Menschen. Damit sind sie 2.5-mal anfälliger für Attributionshinweise als unsere menschlichen Bewerter.“

„Diese Erweiterung ergibt Sinn, wenn wir erkennen, dass es sich bei modernen Modellen um präferenztrainierte Evaluatoren handelt. Das Ausrichtungstraining durch Reinforcement Learning from Human Feedback (RLHF) lehrt Modelle ausdrücklich, menschliche Urteile als ihren Goldstandard zu betrachten, wodurch effektiv eine erlernte Zuverlässigkeit [vorher] installiert wird.“

„Modelle lernen, dass es belohnt wird, sich menschlichen Vorlieben zu beugen, und erzeugen dadurch Speichelleckerei, wenn sie die erwartete Einstellung der Benutzer nachahmen, anstatt eine unabhängige Bewertung abzugeben.“

Die Ergebnisse lassen sich auf den Bereich des kreativen Schreibens anwenden, wobei die Forscher als Datenbeispiele Geschichten eines angesehenen französischen Autors verwendeten. Sie deuten darauf hin, dass die menschlichen Vorurteile gegenüber KI letztlich schwerer wiegen als jede quantitative Verbesserung der Sprachkonstruktion, die Large Language Models (LLMs) im Laufe ihrer Entwicklung hervorbringen können – und dass das Etikett „KI“ in diesem Bereich möglicherweise zunehmend die Bedeutung von „unecht“, „Ersatz“ oder sogar „zweitklassig“ annimmt.

Viele der Gründe liegen in der kulturellen Praxis und Nutzung: Der Aufsatz weist darauf hin, dass Kreativität oft in Begriffen wie Neuheit, Wert und Typizität beschrieben wird, d. h. wie neu etwas scheint; wie viel es ist von Experten geschätzt; und wie gut es in seine Kategorie passt. Wenn eine Passage als von Menschen geschrieben, bekannte Genremerkmale werden als wertvoll belohnt; wenn sie als AI-generiert, werden dieselben Eigenschaften als unoriginell abgetan.

Tatsächlich führt die Offenlegung der Quelle zu einer Neubewertung des Werks, die von Annahmen über seine Entstehung geprägt ist. Sobald die KI-Urheberschaft offengelegt wird, instinktiv ablehnen die Möglichkeit einer individuellen Entdeckung oder Absicht hinter der Ausgabe.

In dem Papier heißt es*:

„In den meisten Künsten gibt es keinen Goldstandard für ‚kreativ genug‘, sodass Herkunftshinweise zu wirkungsvollen Kriterien werden, die dazu beitragen können, das Kriterium zu verschieben, das am wichtigsten erscheint: diszipliniertes Handwerk oder auffällige Neuheit, Zugänglichkeit oder Schwierigkeit.“

„Da Beobachter oft vom Produkt auf den Herstellungsprozess schließen, beeinflusst die Herkunft die Beurteilung, wie etwas hergestellt wurde und was es ist: Konservative Schritte können als menschliches Handwerk gewertet, aber als ‚bloße Herstellung‘ anhand eines Modells abgetan werden.“

Dreizehn Modelle, darunter Varianten von ChatGPT, Claude, Gemini und Mistral, nahmen neben menschlichen Lesern teil. Alle bewerteten die Geschichten positiver, wenn ihnen gesagt wurde, dass sie von Menschen gemacht seien, wobei LLMs mehr Voreingenommenheit zeigten als Menschen.

Die Vorstellung, dass KI-Modelle möglicherweise ein Vorurteil gegenüber ihren eigenen Ergebnissen entwickelt haben, wirft die Frage auf, woher dieses Vorurteil stammt. Da KI-Texte nicht immer leicht zu identifizieren sind, stammen negative Assoziationen, die während des Trainings entstehen, wahrscheinlich von Beispielen, die explizit gekennzeichnet sind, sei es durch Berichterstattung von KI-Inhalten oder selbst erklärt KI-generierte Artikel in Mainstream-Publikationen.

Die neues Papier ist betitelt Jeder bevorzugt menschliche Autoren, auch KI, und stammt von zwei Autoren des Princeton Center for Digital Humanities. Die Arbeit wird von einer zugehörigen Datenveröffentlichung begleitet unter Zenodo (mit einer im Dokument zitierten GitHub-Version, aber die Repo zum Zeitpunkt des Schreibens nicht aktiv).

Methodik

Um zu untersuchen, wie die Attribution die Wahrnehmung von Stil und Kreativität beeinflusst und prägt, verwendeten die Autoren Stilübungen, ein exzentrisches Werk von Raymond Queneau aus dem Jahr 1947, das eine einfache Anekdote in 99 verschiedenen Stilen umschreibt. Die Geschichte handelt von einem Mann, der in einen Bus steigt, mit einem anderen Passagier streitet und später von einem Freund Modetipps erhält.

Obwohl diese Struktur literarischen Ursprungs ist, nimmt sie promptbasierte Transformationen in modernen Sprachmodellen vorweg, bei denen Benutzer Umschreibungen in bestimmten Tönen, Stimmen oder Registern anfordern. Dieser Prozess war einst synchronisiert Transstilisierung – ein Ansatz, der nun auch in der KI-Forschung im Kontext von StilübertragungWährend die meisten rechnergestützten Methoden auf funktionale Änderungen wie Stimmungsverschiebungen oder Entgiftung abzielen, zielen Queneaus Umschreibungen auf einen bemerkenswerten stilistischen Kontrast ab.

Aus einer populären englischen Übersetzung von Queneaus Werk wurden dreißig Übungen ausgewählt, die die Erzählung bewahrten und gleichzeitig ein breites stilistisches Spektrum abdeckten. Dazu gehörten eingeschränkte Formen wie Alexandriner und Lipogramme, Registeränderungen wie edel or beleidigend, narrative Verschiebungen wie retrograde und Zögernund spielerische Verzerrungen mit Spoonerismen, Onomatopoesie oder Hundelatein:

Beispiele aus der Studie zeigen, wie GPT-4 Queneaus Geschichten in verschiedenen literarischen Stilen umgeschrieben hat, gepaart mit den Stilbeschreibungen, die menschliche und KI-Prüfer während des Tests sahen. Quelle: https://arxiv.org/pdf/2510.08831

Beispiele aus der Studie zeigen, wie GPT-4 Queneaus Geschichten in verschiedenen literarischen Stilen umgeschrieben hat, gepaart mit den Stilbeschreibungen, die menschliche und KI-Prüfer während des Tests gesehen haben. Quelle: https://arxiv.org/pdf/2510.08831

Da Queneaus Experimente schwer zu klassifizieren sind, handelt es sich bei diesen Kategorien nur um ungefähre Gruppierungen. Dabei geht es nicht darum, die Wiedererkennbarkeit oder Genrekonformität zu testen, sondern vielmehr darum, vielfältige Bedingungen zu schaffen, unter denen (menschliche) Leser und Modelle ihre Voreingenommenheit offenbaren könnten.

Um KI-basierte Gegenstücke für jeden ausgewählten Stil zu erstellen, verwendeten die Forscher bewusst minimale Eingabeaufforderungen. Jedem Modell wurde die einfachste Version von Queneaus Anekdote (der Eröffnungsübung) gegeben. Bewertung), zusammen mit einer kurzen Anweisung, es in einem bestimmten Stil umzuschreiben, wie zum Beispiel Schreiben Sie die Geschichte als Science-Fiction-Version neuDieser Ansatz ermöglichte Eingabeaufforderungen, die den Geist von Queneaus ursprünglichen Transformationen widerspiegelten, während das Modell den Stil dennoch frei interpretieren konnte.

Double Vision

In der ersten Studie der Autoren wurden alle dreißig Stilvarianten mit GPT-4o generiert, da es sich damals um das fortschrittlichste verfügbare Modell handelte. Die Verwendung eines einzigen Modells gewährleistete konsistente Ergebnisse und half, den Effekt von Attributionsbezeichnungen zu isolieren, den die Studie testen sollte.

Die Ausgaben wurden weder hinsichtlich Stil noch Ton bearbeitet, abgesehen von Framing-Ballast wie Hier ist die umgeschriebene Version.

In der zweiten Studie wurde der Generierungsprozess für dreizehn große Sprachmodelle wiederholt: Qwen 2.5 72B Instruct, Mistral Nemo, Mistral Medium 3, Lama 4 Maverick, Lama 3.3 70B Anweisung, Gemini 2.5 Flash, GPT-4o Mini, GPT-4o, GPT-3.5 Turbo-Anweisung, DeepSeek RI (0528), DeepSeek Chat v3 (0324), Kohärenz Befehl R (08-2024) Claude Sonnet 4 und Claude 3.5 Haiku.

Jedes Modell erhielt die gleichen Anweisungen und erstellte seine eigenen Versionen der dreißig Übungen, was insgesamt 420 umgeschriebene Geschichten ergab. So konnten die Forscher testen, ob Attributionseffekte bei verschiedenen KI-Autoren bestehen und nicht nur an ein einzelnes Modell gebunden sind.

Daten und Tests

Die Forscher zeigten verschiedenen Personengruppen dieselben Geschichtenpaare, änderten jedoch die Beschriftungen, um zu sehen, wie stark der Name des Autors die Meinungen beeinflusste: Eine Gruppe sah überhaupt keine Autorennamen, nur die Beschriftungen „A“ und „B“. Die zweite Gruppe sah die korrekten Namen, wobei eine Version als von einem Menschen geschrieben gekennzeichnet war, die andere als von GPT-4o geschrieben.

Eine dritte Gruppe sah die Namen schaltet, wobei die „KI“-Geschichte als „menschlich“ und die „menschliche“ Version als „KI“ gekennzeichnet ist:

Überblick über Studie 1. Menschliche und KI-Experten verglichen 30 Geschichtenpaare, die jeweils eine von Queneau und eine von GPT-4 verfasste Version enthielten. Die Experten wurden in drei Gruppen aufgeteilt: Eine Gruppe sah keine Autorenbezeichnungen, eine die korrekten Bezeichnungen und eine Gruppe die vertauschten Bezeichnungen – ein Aufbau, der testen soll, inwieweit Autorennamen die Meinung zum Schreibstil beeinflussen.

Überblick über Studie 1. Menschliche und KI-Experten verglichen 30 Geschichtenpaare, die jeweils eine von Queneau und eine von GPT-4 verfasste Version enthielten. Die Experten wurden in drei Gruppen aufgeteilt: Eine Gruppe sah keine Autorenbezeichnungen, eine die korrekten Bezeichnungen und eine Gruppe die vertauschten Bezeichnungen – ein Aufbau, der testen soll, inwieweit Autorennamen die Meinung zum Schreibstil beeinflussen.

Studiere 1

Die Forscher teilten die 30 erstellten Stile in kleinere Gruppen auf, wobei jeder Studienteilnehmer nur fünf Stile sah und jeder Stil unter allen drei Kennzeichnungskonfigurationen getestet wurde.

Jeder Teilnehmer sah nur eine Beschriftung: Die Blindgruppe sah keine Erwähnung von KI, während die anderen Gruppen entweder korrekte oder umgekehrte Autorenbeschriftungen sahen. Gruppenzuweisung, Reihenfolge der Geschichten und Links-Rechts-Platzierung wurden alle randomisiert.

Die KI-Modelle durchliefen denselben Prozess und erhielten denselben Stilmix sowie dieselbe zufällige Mischung. Jeder Test wurde dreimal pro Modell ausgeführt, um die Konsistenz der Ergebnisse sicherzustellen. So konnten die Reaktionen von Mensch und KI auf die Autorenbezeichnungen verglichen werden.

In Studie 2 wurden dieselben drei Labeling-Setups wie zuvor verwendet, der Test wurde jedoch auf alle 420 Geschichten erweitert, die aus den oben genannten 14 verschiedenen LLM-Modellen generiert wurden. Jedes Modell bewertete jede Geschichte unter jeder Labeling-Bedingung. Dabei wurden 1,260 Entscheidungen pro Modell getroffen, was zu 17,596 gültigen Bewertungen führte:

Ergebnisse aus Studie 1. Sowohl KI- als auch menschliche Bewerter zeigten eine Voreingenommenheit aufgrund der Autorenbezeichnungen. Wurden keine Bezeichnungen angezeigt (blind), waren die Präferenzen nahezu gleich; wurden korrekte Bezeichnungen angezeigt (offen), bevorzugten beide Gruppen den von Menschen verfassten Text; und wurden die Bezeichnungen umgekehrt (kontrafaktisch), bevorzugten beide Gruppen den Text, den sie für menschlich hielten – und dieser Effekt war bei KI-Modellen deutlich stärker als bei Menschen. Fehlerbalken zeigen 95%-Konfidenzintervalle.

Ergebnisse aus Studie 1. Sowohl KI- als auch menschliche Bewerter zeigten eine Voreingenommenheit aufgrund der Autorenbezeichnungen. Wurden keine Bezeichnungen angezeigt (blind), waren die Präferenzen nahezu gleich; wurden korrekte Bezeichnungen angezeigt (offen), bevorzugten beide Gruppen den von Menschen verfassten Text; und wurden die Bezeichnungen umgekehrt (kontrafaktisch), bevorzugten beide Gruppen den Text, den sie für menschlich hielten – und dieser Effekt war bei KI-Modellen deutlich stärker als bei Menschen. Fehlerbalken zeigen 95%-Konfidenzintervalle.

In allen dreizehn Modellen entsprach das Muster der menschlichen Voreingenommenheit, war jedoch weitaus stärker ausgeprägt: Ohne Beschriftungen bewerteten KI-Systeme menschliche und KI-Geschichten etwa gleich und wählten in 49.4 % der Fälle KI-Texte. War die KI-Beschriftung sichtbar, sank diese Präferenz drastisch auf 29.8 %, was eine klare Abwertung anerkannter KI-Arbeit zeigt. Wurde derselbe Text als menschlich gekennzeichnet, stieg die Präferenz auf 64.1 %.

Der Unterschied zwischen den beiden Etikettenbedingungen betrug 34.3 %, was bedeutet, dass die KI-Modelle ihre Präferenz geändert haben viel mehr als Menschen, wenn die Bezeichnungen vertauscht wurden. Darüber hinaus waren die Modelle über wiederholte Durchläufe hinweg sehr konsistent, was bestätigt, dass die Verzerrung stabil und nicht zufällig war.

Um zu überprüfen, ob die Verzerrung eher durch die Formulierung der Bezeichnungen als durch den Verfasser des Textes verursacht wurde, führten die Forscher zwei weitere Tests durch: Einer verwendete Bezeichnungen, die die KI eindrucksvoller klingen ließen, und der andere verwendete neutrale Begriffe wie „von KI verfasst“ und „von Menschen verfasst“.

Beide zeigten immer noch dieselbe Tendenz, und selbst wenn die KI-Modelle jedes Mal dieselbe Antwort produzierten, blieb die Tendenz bestehen. Dies deutet darauf hin, dass die Tendenz eher durch die Art der Bezeichnung („Mensch“ oder „KI“) als durch die genauen verwendeten Wörter verursacht wird.

Studiere 2

Die zweite Studie ergab bei allen 13 KI-Modellen dieselbe pro-menschliche Tendenz, unabhängig von Architektur oder Anbieter:

Attributionsbias für jedes der 13 KI-Modelle: Die Balken zeigen die Effektstärken mit 95%-Konfidenzintervallen, die rote Linie markiert den menschlichen Basiswert. Alle Modelle zeigten einen stärkeren Bias als Menschen, wobei es nur geringe Unterschiede zwischen ihnen gab.

Attributionsbias für jedes der 13 KI-Modelle: Die Balken zeigen die Effektstärken mit 95%-Konfidenzintervallen, die rote Linie markiert den menschlichen Basiswert. Alle Modelle zeigten einen stärkeren Bias als Menschen, wobei es nur geringe Unterschiede zwischen ihnen gab.

Jedes Modell bevorzugte Geschichten, die als von Menschen geschrieben gekennzeichnet waren, mit stärkere Auswirkungen als bei Menschen. Selbst nach dem Entfernen des extremsten Falls blieb die durchschnittliche Verzerrung mehr als doppelt so groß wie in der menschlichen Version, was darauf hindeutet, dass der Effekt kein Fehler in einem Modell ist, sondern ein gemeinsames Merkmal von LLMs im Allgemeinen.

Fazit

Obwohl, wie in dem Artikel angemerkt wird, frühere Studien gezeigt haben, dass KI Texte hervorbringen kann, die denen menschlicher Arbeit ebenbürtig oder sogar besser sind, betonen die Autoren, dass in der Literatur der Wert, der auf Autorschaft und Authentizität gelegt wird, eine alte und tief verwurzelte Konvention ist:

„Wenn GPT-4o Mini Queneaus „kreativen und humorvollen“ Ansatz unter dem KI-Attributionsetikett als „übertrieben“ abtut, während es unter menschlicher Attribution identische Merkmale lobt, zeigt dies implizit, wie diese Etiketten die Annahme auslösen, dass kein authentischer psychologischer Prozess stattgefunden hat.

„Provenienzhinweise schmuggeln den Prozess zurück in das, was andernfalls eine reine Produktbeurteilung sein könnte: ‚bloße Generierung‘ erscheint von einem menschlichen Handwerker akzeptabel (beurteilt als handwerkliches Können), aber von einem Modell verdächtig (beurteilt als algorithmische Rekombination).“

LLMs sind noch nicht zuverlässig genug für unbeaufsichtigte, faktenbasierte Recherche, obwohl eine sorgfältige Überwachung sie dennoch produktiv machen kann – doch dem kreativen Schreiben auf LLM-Basis könnte eine ungewissere Zukunft bevorstehen, sollten KI-generierte kreative Werke durch eine breitere öffentliche Missbilligung der Eingriffe der KI in menschliche Bereiche stigmatisiert werden, anstatt auf literarischem Wert zu basieren.

Die Auswirkungen der Ergebnisse derartiger Studien hängen maßgeblich davon ab, wie bereit Unternehmen und einzelne Nutzer sind, ehrlich zu sagen, ob KI zu ihrer Leistung beigetragen hat oder nicht. In manchen Fällen kann die mangelnde Bereitschaft, einen solchen Einsatz zuzugeben, eher mit Urheberrechtspiraterie durch Unternehmen als die Sorge darüber, ob die Öffentlichkeit KI-generierte kreative Werke akzeptieren wird.

Allerdings sind rechtliche, finanzielle und politische Lösungen in Bezug auf das Urheberrecht möglich (wenn auch sehr anspruchsvoll). Ob es jemals gelingen wird, Menschen Freude an kreativer KI-Arbeit zu bereiten, die nicht von einem einzelnen, nachvollziehbaren menschlichen Geist gesteuert wird, dürfte eine noch schwierigere Aufgabe sein.

 

* Informationen zu entfernten Inline-Zitaten finden Sie im Quelldokument. Diese werden bei Bedarf in den Artikel aufgenommen.

Erstveröffentlichung Montag, 13. Oktober 2025

Autor zum Thema maschinelles Lernen, Fachspezialist für die Synthese menschlicher Bilder. Ehemaliger Leiter für Forschungsinhalte bei Metaphysic.ai.
Persönliche Seite: martinanderson.ai
Kontakt: [E-Mail geschützt]
Twitter: @manders_ai