Connect with us

AI-modeller föredrar mänskligt skrivande framför AI-genererat skrivande

Andersons vinkel

AI-modeller föredrar mänskligt skrivande framför AI-genererat skrivande

mm
William Shakespeare arm-wrestling a robot. The style should not be illustration-type, nor cartoonish, but instead, photorealistic, in the style of a publicity photo for Real Steel' + variations. GPT-4o, Flux Kontext, Firefly.

Enligt ny forskning visar ChatGPT och liknande modeller nu en tydlig bias mot text som de tror är skriven av människor, även när den tron är fel. Bara genom att kalla texten “mänsklig” gör AI-modellerna att föredra den – och ironiskt nog kan de lära sig denna fördom av oss.

 

Föreställningar om autenticitet, proveniens och delad mänsklig erfarenhet kan ha en större roll att spela i AI:s angrepp på den kreativa skrivsektorn än vad som tidigare har varit tydligt: tester som utförts för en ny studie vid Princeton har visat att en mängd stora, slutna och öppna språkmodeller, inklusive ChatGPT, föredrar vad de tror är “mänskligt genererad” text.

Även när etiketterna på skrivexemplaren var omvända, fortsatte både AI-modellerna och de mänskliga deltagarna att hitta fel i den AI-skrivna texten, och upprepade samma kritik som de hade gjort när den var korrekt märkt.

Forskarna tror att en del av orsaken kan vara att den växande mänskliga fientligheten mot generativ AI, som verkar manifestera nya och intressanta händelser varje dag, kan återkopplas till AI-systemen själva. De påpekar att AI-modellerna ogillar AI-skrivning ännu mer än människor, och skriver*:

‘De 13 AI-modellerna vi testade visade en bias på 34,3 procentenheter jämfört med människors 13,7 procentenheter, vilket gör dem 2,5 gånger mer mottagliga för attribueringssignaler än våra mänskliga utvärderare.

‘Denna förstärkning är logisk när vi erkänner att samtida modeller är preferens-tränade utvärderare. Aligneringsträning genom förstärkt inlärning från mänsklig feedback (RLHF) lär modellerna att behandla mänskliga bedömningar som deras guldstandard, vilket i princip installerar en inlärningsrelaterad [prioritet].

‘Modellerna lär sig att följa mänskliga preferenser får belöning, vilket skapar en slags underdånighet där de upprepar förväntade användarattityder snarare än att ge en oberoende bedömning.’

Resultaten gäller den kreativa skrivdomänen, där forskarna använde berättelser från en framstående fransk författare som dataexempel, och de visar att den mänskliga fördomen mot AI kan, i balans, väga tyngre än någon kvantitativ förbättring av språkkonstruktion som stora språkmodeller (LLM) kan producera när de utvecklas – och att “AI”-etiketten kanske kommer att betyda “oäkta”, “ersättning” och till och med “andra klass”, i denna domän.

Många av orsakerna har att göra med kulturell praxis och användning: artikeln anger att kreativitet ofta beskrivs i termer av nyhet, värde och typiskhet, dvs. hur ny något verkar; hur mycket det uppskattas av experter; och hur väl det passar in i sin kategori. När en passage är märkt som mänsklig, belönas bekanta genretypiska drag som värdefulla; när den är märkt som AI-genererad, avvisas samma drag som ooriginal.

I verkligheten utlöser avslöjandet av källan en omvärdering av verkets förtjänst, formad av antaganden om hur det skapades. När AI-författarskap avslöjas, avvisar läsarna instinktivt möjligheten till individuell upptäckt eller avsikt bakom utdata.

Artikeln påpekar*:

‘I de flesta konstformer finns det ingen guldstandard för “tillräckligt kreativ”, vilket gör att provenienssignalerna blir kraftfulla primers som kan skifta vilken kriterium som känns mest relevant: disciplinerad hantverk eller påfallande nyhet, tillgänglighet eller svårighet.

‘Eftersom observatörer ofta härleder processen från produkten, påverkar proveniens bedömningar om hur något skapades, liksom vad det är: konservativa drag kan tillskrivas som hantverk från en människa, men avvisas som “blott generation” från en modell’.

Tretton modeller, inklusive varianter av ChatGPT, Claude, Gemini och Mistral, deltog tillsammans med mänskliga läsare, och alla bedömde berättelserna mer fördelaktigt när de informerades om att de var skrivna av människor, med LLM som visade mer bias än människor.

Idén att AI-modeller kan ha absorberat en fördom mot sin egen utdata väcker frågor om var den fördomen kommer ifrån. Eftersom AI-skrivning inte alltid är lätt att identifiera, kommer eventuella negativa associationer som bildas under utbildning troligen från exempel som är uttryckligen märkta, antingen genom nyhetsbevakning av AI-innehåll eller självdeklarerad AI-genererad artikel i etablerad media.

Den nya artikeln heter Alla föredrar mänskliga författare, inklusive AI, och kommer från två författare vid Princetons Center for Digital Humanities. Arbetet åtföljs av en relaterad datarelease på Zenodo (med en GitHub-release som citeras i artikeln, men repo var inte aktiv vid tidpunkten för skrivande).

Metod

För att undersöka hur attribuering påverkar och formar uppfattningar om stil och kreativitet, använde författarna Exercices de style, ett excentriskt verk från 1947 av Raymond Queneau som omskriver en enkel anekdot i 99 olika stilar. Berättelsen följer en man som kliver på en buss, bråkar med en annan passagerare och senare får moderåd från en vän.

Även om det är litterärt till sin natur, förutsåg denna struktur prompt-baserade transformationer i moderna språkmodeller, där användare begär omskrivningar i specifika toner, röster eller register. Denna process kallades tidigare transstylisering – en ram som nu återfinns i AI-forskning i sammanhanget Style Transfer. Medan de flesta beräkningsmetoderna riktar sig mot funktionella förändringar som sentimentförändringar eller detoxifiering, syftar Queneaus omskrivningar till påfallande stilistiska kontraster.

Från en populär engelsk översättning av Queneaus verk valdes trettio övningar ut som bevarade berättelsen medan de täckte ett brett stilistiskt område. Dessa inkluderade begränsade former som alexandriner och lipogram, registerförändringar som ädla eller förnedrande, berättelseförändringar som retrograd och tveksamhet, och lekfulla förvrängningar som involverar spoonerismer, onomatopoei eller dog Latin:

Exempel från studien som visar hur GPT-4 omskrev Queneaus berättelser i olika litterära stilar, parat med stilbeskrivningarna som mänskliga och AI-utvärderare såg under testningen. Källa: https://arxiv.org/pdf/2510.08831

Exempel från studien som visar hur GPT-4 omskrev Queneaus berättelser i olika litterära stilar, parat med stilbeskrivningarna som mänskliga och AI-utvärderare såg under testningen. Källa: https://arxiv.org/pdf/2510.08831

Eftersom Queneaus experiment är svåra att klassificera, är dessa kategorier endast ungefärliga grupperingar, med avsikten att inte testa igenkännlighet eller genreöverensstämmelse, utan snarare att skapa olika förhållanden under vilka (mänskliga) läsare och modeller kan avslöja sina fördomar.

För att producera AI-författade motstycken för varje vald stil, använde forskarna medvetet minimala promptrar. Varje modell fick den enklaste versionen av Queneaus anekdot (den första övningen, Notation), tillsammans med en kort instruktion att omskriva den i en specifik stil, som Omskriv berättelsen som en science fiction-version. Detta tillvägagångssätt möjliggjorde promptrar som reflekterade andan i Queneaus ursprungliga transformationer, samtidigt som modellen kunde tolka stilen fritt.

Dubbel syn

Den första studien som utfördes av författarna använde GPT-4o för att generera alla trettio stilvarianter, eftersom det var den mest avancerade modellen tillgänglig vid den tiden. Användning av en enda modell säkerställde konsekventa utdata, vilket hjälpte till att isolera effekten av attribueringsetiketter, som studien syftade till att testa.

Utdata redigerades inte för stil eller ton, förutom ramkrut som Här är den omskrivna versionen.

I den andra studien upprepades generationsprocessen över tretton stora språkmodeller: Qwen 2.5 72B Instruct, Mistral Nemo, Mistral Medium 3, Llama 4 Maverick, Llama 3.3 70B Instruct, Gemini 2.5 Flash, GPT-4o Mini, GPT-4o, GPT-3.5 Turbo Instruct, DeepSeek RI (0528), DeepSeek Chat v3 (0324), Cohere Command R (08-2024), Claude Sonnet 4, och Claude 3.5 Haiku.

Varje modell fick samma instruktioner och producerade sina egna versioner av de trettio övningarna, vilket resulterade i 420 omskrivna berättelser totalt. Detta möjliggjorde för forskarna att testa om attribueringseffekterna hölls över olika AI-författare, snarare än att vara knutna till en enda modell.

Data och tester

Forskarna visade samma par av berättelser för olika grupper av människor, men ändrade etiketterna för att se hur mycket namnet på författaren påverkade åsikterna: en grupp såg inga författarnamn alls, bara etiketter “A” och “B”. Den andra gruppen såg de korrekta namnen, med en version märkt som skriven av en människa och den andra märkt som skriven av GPT-4o.

En tredje grupp såg namnen bytta, med “AI”-berättelsen märkt som “mänsklig” och den “mänskliga” versionen märkt som “AI”:

Översikt av Studie 1. Mänskliga och AI-domare jämförde 30 par berättelser, var och en innehållande en version skriven av Queneau och en av GPT-4. Domarna delades in i tre grupper: en såg inga författarnamn; en såg de korrekta namnen; och en såg namnen bytta – en inställning designad för att testa hur mycket författarnamn påverkar åsikter om skrivstil.

Översikt av Studie 1. Mänskliga och AI-domare jämförde 30 par berättelser, var och en innehållande en version skriven av Queneau och en av GPT-4. Domarna delades in i tre grupper: en såg inga författarnamn; en såg de korrekta namnen; och en såg namnen bytta – en inställning designad för att testa hur mycket författarnamn påverkar åsikter om skrivstil.

Studie 1

Forskarna delade de 30 skapade stilarna i mindre uppsättningar, med varje studiedeltagare som såg bara fem stilar, och varje stil testades under alla tre etikettinställningar.

Varje deltagare såg bara en etikettinställning: den blinda gruppen såg inga AI-hänvisningar, medan de andra grupperna såg antingen korrekta eller omvända författarnamn. Grupp tilldelning, berättelseordning och vänster-höger placering var alla slumpmässiga.

AI-modellerna gick igenom samma process, och fick samma blandning av stilar och samma slumpmässiga omrörning. Varje test kördes tre gånger per modell för att säkerställa att resultaten var konsekventa, vilket möjliggjorde en jämförelse mellan mänskliga och AI-reaktioner på författarnamnen.

Studie 2 använde samma tre etikettinställningar som tidigare, men utvidgade testet till att omfatta alla 420 berättelser genererade från de 14 olika LLM-modellerna. Varje modell bedömde varje berättelse under varje etikettinställning, vilket producerade 1 260 beslut per modell, och resulterade i 17 596 giltiga utvärderingar:

Resultat från Studie 1. AI- och mänskliga domare visade båda bias baserat på författarnamn. När inga etiketter visades (Blind), var preferenser nästan jämna; när korrekta etiketter visades (Öppen etikett), föredrog båda grupperna den mänskligt skrivna texten; och när etiketterna var omvända (Kontrafaktisk), föredrog båda grupperna texten de trodde var mänsklig – och denna effekt var mycket starkare i AI-modeller än i människor. Felstaplar visar 95% konfidensintervall.

Resultat från Studie 1. AI- och mänskliga domare visade båda bias baserat på författarnamn. När inga etiketter visades (Blind), var preferenser nästan jämna; när korrekta etiketter visades (Öppen etikett), föredrog båda grupperna den mänskligt skrivna texten; och när etiketterna var omvända (Kontrafaktisk), föredrog båda grupperna texten de trodde var mänsklig – och denna effekt var mycket starkare i AI-modeller än i människor. Felstaplar visar 95% konfidensintervall.

Över alla tretton modeller matchade mönstret den mänskliga fördomen, men var mycket starkare: när inga etiketter fanns, bedömde AI-systemen mänskliga och AI-berättelser ungefär lika, och valde AI-texten 49,4% av tiden; när AI-etiketten var synlig, sjönk preferensen skarpt till 29,8%, vilket visade en tydlig avvärdering av erkänd AI-arbete; och när samma text var märkt som mänsklig, steg preferensen till 64,1%.

Skillnaden mellan de två etikettinställningarna var 34,3%, vilket innebär att AI-modellerna ändrade sin preferens mycket mer än människor när etiketterna byttes. Dessutom var modellerna mycket konsekventa över upprepade körningar, vilket bekräftar att fördomen var stabil snarare än slumpmässig.

För att kontrollera om fördomen orsakades av etikettens formulering snarare än av vem som skrev texten, körde forskarna två ytterligare tester: ett använde etiketter som gjorde AI-ljud mer imponerande; och det andra använde neutrala termer som “AI-skriven” och “Mänsklig-skriven”.

Båda visade samma fördom, och även när AI-modellerna producerade samma svar varje gång, bestod fördomen, vilket indikerar att fördomen orsakas av etiketttypen (“mänsklig” eller “AI”), snarare än av de exakta orden som används.

Studie 2

Den andra studien fann samma pro-mänsklig fördom över alla 13 AI-modeller, oavsett arkitektur eller leverantör:

Attribuering fördom för var och en av de 13 AI-modellerna: staplar visar effektstorlekar med 95% konfidensintervall, och den röda linjen markerar den mänskliga baslinjen. Alla modeller visade starkare fördom än människor, med bara små skillnader mellan dem.

Attribuering fördom för var och en av de 13 AI-modellerna: staplar visar effektstorlekar med 95% konfidensintervall, och den röda linjen markerar den mänskliga baslinjen. Alla modeller visade starkare fördom än människor, med bara små skillnader mellan dem.

Varje modell föredrog berättelser som var märkta som “mänskligt skrivna”, med starkare effekter än de som sågs hos människor. Även efter att ha tagit bort det mest extrema fallet, förblev den genomsnittliga fördomen mer än dubbelt så stor som den mänskliga versionen, vilket tyder på att effekten inte är en bugg i en modell, utan en gemensam egenskap hos LLM-modeller i allmänhet.

Slutsats

Även om tidigare studier har visat att AI kan producera skrivning som är lika bra eller till och med bättre än mänskligt arbete, betonar författarna att i litteraturen är värdet som läggs på författarskap och autenticitet en gammal och djupt rotad konvention:

‘När GPT-4o Mini avvisar Queneaus “kreativa och humoristiska” tillvägagångssätt som “överdrivet” under AI-attributet, medan den berömmer identiska funktioner under mänsklig attribuering, avslöjar den implicit hur dessa etiketter utlöser antaganden om att ingen äkta psykologisk process inträffade.

‘Provenienssignalerna smugglar tillbaka processen i vad som annars kunde vara en produktbaserad bedömning: “blott generation” känns acceptabelt från en mänsklig hantverkare (bedömd som skickligt hantverk), men misstänkt från en modell (bedömd som algoritmisk omkombination).’

LLM-modeller är inte ännu tillförlitliga för oövervakad faktabaserad forskning, men noggrann tillsyn kan fortfarande göra dem produktiva – men LLM-baserad kreativ skrivning kan möta en mer osäker framtid, om AI-genererade kreativa verk blir stigmatiserade genom en mer omfattande allmän ogillande av AI:s intrång på mänskliga domäner, snarare än baserat på litterär förtjänst.

Implikationerna av resultaten från studier av detta slag påverkas avsevärt av företags och enskilda användares benägenhet att vara ärliga om huruvida AI bidragit till deras utdata. I vissa fall kan en ovilja att medge sådan användning ha mer att göra med korporativ upphovsrättspiratverksamhet än oro över om allmänheten kommer att acceptera AI-genererade kreativa verk.

Men juridiska, finansiella och politiska lösningar är möjliga (även om de är mycket utmanande) när det gäller upphovsrätt. Om man kan göra människor att njuta av kreativt AI-arbete som inte har en enskild och relaterbar mänsklig hjärna som driver det – det kan vara en ännu tuffare utmaning.

 

* Vänligen se källartikeln för utelämnade inline-citat. Om nödvändigt kommer dessa att inkluderas i artikeln.

Publicerad första gången måndagen den 13 oktober 2025

Författare på maskinlärande, domänspecialist inom mänsklig bildsyntes. Före detta chef för forskningsinnehåll på Metaphysic.ai.