Andersons vinkel

Även grundlĂ€ggande AI kan nu skriva nyheter som kan förvĂ€xlas med mĂ€nsklig journalistik

mm
AI-generated illustration: a stylized orthographic illustration depicting a woman seated at her home office desk reading a laptop, and a cut-away diagram depicting 'Schrodinger's news source' - a box with a robot writing an article, partitioned from a human writing an article. Each has a stylized journalist appearance. The idea being conveyed is that until you actually know who wrote the piece the woman is reading, it could have been a human or a robot. GPT-1.5

Nya studier visar att även små lokala AI-modeller nu kan skriva nyheter som människor inte kan skilja från riktig journalistik, vilket matchar toppsystem och lämnar läsarna oförmögna att avgöra vem som skrev vad.

 

Enligt en ny forskningssamarbete mellan Tyskland och Frankrike kan människor inte avgöra om en nyhetsartikel är skriven av AI eller en människa – även när den är skriven av öppen källkod-modeller som kan laddas ner och köras på relativt genomsnittliga konsumentdatorer.

I ett annat tecken på att små AI-modeller är på uppgång, visade en undersökning av 2 318 bedömningar som samlades in från 1 054 deltagare i en dedikerad akademisk studieportal att mänskliga läsare inte kunde identifiera ursprunget för en artikel på en högre nivå än slumpen, även när den genererades av relativt blygsamma modeller med så få som sju miljarder parametrar, inklusive Mistral och Llama-varianter:

MedelvÀrde för ursprung och ÀkthetspoÀng för testade LLM-modeller. GPT-4o:s 200 miljarder parametrar övertrÀffar inte massivt de 7 miljarder parametrar som finns i mindre modeller. De modeller som testades i studien var Gemma 7B, Phi-3 Mini, LLaMA-2 13B, Mistral 7B, GPT-4o och GPT-3.5.

Medelvärde för ursprung och äkthetspoäng för testade LLM-modeller. GPT-4o:s 200 miljarder parametrar överträffar inte massivt de 7 miljarder parametrar som finns i mindre modeller. De modeller som testades i studien var Gemma 7B, Phi-3 Mini, LLaMA-2 13B, Mistral 7B, GPT-4o och GPT-3.5. Källa

Författarna återvänder till ett ämne som de först undersökte i 2024 års utgåva Blessing or curse? A survey on the Impact of Generative AI on Fake News. Resultaten i sig är nyligen publicerade från ett större projekt som initialt tillkännagavs i januari och använder författarnas egen JudgeGPT-ramverk för online-deltagande.

Lättviktens kraft

Med titeln Can Humans Tell? A Dual-Axis Study of Human Perception of LLM-Generated News och kommande från tre forskare vid Frankfurt University of Applied Sciences och IRISA-forskningsenheten i Nantes, gör studiens metodik en viktig distinktion mellan “falska nyheter” och “AI-skrivna nyheter” (eftersom falska nyheter kan skrivas av människor eller av AI, och de två aspekterna är inte nödvändigtvis synonyma).

Men kanske det mest intressanta är att artikeln drar slutsatsen att små modeller, inklusive Mistral 7B och Gemma 7B, kan med endast sju miljarder parametrar stå emot jättar som en ChatGPT-modell (4o) med 200 miljarder parametrar:

‘Öppna modeller med så få som 7 miljarder parametrar producerar text som bedöms lika bra som GPT-4o-utdata, vilket tyder på att förmågan att generera mänskligt oföränderlig text inte längre är begränsad till frontmodeller.’

Men “AI-genererade nyheter” kan representera många olika typer av mänsklig/AI-samarbete, från stavkontroll till fullständig, karriäravgörande ansträngning, och studien förtydligar inte exakt vilken typ av AI-innehåll som producerades för testerna (även om den beskriver metodiken för att producera det – se nedan).

Metod

För deltagarna som engagerade sig i JudgeGPT-plattformen bedömdes varje nyhetsfragment med hjälp av en dualaxlig ram där de tillhandahöll tre oberoende betyg på kontinuerliga 0-100-skala:

JudgeGPT-portalen GUI, dÀr bedömare bedömer material utifrÄn kÀllattribuering; Àkthet; och Àmneskunskap.

JudgeGPT-portalen GUI, där bedömare bedömer material utifrån källattribuering; äkthet; och ämneskunskap. Se källpapperet för bättre upplösning.

Källbedömning fångade om en passage tycktes maskinskriven eller mänsklig; äkthetsbedömning, om den uppfattades som falsk eller legitim; och ämneskunskap, hur väl läsaren kände till ämnet.

Kontinuerliga skalor användes istället för en Likert-skala för att fånga graden av säkerhet mer exakt och för att stödja statistisk analys, inklusive Pearsons korrelation och klusteranalys.

Maskingenererad text skapades av författarnas eget RogueGPT-ramverk, som är den underliggande arkitekturen för JudgeGPT. RogueGPT samordnar bidrag från sex stora språkmodeller (LLM): ChatGPT-4; ChatGPT-3.5; ChatGPT-4o; LLaMA-2 13B; Gemma 7B; och Mistral 7B.

Personbaserad prompting användes för att generera texterna, och AI-genereringarna baserades på verkliga nyhetsämnen och granskades av människor.

Omvänt var mänsklig skrivna fragment sampade från “etablerade nyhetskällor” och oangivna “informationsdatabaser”.

Författarna observerar:

‘Stimulusuppsättningen är medvetet snedvriden mot maskinursprung (98%), med mänskliga ursprung som kalibreringsankare.

‘Detta designval speglar studiens fokus på variation inom AI (mellan modeller) snarare än mänsklig-AI-jämförelse; deltagarna informeras inte om basfrekvensen, och de nästan slumpmässiga resultaten (resultat) gäller när de analyseras på den mänskliga ursprungsundermängden ensam.’

Deltagarna gav först informerat samtycke och slutförde en demografisk enkät som täckte ålder, utbildning, politisk inriktning och bekantskap med AI, varefter de utvärderade sekvensen av nyhetsfragment.

Varje person granskade mellan 5-87 objekt, med en median på 12, medan presentationsordningen slumpades och modelltilldelningen balanserades mellan deltagare för att minska bias. Plattformen registrerade de tre skjutreglagebedömningarna tillsammans med svarstid och en anonym identifierare, vilket möjliggjorde att individuella bedömningar kunde länkas till bakgrunds faktorer.

Författarna tar sig tid att påpeka att urvalet lutade mot utbildade europeiska deltagare, med 68% med universitetsutbildning och 74% baserade i Europa – en bias som papperet noterar som en begränsning för vidare generalisering.

Tester

Testerna är indelade i fem typer av resultat: att skilja maskingenererad text från mänsklig skriven text; att jämföra upptäckt mellan olika LLM-modeller; att undersöka effekten av domänexpertis kontra politisk inriktning på noggrannhet; att identifiera distinkta svarsstrategier bland deltagare; och att spåra hur noggrannheten förändras över upprepade utvärderingar på grund av utmattning:

Sammanfattning av de fem kÀrnresultaten frÄn 2 318 bedömningar över 1 054 deltagare, som visar att mÀnsklig upptÀckt av AI-skriven text förblev pÄ slumpnivÄ över alla modeller, att noggrannhet var kopplad till domÀnexpertis snarare Àn politisk inriktning, att deltagare klusterade i distinkta förtroendeprofiler och att prestationen minskade efter cirka 30 utvÀrderingar pÄ grund av kognitiv utmattning.

Sammanfattning av de fem kärnresultaten från 2 318 bedömningar över 1 054 deltagare, som visar att mänsklig upptäckt av AI-skriven text förblev på slumpnivå över alla modeller, att noggrannhet var kopplad till domänexpertis snarare än politisk inriktning, att deltagare klusterade i distinkta förtroendeprofiler och att prestationen minskade efter cirka 30 utvärderingar på grund av kognitiv utmattning.

Testet visade ingen signifikant skillnad över slumpen i källpoäng mellan förhållanden, vilket tyder på att deltagare inte kan skilja AI-genererad text från mänsklig utdata:

Fördelning av kĂ€ll- och Ă€kthetspoĂ€ng för maskin- och mĂ€nsklig ursprung, som visar en betydande överlappning, utan meningsfull separation mellan de tvĂ„ förhĂ„llandena, och statistisk testning – som tyder pĂ„ att deltagare inte kan tillförlitligt skilja AI-genererad text frĂ„n mĂ€nsklig skriven innehĂ„ll.

Fördelning av käll- och äkthetspoäng för maskin- och mänsklig ursprung, som visar en betydande överlappning, utan meningsfull separation mellan de två förhållandena, och statistisk testning – som tyder på att deltagare inte kan tillförlitligt skilja AI-genererad text från mänsklig skriven innehåll.

För det andra aspekten, som visas i grafen i början av artikeln, var upptäcktsmisslyckandet inte olika för modell, eftersom utdata från alla LLM-modellerna klusterade runt slumpnivåbedömningar, utan signifikanta skillnader mellan dem. Även mindre öppna system som Mistral 7B och Gemma 7B bedömdes inte annorlunda än GPT-4o, vilket tyder på att mänskligt oföränderlig text kanske inte längre är begränsad till de största modellerna.

För det tredje aspekten var noggrannhet mer starkt kopplad till domänexpertis än till politisk inriktning, eftersom bekantskap med falska nyheter korrelerade med bättre bedömningar, medan politiska åsikter visade ingen meningsfull effekt, vilket tyder på att inlärda analytiska färdigheter kan vara viktigare än ideologi:

Resultat som hör till den tredje undersökningen: deltagar-nivÄkorrelationer mellan bakgrundsdrag och bedömningsnoggrannhet visade att politisk inriktning hade ingen meningsfull effekt pÄ antingen kÀllattribuering eller Àkthetsbedömning, med endast svaga, icke-signifikanta trender över bÄda mÄtten. Samtidigt var sjÀlvrapporterad bekantskap med falska nyheter konsekvent associerad med högre noggrannhet pÄ bÄda axlarna, som Äterspeglas i moderata positiva korrelationer och uppÄtgÄende regressionslut. Författarna hÀvdar att detta tyder pÄ att erfarenhetsbaserad analytisk fÀrdighet (snarare Àn ideologisk position) var den starkare prediktorn för prestation i utvÀrdering av AI-genererad och mÀnsklig skriven nyheter. Se kÀllpapperet för bÀttre upplösning.

Resultat för den tredje undersökningen visade att politisk inriktning hade ingen meningsfull effekt på källattribuering eller äkthetsbedömning, med endast svaga, icke-signifikanta trender, medan självrapporterad bekantskap med falska nyheter var associerad med högre noggrannhet på båda axlarna. Detta tyder på att erfarenhetsbaserad analytisk färdighet var en starkare prediktor för prestation än ideologisk position. Se källpapperet för bättre upplösning.

Fjärde resultatet visade att deltagare klusterade i två distinkta svarsstilar identifierade som ‘Skeptiker’ – som tilldelade lågt förtroende över innehåll oavsett ursprung – och ‘Troende’ – som upprätthöll en högre basnivå av förtroende.

Slutligen, med avseende på det femte målet, visade en rullande analys av sekventiella bedömningar att deltagare initialt blev bättre på uppgiften, med noggrannhet som förbättrades under de första 15-20 utvärderingarna när de anpassade sig till formatet:

Rullande medelvĂ€rden för kĂ€ll- och Ă€kthetspoĂ€ng över sekvensen av deltagarutvĂ€rderingar visar en kort initial förbĂ€ttringsfas, nĂ€r anvĂ€ndare verkar anpassa sig till uppgiften under de första 15–20 objekten, följt av en stadig minskning i bĂ„da mĂ„tten efter cirka 30 utvĂ€rderingar. PoĂ€ngen sjunker mot standardsvar – ett mönster som tolkas i studien som kognitiv utmattning. Se kĂ€llpapperet för bĂ€ttre upplösning.

Rullande medelvärden för käll- och äkthetspoäng över sekvensen av deltagarutvärderingar visar en kort initial förbättringsfas, när användare verkar anpassa sig till uppgiften under de första 15–20 objekten, följt av en stadig minskning i båda måtten efter cirka 30 utvärderingar. Se källpapperet för bättre upplösning.

Men denna effekt var kortvarig, eftersom prestationen började minska efter cirka 30 objekt, med deltagare som alltmer tilldelade innehåll som falskt – en förändring som tolkas som kognitiv utmattning, och som tyder på tydliga begränsningar för hur länge upptäktbaserade metoder kan förbli effektiva i praktiken.

Detta kan representera någon empirisk bevis för att, utmattad av utsikten att skilja falska nyheter från riktiga, AI-nyheter från mänskliga, vi kan tendera att förutsätta att nyheterna är AI och/eller falska (inte nödvändigtvis samma sak), för att vara på den säkra sidan. De som anser att detta är “lat” och att människor borde göra sin egen forskning för att verifiera en potentiell falsk nyhetsberättelse, kan vara intresserade av att lära sig att en studie från 2024 visade att detta bara förvärrar problemen.

Författarna föreslår att misslyckandet med mänsklig bedömning som visas i resultaten tyder på att vi kan behöva överlåta sådana frågor till kryptografiska ursprungs-teknologier som Adobe-ledda C2PA-initiativet. Andra möjliga lösningar som nämns är författarnas eget OriginLens-ramverk och ett annat författar-relaterat projekt som kallas CRED-1.

Författarna slutsats:

‘Kan människor avgöra? Vår dualaxliga studie av 2 318 bedömningar över sex LLM-familjer ger ett tydligt empiriskt svar: de kan inte.

‘Maskingenererad text är inte att skilja från mänsklig skriven text oavsett modellstorlek eller familj, domänexpertis förutsäger upptäcktsnoggrannhet mer än politisk inriktning, deltagare antar distinkta förtroendestrategier och kognitiv utmattning begränsar hållbar upptäckt.

‘Dessa resultat stöder en övergång från användar-baserad upptäckt till system-baserade motåtgärder, inklusive innehållsursprung, adaptiva förtroendehandlingar och begränsade inokuleringssätt.’

Slutsats

Den oroväckande aspekten av denna artikel är det omgivande stödnätverket av projekt och papper som författarna – eller vissa av författarna, beroende på arbetet – har skapat eller på annat sätt är inblandade i; och det vore verkligen intressant att ha kunnat studera prover av AI- och mänsklig genererad text som producerade dessa resultat, för att bättre förstå vilken typ av utdata som den beskrivna genereringsmetoden producerar.

Ändå är det intressant att höra att öppna, öppen källkodsmodeller kan jämföras med API-drivna jättar som ChatGPT-serien – kan det vara så att uppgiften i fråga inte är så svår, och att en 200-miljarders parametrar-modell är överdriven för sådana uppgifter? Vi skulle behöva veta lite mer om de inskickade AI- och mänskligt skrivna källproverna för att besvara den frågan.

I mellantiden, enligt canirun.ai-webbplatsen, kör Mistral 7B (som var ungefär lika bra som ChatGPT-4o i testerna) ‘utmärkt’ på en NVIDIA RTX 3080 med 16 GB VRAM, och ‘skapar’ på en 3060 med 6 GB VRAM – knappast de senaste eller största grafikkorten i spel*. Så alla som vill skapa sin egen metodik för exempelinskickning kan tydligen delta i dessa experiment också.

 

* Gemma 7B är inte listad på webbplatsen.

Publicerad torsdag, 9 april 2026

Författare pÄ maskinlÀrande, domÀnspecialist inom mÀnsklig bildsyntes. Före detta chef för forskningsinnehÄll pÄ Metaphysic.ai.