Andersonin kulma

Tekoälykirjoittaminen ei koskaan “väsy” ja paljastaa itsensä

Julkaistu 27. tammikuuta 2026

Päivitetty 16. toukokuuta 2026

Tekijä

Martin Anderson

AI-generated image, by Z-Image Turbo (V1) via Krita AI Diffusion. Prompt: 'An American, hot high-school exam room in Texas,, with all the students seated exhausted in the heat, at lines of desks, trying to concentrate on winning their exams. In the center of the picture we focus on an industrial humanoid robot who is filling out the exam papers so quickly that the A$ sheets are flying around its desk in a flurry of activity. Some of the nearby, sweating and exhausted young students are looking at the tireless robot with annoyance and/or jealousy.'

ChatGPT-tyyppinen tekoäly paljastaa itsensä lisäämällä johdonmukaisuutta, kun taas ihmisten kirjoittaminen säilyy epätasaisena koko ajan.

Rajatut kontekstiohjelma useimmissa kuluttajien käytössä olevista suurista kielen mallista (LLM) on yksi tekijä, joka voi tehdä niistä unohtamaan tai muistamaan virheellisesti aiemmat osat käyttäjien keskusteluista – muistin virheitä, jotka voivat hitaasti muuttaa tulosteen täysin järjettömäksi – tai, pahemmassa tapauksessa, petollisen uskottavan näköisen tekstin, joka sisältää hienoja virheitä.

Näiden olosuhteiden johtuen hallusinaatioita, ja koska hallusinaatiot ovat edelleen suurin este tekoälyn täydelliselle markkinoiden etenemiselle, paljon tutkimuksellista työtä on tehty luomalla generatiivisia tekoälyjärjestelmiä, jotka voivat luoda pidemmät ja yhdenmukaisemmat tekstinpätkät.

Todellakin, niin paljon edistystä on tehty, että pitkän muodon tekoälysisällön tunnistaminen (ts. sisältö, joka on puhtaasti tekoälyn generoimaa, mahdollisesti vähäisellä tai olemattomalla ihmisen jälkikäsittelyllä) on katsottu kasvavaksi ongelmaksi.

Tekoälyn paljastaminen

Vaikka viimeaikaiset empiiriset tutkimukset väittävät, että mitä enemmän tekoälytekstigeneraattorit tuottavat yhdellä kertaa, sitä helpompaa on määrittää, onko teksti ihmisten kirjoittama; hyväksytty viisaus tästä havainnon “ankkurista” on oletettu, että tekoäly voidaan erottaa, koska mitä tahansa se tekee eri tavalla kuin ihmiset, se saa mahdollisuuden tehdä useammin pidemmissä jaksoissa.

Mihinkään jakaumaan näistä “merkeistä” tekstissä itsessään ei tehdä oletuksia.

Tähän haasteeseen ja ongelman laajentamiseen kiinnostava uusi tutkimustyö Kiinasta tarjoaa uuden menetelmän erottamaan uuden sukupolven pitkän muodon tekoälysisällön generoijat oikeista ihmiskirjoittajista. Tutkimuksen takana olevat tutkijat väittävät, että token-toisensa jälkeen luonteen, jolla tekoälyteksti generoidaan, tekee siitä yhdenmukaisemman pidemmän keston kanssa, kun taas ihmisten ominaisuudet eivät vähene pituuden myötä.

Tällä tavoin tutkijat ehdottavat, että heidän oivalluksensa tarjoaa potentiaalisen uuden mittarin tekoälytekstin havaitsemisjärjestelmille*:

‘Tekoälygeneroituja tokeneja tekstin jälkimmäisessä osassa on pienemmät ja vakaammat todennäköisyysvaihtelut, kun mallin ennusteet tulevat yhdenmukaisemmiksi kontekstin kertyessä.

‘Kutsumme tätä ilmiötä Myöhäisvaiheen Volatiliteetin Kato. Tämä ilmiö heijastaa itsestään generatiivisen luomisen luonnollista käyttäytymistä: mitä enemmän kontekstia on käytettävissä, sitä tarkemmaksi mallin ennusteiden jakautuminen tulee, mikä johtaa vähäisempään muutokseen tokenin tasolla olevissa tilastollisissa luvuissa.

‘Ihmisten kirjoittaminen, toisin sanoen, jatkaa odottamattomien sanavalintojen esittämistä ja ylläpitää korkeampaa volatiliteettia koko ajan.’

Tunnistamaan tämän outo “sileys”, joka kertyy tekoälytekstiin lopussa, tutkijat määrittelevät kaksi yksinkertaista ominaisuutta: ensimmäinen mittailee, kuinka paljon kirjoittamisen tilastollinen käyttäytyminen “hyppää” tokenien välillä; toinen tarkistaa, kuinka vakaa asiat säilyvät pienten tekstin jaksojen aikana.

Molemmat lasketaan ainoastaan toisesta puoliskosta tuloksesta, missä tekoäly muuttuu merkittävästi säännöllisemmäksi ja ihmisten kirjoittaminen ei. Tutkijat huomauttavat, että vaikka nämä signaalit toimivat hyvin yksin, ne ovat vielä tehokkaampia, kun ne yhdistetään vanhempiin havaitsemismenetelmiin, jotka skannaavat laajempia malleja. He huomauttavat myös, että tämä lähestymistapa toimii parhaiten pidemmällä tekstillä, missä kontrasti voi tulla ilmi.

Uusi tutkimus tarjoaa menetelmän “tekoälyluonteen” testaamiseksi toisen puoliskon aikaisen ominaisuusanalyysin kautta, joka ei vaadi lisäkoulutusta, hienosäätöä tai etuoikeutettua mallin pääsyä.

Tämä uusi työ on nimeltään Kun tekoäly asettuu: Myöhäisvaiheen Stabiilisuus Tekoälygeneroitu Tekstin Havaitsemisen Merkkinä, ja se tulee neljältä kirjoittajalta Hangzhoun Westlake-yliopistosta.

Menetelmä

Tekoälygeneroidun tekstin kasvavan sileän käyttäytymisen havaitsemiseksi tutkijat suunnittelivat kaksi mittausta, jotka keskittyvät ainoastaan jakson toiseen puoliskoon. Nämä perustuvat log-probability-lukuihin standardilaisesta kielen mallista ja eivät vaadi hienosäätöä, uudelleenkoulutusta tai lisänäytteitä:

Uudesta tutkimuksesta – jokainen rivi näyttää perusmittauksen käyttäytymisen EvoBenchista tokenin jonoa pitkin: raaka-arvo (vasen), absoluuttinen derivaatta (keski), ja paikallinen keskihajonta (oikea). Ihmisen ja tekoälyn linjat on esitetty sinisellä ja punaisella. Suurin ero näkyy tekstin toisessa puoliskossa, erityisesti Log-probability ja Sampling Discrepancy, jotka osoittavat kasvavaa eroa ja sileämpää tekoälytulostetta. Entropy ja Top-K Concentration eivät näytä suurta muutosta ajan myötä. Lähde

Ensimmäinen mittaus, jota kutsutaan Derivaatta-Dispersion (DD), seuraa, kuinka voimakkaasti mallin luottamus muuttuu sanan sanasta. Tekoälyteksti taipuu rytmikkääseen, joten nämä muutokset tulevat pienemmiksi ja ennalta arvattavammiksi toisessa puoliskossa. Toisin sanoen, ihmisten kirjoittaminen säilyy “epätasaisena”.

Toinen mittaus, Paikallinen Volatiliteetti (LV), tarkastelee, kuinka paljon mallin luottamus “hyppää” pienen tekstin ikkunan sisällä. Taas, tekoäly taipuu vakaammaksi ajan myötä, kun taas ihmisten valinnat säilyvät yllättävämpinä ja vähemmän johdonmukaisina:

Tekoälyteksti muuttuu sileämmäksi, kun taas ihmisten kirjoittaminen säilyy epätasaisena. Nämä kaaviot seuraavat mallin luottamuksen muutoksia tekstin aikana, heijastaen sekä sanan sanasta tapahtuvaa muutosta että paikallisten tekstin jaksojen muutoksia. Molemmissa suhteissa lasku on jyrkempi konegeneroituissa tuloksissa, ja kontrasti tulee erityisesti ilmi keskipisteen jälkeen. Keltaiset laatikot korostavat tätä kasvavaa eroa toisessa puoliskossa, missä tekoälykirjoittaminen saavuttaa jopa 32 %:n suuremmanvakavuuden verrattuna ihmisten kirjoittamiseen.

Uudelleen, molemmat mittaukset lasketaan ainoastaan myöhemmästä puoliskosta, missä ero ihmisten ja koneiden kirjoittamisen välillä on selvimmin nähtävissä. Nämä yhdistetään yhteen arvoon, jota kutsutaan Aikaisen Vakavuuden Havaitsemisen (TSD) pisteeksi – joka taipuu nousemaan, kun kirjoittaminen tulee “sileämmäksi” (ja siten todennäköisemmäksi olla tekoälygeneroitu). Yksinkertainen kynnysarvo käytetään sitten päättämään, onko annettu jakso todennäköisesti kirjoitettu koneella.

Koska nämä ominaisuudet keskittyvät milloin malli ilmenee, eivät pelkästään siinä, miltä se näyttää, ne täydentävät vanhempia menetelmiä, jotka etsivät tilastollisia epäilyttäviä piirteitä koko jakson yli. TSD-pisteen lisääminen vuoden 2024 lopun Fast-DetectGPT:n (myös yhteistyössä Westlaken kanssa) tuloksiin tarjoaa lisäparannuksen tuloksiin (erityisesti pidemmille sisällöille, missä myöhäisemmän sileän vaikutus on vahvin).

Data ja Testit

Tutkijat suorittivat testejä kahdella liittyvällä benchmark-aineistolla: EvoBench sisältää 32 000 ihmisten ja tekoälytekstin paria, jotka on generoitu seitsemän malliperheen yli, mukaan lukien GPT-4; GPT-4o; Claude; Google Gemini; LLaMA-3; ja Qwen, joissa on yhteensä 29 malliversiota.

Toinen kehys oli MAGE, joka tarjoaa 30 000 testiparia kahdeksan malliperheen yli, mukaan lukien (mutta ei pelkästään) GPT-sarja OpenAI:sta ja LLaMA-, OPT– ja FLAN-T5-perheet.

Vastustajat

Uusi menetelmä testattiin joukkoa nollausdetektoreita vastaan, jotka käyttivät samaa varamallia. Todennäköisyys, Entropia, Sijoitus ja Log-Sijoitus (DetectGPT) mitattiin tokenin tasolla koko jakson yli; LLR (DetectLLM) sovelsi normalisointia, jotta voitiin tehdä suoria vertailuja malleja välillä; ja Fast-Detect arvioi paikallista kaarevuutta näytteiden kautta.

Lastde analysoi erottuvia alijaksoja todennäköisyysmerkissä, kun taas FourierGPT toimi taajuusalueella. Diveye kaappasi “yllätyksen” monimuotoisuuden muutokset jakson aikana.

Lopulta UCE arvioi tokenien ennusteen epävarmuusprofiilia, jotta voidaan tunnistaa epäluonnolliset luottamuksen mallit.

Toteutus ja Tulokset

Kaikki havaitsemismenetelmät suoritettiin Llama-3-8B-Instruct:n avulla jaettuna varamallina, syötteena oli enintään 512 tokenia. Aikaiset ominaisuudet poimittiin ainoastaan kunkin jakson toisesta puoliskosta, 20 tokenin liukuvaa ikkunaa käyttäen volatiliteetin mittaamiseen. Yhdistetty versio menetelmästä, jota kutsutaan TSD+:ksi, yhdisti ehdotetun signaalin Fast-DetectGPT:hen.

Vastaanottimen toimintakäyrän alue (AUROC) oli ensisijainen arviointimittari^†:

Monimuotoinen suorituskyky eri testattuja menetelmiä vastaan tekoälygeneroidussa tekstissä. Havaitsemistarkkuus on esitetty kahdessa benchmark-aineistossa: EvoBench, joka kattaa useita korkean profiilin LLM:ejä, ja MAGE, joka on täydentävä aineisto. Mittarit on ryhmitelty menetelmätyypin mukaan: globaalit tilastot, aikaiset ominaisuudet ja ehdotetut variantit. Keskimääräiset AUROC-pisteet on annettu viimeisissä sarakkeissa. Tutkijoiden menetelmävarianttien tulokset ylittävät johdonmukaisesti aiemmat vertailukohteet, ja TSD+ antaa korkeimmat pisteet lähes jokaisessa malliasetuksessa.

Tutkijat toteavat näistä alkuperäisistä tuloksista:

‘Meidän yksinkertaiset aikaiset ominaisuudet saavuttavat johtavan suorituskyvyn erillisten menetelmien joukossa, ja TSD saavuttaa 83,36 %:n tuloksen EvoBenchissä ja 71,56 %:n MAGE:ssa, ylittäen kaikki vertailukohdet, mukaan lukien Fast-DetectGPT.

‘Tämä on merkittävää, koska meidän menetelmämme on yksinkertainen: me laskelemme ainoastaan toissijaisia tilastollisia lukuja toisesta puoliskosta, ilman perturbaatioiden näytteiden ottamista tai taajuusalueen muunnoksia.’

Uusi menetelmä toimi erityisesti hyvin uusimmilla tekoälymalleilla, kuten GPT-4 ja GPT-4o, joilla se tunnisti tekoälykirjoitetun tekstin tarkemmin kuin lähin johtava detektori, jolla oli jopa 9,66 %:n suorituskykyero.

Kilpailevat lähestymistavat, jotka keskittyvät laajoihin rakenteellisiin ominaisuuksiin, epäonnistuivat kaappaamasta näitä myöhäisempiä malleja. Yhdistämällä globaalin detektorin, hybridijärjestelmä palautti nämä väistyneet signaalit ja paransi suorituskykyä, erityisesti benchmark-aineistoissa, joissa lyhyemmät tekoälytulokset voivat heikentää aikaisia vihjeitä.

Johtopäätös

Yksi asia, jota uudessa tutkimuksessa ei suoraan käsitellä, on ihmiskirjoittajien taipumus iteroida työtään luomalla ja useita tarkastuskerroksia – usein sisältäen ulkoista tarkastelua, kuten toimittajien ja oikolukijoiden panosta, sekä mahdollisia ehdotuksia lakiosastoilta, riippuen asiayhteydestä.

Monet sidosryhmät, jotka osallistuvat asiakirjoihin, jotka ovat yhtä yksinkertaisia kuin hyvin kätketty uutisartikkeli, voivat melkein tuhota epätavallisuudet, joita uusi ehdotettu järjestelmä perustuu, ja vaikuttaa “analogiseen” tekoälyavustettuun luomisprosessiin.

Lisäksi järjestelmät, jotka tutkitaan, ovat itse koulutettu tällaisista teoksista, ja – koska koulutusdata on yhä enenevissä määrin priorisoitu koulutuksen aikana – arvostetuimmat lähteet voivat olla vähiten “luonnollisia”; ainakin verrattuna joko nopeasti koostettuun sähköpostiviestiin kollegalle eikä vuosittaiseen raporttiin yleiskokoukselle.

Toisaalta, tekstisisältö, johon useat ihmiset ovat osallistuneet, voi olla myös yksi hajanaisimmista, virheellisimmistä ja toistuvimmista proosan paloista, jotka pääsevät tietokantaan, koska ne eivät ole välttämättä saaneet lopullista yhdistävää ääntä, jättäen niiden kehittymisen sirpaleisen luonteen ilmi proosaan.

* Alkuperäinen tekstityyli kirjoittajilta; ei minun korostukseni.

^† Tutkijat toteavat “ensisijaisen”, ilman muita arviointimittareita.

Julkaistu maanantaina, 26. tammikuuta 2026