Connect with us

Andersonin kulma

Jopa perustason AI voi nyt kirjoittaa uutisia, jotka kulkevat ihmisiltä

mm
AI-generated illustration: a stylized orthographic illustration depicting a woman seated at her home office desk reading a laptop, and a cut-away diagram depicting 'Schrodinger's news source' - a box with a robot writing an article, partitioned from a human writing an article. Each has a stylized journalist appearance. The idea being conveyed is that until you actually know who wrote the piece the woman is reading, it could have been a human or a robot. GPT-1.5

Uusi tutkimus osoittaa, että jopa pienet paikalliset AI-mallit voivat kirjoittaa uutisia, joita ihmiset eivät voi erottaa oikeasta journalismista, ja ne ovat yhtä hyviä kuin parhaat järjestelmät, ja lukijat eivät voi sanoa, kuka kirjoitti mitä.

 

Saksan ja Ranskan väisen uuden tutkimusyhteistyön mukaan ihmiset eivät voi sanoa, onko uutisartikkeli kirjoitettu AI:lla vai ihmisellä – vaikka se on kirjoitettu avoimen lähdekoodin malleilla, jotka voidaan ladata ja suorittaa suhteellisen tavallisilla kuluttajatason työpöytätietokoneilla.

Toisessa merkissä siitä, että pieni AI on nousussa, 1 054 osallistujan omistamasta 2 318 tuomion kokoelmasta löytyi, että ihmislukijat eivät voineet tunnistaa artikkelin alkuperää suuremmalla kuin sattumanvaraisella tasolla, vaikka se oli tuotettu melko vaatimattomilla malleilla, joissa oli vain seitsemän miljardia parametriä, mukaan lukien Mistral ja Llama -versiot:

Keskimääräiset lähde- ja aitoustunnusten arvosanat testatuille LLM:lle. GPT-4o:n 200 miljardin parametriä eivät ylittävästi ylitse 7B parametreja pienemmistä malleista. Lähde - https://arxiv.org/pdf/2604.03755

Keskimääräiset lähde- ja aitoustunnusten arvosanat testatuille LLM:lle. GPT-4o:n 200 miljardin parametriä eivät ylittävästi ylitse 7B parametreja pienemmistä malleista. Tutkimuksessa testattiin Gemma 7B, Phi-3 Mini, LLaMA-2 13B, Mistral 7B, GPT-4o ja GPT-3.5. Lähde

Kirjoittajat palaavat aiheeseen, jonka he tutkivat ensimmäisen kerran vuoden 2024 julkaisussa Blessing or curse? A survey on the Impact of Generative AI on Fake News. Itse tulokset ovat uudet, ja ne ovat osa suurempaa hanketta, josta ilmoitettiin alun perin tammikuussa, ja ne hyödyntävät kirjoittajien omaa JudgeGPT -verkkoyhteisöalustaa.

Featherweight Power

Tutkimuksen nimi on Can Humans Tell? A Dual-Axis Study of Human Perception of LLM-Generated News, ja se on tehty kolmen tutkijan yhteistyönä Frankfurtin soveltavan tieteen yliopistossa ja Nantesin IRISA-tutkimusyksikössä. Tutkimuksen menetelmä tekee tärkeän eron “väärennettyjen uutisten” ja “AI-kirjoitettujen uutisten” välillä (koska väärennettyjä uutisia voidaan kirjoittaa sekä ihmisillä että AI:lla, ja nämä kaksi asiaa eivät välttämättä ole toisensa kanssa samansuuntaisia).

Kuitenkin ehkä mielenkiintoisin asia on tutkimuksen johtopäätös, että pienet mallit, kuten Mistral 7B ja Gemma 7B, voivat vain seitsemällä miljardilla parametrilla kilpailla GPT-4o-mallin (200 miljardin parametriä) kanssa:

‘Avoin painomallit, joissa on vain 7 miljardia parametriä, tuottavat tekstiä, joka on arvioitu samanlaiseksi kuin GPT-4o:n tuottama, osoittaen, että kyky tuottaa ihmisten erottamattomia tekstejä ei ole enää rajoitettu vain eturintamalla oleviin malleihin.’

Kuitenkin “AI-kirjoitettujen uutisten” voi edustaa monia erilaisia ihmisten ja AI:n yhteistyön muotoja, alkaen oikoluvusta aina uran lopettavaan ponnisteluun, ja tutkimus ei selkeästi määrittele, millaista AI-sisältöä tuotettiin testeihin (vaikka se selittää metodologian, jolla se tuotettiin – ks. alla).

Menetelmä

JudgeGPT-alustalla mukana olleille osallistujille jokainen uutisfragmentti arvioitiin kaksisuuntaisella kehyksellä, jossa he antoivat kolme itsenäistä arviota jatkuvilla 0-100 liukusäätimillä:

JudgeGPT-portaalin GUI, jossa arvioijat arvioivat materiaalia lähdeattribuutin, aitoustunnusten ja aiheen tuttuuden perusteella.

JudgeGPT-portaalin GUI, jossa arvioijat arvioivat materiaalia lähdeattribuutin, aitoustunnusten ja aiheen tuttuuden perusteella. Lähde

Lähdearvio kaappasi, näyttikö kohtaus konekirjoitetulta vai ihmiskirjoitetulta; aitoustunnus, näyttikö se väärennetyltä vai aidoilta; ja aihetuntemus, kuinka hyvin lukija tunsi aiheen.

Jatkuvat asteikot käytettiin sen sijaan, että Likert-asteikko olisi käytetty, jotta voidaan tarkemmin kaapata varmuuden asteita ja tukea tilastollista analyysiä, mukaan lukien Pearsonin korrelaatio ja klusterointi.

Konegeneroitu teksti tuotettiin kirjoittajien oman RogueGPT-kehyksen avulla, joka on JudgeGPT:n syöttöarkkitehtuuri. RogueGPT orkestroi kuuden suuren kielen mallin (LLM) avustuksia: ChatGPT-4; ChatGPT-3.5; ChatGPT-4o; LLaMA-2 13B; Gemma 7B; ja Mistral 7B.

Henkilökohtaiset ohjausmerkit käytettiin tekstien generoimiseen, ja AI-syntyisten tekstien tausta perustui todellisiin uutisaiheisiin, ja ne tarkistettiin ihmisillä.

Toisaalta ihmiskirjoitetut fragmentit otettiin “vakiintuneista uutisvirastoista” ja määrittelemättömistä “tietokannoista”.

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]