Andersonin kulma

Voivatko tekoälyt kehittää uutisvainun?

mm
AI-generated image (GPT-1.5) featuring a dog journalist in a photorealistic newsroom, who has spotted a lead, and attracted the attention of his co-workers.

Tehtävässä kirjoittaa uutisartikkeleita tekoäly on parantunut, mutta se ei ole parantunut yhtä paljon uutisten tunnistamisessa.

 

Mielipide Kun viimeksi tarkastelin tekoälyn kykyä löytää kuuma uutisaihe viisi vuotta sitten, maisema on muuttunut merkittävästi, ja tekoälyvoittoinen automaatio on lisääntynyt, ja mukana on tullut myös kiistakohtia ja kiistakysymyksiä.

Hiljattain WSJ-raportti runsaasta, tekoälyavusteisesta Fortune-avustajasta esittää tulevaisuuden journalistia vapautuneena scutworkista, kuten esimerkiksi lehdistötiedotteiden translitteroinnista, jättäen heille mahdollisuuden kirjoittaa artikkeleita ja tehdä kaivauksia, joita vain suuremmat julkaisut yleensä voivat maksaa.

Mutta mitä kuulemme vähemmän usein on tekoälyn kyky huomata uutisaihe.

Melun vähentäminen

Vuoden 2021 kirjoituksessa keskityin tutkijoihin, jotka kirjoittavat tutkimusaiheista, koska se on alue, jolla viettää eniten aikaa; ja ehkä suurin vaikutus, jonka uusi tekoälyvallankumous on tutkimusaiheisiin, on se, että se on luonut hallitsemattoman myrskyn tekoälyvoimaisista tutkimuspaperien julkaisuista, nostaa signaali-melusuhde niin korkeaksi, että jopa Arxiv-aiheisten tutkimusalueiden kattava käsittely on nykyään yhden henkilön voimien ulottumattomissa.

Totta kai tämä on alue, jolla tekoäly erinomaisesti menestyy – toistamalla valtavat määrät tietoa, joita ihmiset eivät voi ratkaista, löytääksesi “poikkeukset” (joihin palaamme pian) sekunneissa, jotka olisivat vie-neet ihmisiltä päivien, jos he olisivat edes voineet tehdä sitä.

Miksi tekoäly on edelleen niin huono uutisaiheen tunnistamisessa, vaikka se pystyy käsittelemään tuhansia, jopa kymmeniä tuhansia, päivittäisiä ehdokkaita?

Takautuvan suuntautuminen

Tämä massiivinen tekoälyvoimaisen sisällön lisääntyminen tapahtuu paljon akateemisen sektorin ulkopuolella, jonka käsittelin aiemmin. Viime vuonna arvioitiin, että kaikki uudet kirjoitukset verkossa on nyt “kirjoitettu tekoälyllä”, ja vielä suurempi kiihdytys tälle suunnalle oletetaan tulevan. Siksi melu on kuurottava kaikkialla, ei ainoastaan akatemiassa.

Vaikka on ollut jonkinlaista edistystä tekoäly/algorytmisessä “kuuman” tarinan tunnistamisessa viime vuosina, nämä järjestelmät keskittyvät usein kerrosten ja ennustettavasti järjestettyihin tietovirtoihin, mikä tarkoittaa, että ne voivat toimia vain melko haurassa kontekstissa.

Stanfordin jälki-tutkija ja entinen New York Times -toimittaja Alexander Spangher on tehnyt useita tutkimuksia “uutisarvon” määrittelyssä tekoälyprosesseille ja tilastolliselle analyysille sovellettavissa termeissä; ja on tuottanut näyttöä automaattisesta johtolankojen luomisesta sellaisissa aineistoissa kuin oikeuden pöytäkirjat, valtion lakiehdotukset ja kaupunginvaltuuston kokoukset, sekä yleisille asiakirjoille – sellaisia skeemoja, joita Fortune-lehden runsaasti tekoälyvoimainen kirjoittaja voi muuttaa 6-7 uutisartikkeleksi päivässä:

Sanajakaumat, jotka on saatu julkisista asiakirjoista. Tässä tapauksessa voidaan nähdä, että “authorizing” on korkea arvo, koska se edustaa päätöksiä, muutosta ja uutuutta. Lähde

Kuitenkin ongelma lähestymistavoissa, kuten Spangherin johtamassa tarjouksessa Seuraamalla julkisia asiakirjojen uutisarvoa, on, että ne keskittyvät havaittuihin trendeihin tiedoissa. Toisin sanoen, ne havaitsevat asioita, jotka tekivät hyvän uutisen aiemmin, ja etsivät lisää samanlaista.

Todellisessa maailmassa odottamattomat lähteet ovat melkein aina “yksisuuntainen ihme”; ja kuinka epätavallisia ne ovatkaan, kukaan ei voi ennustaa heidän äkillistä merkittävyyttään. Sitten, ollessaan kerran hedelmällisiä, ja vastoin satunnaisia yrityksiä hyödyntää heidän lyhytaikaista mainetta tai kuuluisuutta, he eivät yleensä tuota mitään hyödyllistä enää.

Ajan merkki

Siksi, koska tällaisen yhden kerran uutislähteen seuraaminen on yleensä vain lisää melua yleiseen myrskyyn, voisko tekoäly sen sijaan tunnistaa merkit lähteestä, josta voisi tulla hedelmällinen? Jos voisi selvittää, minkälainen lähde voisi lopulta tuottaa uutisia, voisi keskittyä sen ominaisuuksiin sen sijaan, että sen kontekstiin tai menetelmiin.

Logiikalla voisi johtaa, että Edward Snowdenin paljastukset 2010-luvulla osoittivat, että kuka tahansa, joka oli äskettäin jättänyt CIA:n (tai vastavan organisaation) olisi arvollinen seurattava potentiaalinen uutislähde.

Kuitenkin ei ole RSS-syötteitä tai API:ja, joita voisi käyttää tällaisen jatkuvan seuraamisen automatisointiin, koska LinkedIn ja monet muut aiemmin avoimet tietolähteet perääntyvät tekoälyweb-skooppien kasvavan pyynnön edessä. Vaikka olisikin, taajuus olisi ongelma, koska et voi kysyä API:ta tai sivustoa joka viisi sekuntia; paitsi resurssikustannuksista, IP-estot platformilta tekisivät tämän kestämättömäksi toiminnaksi.

Lisäksi on selvästi “ihmisen ulottuvuus” tällaisiin paljastuksiin, jota on vaikea automatisoida.

Uutistenkeruu henkilökohtaisella kosketuksella: kuva 1976 Alan Pakula -elokuvasta 'Kaikki presidentin miehet', jossa ilmestyy tietolähde varjosta. Lähde - https://blueprintreview.co.uk/2016/11/all-the-presidents-men/

Uutistenkeruu henkilökohtaisella kosketuksella: kuva 1976 Alan J. Pakula -elokuvasta ‘Kaikki presidentin miehet’, jossa ilmestyy tietolähde varjosta. Lähde

Myös todellisessa maailmassa on erittäin vaikea määritellä merkittäviä piirteitä tulevasta uutislähteestä. Se ei välttämättä ole “ihmiset, jotka ovat äskettäin jättäneet CIA:n”, eikä se määritellä protokollaa; alustat kuten X tai GitHub tuottavat itsestään liian paljon signaalia, ja jopa suppeampiin hakutermeihin tai postikategorioihin keskittyminen ei tee paljon eroa – ainoastaan, jos olet osallistunut ongelmaan ja osallistunut yhteisöön (tai repo jne.), olet todella todennäköisesti tunnistaa kehityksen merkitystä.

Vaikka termi kuten “turvallisuusvaroitus” ei voi asiayhteydestä määrittää tapahtuman todellista vakavuutta tai uutisarvoa, koska viittaukset tällaisiin ovat päivittäin tuhansia tällaisissa yhteisöissä – ja vaikka rajoittaisit tällaista seuraamista ainoastaan englannin kieleen, idioman ja epäsuoran kielen käytön vaihtelut tekisivät sen erittäin vaikeaksi tulkitsemiseksi “luonnonvaraisesta” viestistä todelliseksi uutisvaroituksesi.

Kapea polku

Nykyiset tekoälyvoimaiset uutisarvon havaitsemisjärjestelmät riippuvat järjestelmällisistä tietorakenteista (kuten JSON-tulostetta API:sta), tai epävirallisista tietorakenteista, joita tekoälykehitetyt algoritmit voivat havaita järjestelmälliseksi skeemaksi (kuten lehdistötiedotteista tietystä organisaatiosta):

RSS/XML-syöte, joka paljastaa tietokonttien järjestelmällisen hierarkian. Lähde - https://www.xml.com/articles/2023/03/06/visualising-xml-schemas/

RSS/XML-syöte, joka paljastaa tietokonttien järjestelmällisen hierarkian. Lähde

Ilmeisesti tällaiset lähestymistavat soveltuvat ohjelmalliseen tuotantoon, kuten arkisen työn, josta mainittu Fortune-toimittaja kertoo tekoälyn vapauttaneen hänet, mukaan lukien sää, osakkeet ja urheilutulokset, sekä hallituksen ja muiden julkisyhteisöjen tavanomaiset lehdistötiedotteet.

Vaikka on mahdollista liittää “ihmisen hälytyslaatikot” tilastollisiin syötteisiin, kuten sää (äkkiäiset myrskyt), osakkeet (äkkiäiset laskut) ja urheilu (odottamattomat voitot/häviöt, joissa on jotain valmistelua), ihmisillä olisi silti tarve tarkastella jopa järjestäytyneitä julkisyhteisöjen julkaisuja, jotta voisi arvioida uutisarvon.

Vaikka termit kuten “kuolema”, “odottamaton sairaus”, “vuoto” ja “onnettomuus” voivat auttaa kohdistamaan uutisarvoisia tapahtumia, ne kohdistavat vain “tavallisia” tapahtumia ja eivät voi ottaa huomioon vaihtoehtoista kieltä (tai kieliä).

Elitististen kirjoittajien paluu?

Viime vuosina data-voittoinen journalismi on tullut nousevaksi osaksi uutisointia, ja toimitukset eivät enää ole rajoittuneet “söpöihin” uutisjuttuihin, joissa he saavat etukäteen julkaisuoikeudet erikoisraporteista ja valkoisista kirjoista suurilta kustantajilta; sen sijaan he voivat itse analysoida numerot.

Kuitenkin tämä ei ole ilmainen lounas; kun selkeä arvo julkisten tietojen käsittelyssä tekoälyllä on kasvanut, on seurannut vuokralle- ja tekoälyestäinen reaktio – tai jopa ennakoinen – kysyntään, ajamalla datasta nälkäisiä suuria tekoälypelaajia salaiseen taktiikkaan.

Lisäinen kitka uudessa perääntymisessä palauttaa mahdollisesti jonkin verran valtaa “kansalaisjournalisteilta” perinteisille medioille – tai ainakin hyvin rahoitetuille uutisorganisaatioille, joilla on kaistanleveys imAGO tietojen keräämiseen, jalostamiseen ja arviointiin aikakaudella, jossa kustantajat ja verkkosivustot rajoittavat yhä enemmän vapaaehtoista pääsyä.

Näin ollen, jollain tavoin, tekoälyn käytännön ilmentymä journalistiikassa, suurten toimijoiden ja markkinoiden vastauksena tekoälyyn perustuvaan innovaatioon ja omaksumiseen, voi todella olla vievä meitä takaisin ajassa: de-demokratisoimalla uutisten tuotannon keinot ja lisäämällä esteitä merkityksellisille data-voittoisille uutisarvon arviointijärjestelmille.

Yleiset vaistot

Nämä rajoitukset johtavat selvästi “vatsavaistoon” uutisaiheen arvioinnissa.

Luonnollisesti tämä on lohduttavaa niille, jotka ovat ammattimaisesti osallistuneita tähän; mutta itsekkyyden olisi virhe, koska tämä vaisto voidaan erittäin yleisellä tasolla tulkita ja toimia siten, että se ei riipu yksittäisen henkilön tai organisaation omistautumisesta tai harrastuksista: vuonna 2022 tutkimuksessa Northwestern-yliopiston tutkijat käyttivät joukkorahoitusta uutisaiheiden arviointiin koulutusmallin kehittämiseksi, joka keskittyi uutisarvoon julkaistuihin Arxiv-tutkimuspaperiin:

Kysymykset, jotka esitettiin tutkimuksen osallistujille koulutusdatan saamiseksi 'uutisarvon ennustamiseen' tekoälymalliin. Lähde - https://nishalsach.github.io/pdfs/2022-newsworthiness.pdf

Kysymykset, jotka esitettiin tutkimuksen osallistujille koulutusdatan saamiseksi ‘uutisarvon ennustamiseen’ tekoälymalliin. Lähde

Järjestelmä arvioi ehdokkaita melko hyvin, noin 80 % sen kärkiarvoista myös asiantuntijoiden mukaan uutisarvoisiksi. Kuitenkin asiantuntijoiden kanssa osoitettu yhteensopivuus oli vain kohtalainen, tulokset puuttuvat tekijöistä, kuten kehyksestä tai yleisön sopivuudesta.

Järjestelmä perustuu vuoden 2020 tutkimukseen Laskennallinen uutisten löytäminen: kohti suunnittelumäärityksiä toimittajien suuntaamisalgoritmeille journalistiikassa. Kuten useimmat vastaavat projektit, tämä työ käsittelee tieteellistä journalistiikkaa eikä abstraktia uutistenkeruuta – ehkä siksi, että tieteellinen kirjallisuus taipuu kohti mallinnettuja tulosteita, joita voidaan potentiaalisesti analysoida koulutettaviksi ja tulkittaviksi tietopisteiksi.

Kuten huomautin vuonna 2021, tämä olisi tapaus, paitsi jos tutkijat usein väärinkäyttävät tutkimuspaperin julkaisemisen konventioita piilottamaan tai vähentämään vaatimattomia tuloksia tai jopa avoimia epäonnistumisia.

Entistä suurempi haaste on suuri vaikeus, jonka tekoälyjärjestelmät kokevat tieteellisten artikkeleiden taulukoiden ja kuvien tulkinnassa, ja tämä on viime aikoina tullut aktiiviseksi tutkimussuunnaksi:

Tutkimuksesta 'SciFigDetect: Mittaus tekoälyllisesti luotujen tieteellisten kuvien havaitsemiseksi', jossa on oikeat tieteelliset kuvat, niiden luomisohjeet ja Nano Banana ja GPT:llä tuotetut vastaavat kuvat kolmessa luokassa: kuvitus, yleiskatsaus ja kokeelliset kuvat. Lähde - https://arxiv.org/pdf/2604.08211v1

Tutkimuksesta ‘SciFigDetect: Mittaus tekoälyllisesti luotujen tieteellisten kuvien havaitsemiseksi’, jossa on oikeat tieteelliset kuvat, niiden luomisohjeet ja Nano Banana ja GPT:llä tuotetut vastaavat kuvat kolmessa luokassa: kuvitus, yleiskatsaus ja kokeelliset kuvat. Lähde

Usein taulukossa tai kuvassa on tuloksia, joita artikkelin pääteksti joko raportoi valikoivasti tai jopa kokonaan jättää huomioimatta. Tämä este tekoälyvoittoisessa tieteellisessä journalistiikassa ei ole vähäpätöinen.

Entistä puhuttelevampi on, että se, onko tutkimus johdannainen tai vain vähäinen edistysaskel (jos sellainen on), usein on haudattu lähes läpinäkymättömään viittaukseen (ts. sinun pitäisi etsiä termi, löytää luettava PDF-kopio ja ymmärtää edeltävän taidon laajuus, ennen kuin ymmärrät uuden työn puutteellisen alkuperäisyyden tai uutuuden).

Yksinäinen luonnollisesti

Edellä mainittu joukkorahoitettu menetelmä viittaa mahdolliseen yhteensovittamiseen yleisen konsensuksen ja ammattimaisen arvioinnin välillä potentiaalisissa uutisaiheissa. Mutta ilman asiayhteyttä voidaan määrittää vain uutisarvon laajat piirteet.

Tehtävässä tekoälyn voimakkuus on kyky, riippuen konfiguraatiosta, erottaa poikkeukset – joko poistamaan ne kaareen rikkoavina ja merkityksettöminä poikkeuksina tietojoukon trendeistä, tai (merkityksellisemmin uutis keruuta varten) tunnistamaan merkityksellisiä ja arvokkaita epätavallisia ilmiöitä:

Poikkeukset (punaisella) hajontakaaviossa. Lähde - https://stackoverflow.com/questions/73079324/python-removing-outliers-from-plotly-scatter-plot

Poikkeukset (punaisella) hajontakaaviossa. Lähde

Periaatteella, että salama harvoin iskee kahteen kertaa, lähes kaikki uutisaiheet ovat poikkeuksia. Tapauksissa, joissa ne tulevat aktiivisesta ja epävakaasta alueesta, kuten meneillään olevasta sodasta, aluetta voidaan tarkkailla tiiviisti suurella todennäköisyydellä uutisaiheiden ilmaantumisesta – mutta kustannuksella massiivista kilpailua, koska yleinen huomio on todennäköisesti myös kohdistunut alueeseen.

Monet uutisarvoiset tieteelliset johdatukset ovat määritelmän mukaan ei keskellä kielen jakautumista. Ne ovat harvinaisia yhdistelmiä menetelmiä, yllättäviä negatiivisia tuloksia tai poikkeuksellisia toistoja. Jos mallin osaamisen heikkeneminen vähentyy epäsuhtaisesti näissä matalataajuisissa ryhmissä, niin alue, jossa toimittajan “nenä” tarvitsee olla terävä, tulee alueeksi, jossa malli on vähiten luotettava.

Luottamuskysymykset

Uusien tarinoiden etsimisessä toimittajat tasapainoittavat useita rajoituksia, mukaan lukien aika, pääsy, uskottavuus, yleisö ja organisaatiotason prioriteetit), johtaen epäilystä valintoihin. Vuoden 2022 kirjallisuuskatsaus Tanskasta kuvasi toimittajat tasapainoittamassa useita huolenaiheita, tarkkaan tietoisia siitä, että lähteet voivat olla agendaa tai tietämättömiä; usein ohittamalla suoran tarkistamisen epäsuorien luottamussignaalejen hyväksi toimimalla paineen alaisena.

Nämä samat “luottamuskysymykset” olisivat kehityksellinen este mikä tahansa määrätietoisen tekoälyvoittoisen uutisarvon tunnistamisjärjestelmässä, koska kyseisen alustan käyttäminen edellyttää, että käyttäjä luottaa siihen, että algoritmiin hylättyjä artikkeleita ei ole arvollisia kirjoittajan ajalle.

Laaja beetatestaus ja uudelleen koulutus tai hienosäätö ihmisten valvonnalla, joka poimii karhut ja jäljelle jäävät, voisi lopulta parantaa tällaisen lähestymistavan luotettavuutta; mutta kulttuurin muutos – kuten yllättävät muutokset poliittisessa maisemassa tai sodan puhkeaminen – voisi kääntää kaikki tällaisen hienosäädetyn järjestelmän perusprioriteetit päälaelleen, jättäen tekoälyriippuvaisen kirjoittajan rakentamaan tarvittavan “sisäisen toimialan mallin” melkein alusta alkaen.

 

Julkaistu maanantaina, 20. huhtikuuta 2026.
Muutettu torstaina, 23. huhtikuuta 2026, kello 14.13.25, korvaamaan ‘WSJ’ ‘Fortunella’ ‘Kapea polku’ -kappaleessa 2 (kiitos Mark Riley mathison.ai:sta, joka huomautti siitä).

Kirjailija tekoälystä, alan erikoisosaaja ihmiskuvien synteesissä. Entinen tutkimussisällön johtaja Metaphysic.ai:lla.
Henkilökohtainen sivu: martinanderson.ai
Ota yhteyttä: [email protected]