stomp Op pad na outomatiese wetenskapskryf - Unite.AI
Verbinding met ons

Kunsmatige Intelligensie

Op pad na outomatiese wetenskapskryf

mm
Opgedateer on

Ek het vanoggend, soos ek die meeste oggende deur die Rekenaarwetenskap-afdelings van Arxiv deursoek het, afgekom op 'n onlangse papier van die Federale Universiteit van Ceara in Brasilië, wat 'n nuwe raamwerk vir natuurlike taalverwerking bied om die opsomming en onttrekking van kerndata uit wetenskaplike referate te outomatiseer.

Aangesien dit min of meer is wat ek elke dag doen, het die koerant vroeër vanjaar 'n opmerking oor 'n Reddit-skrywersdraad herinner – 'n voorspelling dat die skryf van wetenskap van die vroegste joernalistieke werke sal wees wat deur die masjien oorgeneem sal word. leer.

Laat my duidelik wees – ek absoluut glo dat die geoutomatiseerde wetenskapskrywer kom, en dat al die uitdagings wat ek in hierdie artikel uiteensit óf nou oplosbaar is, óf uiteindelik sal wees. Waar moontlik gee ek voorbeelde hiervoor. Daarbenewens spreek ek nie aan of huidige of naby-toekomstige wetenskapskryf-KI's in staat sal wees om skryf deurdringend; gebasseer op die huidige vlak van belangstelling in hierdie sektor van NLP neem ek aan dat hierdie uitdaging uiteindelik opgelos sal word.

Ek vra eerder of 'n wetenskapskrywer KI dit sal kan doen identifiseer relevante wetenskapverhale in ooreenstemming met die (hoogs gevarieerde) gewenste uitkomste van uitgewers.

Ek dink nie dit is op hande nie; Op grond van die soektog deur die opskrifte en/of kopieë van ongeveer 2000 nuwe wetenskaplike referate oor masjienleer elke week, het ek 'n taamlik meer siniese beskouing van die mate waarin akademiese voorleggings algoritmies afgebreek kan word, hetsy vir die doeleindes van akademiese indeksering of vir wetenskaplike joernalistiek. Soos gewoonlik is dit die verdoemdes mense wat in die pad staan.

Vereistes vir die Outomatiese Wetenskapskrywer

Kom ons kyk na die uitdaging om wetenskaplike verslaggewing oor die jongste akademiese navorsing te outomatiseer. Om dit regverdig te hou, sal ons dit meestal beperk tot die CS-kategorieë van die baie gewilde nie-paywalled Arxiv domein van Cornell Universiteit, wat ten minste 'n aantal sistematiese, sjabloonkenmerke het wat by 'n data-onttrekkingspyplyn ingeprop kan word.

Kom ons neem ook aan dat die taak op hande, soos met die nuwe referaat uit Brasilië, is om deur die titels, opsommings, metadata en (indien geregverdig) die liggaamsinhoud van nuwe wetenskaplike artikels te herhaal op soek na konstantes, betroubare parameters, tekens en bruikbare , verminderbare domeininligting.

Dit is immers die beginsel waarop hoogs suksesvol is nuwe raamwerke besig is om veld te wen in die gebiede van aardbewing verslagdoening, sport skryf, finansiële joernalistiek en gesondheidsdekking, en 'n redelike vertrekpunt vir die KI-aangedrewe wetenskapjoernalis.

Die werkvloei van die nuwe Brasiliaanse aanbod. Die PDF-wetenskapvraestel word omgeskakel na UTF-8 gewone teks (alhoewel dit kursiewe beklemtonings sal verwyder wat semantiese betekenis kan hê), en artikelafdelings word gemerk en onttrek voordat dit vir teksfiltrering deurgegee word. Gedekonstrueerde teks word in sinne opgebreek as datarame, en die datarame word saamgevoeg voor tekenidentifikasie, en generering van twee doc-token matrikse Bron: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Die werkvloei van die nuwe Brasiliaanse aanbod. Die PDF-wetenskapvraestel word omgeskakel na UTF-8 gewone teks (alhoewel dit kursiewe beklemtonings sal verwyder wat semantiese betekenis kan hê), en artikelafdelings word gemerk en onttrek voordat dit vir teksfiltrering deurgegee word. Gedekonstrueerde teks word in sinne opgebreek as data-rame, en die data-rame word saamgevoeg voor token-identifikasie, en generering van twee doc-token matrikse   Bron: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Bemoeilik die sjabloon

Een bemoedigende laag van ooreenstemming en regulasie is dat Arxiv 'n redelik goed afgedwing sjabloon vir voorleggings oplê, en verskaf gedetailleerde riglyne vir die indiening van skrywers. Daarom stem vraestelle oor die algemeen ooreen met watter dele van die protokol van toepassing is op die werk wat beskryf word.

Dus kan die KI-voorverwerkingstelsel vir die vermeende outomatiese wetenskapskrywer in die algemeen sulke afdelings as sub-domeine hanteer: abstrakte, inleiding, verwante/vorige werk, metodologie/data, resultate/bevindings, ablasie studies, bespreking, gevolgtrekking.

In die praktyk kan sommige van hierdie afdelings egter ontbreek, hernoem of inhoud bevat wat streng gesproke in 'n ander afdeling hoort. Verder sal outeurs natuurlik opskrifte en subopskrifte insluit wat nie aan die sjabloon voldoen nie. Dit sal dus op NLP/NLU val om pertinente afdelingverwante inhoud vanuit konteks te identifiseer.

Op pad na moeilikheid

'n Opskrifhiërargie is 'n maklike manier vir NLP-stelsels om dit te doen aanvanklik kategoriseer blokke inhoud. Baie Arxiv-voorleggings word vanaf Microsoft Word uitgevoer (soos blyk uit die verkeerd hanteerde Arxiv PDF's wat 'Microsoft Word' in die titelopskrif laat – sien prent hieronder). As jy behoorlike gebruik afdelingsopskrifte in Word, sal 'n uitvoer na PDF hulle herskep as hiërargiese opskrifte wat nuttig is vir die data-onttrekkingsprosesse van 'n masjienverslaggewer.

Dit veronderstel egter dat skrywers eintlik sulke kenmerke in Word gebruik, of ander dokumentskeppingsraamwerke, soos TeX en afgeleides (selde verskaf as inheemse alternatiewe formate in Arxiv-voorleggings, met die meeste aanbiedinge beperk tot PDF en, soms, die selfs meer ondeursigtige PostScript).

Op grond van jare se lees van Arxiv-vraestelle, het ek opgemerk dat die oorgrote meerderheid daarvan nie bevat nie 'n interpreteerbare strukturele metadata, met die titel gerapporteer in die leser (dws 'n webblaaier of 'n PDF-leser) as die volle titel (insluitend uitbreiding), van die dokument self.

In hierdie geval is die referaat se semantiese interpreteerbaarheid beperk, en 'n KI-gebaseerde wetenskapskrywerstelsel sal dit programmaties moet herkoppel aan sy gepaardgaande metadata by die Arxiv-domein. Arxiv-konvensie bepaal dat basiese metadata ook lateraal in groot grys tipe ingevoeg word op bladsy 1 van 'n ingediende PDF (sien prent hieronder). Ongelukkig – nie die minste nie omdat dit die enigste betroubare plek is waar jy 'n publikasiedatum of weergawenommer kan kry – word dit dikwels uitgesluit.

Baie skrywers gebruik óf glad nie style nie, óf slegs die H1 (hoogste kop/titel) styl, wat NLU oorlaat om weer opskrifte óf te onttrek vanuit konteks (waarskynlik nie so moeilik nie), of deur die verwysingsnommer wat die titel uitmaak in die dokumentroete te ontleed (bv. https://arxiv.org/pdf/2110.00168.pdf) en maak gebruik van net-gebaseerde (eerder as plaaslike) metadata vir die indiening.

Alhoewel laasgenoemde nie afwesige opskrifte sal oplos nie, sal dit ten minste vasstel op watter afdeling van Rekenaarwetenskap die voorlegging van toepassing is, en datum- en weergawe-inligting verskaf.

GluedText by ParagraphReturns

Met PDF en postscript die mees algemene beskikbare Arxiv-formate wat deur skrywers ingedien word, sal die NLP-stelsel 'n roetine nodig hê om einde-van-reël woorde te verdeel van die begin-van-opvolgende-reël woorde wat 'aangeheg' word aan hulle onder PDF-formaat se ongelukkige verstek optimalisering metodes.

Ontbinding (en ontkoppelteken) woorde bereik kan word in Perl en baie ander eenvoudige rekursiewe roetines, alhoewel a Python-gebaseerde benadering kan minder tydrowend wees en meer aangepas by 'n ML-raamwerk. Adobe, die skepper van die PDF-formaat, het ook 'n KI-geaktiveerde omskakelingstelsel genaamd ontwikkel Vloeistofmodus, in staat om gebakte teks in PDF's te 'hervloei', alhoewel die uitrol daarvan buite die mobiele spasie stadig geblyk het.

Swak Engels                                                

Engels bly die wêreldwye wetenskaplike standaard vir die indiening van wetenskaplike referate, al is dit omstrede. Daarom bevat interessante en nuuswaardige koerante soms verskriklike standaarde van Engels, van nie-Engelse navorsers. As behendige gebruik van Engels ingesluit word as 'n maatstaf van waarde wanneer 'n masjienstelsel die werk evalueer, sal nie net goeie stories dikwels verlore gaan nie, maar pedantiese laerwaarde-uitset sal hoër aangeslaan word bloot omdat dit baie min baie goed sê.

NLP-stelsels wat in hierdie verband onbuigsaam is, sal waarskynlik 'n bykomende laag struikelblokke in data-onttrekking ervaar, behalwe in die mees rigiede en geparametriseerde wetenskappe, soos chemie en teoretiese fisika, waar grafieke en kaarte meer eenvormig oor globale wetenskapgemeenskappe ooreenstem. Alhoewel masjienleervraestelle dikwels formules bevat, verteenwoordig dit moontlik nie die bepalende waarde van die voorlegging in die afwesigheid van die ten volle gevestigde wetenskaplike konsensus oor metodologie wat ouer wetenskappe geniet nie.

Keuring: Bepaling van gehoorvereistes

Ons sal binnekort terugkeer na die vele probleme van die ontbinding van eksentrieke wetenskapvraestelle in diskrete datapunte. Kom ons kyk nou na ons gehoor en doelwitte, aangesien dit noodsaaklik sal wees om die wetenskapskrywer KI te help om deur duisende referate per week te sif. Om die sukses van potensiële nuusberigte te voorspel is reeds 'n aktiewe area in masjienleer.

As, byvoorbeeld, hoë volume 'wetenskapverkeer' die enigste doelwit is by 'n webwerf waar wetenskapskryf net een plank van 'n breër joernalistieke aanbod is (soos die geval is met die VK se Daily Mail wetenskapafdeling), kan 'n KI vereis word om die onderwerpe wat die meeste verdien in terme van verkeer te bepaal en die keuse daarvan te optimaliseer. Hierdie proses sal waarskynlik (relatief) laaghangende vrugte soos bv robotte, darren, deepfakes, privaatheid en sekuriteit kwesbaarhede.

In ooreenstemming met die huidige stand van die kuns in aanbevelerstelsels, sal hierdie hoëvlak-oes waarskynlik lei tot 'filterborrel' kwessies vir ons wetenskapskrywer KI, aangesien die algoritme meer aandag gee aan 'n rits meer vals wetenskapartikels wat 'wenslike' hoëfrekwensie sleutelwoorde en frases oor hierdie onderwerpe bevat (weereens, want daar is geld in hulle te hê, beide in terme van van verkeer, vir nuuswinkels, en befondsing, vir akademiese departemente), terwyl sommige van die veel meer skryfbare 'Paaseiers' (sien hieronder) wat in baie van die minder gereelde hoeke van Arxiv gevind kan word, geïgnoreer word.

Een en klaar!

Goeie wetenskapnuusvoer kan van vreemde en onverwagte plekke kom, en uit voorheen onvrugbare sektore en onderwerpe. Om ons KI-wetenskapskrywer, wat gehoop het om 'n produktiewe indeks van 'vrugbare' nuusbronne te skep, verder te verwar, sal die bron van 'n onaangename 'treffer' (soos 'n Discord-bediener, 'n akademiese navorsingsafdeling of 'n tegnologiese begin) dikwels produseer nooit weer bruikbare materiaal nie, terwyl voortgegaan word om 'n lywige en raserige inligtingstroom van minder waarde uit te voer.

Wat kan 'n iteratiewe masjienleer-argitektuur hieruit aflei? Dat die baie duisende vorige 'uitskieter' nuusbronne wat dit eens geïdentifiseer en uitgesluit het, skielik geprioritiseer moet word (al sou dit 'n onregeerbare sein-tot-geraas-verhouding skep, met inagneming van die hoë volume koerante wat elke jaar vrygestel word)? Dat die onderwerp self 'n aktiveringslaag waardig is as die nuusbron waaruit dit kom (wat, in die geval van 'n gewilde onderwerp, 'n oorbodige aksie is)..?

Meer nuttig, die stelsel kan dalk leer dat dit op of af in die data-dimensionaliteit hiërargie moet beweeg op soek na patrone – indien daar werklik enige is – wat uitmaak wat my oorlede joernalis oupa ''n neus vir nuus' genoem het, en die kenmerk definieer. nuuswaardige as 'n rondreisende en abstrakte kwaliteit wat nie akkuraat voorspel kan word op grond van herkoms alleen nie, en wat verwag kan word om daagliks te muteer.

Identifisering van hipotesemislukking

As gevolg van kwota druk, sal akademiese departemente soms werke publiseer waar die sentrale hipotese heeltemal (of byna heeltemal) in toetsing misluk het, al is die projek se metodes en bevindinge nietemin 'n bietjie belangstelling in hul eie reg werd.

Sulke teleurstellings word dikwels nie in opsommings te kenne gegee nie; in die ergste gevalle is weerlegde hipoteses slegs waarneembaar deur die resultategrafieke te lees. Dit behels nie net die afleiding van 'n gedetailleerde begrip van die metodologie uit die hoogs uitgesoekte en beperkte inligting wat die vraestel kan verskaf nie, maar sal bekwame grafiekinterpretasiealgoritmes vereis wat alles van 'n sirkelgrafiek tot 'n strooidiagram, in konteks sinvol kan interpreteer.

'n NLP-gebaseerde stelsel wat vertroue in die opsommings plaas, maar nie die grafieke en tabelle kan interpreteer nie, kan met eerste lees baie opgewonde raak oor 'n nuwe vraestel. Ongelukkig is vorige voorbeelde van 'verborge mislukking' in akademiese vraestelle (vir opleidingsdoeleindes) moeilik om in patrone te veralgemeen, aangesien hierdie 'akademiese misdaad' hoofsaaklik een van weglating of onderbeklemtoning is, en daarom ontwykend.

In 'n uiterste geval sal ons KI-skrywer dalk bewaarplekdata (dws vanaf GitHub) moet opspoor en toets, of enige beskikbare aanvullende materiaal moet ontleed om te verstaan ​​wat die resultate aandui in terme van die doelstellings van die skrywers. Dus sal 'n masjienleerstelsel die veelvuldige ongekarteerde bronne en formate wat hierby betrokke is moet deurkruis, wat outomatisering van verifikasieprosesse 'n bietjie van 'n argitektoniese uitdaging maak.

'White Box' scenario's

Sommige van die mees verregaande aansprake wat in KI-gesentreerde sekuriteitsvraestelle gemaak word, blyk buitengewone en baie onwaarskynlike vlakke van toegang tot die bronkode of broninfrastruktuur te vereis – 'white box'-aanvalle. Alhoewel dit nuttig is om voorheen onbekende eienaardighede in die argitekture van KI-stelsels te ekstrapoleer, verteenwoordig dit byna nooit 'n realisties ontginbare aanvalsoppervlak nie. Daarom gaan die KI-wetenskapskrywer 'n redelik goeie snertverklikker nodig hê om aansprake oor sekuriteit te ontbind in waarskynlikhede vir effektiewe ontplooiing.

Die geoutomatiseerde wetenskapskrywer sal 'n bekwame NLU-roetine nodig hê om 'wit boks'-vermeldings in 'n betekenisvolle konteks te isoleer (dws om meldings van kernimplikasies vir die vraestel te onderskei), en die vermoë om wit boks-metodologie af te lei in gevalle waar die frase nooit in die papier.

Ander 'Gotchas'

Ander plekke waar onuitvoerbaarheid en hipotesemislukking redelik begrawe kan word, is in die ablasie studies, wat sistematies sleutelelemente van 'n nuwe formule of metode wegstroop om te sien of die resultate negatief beïnvloed word, of as 'n 'kern'-ontdekking veerkragtig is. In die praktyk is vraestelle wat ablasiestudies insluit gewoonlik redelik seker van hul bevindinge, alhoewel 'n noukeurige lees dikwels 'n 'bluff' kan opspoor. In KI-navorsing kom daardie bluf dikwels neer op oorpas, waar 'n masjienleerstelsel uitstekend presteer op die oorspronklike navorsingsdata, maar nie daarin slaag om na nuwe data te veralgemeen nie, of andersins onder ander nie-reproduceerbare beperkings funksioneer.

Nog 'n nuttige afdelingopskrif vir potensiële sistematiese onttrekking is Beperkings. Dit is die heel eerste afdeling waarheen enige wetenskapskrywer (KI of mens) moet oorslaan, aangesien dit inligting kan bevat wat die hele vraestel se hipotese tot niet maak, en om vorentoe te spring, kan verlore ure se werk bespaar (ten minste vir die mens) . 'n Erger-geval scenario hier is dat 'n vraestel eintlik 'n Beperkings afdeling, maar die 'kompromerende' feite is ingesluit elders in die werk, en nie hier nie (of word hier onderspeel).

Volgende is Vorige werk. Dit kom vroeg in die Arxiv-sjabloon voor, en toon gereeld dat die huidige vraestel slegs 'n geringe vooruitgang op 'n baie meer innoverende projek verteenwoordig, gewoonlik van die vorige 12-18 maande. Op hierdie stadium gaan die KI-skrywer die vermoë nodig hê om vas te stel of die vorige werk traksie bereik het; is hier nog 'n storie? Het die vroeëre werk ten tyde van publikasie onverdiend verby openbare kennisgewing gegly? Of is die nuwe referaat maar net 'n perfunksionele naskrif van 'n goed bedekte vorige projek?

Evaluering van herloopvlakke en 'varsheid'

Behalwe om errata in 'n vroeëre weergawe reg te stel, verteenwoordig V.2 van 'n referaat baie dikwels weinig meer as die skrywers wat skreeu vir die aandag wat hulle nie gekry het toe V.1 gepubliseer is nie. Dikwels verdien 'n referaat egter eintlik 'n tweede hap aan die kersie, aangesien media-aandag dalk elders afgelei is ten tyde van oorspronklike publikasie, of die werk is verduister deur die groot verkeer van voorleggings in oorvol 'simposium' en konferensieperiodes (soos bv. herfs en laat winter).

Een nuttige kenmerk by Arxiv om 'n herlopie te onderskei, is die [OPGEDATEER]-merker wat by voorleggingstitels aangeheg is. Ons KI-skrywer se interne 'aanbevelerstelsel' sal noukeurig moet oorweeg of of nie [UPDATED]=='Uitgespeel', veral omdat dit die herverwarmde papier (vermoedelik) kan evalueer baie vinniger as 'n moeilike wetenskaphak. In hierdie opsig het dit 'n noemenswaardige voordeel bo mense, danksy 'n naamkonvensie wat waarskynlik sal voortduur, ten minste by Arxiv.

Arxiv verskaf ook inligting in die opsommingsbladsy oor of die vraestel geïdentifiseer is as 'n 'beduidende oorkruising' van teks met 'n ander vraestel (dikwels deur dieselfde outeurs), en dit kan moontlik ook ontleed word in 'n 'duplikaat/herhaal' status deur 'n KI-skrywerstelsel in die afwesigheid van die [OPGEDATEER] merker.

Bepaling van diffusie

Soos die meeste joernaliste, soek ons ​​geprojekteerde KI-wetenskapskrywer na ongerapporteerde of ondergerapporteerde nuus, om waarde toe te voeg tot die inhoudstroom wat dit ondersteun. In die meeste gevalle is herrapportering van wetenskaplike deurbrake die eerste keer verskyn in groot afsetpunte soos TechCrunch, The Verge en EurekaAlert et al is nutteloos, aangesien sulke groot platforms hul inhoud ondersteun met uitputtende publisiteitsmasjiene, wat feitlik mediaversadiging vir die koerant waarborg.

Daarom moet ons KI-skrywer bepaal of die storie vars genoeg is om die moeite werd te wees om na te streef.

Die maklikste manier, in teorie, sou wees om onlangse te identifiseer inkomende skakels na die kernnavorsingsbladsye (opsomming, PDF, akademiese departement se webwerf nuusafdeling, ens.). Oor die algemeen is raamwerke wat bygewerkte inkomende skakelinligting kan verskaf nie oopbron of laekoste nie, maar groot uitgewers kan vermoedelik die SaaS-uitgawe dra as deel van 'n nuuswaardigheidsevalueringsraamwerk.

As ons sulke toegang aanvaar, word ons wetenskapskrywer KI dan gekonfronteer met die probleem dat 'n groot aantal wetenskap-verslagdoeningswinkels moenie aanhaal nie die vraestelle waaroor hulle skryf, selfs in gevalle waar daardie inligting vrylik beskikbaar is. 'n Afsetpunt wil immers hê dat sekondêre beriggewing na hulle moet skakel, eerder as die bron. Aangesien hulle in baie gevalle eintlik bevoorregte of semi-bevoorregte toegang tot 'n navorsingsartikel verkry het (sien Die 'Sosiale' Wetenskapskrywer hieronder), het hulle 'n onbehoorlike voorwendsel hiervoor.

Ons KI-skrywer sal dus werkbare sleutelwoorde uit 'n koerant moet onttrek en tydbeperkte soektogte moet uitvoer om vas te stel waar, indien enige plek, die storie reeds gebreek het - en dan evalueer of enige vorige verspreiding verdiskonteer kan word, en of die storie afgespeel word .

Soms verskaf referate aanvullende videomateriaal op YouTube, waar die 'kyktelling' as 'n verspreidingsindeks kan dien. Boonop kan ons KI beelde uit die koerant onttrek en sistematiese beeldgebaseerde soektogte uitvoer om vas te stel of, waar en wanneer enige van die beelde herpubliseer is.

Easter Eggs

Soms onthul 'n 'droë' koerant bevindinge wat diepgaande en nuuswaardige implikasies het, maar wat deur die skrywers onderspeel (of selfs misgekyk of verdiskonteer word), en sal slegs onthul word deur die hele koerant te lees en die wiskunde te doen.

In seldsame gevalle, glo ek, is dit omdat die skrywers baie meer bekommerd is oor resepsie in die akademie as die algemene publiek, miskien omdat hulle voel (nie altyd verkeerd nie) dat die betrokke kernbegrippe eenvoudig nie genoeg vereenvoudig kan word vir algemene verbruik nie, ten spyte van die dikwels hiperboliese pogings van hul instellings se PR-afdelings.

Maar omtrent so dikwels kan die skrywers die implikasies van hul werk, wat amptelik onder 'wetenskaplike verwyder' funksioneer, afslag of andersins versuim om te sien of te erken. Soms is hierdie 'Paaseiers' nie positiewe aanwysers vir die werk nie, soos hierbo genoem, en kan dit sinies verduister word in komplekse tabelle van bevindings.

Anderkant Arxiv

Daar moet in ag geneem word dat die parametrisering van vraestelle oor rekenaarwetenskap in diskrete tekens en entiteite baie makliker gaan wees by 'n domein soos Arxiv, wat 'n aantal konsekwente en sjabloon 'hake' bied om te ontleed, en nie aanmeldings vir die meeste funksionaliteit vereis nie. .

Nie alle wetenskappublikasietoegang is oopbron nie, en dit moet nog gesien word of (vanuit 'n praktiese of wetlike oogpunt) ons KI-wetenskapskrywer kan of sal gryp om betaalmure te ontduik deur Sci-Hub; om argiefwerwe te gebruik om vermy betaalmure; en of dit prakties is om soortgelyke domein-mynbou-argitekture vir 'n wye verskeidenheid ander wetenskappubliseringsplatforms te bou, waarvan baie struktureel bestand is teen sistematiese ondersoek.

Daar moet verder in ag geneem word dat selfs Arxiv het koerslimiete wat waarskynlik 'n KI-skrywer se nuusevalueringsroetines tot 'n meer 'menslike' spoed sal vertraag.

Die 'Sosiale' KI-wetenskapskrywer

Buiten die oop en toeganklike gebied van Arxiv en soortgelyke 'oop' wetenskappubliseringsplatforms, kan selfs die verkryging van toegang tot 'n interessante nuwe artikel 'n uitdaging wees, wat behels dat 'n kontakkanaal vir 'n skrywer opspoor en hulle nader om te versoek om die werk te lees, en selfs om kwotasies te bekom (waar tydsdruk nie 'n oorheersende faktor is nie - 'n seldsame geval vir geesteswetenskaplike verslaggewers deesdae).

Dit kan geoutomatiseerde deurkruising van wetenskapdomeine en die skep van rekeninge behels (jy moet aangemeld wees om die e-posadres van 'n artikel se skrywer te openbaar, selfs op Arxiv). Meeste van die tyd is LinkedIn die vinnigste manier om 'n antwoord te kry, maar KI-stelsels is tans verbied om lede te kontak.

Oor hoe navorsers e-posversoeke van 'n wetenskapskrywer KI sal ontvang - wel, soos met die wêreld vir die skryf van vleisware, hang dit waarskynlik af van die invloed van die uitlaat. As 'n vermeende KI-gebaseerde skrywer van Wired 'n skrywer gekontak het wat gretig was om hul werk te versprei, is dit redelik om aan te neem dat dit dalk nie aan 'n vyandige reaksie sal voldoen nie.

In die meeste gevalle kan 'n mens jou voorstel dat die skrywer sou hoop dat hierdie semi-outomatiese uitruilings uiteindelik 'n mens in die lus kan oproep, maar dit is nie buite die moontlikheid dat opvolg-VOIP-onderhoude deur 'n KI gefasiliteer kan word nie, by ten minste waar die lewensvatbaarheid van die artikel na verwagting onder 'n sekere drempel is, en waar die publikasie genoeg trekkrag het om menslike deelname aan 'n gesprek met 'n 'KI-navorser' te lok.

Identifiseer nuus met AI

Baie van die beginsels en uitdagings wat hier uiteengesit word, is van toepassing op die potensiaal van outomatisering oor ander sektore van joernalistiek, en, soos dit altyd was, is die identifisering van 'n potensiële storie die kernuitdaging. Die meeste menslike joernaliste sal toegee dat die skryf van die storie eintlik net die laaste 10% van die moeite is, en dat teen die tyd dat die sleutelbord kletter, die werk meestal verby is.

Die groot uitdaging is dus om KI-stelsels te ontwikkel wat 'n storie kan opspoor, ondersoek en staaf, gebaseer op die baie geheimsinnige wisselvallighede van die nuusspeletjie, en deur 'n groot verskeidenheid platforms te deurkruis wat reeds gehard is teen ondersoek en eksfiltrasie, menslike of andersins.

In die geval van wetenskaplike verslaggewing, het die skrywers van nuwe artikels so diep 'n selfdienende agenda as enige ander potensiële primêre bron van 'n nuusverhaal, en die dekonstruering van hul uitset sal die inbedding van voorafkennis oor sosiologiese, psigologiese en ekonomiese motiverings behels. Daarom sal 'n vermoedelike geoutomatiseerde wetenskapskrywer meer as reduktiewe NLP-roetines nodig hê om vas te stel waar die nuus vandag is, tensy die nuusdomein besonder gestratifiseerd is, soos die geval is met aandele, pandemiesyfers, sportuitslae, seismiese aktiwiteit en ander suiwer statistiese nuusbronne .