Connect with us

Kunstmatige intelligentie

Naar geautomatiseerd wetenschappelijk schrijven

mm

Deze ochtend, tijdens het doorzoeken van de Computer Science-secties van Arxiv, zoals ik meestal ‘s ochtends doe, kwam ik een recent artikel tegen van de Federale Universiteit van Ceara in Brazilië, dat een nieuw Natural Language Processing-kader biedt om de samenvatting en extractie van kerngegevens uit wetenschappelijke artikelen te automatiseren.

Aangezien dit meer of minder is wat ik elke dag doe, bracht het artikel me een opmerking in herinnering op een Reddit-schrijversdraad eerder dit jaar – een voorspelling tot het effect dat wetenschappelijk schrijven een van de eerste journalistieke banen zal zijn die door machine learning worden overgenomen.

Laat me duidelijk zijn – ik gelooft absoluut dat de geautomatiseerde wetenschappelijke schrijver eraan komt, en dat alle uitdagingen die ik in dit artikel schets, ofwel nu oplosbaar zijn, ofwel uiteindelijk zullen worden opgelost. Waar mogelijk, geef ik voorbeelden hiervoor. Bovendien richt ik me niet op de vraag of huidige of toekomstige wetenschappelijke schrijf-AI’s in staat zullen zijn begrijpelijk te schrijven; op basis van het huidige niveau van interesse in dit deel van NLP, ga ik ervan uit dat deze uitdaging uiteindelijk zal worden opgelost.

In plaats daarvan vraag ik me af of een wetenschappelijke schrijver-AI in staat zal zijn relevante wetenschappelijke verhalen te identificeren in overeenstemming met de (zeer uiteenlopende) gewenste resultaten van uitgevers.

Ik denk niet dat het imminent is; op basis van het doorzoeken van de koppen en/of kopieën van ongeveer 2000 nieuwe wetenschappelijke artikelen over machine learning elke week, heb ik een nogal meer cynische kijk op de mate waarin academische inzendingen algoritmisches kunnen worden afgebroken, hetzij voor het doel van academische indexering, hetzij voor wetenschappelijke journalistiek. Zoals gewoonlijk zijn het die vervloekte mensen die in de weg zitten.

Vereisten voor de geautomatiseerde wetenschappelijke schrijver

Laten we de uitdaging van het automatiseren van wetenschappelijke verslaggeving over de laatste academische onderzoek onderzoeken. Om het eerlijk te houden, zullen we ons meestal beperken tot de CS-categorieën van het zeer populaire niet-betaalde Arxiv-domein van Cornell University, dat tenminste een aantal systematische, gesjabloneerde functies heeft die in een datapipeline kunnen worden geplaatst.

Laten we ervan uitgaan dat de taak die voor ons ligt, net als bij het nieuwe artikel uit Brazilië, bestaat uit het doorlopen van de titels, samenvattingen, metadata en (indien gerechtvaardigd) de bodyinhoud van nieuwe wetenschappelijke artikelen op zoek naar constanten, betrouwbare parameters, tokens en actiebare, reducible domeininformatie.

Dit is, na alles, het principe waarop zeer succesvolle nieuwe kaders terrein winnen in gebieden als aardbevingsrapportage, sportverslaggeving, financiële journalistiek en gezondheidszorg, en een redelijke vertrekpunt voor de AI-gepowered wetenschappelijke journalist.

De workflow van de nieuwe Braziliaanse aanbieding. Het PDF-wetenschappelijke artikel wordt omgezet in UTF-8-plain text (hoewel dit de cursieve benadrukkingen die semantische betekenis kunnen hebben, zal verwijderen), en artikelsecties gelabeld en geëxtraheerd voordat ze worden doorgegeven voor tekstfiltering. Deconstrueerde tekst wordt gebroken in zinnen als data-frames, en de data-frames samengevoegd voordat tokenidentificatie, en generatie van twee doc-token matrices Bron: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

De workflow van de nieuwe Braziliaanse aanbieding. Het PDF-wetenschappelijke artikel wordt omgezet in UTF-8-plain text (hoewel dit de cursieve benadrukkingen die semantische betekenis kunnen hebben, zal verwijderen), en artikelsecties gelabeld en geëxtraheerd voordat ze worden doorgegeven voor tekstfiltering. Deconstrueerde tekst wordt gebroken in zinnen als data-frames, en de data-frames samengevoegd voordat tokenidentificatie, en generatie van twee doc-token matrices Bron: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Complicerende sjabloon

Een bemoedigend laagje conformiteit en regularisatie is dat Arxiv een vrij goed afgedwongen sjabloon voor inzendingen oplegt, en gedetailleerde richtlijnen biedt voor auteurs die inzendingen doen. Daarom voldoen papers over het algemeen aan welke delen van het protocol van toepassing zijn op het werk dat wordt beschreven.

Zo kan het AI-voorbewerkingssysteem voor de vermeende geautomatiseerde wetenschappelijke schrijver deze secties over het algemeen behandelen als subdomeinen: samenvatting, inleiding, gerelateerd/voorafgaand werk, methodologie/gegevens, resultaten/bevindingen, ablatiestudies, bespreking, conclusie.

Echter, in de praktijk kunnen sommige van deze secties ontbreken, worden hernoemd, of inhoud bevatten die, strikt genomen, in een andere sectie thuishoort. Bovendien zullen auteurs van nature kopteksten en subkopteksten opnemen die niet overeenkomen met het sjabloon. Daarom zal het aan NLP/NLU zijn om pertinente sectie-gerelateerde inhoud te identificeren vanuit de context.

Op weg naar problemen

Een kophiërarchie is een eenvoudige manier voor NLP-systemen om eerst blokken inhoud te categoriseren. Veel Arxiv-inzendingen worden geëxporteerd uit Microsoft Word (zoals blijkt uit de verkeerd afgehandelde Arxiv-PDF’s die ‘Microsoft Word’ in de titelkoptekst laten staan – zie afbeelding hieronder). Als u sectiekopteksten in Word gebruikt, zal een export naar PDF deze als hiërarchische kopteksten opnieuw creëren die nuttig zijn voor de dataprocessen van een machineverslaggever.

Echter, dit gaat ervan uit dat auteurs deze functies in Word gebruiken, of andere documentcreatiemodellen, zoals TeX en derivaten (zelden aangeboden als native alternatieve formaten in Arxiv-inzendingen, met de meeste aanbiedingen beperkt tot PDF en, af en toe, het nog meer ondoorzichtige PostScript).

Op basis van jarenlang lezen van Arxiv-papers, heb ik opgemerkt dat de overgrote meerderheid ervan geen enkele interpreteerbare structuurmetadata bevat, met de titel gerapporteerd in de reader (d.w.z. een webbrowser of een PDF-lezer) als de volledige titel (inclusief extensie), van het document zelf.

In dit geval is de semantische interpreteerbaarheid van het artikel beperkt, en een AI-gebaseerd wetenschappelijk schrijversysteem zal moeten programmeren om het opnieuw te koppelen aan de geassocieerde metadata op het Arxiv-domein. Arxiv-conventie dicteert dat basis-metadata ook lateraal wordt ingevoegd in grote grijze letters op pagina 1 van een ingediend PDF (zie afbeelding hieronder). Helaas – niet in de laatste plaats omdat dit de enige betrouwbare plek is waar je een publicatiedatum of versienummer kunt vinden – wordt het vaak uitgesloten.

Veel auteurs gebruiken geen stijlen, of alleen de H1 (hoogste koptekst/titel) stijl, waardoor NLU opnieuw kopteksten moet extraheren uit de context (waarschijnlijk niet zo moeilijk), of door de referentienummer te parseren dat de titel in het documentroute vormt (d.w.z. https://arxiv.org/pdf/2110.00168.pdf) en gebruik te maken van net-gebaseerde (in plaats van lokale) metadata voor de inzending.

Hoewel dit laatste de ontbrekende kopteksten niet zal oplossen, zal het tenminste aangeven tot welke sectie van Computer Science de inzending behoort, en zal het publicatiedatum en versienummer informatie verschaffen.

GluedText bij ParagraphReturns

Met PDF en postscript als meest voorkomende beschikbare Arxiv-formaten die door auteurs worden ingediend, zal het NLP-systeem een routine nodig hebben om eind-van-regelwoorden te splitsen van de start-van-volgende-regelwoorden die eraan worden vastgemaakt onder PDF-formats onfortuinlijke standaardoptimalisatie-methoden.

Deconcateneren (en dehyfeniseren) van woorden kan worden gedaan in Perl en vele andere eenvoudige recursieve routines, hoewel een Python-gebaseerde benadering minder tijdrovend en beter aangepast kan zijn aan een ML-kader. Adobe, de oorsprong van het PDF-formaat, heeft ook een AI-geactiveerd conversiesysteem ontwikkeld genaamd Liquid Mode, dat in staat is om ‘opnieuw te flowen’ gebakken tekst in PDF’s, hoewel de implementatie ervan buiten de mobiele ruimte langzaam is gebleken.

Slecht Engels

Engels blijft de wereldwijde wetenschappelijke standaard voor het indienen van wetenschappelijke artikelen, zelfs als dit omstreden is. Daarom bevatten interessante en nieuwsfeitartikelen soms slechte standaarden van Engels, van niet-Engelstalige onderzoekers. Als een vaardig gebruik van Engels wordt opgenomen als een metric van waarde wanneer een machine-systeem de waarde van het werk evalueert, dan zullen niet alleen goede verhalen vaak verloren gaan, maar zal pedantie lagere waarde-uitvoer hoger worden gewaardeerd, alleen omdat het weinig zegt op een goede manier.

NLP-systemen die onbuigzaam zijn in dit opzicht, zullen waarschijnlijk een extra laag obstakels ervaren bij gegevensextractie, behalve in de meest rigide en geparametriseerde wetenschappen, zoals chemie en theoretische fysica, waar grafieken en tabellen meer uniform zijn over globale wetenschappelijke gemeenschappen. Hoewel machine learning-papers vaak formules bevatten, kunnen deze niet noodzakelijkerwijs de definitieve waarde van de inzending vertegenwoordigen, in de afwezigheid van de volledig gevestigde wetenschappelijke consensus over methodologie die oudere wetenschappen genieten.

Selectie: bepaling van de eisen van het publiek

We zullen spoedig terugkeren naar de vele problemen van het decomponeren van excentrieke wetenschappelijke artikelen in discrete datapunten. Nu, laten we ons publiek en doelen overwegen, aangezien deze essentieel zullen zijn om de wetenschappelijke schrijver-AI te helpen om door duizenden artikelen per week te zoeken. Het voorspellen van het succes van potentiële nieuwsverhalen is al een actief gebied in machine learning.

Als, bijvoorbeeld, een hoge volumewetenschappelijke verkeer het enige doel is op een website waar wetenschappelijk schrijven slechts één plank is van een bredere journalistieke aanbieding (zoals het geval is met de Britse Daily Mail wetenschapssectie), zal een AI moeten bepalen welke onderwerpen het meeste verkeer genereren, en optimaliseren naar dat. Dit proces zal waarschijnlijk prioriteit geven aan (relatief) lage vruchten zoals robots, drones, deepfakes, privacy en beveiligingskwetsbaarheden.

In lijn met de huidige stand van de techniek in aanbevelingssystemen, zal deze hoge niveau-oogst waarschijnlijk leiden tot ‘filter bubble’-problemen voor onze wetenschappelijke schrijver-AI, aangezien het algoritme meer aandacht besteedt aan een reeks meer twijfelachtige wetenschappelijke artikelen die ‘wenselijke’ hoogfrequente trefwoorden en frases op deze onderwerpen bevatten (opnieuw, omdat er geld in zit, zowel in termen van verkeer voor nieuwsuitgevers, als financiering voor academische afdelingen), terwijl het enkele van de veel meer schrijfbare ‘paaseieren’ (zie hieronder) die in veel van de minder bezochte hoeken van Arxiv kunnen worden gevonden, negeert.

Eén en klaar!

Goed wetenschappelijk nieuwsvoer kan komen uit vreemde en onverwachte plaatsen, en van eerder onvruchtbare sectoren en onderwerpen. Om onze AI-wetenschappelijke schrijver verder te verwarren, die had gehoopt om een productieve index van ‘vruchtbare’ nieuwsbronnen te creëren, zal de bron van een ongebruikelijke ‘hit’ (zoals een Discord-server, een academische onderzoeksafdeling of een technologie-startup) vaak nooit weer actiebaar materiaal produceren, terwijl het blijft uitgeven van een omvangrijke en lawaaierige informatiestroom van lagere waarde.

Wat kan een iteratief machine learning-architectuur afleiden uit dit? Dat de vele duizenden eerdere ‘outlier’-nieuwsbronnen die het eerder had geïdentificeerd en uitgesloten, plotseling moeten worden geprioriteerd (ook al zou dit een onbeheersbaar signaal-ruisverhouding creëren, gezien het hoge volume aan artikelen dat elk jaar wordt uitgegeven)? Dat het onderwerp zelf waardiger is van een activatielaag dan de nieuwsbron waar het vandaan kwam (wat, in het geval van een populair onderwerp, een overbodige actie is)..?

Meer nuttig, het systeem kan leren dat het moet opschuiven of afdalen in de datapluraliteitshiërarchie op zoek naar patronen – als er echt zijn – die het kenmerk nieuwsfeit definiëren als een zwervend en abstracte kwaliteit die niet nauwkeurig kan worden voorspeld op basis van herkomst alleen, en die kan worden verwacht om dagelijks te muteren.

Identificatie van hypothese-falen

Vanwege quota-druk zullen academische afdelingen soms werken publiceren waarbij de centrale hypothese volledig (of bijna volledig) is mislukt in testen, zelfs als de methoden en bevindingen van het project niettemin de moeite waard zijn om enigszins interesse te wekken.

Dergelijke teleurstellingen worden vaak niet gesignaleerd in samenvattingen; in de slechtste gevallen zijn weerlegde hypothesen alleen te zien door de resultaatgrafieken te lezen. Dit houdt niet alleen in dat een gedetailleerd begrip van de methodologie moet worden afgeleid uit de zeer selectieve en beperkte informatie die het artikel kan bieden, maar zou ook in staat moeten zijn om grafieken en tabellen zinvol te interpreteren in context.

Een NLP-gebaseerd systeem dat vertrouwt op de samenvattingen maar de grafieken en tabellen niet kan interpreteren, kan zich in eerste instantie erg opgewonden krijgen over een nieuw artikel. Helaas zijn eerdere voorbeelden van ‘verborgen falen’ in academische artikelen (voor trainingsdoeleinden) moeilijk te generaliseren tot patronen, aangezien dit ‘academisch misdrijf’ voornamelijk een kwestie is van weglating of onderbenadrukking, en daarom moeilijk te detecteren.

In een extreme zaak kan onze AI-schrijver repository-gegevens (d.w.z. van GitHub) moeten lokaliseren en testen, of beschikbare aanvullende materialen moeten parseren, om te begrijpen wat de resultaten betekenen in termen van de doelen van de auteurs. Daarom zal een machine learning-systeem moeten navigeren door de meerdere ongekaarte bronnen en formaten die hierbij zijn betrokken, waardoor automatisering van verificatieprocessen een beetje een architectonische uitdaging wordt.

‘Witte doos’-scenario’s

Sommige van de meest schokkende claims die in AI-gecentreerde beveiligingsartikelen worden gedaan, blijken buitengewone en zeer onwaarschijnlijke niveaus van toegang tot de broncode of bron-infrastructuur te vereisen – ‘witte doos’-aanvallen. Hoewel dit nuttig is voor het extrapoleren van eerder onbekende eigenaardigheden in de architectuur van AI-systemen, vertegenwoordigt het bijna nooit een realistisch exploiteerbare aanvalskwetsbaarheid. Daarom zal de AI-wetenschappelijke schrijver een behoorlijk goede bullshitdetector nodig hebben om claims over beveiliging te decomponeren in waarschijnlijkheden voor effectieve inzet.

De geautomatiseerde wetenschappelijke schrijver zal een capabele NLU-routine nodig hebben om ‘witte doos’-vermeldingen te isoleren in een zinvolle context (d.w.z. om vermeldingen te onderscheiden van core-implicaties voor het artikel), en de mogelijkheid om ‘witte doos’-methodologie af te leiden in gevallen waarin de frase nooit in het artikel voorkomt.

Andere ‘gotchas’

Andere plaatsen waar onuitvoerbaarheid en hypothese-falen kunnen eindigen zijn in de ablatiestudies, die systematisch essentiële elementen van een nieuwe formule of methode wegnemen om te zien of de resultaten negatief worden beïnvloed, of als een ‘core’-ontdekking robuust is. In de praktijk zijn artikelen die ablatiestudies bevatten meestal erg zelfverzekerd over hun bevindingen, hoewel een zorgvuldige lezing vaak een ‘bluf’ kan ontdekken. In AI-onderzoek is die bluf vaak overfitting, waarbij een machine learning-systeem uitstekend presteert op de oorspronkelijke onderzoeksgegevens, maar niet generaliseert naar nieuwe gegevens, of anderszins onder niet-reproduceerbare beperkingen werkt.

Een andere nuttige sectiekoptekst voor potentiële systematische extractie is beperkingen. Dit is de allereerste sectie die elke wetenschappelijke schrijver (AI of mens) zou moeten overslaan, aangezien het informatie kan bevatten die de hele hypothese van het artikel tenietdoet, en naar voren springen kan uren van werk verliezen (tenminste, voor de mens). Een worst-case scenario hier is dat een artikel eigenlijk een beperkingen-sectie heeft, maar de ‘compromitterende’ feiten zijn opgenomen elders in het werk, en niet hier (of worden hier onderbelicht).

Vervolgens is eerder werk aan de beurt. Dit komt vroeg in het Arxiv-sjabloon voor en onthult vaak dat het huidige artikel slechts een kleine vooruitgang vertegenwoordigt ten opzichte van een veel innovatiever project, meestal uit de afgelopen 12-18 maanden. Op dit punt zal de AI-schrijver de mogelijkheid moeten hebben om te bepalen of het eerdere werk aandacht kreeg; is er nog een verhaal hier? Is het eerdere werk onterecht aan de aandacht van het publiek ontsnapt op het moment van publicatie? Of is het nieuwe artikel gewoon een perfunctorische postscriptum van een eerder project dat al goed werd gedekt?

Evaluatie van herhalingen en ‘versheid’

Naast het corrigeren van errata in een eerdere versie, vertegenwoordigt V.2 van een artikel vaak niets meer dan de auteurs die smeken om de aandacht die ze niet kregen toen V.1 werd gepubliceerd. Vaak verdient een artikel echter een tweede kans, omdat mediabelangstelling elders kan zijn afgeleid op het moment van oorspronkelijke publicatie, of omdat het werk werd overschaduwd door hoge verkeersvolumes in overvolle ‘symposium’- en conferentieperioden (zoals herfst en late winter).

Een nuttig kenmerk in Arxiv om een herhaling te onderscheiden, is de [BIJGEWERKT] tag die aan inzendingstitels is toegevoegd. Onze AI-schrijver zal zijn interne ‘aanbevelingssysteem’ zorgvuldig moeten overwegen of [BIJGEWERKT] ‘uitgespeeld’ betekent, vooral omdat het (vermoedelijk) het opgewarmde artikel veel sneller kan evalueren dan een hard-geperste wetenschappelijke journalist. In dit opzicht heeft het een aanzienlijk voordeel ten opzichte van mensen, dankzij een naamconventie die waarschijnlijk zal voortduren, tenminste bij Arxiv.

Arxiv biedt ook informatie op de samenvattingpagina over of het artikel is geïdentificeerd als having ‘aanzienlijke overlap’ van tekst met een ander artikel (vaak door dezelfde auteurs), en dit kan ook potentieel worden geparseerd in een ‘dubbele/ herhaling’-status door een AI-schrijversysteem in de afwezigheid van de [BIJGEWERKT] tag.

Bepaling van diffusie

Net als de meeste journalisten, is onze vermeende AI-wetenschappelijke schrijver op zoek naar ongerapporteerde of ondergerapporteerde nieuws, om waarde toe te voegen aan de inhoudsstroom die het ondersteunt. In de meeste gevallen is het opnieuw rapporteren van wetenschappelijke doorbraken die voor het eerst zijn gepresenteerd in grote uitgevers als TechCrunch, The Verge en EurekaAlert et al zinloos, aangezien dergelijke grote platforms hun inhoud ondersteunen met uitputtende publiciteitsmachines, die vrijwel garanderen dat het artikel media-saturatie bereikt.

Daarom moet onze AI-schrijver bepalen of het verhaal vers genoeg is om het waard te zijn om na te streven.

De eenvoudigste manier, in theorie, zou zijn om recente inbound links naar de kernonderzoekspagina’s (samenvatting, PDF, academische afdelingswebsite-nieuwssectie, enz.) te identificeren. In het algemeen zijn kaders die up-to-date inbound link-informatie kunnen bieden, niet open source of laagdrempelig, maar grote uitgevers kunnen waarschijnlijk de SaaS-kosten dragen als onderdeel van een nieuwsfeit-evaluatiekader.

Aannemend dat dergelijke toegang beschikbaar is, wordt onze wetenschappelijke schrijver-AI geconfronteerd met het probleem dat een groot aantal wetenschappelijke rapportage-uitgevers het artikel niet citeren waarover ze schrijven, zelfs in gevallen waarin die informatie vrij beschikbaar is. Per slot van rekening wil een uitgever dat secundaire rapportage naar hen linkt, in plaats van naar de bron. Aangezien ze in veel gevallen daadwerkelijk voorafgaande toegang hebben tot een onderzoeksartikel (zie De ‘sociale’ wetenschappelijke schrijver hieronder), hebben ze een oneerlijk voorwendsel hiervoor.

Daarom zal onze AI-schrijver actiebare trefwoorden uit een artikel moeten extraheren en tijdsbeperkte zoekopdrachten moeten uitvoeren om te bepalen waar, indien ergens, het verhaal al is gebroken – en vervolgens evalueren of enige eerdere diffusie kan worden genegeerd, of dat het verhaal is uitgespeeld.

Soms bieden artikelen aanvullend videomateriaal op YouTube, waar de ‘weergave-telling’ kan dienen als een index van diffusie. Bovendien kan onze AI afbeeldingen uit het artikel extraheren en systematische afbeeldingsgebaseerde zoekopdrachten uitvoeren om te bepalen of, waar en wanneer enige van de afbeeldingen zijn heruitgegeven.

Paaseieren

Soms onthult een ‘droog’ artikel bevindingen die diepe en nieuwsfeitachtige implicaties hebben, maar die worden onderbelicht (of zelfs over het hoofd gezien of genegeerd) door de auteurs, en zullen alleen worden onthuld door het hele artikel te lezen en de wiskunde te doen.

In zeldzame gevallen geloof ik dat dit komt omdat de auteurs veel meer geïnteresseerd zijn in de receptie in de academische wereld dan in het algemene publiek, misschien omdat ze voelen (niet altijd onterecht) dat de kernconcepten die hierbij betrokken zijn, eenvoudigweg niet kunnen worden vereenvoudigd voor algemeen verbruik, ondanks de vaak hyperbolische inspanningen van hun instellingen PR-afdelingen.

Maar ongeveer even vaak kunnen de auteurs de implicaties van hun werk negeren of anderszins niet zien of erkennen, opererend onder ‘wetenschappelijke afstand’. Soms worden deze ‘paaseieren’ niet positief geïndiceerd voor het werk, zoals hierboven vermeld, en kunnen ze cynisch worden verborgen in complexe tabellen van bevindingen.

Verder dan Arxiv

Het moet worden overwogen dat het parameteriseren van artikelen over computerwetenschappen in discrete tokens en entiteiten veel gemakkelijker zal zijn op een domein zoals Arxiv, dat een aantal consistente en gesjabloneerde ‘haakjes’ biedt om te analyseren, en geen inloggegevens vereist voor de meeste functionaliteit.

Niet alle wetenschappelijke publicatie-toegang is open source, en het resteert om te zien of (vanuit een praktisch of juridisch oogpunt) onze AI-wetenschappelijke schrijver kan of zal proberen om paywalls te omzeilen via Sci-Hub; om archiveringsites te gebruiken om paywalls te omzeilen; en of het praktisch is om soortgelijke domein-mijnbouwarchitecturen te construeren voor een breed scala aan andere wetenschappelijke publicatieplatforms, veel van welke structureel resistent zijn tegen systematische sonderingen.

Het moet verder worden overwogen dat zelfs Arxiv limieten heeft die waarschijnlijk de nieuwsbeoordelingsroutines van een AI-schrijver zullen vertragen tot een meer ‘menselijke’ snelheid.

De ‘sociale’ AI-wetenschappelijke schrijver

Verder dan het open en toegankelijke domein van Arxiv en soortgelijke ‘open’ wetenschappelijke publicatieplatforms, kan het verkrijgen van toegang tot een interessant nieuw artikel een uitdaging zijn, waarbij het lokaliseren van een contactkanaal voor een auteur en het benaderen ervan om het werk te lezen, en zelfs om citaten te verkrijgen (waar tijdsdruk geen overweldigende factor is – een zeldzame zaak voor menselijke wetenschappelijke journalisten deze dagen), nodig is.

Dit kan het automatisch doorzoeken van wetenschappelijke domeinen en het creëren van accounts (u moet zijn aangemeld om de e-mailadres van een auteur van een artikel te onthullen, zelfs op Arxiv) inhouden. Meestal is LinkedIn de snelste manier om een reactie te krijgen, maar AI-systemen zijn momenteel verboden om leden te benaderen.

Wat betreft hoe onderzoekers e-mailverzoeken van een wetenschappelijke schrijver-AI zouden ontvangen – nou, zoals in de vleesware-wetenschappelijke schrijfwereld, hangt het waarschijnlijk af van de invloed van de uitgever. Als een vermeende AI-gebaseerde schrijver van Wired een auteur zou benaderen die zijn werk wilde verspreiden, is het redelijk om aan te nemen dat het niet op een vijandige reactie zou stuiten.

In de meeste gevallen kunt u zich voorstellen dat de auteur zou hopen dat deze half-geautomatiseerde uitwisselingen uiteindelijk een mens in de lus zouden roepen, maar het is niet ondenkbaar dat follow-up VOIP-gesprekken zouden kunnen worden gefaciliteerd door een AI, tenminste waar de levensvatbaarheid van het artikel wordt voorspeld onder een bepaalde drempel, en waar de publicatie voldoende tractie heeft om menselijke deelname in een gesprek met een ‘AI-onderzoeker’ aan te trekken.

Identificatie van nieuws met AI

Veel van de principes en uitdagingen die hier worden uiteengezet, zijn van toepassing op het potentieel van automatisering in andere sectoren van de journalistiek, en, zoals het altijd was, het identificeren van een potentieel verhaal is de kernuitdaging. De meeste menselijke journalisten zullen toegeven dat het daadwerkelijk schrijven van het verhaal slechts de laatste 10% van de inspanning is, en dat tegen de tijd dat de toetsenbordklavier klettert, het werk grotendeels voorbij is.

De grote uitdaging is dan ook om AI-systemen te ontwikkelen die een verhaal kunnen opsporen, onderzoeken en valideren, op basis van de vele arcana van het nieuwsspel, en door een enorm bereik van platforms die al zijn gehard tegen sonderingen en exfiltratie, menselijk of anderszins.

In het geval van wetenschappelijke verslaggeving hebben de auteurs van nieuwe artikelen een even diepe zelfdienende agenda als elke andere potentiële primaire bron van een nieuwsverhaal, en het deconstrueren van hun output zal het inbedden van voorafgaande kennis over sociologische, psychologische en economische motivaties vereisen. Daarom zal een vermeende geautomatiseerde wetenschappelijke schrijver meer nodig hebben dan reductieve NLP-routines om te bepalen waar het nieuws vandaag is, tenzij het nieuwsdomein bijzonder gestructureerd is, zoals bij aandelen, pandemiecijfers, sportresultaten, seismische activiteit en andere puur statistische nieuwsbronnen.

Schrijver over machine learning, domeinspecialist in menselijke beeldsynthese. Voormalig hoofd onderzoekscontent bij Metaphysic.ai.