Kontakt med oss

Mot automatisert vitenskapelig skriving

Kunstig intelligens

Mot automatisert vitenskapelig skriving

mm

I morges, mens jeg trålte informatikkseksjonene av Arxiv, som jeg gjør de fleste morgener, kom jeg over en nylig papir fra Federal University of Ceara i Brasil, og tilbyr et nytt Natural Language Processing-rammeverk for å automatisere oppsummering og utvinning av kjernedata fra vitenskapelige artikler.

Siden dette mer eller mindre er det jeg gjør hver dag, minnet avisen meg på en kommentar i en Reddit-forfattertråd tidligere i år – en prognose om at vitenskapelig skriving vil være blant de tidligste journalistiske jobbene som blir overtatt av maskinlæring.

La meg være tydelig - jeg tror absolutt at den automatiserte vitenskapsforfatteren kommer, og at alle utfordringene jeg skisserer i denne artikkelen enten kan løses nå, eller til slutt vil bli det. Der det er mulig gir jeg eksempler på dette. I tillegg tar jeg ikke opp hvorvidt nåværende eller nær fremtidig vitenskapsskrivende AIer vil være i stand til å skrive overbevisende; basert på gjeldende interessenivå I denne sektoren av NLP antar jeg at denne utfordringen til slutt vil bli løst.

Jeg spør heller om en vitenskapsskribent med kunstig intelligens vil være i stand til å identifisere relevante vitenskapelige historier i samsvar med de (svært varierte) ønskede resultatene til forlagene.

Jeg tror ikke det er nært forestående; basert på å ha trålet gjennom overskriftene og/eller lest overskrifter fra rundt 2000 nye vitenskapelige artikler om maskinlæring hver uke, har jeg et noe mer kynisk syn på i hvilken grad akademiske bidrag kan brytes ned algoritmisk, enten for akademisk indeksering eller for vitenskapelig journalistikk. Som vanlig er det de fordømte porsjoner som kommer i veien.

Krav for automatisert vitenskapsforfatter

La oss se på utfordringen med å automatisere vitenskapelig rapportering om den nyeste akademiske forskningen. For å holde det rettferdig, vil vi stort sett begrense det til datavitenskapskategoriene i de svært populære ikke-betalte plattformene. Arxiv-domene fra Cornell University, som i det minste har en rekke systematiske, malte funksjoner som kan plugges inn i en dataekstraksjonspipeline.

La oss også anta at oppgaven, som med den nye artikkelen fra Brasil, er å iterere gjennom titler, sammendrag, metadata og (hvis berettiget) hovedinnholdet i nye vitenskapelige artikler på jakt etter konstanter, pålitelige parametere, tokens og handlingsrettet, reduserbar domeneinformasjon.

Dette er tross alt prinsippet som er svært vellykket nye rammer vinner terreng på områdene til jordskjelvrapportering, sportsskriving, finansjournalistikk og helsedekning, og et rimelig utgangspunkt for den AI-drevne vitenskapsjournalisten.

Arbeidsflyten til det nye brasilianske tilbudet. PDF-vitenskapsoppgaven konverteres til UTF-8 ren tekst (selv om dette vil fjerne kursiv fremheving som kan ha semantisk betydning), og artikkelseksjoner merkes og trekkes ut før de sendes gjennom for tekstfiltrering. Dekonstruert tekst brytes inn i setninger som datarammer, og datarammene slås sammen før tokenidentifikasjon, og generering av to doc-token-matriser Kilde: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Arbeidsflyten til det nye brasilianske tilbudet. PDF-vitenskapsoppgaven konverteres til UTF-8 ren tekst (selv om dette vil fjerne kursiv fremheving som kan ha semantisk betydning), og artikkelseksjoner merkes og trekkes ut før de sendes gjennom for tekstfiltrering. Dekonstruert tekst brytes inn i setninger som datarammer, og datarammene slås sammen før tokenidentifikasjon og generering av to doc-tokenmatriser   Kilde: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Kompliserer malen

Et oppmuntrende lag av samsvar og regularisering er at Arxiv påtvinger en ganske godt håndhevet mal for innsendinger, og gir detaljerte retningslinjer for innsending av forfattere. Derfor samsvarer papirer generelt med de deler av protokollen som gjelder for arbeidet som beskrives.

Dermed kan AI-forbehandlingssystemet for den antatte automatiserte vitenskapsforfatteren generelt behandle slike seksjoner som underdomener: abstrakt, introduksjon, relatert/tidligere arbeid, metodikk/data, resultater/funn, ablasjonsstudier, diskusjon, konklusjon.

I praksis kan imidlertid noen av disse seksjonene mangle, ha fått nye navn eller inneholde innhold som strengt tatt hører hjemme i en annen seksjon. Videre vil forfattere naturligvis inkludere overskrifter og underoverskrifter som ikke samsvarer med malen. Dermed vil det falle opp til NLP/NLU å identifisere relevant seksjonsrelatert innhold fra konteksten.

På vei mot trøbbel

Et overskriftshierarki er en enkel måte for NLP-systemer å initialt kategorisere innholdsblokker. Mange Arxiv-innsendinger eksporteres fra Microsoft Word (som det fremgår av de feilhåndterte Arxiv PDF-ene som lar «Microsoft Word» stå i overskriften – se bildet nedenfor). Hvis du bruker riktig seksjonsoverskrifter i Word, vil en eksport til PDF gjenskape dem som hierarkiske overskrifter som er nyttige for datautvinningsprosessene til en maskinrapportør.

Dette forutsetter imidlertid at forfattere faktisk bruker slike funksjoner i Word, eller andre rammeverk for dokumentoppretting, som TeX og derivater (sjelden gitt som opprinnelige alternative formater i Arxiv-innleveringer, med de fleste tilbudene begrenset til PDF og noen ganger de enda mer ugjennomsiktige PostScript).

Basert på årevis med lesing av Arxiv-artikler, har jeg bemerket at de aller fleste av dem ikke inneholder noen tolkbare strukturelle metadata, med tittelen rapportert i leseren (dvs. en nettleser eller en PDF-leser) som den fulle tittelen (inkludert utvidelse), på selve dokumentet.

I dette tilfellet er artikkelens semantiske tolkningsevne begrenset, og et AI-basert system for vitenskapelig skribent må programmatisk koble den på nytt til de tilknyttede metadataene på Arxiv-domenet. Arxiv-konvensjonen dikterer at grunnleggende metadata også settes inn sidelengs med stor grå skrift på side 1 av en innsendt PDF (se bildet nedenfor). Dessverre – ikke minst fordi dette er det eneste pålitelige stedet du kan finne en publiseringsdato eller et versjonsnummer – blir det ofte ekskludert.

Mange forfattere bruker enten ingen stiler i det hele tatt, eller bare H1 (høyeste overskrift/tittel), og lar NLU igjen trekke ut overskrifter enten fra kontekst (sannsynligvis ikke så vanskelig), eller ved å analysere referansenummeret som utgjør tittelen i dokumentruten (dvs. https://arxiv.org/pdf/2110.00168.pdf) og benytter seg av nettbaserte (i stedet for lokale) metadata for innsendingen.

Selv om sistnevnte ikke løser fraværende overskrifter, vil den i det minste fastslå hvilken del av informatikk innleveringen gjelder, og gi informasjon om dato og versjon.

GluedText på ParagraphReturns

Siden PDF og Postscript er de vanligste tilgjengelige Arxiv-formatene som sendes inn av forfattere, trenger NLP-systemet en rutine for å dele ord på slutten av linjen fra ordene på begynnelsen av den påfølgende linjen som blir «festet» til dem under PDF-formatets uheldige standardoptimaliseringsmetoder.

De-konkatenering (og avbinde bindestrek) ord kan oppnås i Perl og mange andre enkle rekursive rutiner, men a Python-basert tilnærming kan være mindre tidkrevende og mer tilpasset et ML-rammeverk. Adobe, opphavsmannen til PDF-formatet, har også utviklet et AI-aktivert konverteringssystem kalt Væskemodus, i stand til å «omforme» bakt tekst i PDF-er, selv om utrullingen utover mobilområdet har vist seg å være treg.

Dårlig engelsk                                                

Engelsk er fortsatt den globale vitenskapelige standarden for å sende inn vitenskapelige artikler, selv om dette er det kontroversiell. Derfor inneholder interessante og nyhetsverdige aviser noen ganger forferdelige standarder for engelsk, fra ikke-engelske forskere. Hvis behendig bruk av engelsk er inkludert som en verdimåling når et maskinsystem evaluerer arbeidet, vil ikke bare gode historier ofte gå tapt, men pedantisk utgang med lavere verdi vil bli vurdert høyere rett og slett fordi det sier veldig lite veldig bra.

NLP-systemer som er lite fleksible i denne forbindelse vil sannsynligvis oppleve et ekstra lag med hindringer i datautvinning, bortsett fra i de mest rigide og parameteriserte vitenskapene, som kjemi og teoretisk fysikk, hvor grafer og diagrammer samsvarer mer jevnt på tvers av globale vitenskapssamfunn. Selv om maskinlæringsoppgaver ofte inneholder formler, representerer disse kanskje ikke den definerende verdien av innleveringen i fravær av den fullt etablerte vitenskapelige konsensus om metodikk som eldre vitenskaper nyter godt av.

Utvalg: Fastsettelse av publikumskrav

Vi kommer snart tilbake til de mange problemene med å dekomponere eksentriske vitenskapelige artikler til diskrete datapunkter. La oss nå se på målgruppen og målene våre, siden disse vil være avgjørende for å hjelpe vitenskapsskribenten med AI å sile gjennom tusenvis av artikler per uke. Å forutsi suksessen til potensielle nyhetsartikler er allerede ... et aktivt område innen maskinlæring.

Hvis for eksempel høyvolum av «vitenskapelig trafikk» er det eneste målet på et nettsted der vitenskapelig skriving bare er én del av et bredere journalistisk tilbud (slik tilfellet er med Storbritannias Daglig post vitenskapsseksjonen), kan det være nødvendig med en AI for å bestemme de mest innbringende emnene når det gjelder trafikk, og optimalisere utvalget mot det. Denne prosessen vil trolig prioritere (relativt) lavthengende frukt som f.eks roboter, droner, deepfakes, privatliv og sikkerhetsproblemer.

I tråd med den nåværende toppmoderne innen anbefalingssystemer, vil denne høynivåhøsten sannsynligvis føre til filterboble problemer for vår vitenskapsskribent AI, ettersom algoritmen gir økt oppmerksomhet til en rekke mer falske vitenskapelige artikler som inneholder «ønskelige» høyfrekvente nøkkelord og fraser om disse emnene (igjen, fordi det er penger å hente i dem, både når det gjelder trafikk, for nyhetskanaler og finansiering, for akademiske avdelinger), samtidig som den ignorerer noen av de mye mer skrivbare «påskeeggene» (se nedenfor) som finnes i mange av de mindre besøkte hjørnene av Arxiv.

En og ferdig!

Gode ​​vitenskapsnyheter kan komme fra merkelige og uventede steder, og fra tidligere ufruktbare sektorer og emner. For å forvirre vår AI-vitenskapsskribent, som håpet å lage en produktiv indeks over «fruktbare» nyhetskilder, vil kilden til en uvanlig «hit» (som en Discord-server, en akademisk forskningsavdeling eller en teknologisk oppstartsbedrift) ofte komme. produsere aldri mer handlingskraftig materiale, mens den fortsetter å sende ut en voluminøs og støyende informasjonsstrøm av mindre verdi.

Hva kan en iterativ maskinlæringsarkitektur utlede fra dette? At de mange tusen tidligere «utenomjordiske» nyhetskildene som den en gang identifiserte og ekskluderte, plutselig skal prioriteres (selv om det ville skapt et ustyrlig signal-til-støy-forhold, gitt det store volumet av artikler som publiseres hvert år)? At selve emnet er mer verdig et aktiveringslag enn nyhetskilden det kom fra (som, i tilfelle et populært emne, er en redundant handling)...?

Enda mer nyttig er det at systemet kan lære at det må bevege seg opp eller ned i datadimensjonalitetshierarkiet på jakt etter mønstre – hvis det virkelig finnes noen – som utgjør det min avdøde journalistbestefar kalte «en nese for nyheter», og definerer funksjonen. nyhetsverdig som en omreisende og abstrakt kvalitet som ikke kan forutsies nøyaktig basert på proveniens alene, og som kan forventes å mutere daglig.

Identifisere hypotesesvikt

Grunnet kvotepress, akademiske avdelinger vil noen ganger publisere arbeider der den sentrale hypotesen har feilet fullstendig (eller nesten fullstendig) i testing, selv om prosjektets metoder og funn likevel er verdt litt interesse i seg selv.

Slike skuffelser signaliseres ofte ikke i oppsummeringer; i de verste tilfellene kan avkreftede hypoteser bare sees ved å lese resultatgrafene. Dette innebærer ikke bare å utlede en detaljert forståelse av metodikken fra den svært utvalgte og begrensede informasjonen papiret kan gi, men vil kreve dyktige graftolkningsalgoritmer som meningsfullt kan tolke alt fra et sektordiagram til et spredningsplott, i kontekst.

Et NLP-basert system som stoler på sammendragene, men ikke kan tolke grafene og tabellene, kan bli ganske begeistret over en ny artikkel ved første lesning. Dessverre er tidligere eksempler på «skjult feil» i akademiske artikler (for opplæringsformål) vanskelige å generalisere til mønstre, siden denne «akademiske forbrytelsen» primært er utelatelse eller undervektlegging, og derfor unnvikende.

I et ekstremt tilfelle kan det hende at vår AI-forfatter må finne og teste depotdata (dvs. fra GitHub), eller analysere tilgjengelig tilleggsmateriale for å forstå hva resultatene betyr i forhold til forfatternes mål. Dermed vil et maskinlæringssystem måtte krysse de mange ikke-kartlagte kildene og formatene som er involvert i dette, noe som gjør automatisering av verifiseringsprosesser litt av en arkitektonisk utfordring.

«Hvite boks»-scenarier

Noen av de mest opprørende påstandene i AI-sentrerte sikkerhetsartikler viser seg å kreve ekstraordinære og svært usannsynlige nivåer av tilgang til kildekoden eller kildeinfrastrukturen – «hvitboksangrep». Selv om dette er nyttig for å ekstrapolere tidligere ukjente særegenheter i arkitekturen til AI-systemer, representerer det nesten aldri en realistisk utnyttbar angrepsflate. Derfor vil AI-vitenskapsskribenten trenge en ganske god bullshit-detektor for å dekomponere påstander om sikkerhet til sannsynligheter for effektiv utrulling.

Den automatiserte vitenskapsskribenten vil trenge en dyktig NLU-rutine for å isolere «hvit boks»-omtaler i en meningsfull kontekst (dvs. for å skille omtaler fra sentrale implikasjoner for artikkelen), og evnen til å utlede hvit boks-metodikk i tilfeller der frasen aldri vises i artikkelen.

Andre «fatninger»

Andre steder hvor ugjennomførbarhet og hypotesesvikt kan ende opp ganske begravd er i ablasjonsstudier, som systematisk fjerner viktige elementer fra en ny formel eller metode for å se om resultatene påvirkes negativt, eller om en «kjerne»-oppdagelse er robust. I praksis er artikler som inkluderer ablasjonsstudier vanligvis ganske sikre på funnene sine, selv om en nøye lesning ofte kan avdekke en «bløff». Innen AI-forskning ender denne bløffen ofte med overtilpassing, der et maskinlæringssystem yter beundringsverdig på de originale forskningsdataene, men ikke klarer å generalisere til nye data, ellers opererer under andre ikke-reproduserbare begrensninger.

En annen nyttig seksjonsoverskrift for potensiell systematisk utvinning er BegrensningerDette er den aller første delen enhver vitenskapsskribent (AI eller menneske) bør hoppe over, siden den kan inneholde informasjon som ugyldiggjør hele hypotesen i artikkelen, og å hoppe videre til den kan spare tapte arbeidstimer (i hvert fall for mennesket). Et verst tenkelig scenario her er at en artikkel faktisk har en Begrensninger seksjon, men de «kompromitterende» faktaene er inkludert andre steder i verket, og ikke her (eller er underspilt her).

Neste er Tidligere arbeid. Dette skjer tidlig i Arxiv-malen, og avslører ofte at den nåværende artikkelen bare representerer et mindre fremskritt på et mye mer innovativt prosjekt, vanligvis fra de foregående 12-18 månedene. På dette stadiet vil AI-forfatteren trenge evnen til å fastslå om det tidligere arbeidet oppnådde trekkraft; er det fortsatt en historie her? Gled det tidligere verket ufortjent forbi offentlig kunngjøring på publiseringstidspunktet? Eller er den nye artikkelen bare et overfladisk etterskrift til et godt dekket tidligere prosjekt?

Evaluering av ommønstrede dekk og «friskhet»

Bortsett fra å korrigere feil i en tidligere versjon, representerer ofte V.2 av en artikkel lite mer enn forfatternes krav om oppmerksomheten de ikke fikk da V.1 ble publisert. Ofte fortjener imidlertid en artikkel en ekstra omgang, ettersom medieoppmerksomheten kan ha blitt avledet andre steder på tidspunktet for den opprinnelige publiseringen, eller arbeidet ble skjult av høy trafikk av bidrag i overfylte «symposium»- og konferanseperioder (som høst og sen vinter).

En nyttig funksjon hos Arxiv for å skille mellom nye oppgaver er [OPPDATERT]-taggen som er lagt til i titlene på innsendingene. Vårt interne «anbefalingssystem» for kunstig intelligens-skribenter må nøye vurdere om [OPPDATERT]=='Utspilt', spesielt siden den (antagelig) kan evaluere det oppvarmede papiret mye raskere enn et hardt presset vitenskapelig hack. I denne forbindelse har den en betydelig fordel over mennesker, takket være en navnekonvensjon som sannsynligvis vil vare, i hvert fall hos Arxiv.

Arxiv gir også informasjon på sammendragssiden om hvorvidt artikkelen har blitt identifisert som å ha «betydelig overlapping» av tekst med en annen artikkel (ofte av de samme forfatterne), og dette kan potensielt også analyseres til en «duplikat/regummiert»-status av et AI-skrivesystem i fravær av [OPPDATERT]-taggen.

Bestemme diffusjon

Som de fleste journalister, leter vår prosjekterte AI-vitenskapsskribent etter urapporterte eller underrapporterte nyheter, for å tilføre verdi til innholdsstrømmen den støtter. I de fleste tilfeller ble gjenrapportering av vitenskapelige gjennombrudd først omtalt i store utsalgssteder som TechCrunch, The Verge og EurekaAlert et al er meningsløst, siden slike store plattformer støtter innholdet deres med uttømmende reklamemaskiner, som praktisk talt garanterer mediemetning for avisen.

Derfor må vår AI-forfatter finne ut om historien er fersk nok til å være verdt å forfølge.

Den enkleste måten i teorien er å identifisere nyere inngående linker til kjerneforskningssidene (sammendrag, PDF, nyhetsseksjon for akademisk avdelings nettsted, etc.). Generelt er ikke rammeverk som kan gi oppdatert informasjon om inngående koblinger åpen kildekode eller lavpris, men store utgivere kan antagelig bære SaaS-kostnadene som en del av et rammeverk for evaluering av nyhetsverdi.

Forutsatt slik tilgang, står vår vitenskapsskribent AI overfor problemet at et stort antall vitenskapsrapporterende utsalgssteder ikke siter artiklene de skriver om, selv i tilfeller der informasjonen er fritt tilgjengelig. Tross alt ønsker en kilde at sekundærrapportering skal lenke til dem, snarere enn kilden. Siden de i mange tilfeller faktisk har fått privilegert eller semi-privilegert tilgang til en forskningsartikkel (se Den samfunnsvitenskapelige forfatteren nedenfor), har de et uoppriktig påskudd for dette.

Derfor må AI-forfatteren vår trekke ut handlingsrettede nøkkelord fra en artikkel og utføre tidsbegrensede søk for å finne ut hvor, om noe sted, historien allerede har brutt – og deretter vurdere om noen tidligere spredning kan diskonteres, eller om historien spilles ut. .

Noen ganger tilbyr artikler supplerende videomateriale på YouTube, hvor «visningsantallet» kan tjene som en spredningsindeks. I tillegg kan vår AI trekke ut bilder fra artikkelen og utføre systematiske bildebaserte søk for å fastslå om, hvor og når noen av bildene har blitt publisert på nytt.

Easter Eggs

Noen ganger avslører en «tørr» artikkel funn som har dyptgripende og nyhetsverdige implikasjoner, men som blir undervurdert (eller til og med oversett eller nedtonet) av forfatterne, og som bare vil bli avslørt ved å lese hele artikkelen og gjøre regnestykket.

I sjeldne tilfeller tror jeg dette skyldes at forfatterne er langt mer opptatt av mottakelse i akademia enn allmennheten, kanskje fordi de føler (ikke alltid feilaktig) at de involverte kjernekonseptene rett og slett ikke kan forenkles nok til generell konsum, til tross for den ofte overdrevne innsatsen til institusjonenes PR-avdelinger.

Men omtrent like ofte kan forfatterne undervurdere eller på annen måte unnlate å se eller anerkjenne implikasjonene av arbeidet sitt, og operere offisielt under «vitenskapelig fjerning». Noen ganger er disse «påskeeggene» ikke positive indikatorer for arbeidet, som nevnt ovenfor, og kan være kynisk skjult i komplekse funntabeller.

Utover Arxiv

Det bør tas i betraktning at det vil være mye enklere å parametrisere artikler om informatikk til diskrete tokens og enheter på et domene som Arxiv, som tilbyr en rekke konsistente og malbaserte «hooks» å analysere, og ikke krever innlogging for de fleste funksjoner.

Ikke all tilgang til vitenskapelige publikasjoner er åpen kildekode, og det gjenstår å se om (fra et praktisk eller juridisk synspunkt) vår AI-vitenskapsskribent kan eller vil ty til å unnvike betalingsmurer gjennom Sci-hub; å bruke arkiveringssider til unngå betalingsmurer; og om det er praktisk mulig å konstruere lignende domeneutvinningsarkitekturer for en lang rekke andre vitenskapelige publiseringsplattformer, hvorav mange er strukturelt motstandsdyktige mot systematisk sondering.

Det bør videre vurderes at selv Arxiv har takstgrenser som sannsynligvis vil bremse en AI-skribents nyhetsevalueringsrutiner ned til en mer «menneskelig» hastighet.

Den «sosiale» AI-vitenskapsskribenten

Utover den åpne og tilgjengelige verdenen til Arxiv og lignende «åpne» vitenskapelige publiseringsplattformer, kan det være en utfordring å få tilgang til en interessant ny artikkel. Det innebærer å finne en kontaktkanal for en forfatter og henvende seg til dem for å be om å lese verket, og til og med for å innhente sitater (der tidspress ikke er en overordnet faktor – et sjeldent tilfelle for journalister innen humaniora i disse dager).

Dette kan innebære automatisk gjennomgang av vitenskapelige domener og opprettelse av kontoer (du må være logget inn for å avsløre e-postadressen til forfatteren av en artikkel, selv på Arxiv). Som oftest er LinkedIn den raskeste måten å få svar på, men AI-systemer er for tiden forbudt å kontakte medlemmer.

Hvordan forskere vil motta e-postanmodninger fra en vitenskapelig forfatter AI – vel, som med vitenskapsskrivende verden for kjøttvarer, avhenger det sannsynligvis av uttakets påvirkning. Hvis en antatt AI-basert forfatter fra Wired kontaktet en forfatter som var ivrig etter å spre arbeidet sitt, er det rimelig å anta at det kanskje ikke møter en fiendtlig respons.

I de fleste tilfeller kan man tenke seg at forfatteren håper at disse halvautomatiske utvekslingene til slutt kan tilkalle et menneske, men det er ikke utenkelig at oppfølgende VoIP-intervjuer kan legges til rette for av en AI, i hvert fall der artikkelens levedyktighet forventes å være under en viss terskel, og der publikasjonen har nok trekkraft til å tiltrekke seg menneskelig deltakelse i en samtale med en «AI-forsker».

Identifisere nyheter med AI

Mange av prinsippene og utfordringene som er skissert her gjelder potensialet for automatisering på tvers av andre sektorer av journalistikk, og som det alltid har vært, er det å identifisere en potensiell historie kjerneutfordringen. De fleste menneskelige journalister vil innrømme at det å skrive historien bare er de siste 10 % av innsatsen, og at når tastaturet klapper, er arbeidet stort sett over.

Den store utfordringen er derfor å utvikle AI-systemer som kan oppdage, undersøke og autentisere en historie, basert på de mange mystiske omskiftelsene i nyhetsspillet, og som krysser et stort spekter av plattformer som allerede er herdet mot sondering og eksfiltrering, menneskelig eller ellers.

Når det gjelder vitenskapelig rapportering, har forfatterne av nye artikler en like dyp egennyttig agenda som enhver annen potensiell primær kilde til en nyhetsartikkel, og å dekonstruere produksjonen deres vil innebære innebygging av forkunnskaper om sosiologiske, psykologiske og økonomiske motivasjoner. Derfor vil en antatt automatisert vitenskapsskribent trenge mer enn reduktive NLP-rutiner for å fastslå hvor nyhetene er i dag, med mindre nyhetsdomenet er spesielt stratifisert, slik tilfellet er med aksjer, pandemi-tall, sportsresultater, seismisk aktivitet og andre rent statistiske nyhetskilder .

 

Forfatter på maskinlæring, domenespesialist i menneskelig bildesyntese. Tidligere leder for forskningsinnhold hos Metaphysic.ai.
Personlig side: martinanderson.ai
Kontakt: [e-postbeskyttet]
Twitter: @manders_ai