Umělá inteligence
Směrem k automatizovanému vědeckému psaní

Dnes ráno jsem při procházení počítačových sekcí Arxivu, jako většinou ráno, narazil na nedávný papír z Federal University of Ceara v Brazílii, která nabízí nový rámec pro zpracování přirozeného jazyka pro automatizaci sumarizace a extrakce základních dat z vědeckých prací.
Protože tohle dělám víceméně každý den, článek mi připomněl komentář k vláknu pro autory na Redditu z počátku tohoto roku – prognózu, že psaní vědeckých článků bude jednou z prvních novinářských profesí, které převezme strojové učení.
Aby bylo jasno – já absolutně věřit že přichází autor automatizované vědy a že všechny výzvy, které nastíním v tomto článku, jsou buď řešitelné nyní, nebo nakonec budou. Kde je to možné, uvádím příklady. Navíc se nezabývám tím, zda současné nebo blízké budoucí umělé inteligence budou schopny zapsat přesvědčivě; založeno na aktuální úroveň zájmu V této oblasti NLP předpokládám, že tato výzva bude nakonec vyřešena.
Spíše se ptám, zda bude umělá inteligence píšící vědecké texty schopna identifikovat relevantní vědecké příběhy v souladu s (velmi různorodými) požadovanými výsledky vydavatelů.
Nemyslím si, že je to v bezprostřední blízkosti; na základě procházení titulků a/nebo kopií zhruba 2000 nových vědeckých článků o strojovém učení každý týden mám poněkud cyničtější názor na to, do jaké míry lze akademické příspěvky algoritmicky rozdělit, ať už pro účely akademického indexování nebo vědecké žurnalistiky. Jako obvykle jsou to ti zatracení... lidé které stojí v cestě.
Požadavky na automatizovaného vědeckého spisovatele
Podívejme se na výzvu automatizace vědeckého reportingu o nejnovějším akademickém výzkumu. Abychom byli spravedliví, omezíme se většinou na kategorie informačních technologií velmi populárního neplaceného obsahu. doména Arxiv z Cornell University, která má alespoň řadu systematických, šablonovaných funkcí, které lze zapojit do potrubí extrakce dat.
Předpokládejme také, že úkolem, který je před námi, stejně jako v případě nového článku z Brazílie, je iterovat názvy, shrnutí, metadata a (pokud je to odůvodněné) obsahem nových vědeckých článků a hledat konstanty, spolehlivé parametry, tokeny a akční, redukovatelné informace o doméně.
To je ostatně princip, na kterém je vysoce úspěšný nové rámce se prosazují v oblastech hlášení zemětřesení, sportovní psaní, finanční žurnalistika si zdravotní pojištěnía rozumný výchozí bod pro vědeckého novináře s umělou inteligencí.

Pracovní postup nové brazilské nabídky. Vědecká práce ve formátu PDF je převedena na prostý text UTF-8 (ačkoli tím se odstraní zdůraznění kurzívy, která může mít sémantický význam) a části článku jsou označeny a extrahovány předtím, než jsou předány k filtrování textu. Dekonstruovaný text je rozdělen na věty jako datové rámce a datové rámce jsou sloučeny před identifikací tokenu a generováním dvou matic doc-tokenů Zdroj: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf
Komplikace šablony
Jednou z povzbudivých vrstev souladu a regularizace je, že Arxiv zavádí docela dobře vynucenou šablonu pro podání a poskytuje podrobné pokyny pro přihlašující autory. Proto se dokumenty obecně shodují s těmi částmi protokolu, které se vztahují na popisovanou práci.
Systém předběžného zpracování AI pro domnělý automatizovaný vědecký spisovatel tedy může obecně považovat takové sekce za subdomény: abstraktní, úvod, související/předchozí práce, metodika/data, výsledky/zjištění, ablační studie, diskuse, závěr.
V praxi však některé z těchto sekcí mohou chybět, být přejmenovány nebo obsahovat obsah, který, striktně vzato, patří do jiné sekce. Autoři dále přirozeně zahrnují nadpisy a podnadpisy, které neodpovídají šabloně. Proto bude na NLP/NLU, aby identifikovala relevantní obsah související s danou sekcí z kontextu.
Směrem k potížím
Hierarchie záhlaví je pro systémy NLP snadný způsob, jak zpočátku kategorizovat bloky obsahu. Mnoho příspěvků z Arxivu se exportuje z Microsoft Wordu (jak dokazují špatně zpracované PDF soubory Arxiv, které v záhlaví názvu zůstávají „Microsoft Word“ – viz obrázek níže). Pokud použijete správné nadpisy oddílů ve Wordu, export do PDF je znovu vytvoří jako hierarchické nadpisy, které jsou užitečné pro procesy extrakce dat strojového reportéra.
To však předpokládá, že autoři skutečně používají takové funkce ve Wordu nebo jiných rámcích pro vytváření dokumentů, jako je TeX a odvozeniny (zřídka poskytované jako nativní alternativní formáty v podání Arxiv, přičemž většina nabídek je omezena na PDF a příležitostně ještě neprůhlednější PostScript).
Na základě let čtení článků v Arxivu jsem si všiml, že drtivá většina z nich neobsahuje žádný interpretovatelná strukturální metadata, s názvem hlášeným ve čtečce (tj. webový prohlížeč nebo čtečka PDF) jako úplný název (včetně přípony) samotného dokumentu.
V tomto případě je sémantická interpretovatelnost článku omezená a systém pro psaní vědeckých článků založený na umělé inteligenci jej bude muset programově znovu propojit s přidruženými metadaty v doméně Arxiv. Konvence Arxiv velí, že základní metadata jsou také vložena laterálně velkým šedým písmem na straně 1 odeslaného PDF (viz obrázek níže). Bohužel – v neposlední řadě proto, že je to jediné spolehlivé místo, kde najdete datum publikace nebo číslo verze – jsou často vyloučena.
Mnoho autorů buď nepoužívá vůbec žádné styly, nebo pouze styl H1 (nejvyšší záhlaví/titul), takže NLU nechá nadpisy znovu extrahovat. z kontextu (pravděpodobně to nebude tak obtížné), nebo analýzou referenčního čísla, které obsahuje název, v cestě dokumentu (tj. https://arxiv.org/pdf/2110.00168.pdf) a pro odeslání využívá síťová (spíše než místní) metadata.
Ačkoli to nevyřeší chybějící nadpisy, alespoň určí, které sekce informatiky se příspěvek týká, a poskytne informace o datu a verzi.
GluedText u odstavceReturns
Vzhledem k tomu, že PDF a postscript jsou nejběžnějšími dostupnými formáty Arxiv, které autoři odesílají, bude systém NLP potřebovat rutinu pro oddělení slov na konci řádku od slov na začátku následujícího řádku, která se k nim „připojí“ v rámci nešťastných výchozích optimalizačních metod formátu PDF.
De-concatenating (a de-hyphenizing) slova lze provést v Perlu a mnoho dalších jednoduchých rekurzivních rutin, ačkoli a Přístup založený na Pythonu může být méně časově náročné a více přizpůsobené rámci ML. Adobe, původce formátu PDF, také vyvinul konverzní systém s umělou inteligencí, tzv Kapalný režim, schopný „přeformátovat“ pečený text v PDF souborech, ačkoli jeho zavádění mimo mobilní prostor se ukázalo jako pomalé.
Špatná angličtina
Angličtina zůstává globálním vědeckým standardem pro předkládání vědeckých prací, i když tomu tak je kontroverzní. Proto zajímavé a zpravodajsky hodnotné noviny někdy obsahují otřesné standardy angličtiny, od neanglických badatelů. Pokud je obratné používání angličtiny zahrnuto jako metrika hodnoty, když strojový systém vyhodnocuje práci, pak se nejenže často ztratí dobré příběhy, ale pedantský výstup s nižší hodnotou bude ohodnocen výše jednoduše proto, že říká velmi málo velmi dobře.
Systémy NLP, které jsou v tomto ohledu neflexibilní, se pravděpodobně setkají s další vrstvou překážek při extrakci dat, s výjimkou nejpřísnějších a parametrizovaných věd, jako je chemie a teoretická fyzika, kde se grafy a tabulky shodují rovnoměrněji napříč globálními vědeckými komunitami. Ačkoli papíry o strojovém učení často obsahují vzorce, nemusí tyto představovat určující hodnotu podání, pokud neexistuje plně prokázaný vědecký konsenzus o metodologii, který starší vědy těší.
Výběr: Stanovení požadavků na publikum
K mnoha problémům s rozkladem excentrických vědeckých článků na samostatné datové body se brzy vrátíme. Nyní se zamysleme nad naším publikem a cíli, protože ty budou nezbytné pro to, aby umělá inteligence vědeckých článků pomohla projít tisíce článků týdně. Předpovídání úspěchu potenciálních novinových článků je již nyní... aktivní oblast ve strojovém učení.
Pokud je například velký objem „vědecké návštěvnosti“ jediným cílem webových stránek, kde je vědecké psaní jen jedním z prvků širší novinářské nabídky (jako je to v případě britských… Daily Mail vědecká sekce), může být vyžadována umělá inteligence, aby určila nejvýdělečnější témata z hlediska návštěvnosti a optimalizovala svůj výběr podle toho. Tento proces bude pravděpodobně upřednostňovat (relativně) nízko visící ovoce jako např Roboty, drones, hluboké zápasy, soukromí si bezpečnostní chyby.
V souladu se současným stavem techniky v systémech doporučování pravděpodobně povede tato sklizeň na vysoké úrovni k „filtrační bublina“ problémy pro naši umělou inteligenci pro vědecké články, protože algoritmus věnuje zvýšenou pozornost spoustě falešnějších vědeckých článků, které obsahují „žádoucí“ klíčová slova a fráze s vysokou frekvencí výskytu na tato témata (opět proto, že se na nich dají vydělat peníze, a to jak z hlediska návštěvnosti pro zpravodajské servery, tak i financování pro akademická oddělení), zatímco ignoruje některá mnohem lépe psatelná „velikonoční vajíčka“ (viz níže), která lze nalézt v mnoha méně frekventovaných zákoutích Arxivu.
Jedna a hotovo!
Dobré vědecké zprávy mohou pocházet z podivných a nečekaných míst a z dříve neplodných odvětví a témat. Aby toho našeho autora článků o umělé inteligenci, který doufal ve vytvoření produktivního rejstříku „plodných“ zpravodajských zdrojů, ještě více zmátl zdroj netradičního „úspěchu“ (jako je server Discordu, akademické výzkumné oddělení nebo technologický startup), bude často... už nikdy nevytvářejte akční materiála zároveň pokračuje ve výstupu objemného a hlučného informačního toku nižší hodnoty.
Co z toho může iterativní architektura strojového učení odvodit? Že mnoho tisíc předchozích „odlehlých“ zpravodajských zdrojů, které kdysi identifikovala a vyloučila, bude náhle upřednostňováno (i když by to vzhledem k vysokému objemu článků vydávaných každý rok vytvořilo neovladatelný poměr signálu k šumu)? Že samotné téma si zaslouží aktivační vrstvu více než zpravodajský zdroj, ze kterého pochází (což je v případě populárního tématu redundantní akce)...?
Užitečnější by bylo, kdyby se systém naučil, že se musí pohybovat v hierarchii datových dimenzí nahoru nebo dolů a hledat vzory – pokud nějaké skutečně existují – které tvoří to, co můj zesnulý dědeček novinář nazýval „čichem na zprávy“, a definovat tuto vlastnost. zajímavé pro zprávy jako putující a abstraktní vlastnost, kterou nelze přesně předpovědět pouze na základě původu a u které lze očekávat, že se bude denně měnit.
Identifikace selhání hypotézy
Vzhledem k kvótový tlakAkademické katedry někdy publikují práce, u kterých ústřední hypotéza zcela (nebo téměř úplně) selhala při testování, a to i v případě, že metody a zjištění projektu samy o sobě přesto stojí za trochu zájmu.
Taková zklamání často nejsou v souhrnech signalizována; v nejhorších případech jsou vyvrácené hypotézy rozeznatelné pouze čtením grafů výsledků. To znamená nejen odvodit podrobné pochopení metodologie z vysoce vybraných a omezených informací, které může článek poskytnout, ale vyžadovalo by to šikovné algoritmy interpretace grafů, které dokážou smysluplně interpretovat vše od koláčového grafu po bodový graf v kontextu.
Systém založený na NLP, který věří shrnutím, ale nedokáže interpretovat grafy a tabulky, by mohl být z nového článku na první pohled nadšený. Bohužel je (pro účely školení) obtížné zobecnit do vzorců předchozí příklady „skrytého selhání“ v akademických pracích, protože tento „akademický zločin“ je primárně opomenutím nebo nedostatečným důrazem, a proto je obtížné jej snášet.
V extrémním případě může náš autor AI potřebovat vyhledat a otestovat data úložiště (tj. z GitHubu) nebo analyzovat jakékoli dostupné doplňkové materiály, aby pochopil, co výsledky znamenají z hlediska cílů autorů. Systém strojového učení by tedy musel procházet množstvím nezmapovaných zdrojů a formátů, které jsou do toho zapojeny, takže automatizace ověřovacích procesů je trochu architektonickou výzvou.
Scénáře „bílé krabice“
Některá z nejskandálnějších tvrzení uváděných v bezpečnostních dokumentech zaměřených na umělou inteligenci se ukázala jako vyžadující mimořádnou a velmi nepravděpodobnou úroveň přístupu ke zdrojovému kódu nebo zdrojové infrastruktuře – útoky typu „bílé skříňky“. I když je to užitečné pro extrapolaci dříve neznámých zvláštností v architekturách systémů umělé inteligence, téměř nikdy to nepředstavuje realisticky zneužitelný povrch pro útok. Proto bude autor vědeckých prací o umělé inteligenci potřebovat docela dobrý detektor nesmyslů, který rozloží tvrzení týkající se bezpečnosti na pravděpodobnosti pro efektivní nasazení.
Automatizovaný autor vědeckých článků bude potřebovat schopnou rutinu NLU k izolaci zmínek v „bílé krabici“ do smysluplného kontextu (tj. k odlišení zmínek od klíčových implikací pro článek) a schopnost odvodit metodologii bílé krabice v případech, kdy se daná fráze v článku nikdy neobjeví.
Další „chytáky“
Jiná místa, kde neproveditelnost a selhání hypotézy mohou skončit docela pohřbeny, jsou v ablační studie, které systematicky odstraňují klíčové prvky nového vzorce nebo metody, aby se zjistilo, zda jsou výsledky negativně ovlivněny, nebo zda je „základní“ objev odolný. V praxi jsou si práce, které zahrnují ablační studie, obvykle svými zjištěními docela jisté, i když pečlivé čtení může často odhalit „blaf“. Ve výzkumu umělé inteligence tento blaf často vede k přepastování, kde systém strojového učení funguje obdivuhodně na původních výzkumných datech, ale nedokáže zobecnit na nová data nebo funguje pod jinými nereprodukovatelnými omezeními.
Další užitečná sekce pro potenciální systematickou extrakci je OmezeníToto je úplně první část, na kterou by měl každý vědecký autor (ať už umělá inteligence nebo člověk) přeskočit, protože může obsahovat informace, které vyvrátí celou hypotézu článku, a přechod k ní může ušetřit ztracené hodiny práce (alespoň pro člověka). Nejhorším scénářem je, že článek ve skutečnosti obsahuje... Omezení část, ale „kompromitující“ fakta jsou zahrnuta jinde v práci, a ne zde (nebo jsou zde podceňovány).
Další je Předchozí práce. K tomu dochází na začátku šablony Arxiv a často odhaluje, že aktuální článek představuje pouze malý pokrok v mnohem inovativnějším projektu, obvykle z předchozích 12–18 měsíců. V této fázi bude autor AI potřebovat schopnost zjistit, zda předchozí práce dosáhla trakce; je tu ještě nějaký příběh? Proklouzlo dřívější dílo v době zveřejnění nezaslouženě mimo veřejnost? Nebo je nový článek jen povrchním dodatkem k dobře pokrytému předchozímu projektu?
Hodnocení protektorů a „čerstvosti“
Kromě opravy chyb v dřívější verzi velmi často druhá verze článku představuje jen o málo víc než to, že se autoři dožadují pozornosti, které se jim nedostalo při vydání první verze. Často si však článek zaslouží další pozornost, protože pozornost médií mohla být v době původního vydání odkloněna jinam, nebo byla práce zastřena vysokým počtem příspěvků v přeplněných obdobích „sympozií“ a konferencí (jako je podzim a pozdní zima).
Jednou užitečnou funkcí v Arxivu pro rozlišení opakovaného vydání je tag [AKTUALIZOVÁNO] připojovaný k názvům příspěvků. Interní „doporučovací systém“ našeho autora s umělou inteligencí bude muset pečlivě zvážit, zda… [AKTUALIZOVÁNO]=='Odehráno'zejména proto, že může (pravděpodobně) vyhodnotit znovu zahřátý papír mnohem rychlejší než pracně vynucený vědecký trik. V tomto ohledu má oproti lidem pozoruhodnou výhodu díky konvenci pojmenování, která pravděpodobně přetrvá, alespoň v Arxivu.
Arxiv také na stránce souhrnu poskytuje informace o tom, zda byl článek identifikován jako dokument s „významným křížením“ textu s jiným článkem (často od stejných autorů), a to může být také potenciálně analyzováno do stavu „duplikát/obnovený“ systémem autorů s umělou inteligencí, pokud neexistuje tag [AKTUALIZOVÁNO].
Stanovení difúze
Stejně jako většina novinářů i náš projektovaný autor vědy o umělé inteligenci hledá nehlášené nebo nedostatečně nahlášené zprávy, aby přidal hodnotu toku obsahu, který podporuje. Ve většině případů se nové zprávy o vědeckých objevech poprvé objevily ve velkých prodejnách, jako jsou TechCrunch, The Verge a EurekaAlert et al je zbytečné, protože tak velké platformy podporují svůj obsah pomocí vyčerpávajících reklamních strojů, které prakticky zaručují saturaci médií.
Náš autor AI proto musí určit, zda je příběh dostatečně svěží, aby stálo za to ho sledovat.
Nejjednodušším způsobem by teoreticky bylo identifikovat nedávné příchozí odkazy na hlavní stránky výzkumu (souhrn, PDF, sekce novinek na webu akademického oddělení atd.). Obecně platí, že rámce, které mohou poskytovat aktuální informace o příchozích odkazech, nejsou open source nebo levné, ale hlavní vydavatelé by pravděpodobně mohli nést náklady na SaaS jako součást rámce pro hodnocení zpravodajství.
Za předpokladu takového přístupu se pak naše umělá inteligence, která je autorem vědy, potýká s problémem, že velké množství vědeckých zdrojů necitovat články, o kterých píší, a to i v případech, kdy jsou tyto informace volně dostupné. Koneckonců, média chtějí, aby na ně odkazovaly sekundární zprávy, a ne zdroj. V mnoha případech totiž skutečně získala privilegovaný nebo částečně privilegovaný přístup k výzkumnému článku (viz Spisovatel „společenských“ věd níže), mají k tomu neupřímnou záminku.
Náš autor AI tedy bude muset z papíru extrahovat klíčová slova, která lze uplatnit, a provádět časově omezené vyhledávání, aby zjistil, kde, pokud vůbec někde, příběh již prorazil – a poté vyhodnotit, zda lze vyloučit případné předchozí šíření nebo zda je příběh odehrán. .
Někdy noviny poskytují doplňkový video materiál na YouTube, kde „počet zhlédnutí“ může sloužit jako index šíření. Naše umělá inteligence navíc dokáže extrahovat obrázky z článku a provádět systematické vyhledávání na základě obrázků, aby zjistila, zda, kde a kdy byly některé z obrázků znovu publikovány.
Velikonoční vejce
Někdy „suchý“ článek odhalí zjištění, která mají hluboké a informativně zajímavé důsledky, ale která autoři podceňují (nebo dokonce přehlížejí či zlehčují) a odhalí se až po přečtení celého článku a provedení výpočtů.
Ve vzácných případech se domnívám, že je to proto, že se autoři mnohem více zajímají o přijetí v akademické sféře než u široké veřejnosti, možná proto, že mají pocit (ne vždy mylný), že základní koncepty, které jsou obsaženy, prostě nelze dostatečně zjednodušit pro běžnou spotřebu, a to navzdory často přehnanému úsilí PR oddělení jejich institucí.
Ale stejně často se stává, že autoři přehlížejí nebo jinak nevidí či neuznávají důsledky své práce a oficiálně jednají s „vědeckým odstupem“. Někdy tato „velikonoční vajíčka“ nejsou pozitivními ukazateli práce, jak je zmíněno výše, a mohou být cynicky zastřena ve složitých tabulkách zjištění.
Za Arxivem
Je třeba vzít v úvahu, že parametrizace článků o informatice do diskrétních tokenů a entit bude mnohem snazší v oblasti, jako je Arxiv, která poskytuje řadu konzistentních a šablonovaných „háků“ k analýze a pro většinu funkcí nevyžaduje přihlášení.
Přístup ke všem vědeckým publikacím není otevřený a teprve se uvidí, zda se (z praktického nebo právního hlediska) náš autor vědy o umělé inteligenci může nebo uchýlí k obcházení paywallů prostřednictvím Sci-Hub; k používání archivačních webů vyhnout se paywallům; a zda je možné konstruovat podobné architektury pro dolování domén pro širokou škálu jiných vědeckých publikačních platforem, z nichž mnohé jsou strukturálně odolné vůči systematickému zkoumání.
Dále je třeba uvážit, že i Arxiv má rychlostní limity které pravděpodobně zpomalí rutiny hodnocení zpráv autory s umělou inteligencí na „lidštější“ tempo.
„Sociální“ autor vědeckých prací o umělé inteligenci
Kromě otevřené a přístupné sféry Arxivu a podobných „otevřených“ platforem pro publikování vědeckých prací může být i získání přístupu k zajímavému novému článku náročné. Vyžaduje nalezení kontaktního kanálu pro autora a oslovení ho s žádostí o přečtení práce, a dokonce i s žádostí o citace (pokud časový tlak není prvořadým faktorem – což je v dnešní době u reportérů zabývajících se humanitními vědami vzácný případ).
To může zahrnovat automatizované procházení vědeckých oblastí a vytváření účtů (pro zobrazení e-mailové adresy autora článku se musíte přihlásit, a to i na Arxivu). LinkedIn je většinou nejrychlejším způsobem, jak získat odpověď, ale systémy umělé inteligence jsou v současné době… zakázáno kontaktovat členy.
Pokud jde o to, jak by výzkumní pracovníci dostávali e-mailové žádosti od vědeckého spisovatele AI – stejně jako ve světě vědeckého psaní masných výrobků to pravděpodobně závisí na vlivu zásuvky. Pokud domnělý spisovatel založený na AI z Kabelové kontaktoval autora, který dychtil šířit jeho dílo, je rozumné předpokládat, že se nemusí setkat s nepřátelskou reakcí.
Ve většině případů si lze představit, že autor doufá, že tyto poloautomatické výměny nakonec přivolají do konverzace člověka, ale není vyloučeno, že následné VoIP rozhovory by mohla usnadnit umělá inteligence, alespoň tam, kde se předpokládá, že životaschopnost článku bude pod určitou hranicí a kde má publikace dostatečnou popularitu, aby přilákala lidskou účast v konverzaci s „výzkumníkem umělé inteligence“.
Identifikace zpráv s AI
Mnoho zde nastíněných principů a výzev se vztahuje na potenciál automatizace v jiných odvětvích žurnalistiky a, jak tomu vždy bylo, hlavní výzvou je identifikace potenciálního příběhu. Většina lidských novinářů připustí, že skutečné napsání příběhu je pouze posledních 10 % úsilí, a že v době, kdy klávesnice klape, je práce většinou u konce.
Hlavním úkolem je tedy vyvinout systémy umělé inteligence, které dokážou odhalit, prozkoumat a ověřit příběh na základě mnoha tajemných peripetií zpravodajské hry a procházet obrovskou škálou platforem, které jsou již odolné vůči sondování a exfiltraci. v opačném případě.
V případě vědeckého zpravodajství mají autoři nových článků stejně hlubokou agendu jako jakýkoli jiný potenciální primární zdroj zpravodajského příběhu a dekonstrukce jejich výstupu bude vyžadovat zakotvení předchozích znalostí o sociologických, psychologických a ekonomických motivacích. Proto bude domnělý automatizovaný vědecký autor potřebovat více než reduktivní rutiny NLP, aby zjistil, kde jsou dnes zprávy, pokud není zpravodajská doména zvláště stratifikována, jako je tomu v případě akcií, pandemických údajů, sportovních výsledků, seismické aktivity a dalších čistě statistických zdrojů zpráv. .