Connect with us

Umělá inteligence

Směřování k automatizovanému psaní o vědě

mm

Dnes ráno, při procházení sekce Computer Science na Arxiv, jako to dělám většinu ráno, jsem narazil na nedávnou práci z Federální univerzity v Ceará v Brazílii, která nabízí nový framework pro zpracování přirozeného jazyka pro automatizaci sumarizace a extrakci základních dat z vědeckých článků.

Jelikož se jedná o něco, co dělám téměř každý den, článek mě přivedl k připomínce komentáře na Reddit writers’ thread na začátku tohoto roku – prognóze, že psaní o vědě bude mezi prvními novinářskými pracemi, které budou převzaty strojovým učením.

Abych byl jasný – absolutně věřím, že automatizovaný vědecký spisovatel je na cestě, a že všechny výzvy, které zde uvádím, jsou buď řešitelné nyní, nebo nakonec budou. Kde je to možné, uvádím příklady. Kromě toho se nezabývám otázkou, zda současné nebo blízké budoucí vědecké psaní AI budou schopny psát srozumitelně; na základě současného zájmu v tomto sektoru zpracování přirozeného jazyka, předpokládám, že tato výzva bude nakonec vyřešena.

Místo toho se ptám, zda vědecký spisovatel AI bude schopen identifikovat relevantní vědecké příběhy v souladu s (velmi různými) požadovanými výsledky vydavatelů.

Nemyslím si, že je to blízké; na základě procházení titulů a/nebo kopií kolem 2000 nových vědeckých článků o strojovém učení každý týden, mám spíše cynický názor na rozsah, v jakém lze akademické příspěvky algoritmicky rozložit, ať už pro účely akademického indexování nebo pro vědeckou žurnalistiku. Jako obvykle, je to těch zatracených lidí, kteří se dostanou do cesty.

Požadavky pro automatizovaného vědeckého spisovatele

Zvažme výzvu automatizovaného vědeckého reportingu o nejnovějším akademickém výzkumu. Abychom to učinili spravedlivými, budeme se většinou omezovat na kategorie CS na velmi populární neplacené Arxiv doméně z Cornellovy univerzity, která má alespoň některé systematické, šablonové funkce, které lze zapojit do datové extrakční pipeline.

Předpokládejme také, že úkolem je procházet tituly, souhrny, metadata a (pokud je odůvodněno) tělo obsahu nových vědeckých článků při hledání konstant, spolehlivých parametrů, tokenů a akčních, redukovatelných doménových informací.

To je, dopočtu, princip, na kterém jsou založeny úspěšné nové rámce jsou získávající půdu v oblastech hlášení o zemětřeseních, sportovního psaní, finančního žurnalistiky a zdravotní péče, a rozumný odjezdní bod pro AI-vyvážený vědecký žurnalista.

… (zbytek obsahu)

Spisovatel o strojovém učení, doménový specialista na syntézu lidského obrazu. Bývalý vedoucí výzkumného obsahu ve společnosti Metaphysic.ai.
Osobní stránky: martinanderson.ai