Штучний інтелект
До автоматизованого наукового письма

Цього ранку, просіюючи розділи комп’ютерних наук на Arxiv, як я роблю більшість ранків, я наткнувся на недавню статтю з Федерального університету Сеари в Бразилії, яка пропонує новий каркас обробки природної мови для автоматизації підсумовування та видобування основних даних з наукових статей.
Відтак, оскільки це більш або менш те, що я роблю кожен день, ця стаття викликала у мене коментар на тему письменників Reddit раніше цього року – пророкування того, що наукова журналістика буде однією з перших журналістських робіт, які будуть замінені машинним навчанням.
Дозвольте мені бути ясним – я абсолютно вірю, що автоматизований науковий письменник прийде, і що всі виклики, які я викладаю в цій статті, або зараз розв’язані, або в кінцевому підсумку будуть розв’язані. Там, де можливо, я даю приклади для цього. Крім того, я не розглядаю питання про те, чи зможуть поточні або найближчі наукові письменники-штучний інтелект писати зрозуміло; на основі поточної зацікавленості в цьому секторі обробки природної мови, я припускаю, що цей виклик в кінцевому підсумку буде розв’язаний.
Натомість я запитую, чи зможе науковий письменник-штучний інтелект визначити відповідні наукові історії згідно з (високо змінними) бажаними результатами видавців.
Я не думаю, що це близьке; на основі просіювання через заголовки та/або копію близько 2000 нових наукових статей про машинне навчання кожен тиждень, я маю більш цинічний погляд на ступінь, до якої академічні подання можуть бути алгоритмічно розбиті, або для академічного індексування, або для наукової журналістики. Як зазвичай, це ті самі люди, які заважають.
Вимоги для автоматизованого наукового письменника
Давайте розглянемо виклик автоматизації наукової звітності про останні академічні дослідження. Щоб保持ати справедливість, ми обмежимося в основному категоріями CS дуже популярного некомерційного домену Arxiv з Корнелльського університету, який至少 має ряд систематичних, шаблонних функцій, які можуть бути підключені до конвеєра видобування даних.
Давайте також припустимо, що завдання полягає в тому, щоб ітерувати через назви, підсумки, метадані та (якщо виправдано) зміст нових наукових статей у пошуках констант, надійних параметрів, токенів та дієвих, редукованих доменних відомостей.
Це, після всього, принцип, на якому успішні нові каркаси здобувають популярність в області звітності про землетруси, спортивної журналістики, фінансової журналістики та звітності про охорону здоров’я, і це є розумним відправним пунктом для штучного інтелекту наукового журналіста.
… (переклад продовжується згідно з вимогами)












