Connect with us

Искусственный интеллект

В сторону автоматизированного научного письма

mm

Это утро, просматривая разделы компьютерных наук на Arxiv, как я делаю большинство утр, я наткнулся на недавнюю статью из Федерального университета Сеара в Бразилии, предлагающую новый каркас обработки естественного языка для автоматизации суммирования и извлечения основных данных из научных статей.

Поскольку это более или менее то, что я делаю каждый день, статья вызвала у меня комментарий на тему писателей Reddit ранее в этом году – прогноз о том, что научное письмо будет одним из первых журналистских работ, которые будут взяты на себя машинным обучением.

Дайте мне быть ясным – я абсолютно верю, что автоматизированный научный писатель идет, и что все проблемы, которые я излагаю в этой статье, либо решаемы сейчас, либо в конечном итоге будут. Где это возможно, я даю примеры для этого. Кроме того, я не рассматриваю, смогут ли текущие или ближайшие научные писатели-ИИ писать связно; основываясь на текущем уровне интереса в этом секторе NLP, я предполагаю, что эта проблема в конечном итоге будет решена.

РATHER, я спрашиваю, сможет ли научный писатель ИИ идентифицировать соответствующие научные истории в соответствии с (высоко варьируемыми) желаемыми результатами издателей.

Я не думаю, что это неизбежно; основываясь на просмотре заголовков и/или копии около 2000 новых научных статей о машинном обучении каждую неделю, у меня есть довольно более циничный взгляд на степень, в которой академические материалы могут быть алгоритмически разбиты, либо для целей академического индексирования, либо для научной журналистики. Как обычно, это те самые люди, которые мешают.

Требования для автоматизированного научного писателя

Давайте рассмотрим задачу автоматизации научной отчетности о последних академических исследованиях. Чтобы сохранить справедливость, мы в основном ограничимся категориями CS очень популярного бесплатного доменного пространства Arxiv из Корнелльского университета, который хотя бы имеет ряд систематических, шаблонных функций, которые можно подключить к трубопроводу извлечения данных.

Давайте также предположим, что задача состоит в том, чтобы пройти через заголовки, резюме, метаданные и (если оправдано) содержание нового научного документа в поисках констант, надежных параметров, токенов и действенных, уменьшаемых доменных сведений.

Это, после всего, принцип, на котором основаны высоко успешные новые каркасы в области отчетности о землетрясениях, спортивного письма, финансовой журналистики и здравоохранения, и разумный стартовый пункт для ИИ-журналиста.

… (rest of the content remains the same, following the exact structure and translation rules)

Писатель о машинном обучении, специалист в области синтеза человеческих изображений. Бывший руководитель исследовательского контента в Metaphysic.ai.