Взгляд Anderson

К Автоматизированному Научному Писательству

Опубликовано 10 октября 2021

Обновлено 24 мая 2026

Martin Anderson

Сегодня утром, просматривая разделы компьютерных наук на Arxiv, как я делаю большинство утр, я наткнулся на недавнюю статью из Федерального университета Сеары в Бразилии, предлагающую новый каркас обработки естественного языка для автоматизации суммирования и извлечения основных данных из научных статей.

Поскольку это более или менее то, что я делаю каждый день, статья напомнила мне комментарий на теме писателей Reddit ранее в этом году – пророчество о том, что научное письмо будет одним из первых журналистских работ, которые будут взяты под контроль машинным обучением.

Дайте мне быть ясным – я абсолютно верю, что автоматизированный научный писатель идет, и что все проблемы, которые я излагаю в этой статье, либо решаемы сейчас, либо в конечном итоге будут решены. Где это возможно, я даю примеры для этого. Кроме того, я не рассматриваю вопрос о том, могут ли текущие или ближайшие научные писатели-ИИ писать связно; на основе текущего уровня интереса в этом секторе обработки естественного языка, я предполагаю, что эта проблема в конечном итоге будет решена.

РATHER, я спрашиваю, сможет ли научный писатель-ИИ определить актуальные научные истории в соответствии с (высоко варьируемыми) желаемыми результатами издателей.

Я не думаю, что это близко; основываясь на просмотре заголовков и/или копий около 2000 новых научных статей о машинном обучении каждую неделю, у меня есть более циничный взгляд на степень, в которой академические подачи могут быть алгоритмически разбиты, либо для целей академического индексирования, либо для научной журналистики. Как обычно, это те люди, которые мешают.

Требования для Автоматизированного Научного Писателя

Давайте рассмотрим задачу автоматизации научной отчетности о последних академических исследованиях. Чтобы сохранить справедливость, мы в основном ограничимся категориями CS популярного бесплатного домена Arxiv из Корнеллского университета, который хотя бы имеет ряд систематических, шаблонных функций, которые можно подключить к трубопроводу извлечения данных.

Давайте также предположим, что задача, как и в случае с новой статьей из Бразилии, заключается в итерации через названия, резюме, метаданные и (если оправдано) содержание новых научных статей в поисках констант, надежных параметров, токенов и действенных, уменьшаемых доменных данных.

Это, после всего, принцип, на котором основаны новые каркасы в таких областях, как отчетность о землетрясениях, спортивное письмо, финансовая журналистика и здравоохранение, и разумный стартовый пункт для ИИ-журналиста.

Рабочий процесс нового бразильского предложения. PDF-научная статья преобразуется в текст UTF-8 (хотя это удалит курсивные акценты, которые могут иметь семантическое значение), и разделы статей помечены и извлекаются перед тем, как быть переданными для фильтрации текста. Деконструированный текст разбивается на предложения в виде данных, и данные объединяются перед идентификацией токенов и генерацией двух матриц токенов-документов Источник: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Усложнение Шаблона

Одним из обнадеживающих слоев согласованности и регуляризации является то, что Arxiv налагает довольно хорошо соблюдаемый шаблон для подач, и предоставляет подробные рекомендации для авторов. Таким образом, статьи обычно соответствуют той части протокола, которая применяется к работе, описываемой.

Таким образом, система предварительной обработки ИИ для предполагаемого автоматизированного научного писателя может обычно относиться к таким разделам как поддомены: резюме, введение, связанная/предыдущая работа, методология/данные, результаты/находки, абляционные исследования, обсуждение, заключение.

Направление к Проблемам

Иерархия заголовков – это простой способ для систем ИИ первоначально категоризировать блоки контента. Многие подачи Arxiv экспортируются из Microsoft Word (как свидетельствуют необработанные PDF Arxiv, которые оставляют ‘Microsoft Word’ в заголовке – см. изображение ниже). Если вы используете правильные заголовки разделов в Word, экспорт в PDF воссоздаст их как иерархические заголовки, полезные для процессов извлечения данных машины.

Однако это предполагает, что авторы фактически используют такие функции в Word или других каркасах создания документов, таких как TeX и производные (редко предоставляемые в виде родных альтернативных форматов в подачах Arxiv, с большинством предложений, ограниченных PDF и, иногда, еще более непрозрачным PostScript).

Склеенный Текст при Возвратах Абзацев

С PDF и PostScript как наиболее распространенными доступными форматами Arxiv, система ИИ будет нуждаться в процедуре для разделения слов конца строки от слов начала следующей строки, которые прикрепляются к ним под дефолтными методами оптимизации формата PDF.

Плохой Английский

Английский остается глобальным научным стандартом для представления научных статей, хотя это спорно. Следовательно, интересные и новостные статьи иногда содержат ужасные стандарты английского от неанглийских исследователей. Если умелое использование английского языка включено как метрика ценности, когда система ИИ оценивает работу, то не только хорошие истории часто будут потеряны, но и педантичный низкокачественный вывод будет оценен выше просто потому, что он говорит очень мало очень хорошо.

Выбор: Определение Требований Аудитории

Мы вернемся к многим проблемам разложения эксцентричных научных статей на дискретные данные точки вскоре. Теперь давайте рассмотрим нашу аудиторию и цели, поскольку они будут важны для того, чтобы помочь ИИ-научному писателю просеять через тысячи статей в неделю. Предсказание успеха потенциальных новостных историй уже активной областью в машинном обучении.

Если, например, высокий объем ‘научного трафика’ является единственной целью на сайте, где научное письмо является только одной частью более широкого журналистского предложения (как в случае с разделом науки Daily Mail), ИИ может потребоваться определить наиболее прибыльные темы в плане трафика и оптимизировать свой выбор в сторону этого. Этот процесс, вероятно, будет отдавать приоритет (относительно) низко висящим фруктам, таким как роботы, дроны, глубокие подделки, конфиденциальность и уязвимости безопасности.

Один и Готово!

Хорошая научная новостная пабликация может исходить из неожиданных мест и из ранее неудачных секторов и тем. Чтобы еще больше запутать нашего ИИ-научного писателя, который надеялся создать продуктивный индекс ‘плодотворных’ новостных источников, источник необычного ‘хита’ (такого как сервер Discord, академический исследовательский отдел или технологический стартап) часто никогда не произведет действенный материал снова, хотя и будет выводить громкий и шумный поток информации меньшей ценности.

Идентификация Неудачи Гипотезы

Из-за давления квоты академические отделы иногда публикуют работы, где центральная гипотеза полностью (или почти полностью) провалилась в тестировании, даже если методы и результаты проекта все равно представляют некоторый интерес.

Такие разочарования часто не сигнализируются в резюме; в худших случаях опровергнутые гипотезы можно определить только путем чтения графиков результатов. Это не только требует вывода подробного понимания методологии из ограниченной информации, которую может предоставить статья, но и требует умелых алгоритмов интерпретации графиков, которые могут осмысленно интерпретировать все, от круговой диаграммы до диаграммы рассеяния, в контексте.

‘Белый Ящик’ Сценарии

Некоторые из самых нелепых утверждений, сделанных в статьях о безопасности ИИ, оказываются требующими необычных и очень маловероятных уровней доступа к исходному коду или исходной инфраструктуре – ‘белые ящик’ атаки. Хотя это полезно для экстраполяции ранее неизвестных причуд в архитектурах систем ИИ, это почти никогда не представляет реалистично эксплуатируемой поверхности атаки.

Другие ‘Готчи’

Другие места, где неосуществимость и неудача гипотезы могут оказаться довольно похоронены, находятся в абляционных исследованиях, которые систематически удаляют ключевые элементы новой формулы или метода, чтобы увидеть, влияют ли результаты отрицательно или если ‘ядро’ открытия устойчиво. На практике статьи, содержащие абляционные исследования, обычно довольно уверены в своих находках, хотя тщательное чтение может часто раскрыть ‘блеф’.

Оценка Повторных Публикаций и ‘Свежести’

Помимо исправления ошибок в предыдущей версии, версия 2 статьи часто представляет собой не более чем призыв авторов к вниманию, которого они не получили, когда была опубликована версия 1. Часто, однако, статья действительно заслуживает второго шанса, поскольку внимание средств массовой информации может быть отвлечено в другое место в момент публикации, или работа была скрыта высоким трафиком подач в переполненные ‘симпозиум’ и конференционные периоды (такие как осень и поздняя зима).

Определение Диффузии

Как и большинство журналистов, наш проектируемый ИИ-научный писатель ищет нерассказанные или недооцененные новости, чтобы добавить ценность потоку контента, который он поддерживает. В большинстве случаев повторное освещение научных прорывов, впервые представленных в крупных изданиях, таких как TechCrunch, The Verge и EurekaAlert и т. д., бессмысленно, поскольку такие крупные платформы поддерживают свой контент с помощью исчерпывающих машин публичности, практически гарантируя медиа-насыщение для статьи.

Следовательно, наш ИИ-писатель должен определить, достаточно ли свежа история, чтобы ее стоило преследовать.

Пасхальные Яйца

Иногда ‘сухая’ статья раскрывает находки, которые имеют глубокие и новостные последствия, но которые подыгрываются (или даже упускаются или преуменьшаются) авторами, и будут раскрыты только путем чтения всей статьи и выполнения математики.

За Пределами Arxiv

Следует учитывать, что параметризация статей о компьютерных науках в дискретные токены и сущности будет намного проще на таком домене, как Arxiv, который предоставляет ряд последовательных и шаблонных ‘крючков’ для анализа, и не требует входа для большинства функций.

Социальный ИИ-Научный Писатель

За пределами открытого и доступного мира Arxiv и подобных ‘открытых’ научных платформ доступ к интересной новой статье может быть проблемой, включающей поиск контактного канала для автора и обращение к нему с просьбой прочитать работу, и даже получить цитаты (где давление времени не является основным фактором – редкий случай для человеческих научных репортеров в эти дни).

Идентификация Новостей с ИИ

Многие принципы и проблемы, изложенные здесь, применяются к потенциалу автоматизации в других секторах журналистики, и, как это всегда было, идентификация потенциальной истории является основной проблемой. Большинство человеческих журналистов согласятся с тем, что фактическое написание истории является лишь последними 10% усилий, и что к моменту, когда клавиатура стучит, работа почти закончена.

Основная проблема, тогда, заключается в разработке систем ИИ, которые могут обнаружить, расследовать и аутентифицировать историю, основанную на многих арканах новостной игры, и пересечь огромный диапазон платформ, которые уже закалены против проникновения и эксфильтрации, человеческого или иного.

В случае научной отчетности авторы новых статей имеют столь же глубокую самопоставленную программу, как и любой другой потенциальный первичный источник новостной истории, и деконструкция их вывода потребует внедрения предварительных знаний о социологических, психологических и экономических мотивах. Следовательно, предполагаемый автоматизированный научный писатель будет нуждаться в чем-то большем, чем редуктивные процедуры обработки естественного языка, чтобы установить, где новости сегодня, если только новостная область не является особенно стратифицированной, как в случае со股票ами, цифрами пандемии, спортивными результатами, сейсмической активностью и другими чисто статистическими новостными источниками.