заглушки На шляху до автоматизованого наукового написання - Unite.AI
Зв'язатися з нами

Штучний Інтелект

На шляху до автоматизованого наукового написання

mm
оновлений on

Сьогодні вранці, переглядаючи розділи комп’ютерних наук Arxiv, як я роблю більшість ранків, я натрапив на нещодавню папір від Федерального університету Сеара в Бразилії, пропонуючи нову структуру обробки природної мови для автоматизації узагальнення та вилучення основних даних із наукових робіт.

Оскільки це більш-менш те, що я роблю щодня, газета пригадала коментар у ланцюжку письменників на Reddit на початку цього року – прогноз про те, що наукове написання буде однією з перших журналістських робіт, яку візьме на себе машина навчання.

Скажу чітко – я абсолютно вірю що автоматизований науковий письменник приходить, і що всі виклики, які я окреслюю в цій статті, або зараз, або з часом будуть вирішені. По можливості наводжу для цього приклади. Крім того, я не розглядаю питання про те, чи зможуть теперішні або найближчі майбутні наукові AIs запис переконливо; на основі поточний рівень інтересу у цьому секторі НЛП, я припускаю, що ця проблема зрештою буде вирішена.

Скоріше я запитую, чи зможе науковий письменник ШІ ідентифікувати релевантні наукові історії відповідно до (дуже різноманітних) бажаних результатів видавців.

Я не думаю, що це неминуче; ґрунтуючись на перегляді заголовків та/або копій приблизно 2000 нових наукових статей про машинне навчання щотижня, я маю більш цинічну думку щодо того, до якої міри академічні матеріали можна алгоритмічно розбити чи для цілей академічного індексування, чи для для наукової публіцистики. Як завжди, це ті прокляті люди які стають на шляху.

Реквізити для Automated Science Writer

Давайте розглянемо проблему автоматизації наукової звітності про останні наукові дослідження. Щоб зберегти справедливість, ми здебільшого обмежимо його категоріями CS дуже популярних неплатних систем Домен Arxiv з Корнельського університету, який принаймні має ряд систематичних шаблонних функцій, які можна підключити до конвеєра вилучення даних.

Припустімо також, що поставлене завдання, як і у випадку з новою статтею з Бразилії, полягає в тому, щоб переглянути заголовки, резюме, метадані та (якщо це виправдано) основний вміст нових наукових статей у пошуках констант, надійних параметрів, токенів і дієвих , скорочувана інформація домену.

Зрештою, це принцип, за яким дуже успішно нові рамки набувають поширення в районах с повідомлення про землетрус, спортивне письмо, фінансова журналістика та охоплення здоров’ям, а також розумною відправною точкою для наукового журналіста на основі ШІ.

Робочий процес нової бразильської пропозиції. Наукова стаття у форматі PDF перетворюється на звичайний текст UTF-8 (хоча це видаляє виділення курсивом, які можуть мати семантичне значення), а розділи статей позначаються та вилучаються перед пропуском для фільтрації тексту. Деконструйований текст розбивається на речення як кадри даних, а кадри даних об’єднуються перед ідентифікацією маркерів і генерацією двох матриць маркерів документів Джерело: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Робочий процес нової бразильської пропозиції. Наукова стаття у форматі PDF перетворюється на звичайний текст UTF-8 (хоча це видаляє виділення курсивом, які можуть мати семантичне значення), а розділи статей позначаються та вилучаються перед пропуском для фільтрації тексту. Деконструйований текст розбивається на речення як кадри даних, а кадри даних об’єднуються перед ідентифікацією маркера та створенням двох матриць маркерів документа   Джерело: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

Ускладнення шаблону

Одним із заохочувальних рівнів відповідності та регулярізації є те, що Arxiv нав’язує досить добре дотриманий шаблон для подання, і надає детальні вказівки для подання авторів. Тому документи зазвичай відповідають тим частинам протоколу, які стосуються описуваної роботи.

Таким чином, система попередньої обробки штучного інтелекту для передбачуваного автоматизованого наукового автора може загалом розглядати такі розділи як піддомени: абстрактний, введення, пов'язана/попередня робота, методологія/дані, результати/висновки, дослідження абляції, обговорення, висновок.

Однак на практиці деякі з цих розділів можуть бути відсутніми, перейменованими або містити вміст, який, строго кажучи, належить до іншого розділу. Крім того, автори природно включатимуть заголовки та підзаголовки, які не відповідають шаблону. Таким чином, NLP/NLU визначить відповідний вміст, пов’язаний із розділом, із контексту.

Назустріч біді

Ієрархія заголовків є простим способом для систем NLP спочатку класифікувати блоки контенту. Багато документів Arxiv експортується з Microsoft Word (про це свідчать неправильно оброблені PDF-файли Arxiv, які залишають «Microsoft Word» у заголовку – див. зображення нижче). Якщо ви використовуєте правильно заголовки розділів у Word, експорт у PDF відтворить їх як ієрархічні заголовки, корисні для процесів вилучення даних у машинному звіті.

Однак це припускає, що автори фактично використовують такі функції у Word або інших середовищах для створення документів, таких як TeX і похідні (рідко надаються як рідні альтернативні формати в поданнях Arxiv, більшість пропозицій обмежено PDF і, іноді, навіть більш непрозорими PostScript).

Грунтуючись на роках читання статей Arxiv, я зауважив, що переважна більшість із них не містить будь-який структурні метадані, які можна інтерпретувати, із заголовком, який повідомляється у програмі для читання (тобто, у веб-браузері чи програмі для читання PDF) як повну назву (включно з розширенням) самого документа.

У цьому випадку семантична інтерпретація статті обмежена, і системі наукових авторів на основі штучного інтелекту потрібно буде програмно повторно зв’язати її з пов’язаними метаданими в домені Arxiv. Конвенція Arxiv передбачає, що основні метадані також вставляються збоку великим сірим шрифтом на сторінці 1 поданого PDF-файлу (див. зображення нижче). На жаль – не в останню чергу тому, що це єдине надійне місце, де можна знайти дату публікації чи номер версії – його часто виключають.

Багато авторів або взагалі не використовують стилі, або лише стиль H1 (найвищий заголовок/заголовок), залишаючи NLU ще раз вилучати заголовки або з контексту (можливо, не так складно), або розібравши контрольний номер, який містить назву в маршруті документа (тобто https://arxiv.org/pdf/2110.00168.pdf) і використання мережевих (а не локальних) метаданих для подання.

Хоча останній не вирішить відсутність заголовків, він принаймні встановить, до якого розділу інформатики відноситься подання, і надасть інформацію про дату та версію.

GluedText у ParagraphReturns

Оскільки PDF і PostScript є найпоширенішими доступними форматами Arxiv, наданими авторами, системі NLP знадобиться процедура, щоб відокремлювати слова кінця рядка від слів початку наступного рядка, які «прикріплюються» до них у невдалому форматі PDF стандартні методи оптимізації.

Деконкатенація (і розмінюючи дефіс) слова можуть бути виконані у Перлі і багато інших простих рекурсивних процедур, хоча a Підхід на основі Python може бути менш трудомістким і більш адаптованим до системи машинного навчання. Компанія Adobe, творець формату PDF, також розробила систему конвертації з підтримкою штучного інтелекту під назвою Рідинний режим, здатний «перекомпонувати» запечений текст у PDF-файлах, хоча його розгортання за межі мобільного простору виявилося повільним.

Погана англійська                                                

Англійська мова залишається світовим науковим стандартом для подання наукових робіт, незважаючи на те, що це так спірний. Тому цікаві та заслуговують на увагу статті іноді містять жахливі стандарти англійської мови, від неанглійських дослідників. Якщо спритне використання англійської мови буде включено як показник цінності, коли машинна система оцінює роботу, тоді не тільки хороші історії часто будуть втрачені, але й педантичний малоцінний результат буде оцінюватися вище просто тому, що він говорить дуже мало, дуже добре.

Системи НЛП, які є негнучкими в цьому відношенні, ймовірно, зіткнуться з додатковим рівнем перешкод у вилученні даних, за винятком найбільш жорстких і параметризованих наук, таких як хімія та теоретична фізика, де графіки та діаграми більш однаково відповідають світовим науковим спільнотам. Хоча в документах про машинне навчання часто містяться формули, вони можуть не представляти визначальної цінності подання за відсутності повністю встановленого наукового консенсусу щодо методології, яким користуються старіші науки.

Вибір: Визначення вимог до аудиторії

Незабаром ми повернемося до багатьох проблем розкладання ексцентричних наукових статей на дискретні точки даних. Тепер давайте розглянемо нашу аудиторію та цілі, оскільки вони будуть дуже важливі, щоб допомогти науковому автору ШІ просіювати тисячі статей на тиждень. Прогнозування успіху потенційних новин уже є активна зона в машинному навчанні.

Якщо, наприклад, великий обсяг «наукового трафіку» є єдиною метою веб-сайту, де наукові статті є лише частиною ширшої журналістської пропозиції (як у випадку з Великобританією Daily Mail науковий розділ), може знадобитися штучний інтелект, щоб визначити найприбутковіші теми з точки зору трафіку та оптимізувати свій вибір відповідно до цього. Цей процес, ймовірно, віддасть пріоритет (відносно) низько звисаючим плодам, таким як роботи, безпілотні літальні апарати, deepfakes, недоторканність приватного життя та уразливості безпеки.

Відповідно до поточного рівня техніки в системах рекомендацій, цей високорівневий збір, ймовірно, призведе до "міхур фільтра" проблеми для нашого наукового автора AI, оскільки алгоритм приділяє підвищену увагу низці більш фальшивих наукових статей, які містять «бажані» високочастотні ключові слова та фрази на ці теми (знову ж таки, тому що на них є гроші, як з точки зору трафіку, для новинних видань і фінансування, для академічних відділів), ігноруючи при цьому деякі з набагато зручніших для написання «пасхалок» (див. нижче), які можна знайти в багатьох куточках Arxiv, які не відвідуються людьми.

Один і готово!

Хороший корм для наукових новин може надходити з дивних і несподіваних місць, а також із раніше неплідних секторів і тем. Щоб ще більше заплутати нашого наукового автора про штучний інтелект, який сподівався створити продуктивний покажчик «плідних» джерел новин, джерело нестандартного «хіта» (наприклад, сервер Discord, відділ академічних досліджень чи технологічний стартап) буде часто ніколи більше не створюйте корисних матеріалів, продовжуючи виводити об'ємний і шумний інформаційний потік меншої цінності.

Що з цього може зробити ітеративна архітектура машинного навчання? Те, що багато тисяч попередніх «виключних» джерел новин, які він одного разу виявив і виключив, раптом стали пріоритетними (хоча це створило б неконтрольоване співвідношення сигнал/шум, враховуючи великий обсяг статей, що випускаються щороку)? Що сама тема вартує рівня активації, ніж джерело новин, з якого вона надійшла (що у випадку популярної теми є зайвою дією)..?

Більш корисним є те, що система може дізнатися, що їй потрібно рухатися вгору або вниз ієрархією вимірності даних у пошуках шаблонів (якщо вони справді є), які складають те, що мій покійний дідусь-журналіст називав «носом для новин», і визначити функцію гідний новин як мандрівну та абстрактну якість, яку неможливо точно передбачити, виходячи лише з походження, і яка, як очікується, буде змінюватися щодня.

Виявлення помилки гіпотези

Через тиск квот, академічні відділи іноді публікують роботи, де основна гіпотеза повністю (або майже повністю) провалилася під час тестування, навіть якщо методи та висновки проекту все ж варті невеликого інтересу самі по собі.

Про такі розчарування часто не йдеться в резюме; у гіршому випадку спростовані гіпотези можна помітити, лише прочитавши графіки результатів. Це передбачає не тільки висновок про детальне розуміння методології на основі дуже відібраної та обмеженої інформації, яку може надати документ, але потребує досвідчених алгоритмів інтерпретації графіків, які можуть змістовно інтерпретувати все, від кругової діаграми до діаграми розсіювання, у контексті.

Система, заснована на НЛП, яка вірить у підсумки, але не може інтерпретувати графіки та таблиці, може дуже захопитися новою статтею з першого читання. На жаль, попередні приклади «прихованої невдачі» в академічних роботах (з метою навчання) важко узагальнити в шаблони, оскільки цей «академічний злочин» є, перш за все, упущенням або недостатнім акцентом, а тому невловимим.

У крайньому випадку нашому розробнику штучного інтелекту може знадобитися знайти та перевірити дані сховища (тобто з GitHub) або проаналізувати будь-які доступні додаткові матеріали, щоб зрозуміти, що означають результати з точки зору цілей авторів. Таким чином, системі машинного навчання потрібно буде пройти через численні невідображені джерела та формати, задіяні в цьому, що робить автоматизацію процесів перевірки дещо складною архітектурною проблемою.

Сценарії «Білої скриньки».

Деякі з найобурливіших тверджень, зроблених у документах безпеки, зосереджених на штучному інтелекті, вимагають надзвичайного та дуже малоймовірного рівня доступу до вихідного коду чи вихідної інфраструктури – атаки «білої скриньки». Хоча це корисно для екстраполяції раніше невідомих особливостей в архітектурах систем штучного інтелекту, це майже ніколи не представляє реалістично використаної поверхні атаки. Тому науковому автору штучного інтелекту знадобиться досить хороший детектор дурниці, щоб розкласти твердження щодо безпеки на ймовірності для ефективного розгортання.

Автоматизованому науковому автору знадобиться ефективна процедура NLU, щоб ізолювати згадки про «білий ящик» у значущий контекст (тобто, щоб відрізнити згадування від основних наслідків для статті), а також здатність виводити методологію білого ящика у випадках, коли фраза ніколи не з’являється в папір, документ.

Інші проблеми

Інші місця, де нездійсненність і помилка гіпотези можуть бути повністю поховані, знаходяться в дослідження абляції, які систематично видаляють ключові елементи нової формули чи методу, щоб перевірити, чи це негативно вплине на результати, чи є «основне» відкриття стійким. На практиці статті, які включають дослідження абляції, зазвичай досить впевнені у своїх висновках, хоча уважне читання часто може виявити «блеф». У дослідженнях ШІ цей блеф часто дорівнює переобладнання, де система машинного навчання чудово працює з оригінальними дослідницькими даними, але не в змозі узагальнити нові дані, або ж працює за інших невідтворюваних обмежень.

Ще один корисний заголовок розділу для потенційного систематичного вилучення Недоліки. Це найперший розділ, до якого будь-який науковий автор (ШІ чи людина) повинен пропустити, оскільки він може містити інформацію, яка зводить нанівець всю гіпотезу статті, а перехід до нього може заощадити втрачені години роботи (принаймні, для людини). . Гірший сценарій тут полягає в тому, що документ насправді має a Недоліки розділ, але «компрометуючі» факти включені в іншому місці у творі, а не тут (або тут занижені).

Далі йде Попередня робота. Це відбувається на початку шаблону Arxiv і часто показує, що поточна стаття є лише незначним прогресом у набагато більш інноваційному проекті, зазвичай за попередні 12-18 місяців. На цьому етапі автору штучного інтелекту знадобиться можливість визначити, чи досягла попередня робота успіху; тут ще є історія? Чи попередня робота незаслужено не була помічена громадськістю на момент публікації? Або нова стаття є лише поверхневим постскриптумом до добре висвітленого попереднього проекту?

Оцінка повторних протекторів і «свіжості»

Окрім виправлення помилок у попередній версії, дуже часто V.2 статті представляє трохи більше, ніж автори, які вимагають уваги, якої вони не отримали, коли було опубліковано V.1. Однак часто доповідь насправді заслуговує на повторний укус, оскільки увага засобів масової інформації могла бути відвернута в іншому місці під час первинної публікації, або робота була затьмарена через великий трафік подання під час переповнених «симпозіумів» і конференцій (наприклад, осінь і пізня зима).

Однією з корисних функцій Arxiv, яка дозволяє відрізнити повторний запуск, є тег [ОНОВЛЕНО], який додається до назв подання. Внутрішня «система рекомендацій» нашого автора штучного інтелекту повинна буде ретельно розглянути, чи ні [ОНОВЛЕНО]=="Зіграно", особливо тому, що він може (імовірно) оцінити повторно нагрітий папір набагато швидше ніж важкий науковий хак. У цьому відношенні він має значну перевагу перед людьми завдяки умовам іменування, які, ймовірно, збережуться, принаймні в Arxiv.

Arxiv також надає інформацію на сторінці підсумків про те, чи було ідентифіковано статтю як таку, що містить «значне перетинання» тексту з іншою статтею (часто тих самих авторів), і це також потенційно може бути проаналізовано як «дублікат/повторний» статус системою запису ШІ за відсутності тегу [ОНОВЛЕНО].

Визначення дифузії

Як і більшість журналістів, наш науковий автор ШІ шукає новини, про які не повідомляють або не повідомляють, щоб додати цінності потоку контенту, який він підтримує. У більшості випадків повторне повідомлення про наукові відкриття вперше було опубліковано у великих виданнях, таких як TechCrunch, The Verge та EurekaAlert та ін є безглуздим, оскільки такі великі платформи підтримують свій контент за допомогою вичерпних рекламних механізмів, фактично гарантуючи насичення медіа для газети.

Тому наш автор штучного інтелекту повинен визначити, чи історія достатньо свіжа, щоб її варто було продовжувати.

Теоретично найпростішим способом було б ідентифікувати недавніх зовнішні посилання на основні сторінки дослідження (резюме, PDF, розділ новин сайту кафедри тощо). Загалом, фреймворки, які можуть надавати актуальну інформацію про вхідні посилання, не є відкритими або недорогими, але великі видавці, імовірно, можуть нести витрати на SaaS як частину системи оцінки цінності новин.

Припускаючи такий доступ, наш науковий автор ШІ стикається з проблемою, що велика кількість наукових публікацій не цитувати газети, про які вони пишуть, навіть у випадках, коли ця інформація є у вільному доступі. Зрештою, джерело хоче, щоб вторинне звітування посилалося на нього, а не на джерело. Оскільки в багатьох випадках вони фактично отримали привілейований або напівпривілейований доступ до наукової статті (див. Письменник «соціальних» наук нижче), вони мають для цього нещирий привід.

Таким чином, нашому автору штучного інтелекту потрібно буде витягти дієві ключові слова з паперу та виконати обмежений за часом пошук, щоб визначити, де історія вже була порушена, а потім оцінити, чи можна не враховувати будь-яке попереднє розповсюдження, чи історія розігрується. .

Іноді газети надають додатковий відеоматеріал на YouTube, де «кількість переглядів» може служити індексом розповсюдження. Крім того, наш штучний інтелект може витягувати зображення з паперу та виконувати систематичний пошук на основі зображень, щоб визначити, чи було, де та коли будь-яке із зображень перепубліковано.

Великодні яйця

Іноді «суха» стаття розкриває знахідки, які мають глибокі та заслуговують на увагу наслідки, але які недооцінюються (або навіть ігноруються чи знецінюються) авторами, і вони будуть виявлені, лише прочитавши всю статтю та виконавши підрахунки.

У рідкісних випадках, на мою думку, це відбувається тому, що автори набагато більше стурбовані сприйняттям в академічному середовищі, ніж у широкій публіці, можливо, тому, що вони відчувають (не завжди неправильно), що ключові концепції просто не можуть бути достатньо спрощеними для загального споживання, незважаючи на часто гіперболічні зусилля PR-відділів їхніх установ.

Але приблизно так само часто автори можуть не враховувати або іншим чином не бачити чи не визнавати наслідків своєї роботи, діючи офіційно під «науковим видаленням». Іноді ці «писанки» не є позитивними показниками для роботи, як згадувалося вище, і можуть бути цинічно приховані в складних таблицях знахідок.

За Арксівом

Слід мати на увазі, що параметризація документів про інформатику на окремі токени та сутності буде набагато легшою в такому домені, як Arxiv, який надає ряд узгоджених і шаблонних «гачків» для аналізу та не потребує входу для більшості функцій .

Не всі наукові публікації доступні з відкритим кодом, і ще належить з’ясувати, чи (з практичної чи юридичної точки зору) наш науковий автор штучного інтелекту зможе або вдасться вдатися до ухилення від платного доступу через Науково-концентратор; використовувати сайти для архівування уникати платних стін; і чи можливо побудувати подібні архітектури видобутку доменів для широкого спектру інших наукових публікаційних платформ, багато з яких структурно стійкі до систематичного дослідження.

Слід далі враховувати, що навіть Arxiv має обмеження по ставці які, ймовірно, уповільнять процедури оцінки новин автора ШІ до більш «людської» швидкості.

Науковий автор «Соціального» ШІ

Крім відкритої та доступної сфери Arxiv та подібних «відкритих» наукових платформ для публікації, навіть отримання доступу до цікавої нової статті може бути складним завданням, включаючи пошук контактного каналу для автора та звернення до нього з проханням прочитати роботу, і навіть щоб отримати цитати (де тиск часу не є головним фактором – рідкісний випадок для репортерів гуманітарних наук у наші дні).

Це може призвести до автоматизованого обходу наукових доменів і створення облікових записів (вам потрібно ввійти в систему, щоб відкрити адресу електронної пошти автора статті, навіть в Arxiv). Здебільшого LinkedIn є найшвидшим способом отримати відповідь, але наразі системи AI є такими заборонено контактувати з членами.

Щодо того, як дослідники будуть отримувати запити електронною поштою від наукового автора ШІ – ну, як і у світі наукових авторів про м’ясний посуд, це, ймовірно, залежить від впливу торгової точки. Якщо ймовірний автор на основі ШІ з провідна зв’язалися з автором, який бажав поширити їхню роботу, розумно припустити, що це може не зустріти ворожої реакції.

У більшості випадків можна уявити, що автор сподівається, що ці напівавтоматичні обміни можуть зрештою викликати людину в цикл, але це не виходить за рамки можливості того, що подальші інтерв’ю VOIP можуть бути сприяні штучним інтелектом, на принаймні там, де прогнозується, що життєздатність статті буде нижчою від певного порогу, і де публікація має достатню тягу, щоб залучити людину до розмови з «дослідником ШІ».

Ідентифікація новин за допомогою ШІ

Багато принципів і викликів, викладених тут, стосуються потенціалу автоматизації в інших секторах журналістики, і, як завжди, визначення потенційної історії є основним викликом. Більшість журналістів-людей визнають, що насправді написання історії — це лише останні 10% зусиль, і що до того моменту, коли клавіатура застукає, робота майже закінчена.

Отже, головним завданням є розробка систем штучного інтелекту, які можуть виявляти, досліджувати та підтверджувати історію на основі багатьох таємничих перипетій новинної гри та перетинати величезний діапазон платформ, які вже захищені від зондування та ексфільтрації, людських чи інакше.

У випадку наукового звіту автори нових статей мають настільки ж глибокі корисливі плани, як і будь-яке інше потенційне первинне джерело новин, і деконструкція їхньої продукції призведе до вбудовування попередніх знань про соціологічні, психологічні та економічні мотиви. Тому передбачуваному автоматизованому науковому автору знадобиться більше, ніж редуктивні процедури НЛП, щоб визначити, де знаходяться новини сьогодні, якщо тільки область новин не є особливо стратифікованою, як у випадку з акціями, цифрами пандемії, спортивними результатами, сейсмічної активністю та іншими суто статистичними джерелами новин. .