Artificial Intelligence

サイエンスライティングの自動化に向けて

更新中 on 2022 年 12 月 9 日

今朝、いつものように Arxiv のコンピューターサイエンスセクションを調べていると、最近の記事を見つけました。紙ブラジルのセアラ連邦大学からの研究により、科学論文からの核となるデータの要約と抽出を自動化する新しい自然言語処理フレームワークを提供します。

これは多かれ少なかれ私が毎日行っていることなので、この論文を読んで、今年初めに Reddit のライタースレッドでのコメントが思い出されました。これは、科学執筆が機械に取って代わられる最も初期のジャーナリズムの仕事の 1 つになるという予言です。学ぶ。

はっきりさせておきます – 私は 絶対に信じます 自動化されたサイエンスライターが登場し、この記事で概説したすべての課題は現在解決可能であるか、最終的には解決されるでしょう。可能な場合は、その例を示します。さらに、現在または近い将来のサイエンスライティング AI が次のことを行えるかどうかについては触れていません。 書きます 説得的に; に基づく現在の関心のレベル NLP のこの分野では、この課題は最終的には解決されると私は推測しています。

むしろ、サイエンスライターの AI ができるかどうかを尋ねているのです。 識別する 出版社が望む（非常に多様な）成果に沿った、関連する科学記事。

それが差し迫っているとは思いません。機械学習に関する約 2000 件の新しい科学論文の見出しやコピーを毎週探し回っていることに基づいて、私は、学術的なインデックス付けや学術的なインデックス作成の目的で、学術論文がアルゴリズムによってどの程度分類されるかについて、かなり皮肉な見方をしています。科学ジャーナリズムのために。いつものように、それはクソ野郎です スタッフ 邪魔になっているもの。

Automated Science Writer の要件

最新の学術研究に関する科学レポートを自動化するという課題について考えてみましょう。公平性を保つため、ペイウォールのない非常に人気のある CS カテゴリに主に限定します。 Arxiv ドメインコーネル大学によるもので、少なくともデータ抽出パイプラインに組み込むことができる体系的なテンプレート化された機能が多数あります。

また、ブラジルからの新しい論文の場合と同様に、目の前にあるタスクは、新しい科学論文のタイトル、要約、メタデータ、および (正当な場合は) 本文の内容を反復処理して、定数、信頼できるパラメータ、トークン、および実用的なものを探すことであると仮定しましょう。、削減可能なドメイン情報。

結局のところ、これは大きな成功を収める原則です新しいフレームワーク～の分野での地位を確立しつつある地震報道, スポーツライティング, 金融ジャーナリズム & 健康保険、そして AI を活用した科学ジャーナリストにとって妥当な出発点です。

新しいブラジル製品のワークフロー。 PDF 科学論文は UTF-8 プレーンテキストに変換され (ただし、意味的な意味を持つ可能性のある斜体の強調は削除されます)、テキストフィルタリングに渡される前に記事セクションにラベルが付けられて抽出されます。分解されたテキストはデータフレームとして文に分割され、トークンが識別される前にデータフレームがマージされ、XNUMX つのドキュメントトークンマトリックスが生成されます。出典: https://arxiv.org/ftp/arxiv/papers/2107/2107.14638.pdf

テンプレートの複雑化

適合性と正規化の励みとなる層の XNUMX つは、Arxiv が提出用にかなり厳密に適用されたテンプレートを課していることです。詳細なガイドラインを提供します著者を投稿するため。したがって、論文は一般に、説明されている研究に適用されるプロトコルのどの部分にも準拠しています。

したがって、推定自動サイエンスライター用の AI 前処理システムは、通常、そのようなセクションをサブドメインとして扱うことができます。 抽象的な, 導入, 関連/過去の作品, 方法論/データ, 結果/調査結果, アブレーション研究, 議論, 結論.

ただし、実際には、これらのセクションの一部が欠落しているか、名前が変更されているか、厳密に言えば、別のセクションに属するコンテンツが含まれている可能性があります。さらに、著者は当然、テンプレートに準拠しない見出しや小見出しを含めることになります。したがって、コンテキストから関連するセクションに関連するコンテンツを識別するのは NLP/NLU になります。

トラブルに向かっています

ヘッダー階層は、NLP システムが次のことを行う簡単な方法です。最初に分類するコンテンツのブロック。 Arxiv の投稿の多くは Microsoft Word からエクスポートされます (タイトルヘッダーに「Microsoft Word」を残した誤った処理が行われた Arxiv PDF で明らかです – 下の画像を参照)。適切に使えば Word のセクション見出し、PDF にエクスポートすると、マシンレポーターのデータ抽出プロセスに役立つ階層見出しとして再作成されます。

ただし、これは、作成者が Word でそのような機能を実際に使用していること、または TeX や派生版などの他の文書作成フレームワーク (Arxiv の投稿ではネイティブの代替形式として提供されることはほとんどなく、ほとんどの提供物は PDF に限定されており、場合によってはさらに不透明な形式で提供されることもあります) を使用していることを前提としています。追記）。

何年も Arxiv の論文を読んできた結果、その大部分には次のような内容が含まれていないことに気付きました。 どれか リーダー (つまり、Web ブラウザーまたは PDF リーダー) で文書自体の完全なタイトル (拡張子を含む) として報告されるタイトルを持つ、解釈可能な構造メタデータ。

この場合、論文の意味解釈可能性は限られており、AI ベースのサイエンスライターシステムは、Arxiv ドメインにある関連するメタデータに論文をプログラム的に再リンクする必要があります。 Arxiv の規約では、基本的なメタデータも、送信された PDF の 1 ページ目に大きな灰色の文字で横方向に挿入されることが規定されています (下の画像を参照)。悲しいことに、特にこれが出版日やバージョン番号を見つけることができる唯一の信頼できる場所であるため、除外されることがよくあります。

多くの作成者は、スタイルをまったく使用しないか、H1 (最上位のヘッダー/タイトル) スタイルのみを使用しているため、NLU が再度見出しを抽出するか、文脈から（おそらくそれほど難しくはありません）、またはドキュメントルート内のタイトルを構成する参照番号を解析することによって（つまり、https://arxiv.org/pdf/）2110.00168.pdf) を作成し、提出用に (ローカルではなく) ネットベースのメタデータを利用します。

後者は見出しの欠落を解決するものではありませんが、少なくとも提出物がコンピュータサイエンスのどのセクションに適用されるかを確立し、日付とバージョン情報を提供します。

ParagraphReturns の GluedText

著者によって提出された最も一般的な利用可能な Arxiv 形式である PDF と Postscript では、NLP システムは、行末の単語を、PDF 形式の残念な点で「添付」される後続の行頭の単語から分割するルーチンを必要とします。デフォルトの最適化メソッド。

連結解除 (およびハイフン解除) 言葉は達成できる Perlでおよび他の多くの単純な再帰ルーチンは、 Python ベースのアプローチ時間がかからず、ML フレームワークにより適応できる可能性があります。 PDF 形式の創始者である Adobe も、AI 対応の変換システムと呼ばれるシステムを開発しました。液体モード、PDF 内のベイクされたテキストを「リフロー」することができますが、モバイル領域を超えた展開は遅いことが判明しています。

下手な英語

科学論文を投稿する際の世界的な科学標準は依然として英語です。物議を醸す。したがって、興味深くニュース価値のある論文には、次のような内容が含まれることがあります。恐ろしい英語の基準、英語以外の研究者によるものです。機械システムが作品を評価する際に、英語の巧みな使用が価値の尺度として含まれる場合、優れたストーリーが失われることが多いだけでなく、衒学的で価値の低い成果物が、単にあまり優れた内容を述べていないというだけの理由でより高く評価されることになります。

この点で柔軟性に欠ける NLP システムでは、グラフやチャートが世界の科学コミュニティ全体でより均一に適合する化学や理論物理学など、最も厳密でパラメータ化された科学を除いて、データ抽出においてさらなる障害が発生する可能性があります。機械学習の論文には公式が頻繁に登場しますが、古い科学が享受してきた方法論に関する完全に確立された科学的コンセンサスが存在しない場合、これらは投稿の決定的な価値を表していない可能性があります。

選択: 聴衆の要件の決定

風変わりな科学論文を個別のデータポイントに分解する際の多くの問題については、すぐに戻る予定です。ここで、読者と目的について考えてみましょう。これらは、サイエンスライター AI が毎週何千もの論文を精査するのに不可欠なものとなるからです。潜在的なニュース記事の成功を予測することはすでに行われていますアクティブなエリア機械学習で。

たとえば、科学記事が広範なジャーナリズムの一環にすぎない Web サイトで、大量の「科学トラフィック」が唯一の目的である場合 (英国の場合のように) デイリーメール 科学セクション)、トラフィックの観点から最も収益の高いトピックを判断し、それに向けて選択を最適化するために AI が必要になる場合があります。このプロセスでは、おそらく、次のような (比較的) 簡単な成果が優先されるでしょう。 ロボット, ドローン, ディープフェイク, プライバシー & セキュリティ脆弱性.

レコメンダーシステムの現在の最先端技術に沿って、この高レベルの収集により、次のような結果が得られる可能性があります。「フィルターバブル」アルゴリズムは、これらのトピックに関する「望ましい」高頻度のキーワードやフレーズを特徴とする、より多くの偽の科学論文への注目を高めるため、サイエンスライター AI の問題を解決します (繰り返しますが、これらの論文には両方の点でお金があるからです) Arxiv のあまり利用されないコーナーの多くにある、より書きやすい「イースターエッグ」 (以下を参照) の一部は無視しています。

XNUMX つで完了!

優れた科学ニュースの材料は、奇妙で予期せぬ場所から、あるいはこれまで実りのなかった分野や話題から生まれることがあります。「実りある」ニュースソースの生産的なインデックスを作成したいと考えていたAIサイエンスライターをさらに混乱させるために、型破りな「ヒット」のソース（Discordサーバー、学術研究部門、テクノロジースタートアップなど）は、頻繁 実用的な資料を二度と作成しないでください、価値の低い大量のノイズの多い情報ストリームを出力し続けます。

反復機械学習アーキテクチャはここから何を推測できるでしょうか? かつては特定され除外されていた何千もの以前の「外れ値」ニュースソースが、突然優先されることになったのだろうか（たとえそうすることで、毎年大量の論文が発表されることを考慮すると、制御不能な信号対雑音比が生じることになるが）。トピック自体が、その発信元のニュースソースよりもアクティベーションレイヤーとして価値があるということ (人気のあるトピックの場合、これは冗長なアクションです)。

さらに便利なのは、私の亡きジャーナリストの祖父が「ニュースの鼻」と呼んだものを構成するパターンを探して（本当にあるなら）、データ次元の階層を上下に移動し、その特徴を定義する必要があることをシステムが学習する可能性があることです。 報道価値がある 遍歴的で抽象的な性質であり、来歴のみに基づいて正確に予測することはできず、日々変化することが予想されます。

仮説の失敗の特定

による割り当てのプレッシャー, 学術部門は、たとえプロジェクトの手法や発見自体が多少の興味を引く価値がある場合でも、中心仮説がテストで完全に（またはほぼ完全に）失敗した研究を出版することがあります。

このような失望は、要約では示されないことがよくあります。最悪の場合、反証された仮説は結果のグラフを読むことによってのみ識別できます。これには、論文が提供する厳選された限られた情報から方法論を詳細に推測することが必要なだけでなく、円グラフから散布図まですべてを文脈に応じて有意義に解釈できる、熟練したグラフ解釈アルゴリズムが必要になります。

要約を信頼するが、グラフや表を解釈できない NLP ベースのシステムは、最初に新しい論文を読んだときに非常に興奮するかもしれません。残念ながら、学術論文における「隠れた失敗」のこれまでの例は、（訓練を目的として）一般化してパターン化することが困難です。なぜなら、この「学術犯罪」は主に省略または強調不足によるものであり、したがってとらえどころがないからです。

極端なケースでは、AI ライターは、結果が作者の目的の観点から何を意味するのかを理解するために、リポジトリデータ (つまり GitHub から) を見つけてテストするか、利用可能な補足資料を解析する必要がある場合があります。したがって、機械学習システムは、これに関与する複数のマッピングされていないソースと形式を横断する必要があり、検証プロセスの自動化がアーキテクチャ上の課題になります。

「ホワイトボックス」シナリオ

AI を中心としたセキュリティに関する論文で行われた最も突飛な主張の一部は、ソースコードまたはソースインフラストラクチャへの異常かつ非常にありそうもないレベルのアクセス、つまり「ホワイトボックス」攻撃を必要とすることが判明しました。これは、AI システムのアーキテクチャにおけるこれまで知られていなかった癖を推定するのには役立ちますが、現実的に悪用可能な攻撃対象領域を表すことはほとんどありません。したがって、AI サイエンスの執筆者には、セキュリティに関する主張を効果的な展開のための確率に分解するための、非常に優れたデタラメ検出器が必要になります。

自動化されたサイエンスライターには、「ホワイトボックス」の言及を意味のある文脈に分離する (つまり、論文の核心的な意味から言及を区別する) ための有能な NLU ルーチンと、その語句が決して現れない場合にホワイトボックスの方法論を推定する機能が必要です。紙。

その他の「落とし穴」

実現不可能性や仮説の失敗が完全に埋もれてしまう可能性がある他の場所は、 アブレーション研究、新しい公式や手法の重要な要素を体系的に取り除き、結果が悪影響を受けるかどうか、または「中核」の発見に回復力があるかどうかを確認します。実際には、アブレーション研究を含む論文は通常、その結果に非常に自信を持っていますが、注意して読むと「はったり」を発見することがよくあります。 AI 研究において、そのハッタリはしばしば次のようなものになります。 過適合この場合、機械学習システムは元の研究データでは見事に機能しますが、新しいデータに一般化できないか、他の再現不可能な制約の下で動作します。

体系的な抽出の可能性に関するもう XNUMX つの有用なセクションの見出しは次のとおりです。 制限事項。これは、サイエンスライター (AI または人間) が読み飛ばすべき最初のセクションです。このセクションには、論文の仮説全体を無効にする情報が含まれている可能性があり、そこにジャンプすることで (少なくとも人間にとっては) 無駄な作業時間を節約できます。。ここでの最悪のシナリオは、論文に実際に 制限事項 セクションですが、「妥協する」事実が含まれています 他の場所で 作品の中ではありますが、ここではありません（またはここでは過小評価されています）。

次は 前の仕事。これは Arxiv テンプレートの早い段階で発生し、現在の論文が、通常は過去 12 ～ 18 か月の、より革新的なプロジェクトのわずかな進歩にすぎないことを頻繁に明らかにします。この段階では、AI ライターには、以前の作品が注目を集めたかどうかを確認する能力が必要になります。ここにはまだ話がありますか？以前の作品は、出版時に不当にも公の目をすり抜けたのでしょうか? それとも、新しい論文は、よく取り上げられた以前のプロジェクトへのおざなりな追記にすぎないのでしょうか?

リトレッドと「新鮮さ」の評価

以前のバージョンの正誤表の修正に加えて、論文の V.2 は、V.1 が出版されたときに得られなかった注目を著者が求めて叫んでいるだけのことを意味していることがよくあります。しかし、多くの場合、論文は実際には二度目の批判に値するものです。それは、最初の出版時にメディアの注目が他のところに向けられていた可能性があるため、あるいは、過密な「シンポジウム」や会議期間中の大量の投稿によって作品が目立たなくなっていたためです（例:秋と晩冬）。

再放送を区別するための Arxiv の便利な機能の XNUMX つは、投稿タイトルに追加される [UPDATED] タグです。 AI ライターの内部「推薦システム」は、次のようなことを慎重に検討する必要があります。 [更新]==「プレイアウト」特に、再温められた紙を（おそらく）評価できるため、 はるかに高速 難しい科学ハックよりも。この点で、少なくとも Arxiv では存続する可能性が高い命名規則のおかげで、人間よりも顕著な利点があります。

また、Arxiv は、論文が別の論文 (多くの場合同じ著者による) とテキストの「重大な交差」があると特定されているかどうかに関する情報を概要ページに提供します。これも潜在的に「重複/再読」として解析される可能性があります。 [UPDATED]タグがない場合、AIライターシステムによるステータス。

拡散の決定

ほとんどのジャーナリストと同様に、私たちの予定されている AI サイエンスライターも、サポートするコンテンツストリームに価値を加えるために、未報告または過小報告されているニュースを探しています。ほとんどの場合、科学の画期的な成果を再報告するのは、TechCrunch、The Verge、EurekaAlert などの主要メディアで最初に特集されたものです。らこのような大規模なプラットフォームは徹底的な宣伝マシンでコンテンツをサポートしており、紙のメディア飽和が事実上保証されているため、これは無意味です。

したがって、AI ライターは、ストーリーが追求する価値があるほど新鮮であるかどうかを判断する必要があります。

理論上、最も簡単な方法は、最近のデータを特定することです。インバウンドリンク主要な研究ページ (概要、PDF、学部 Web サイトのニュースセクションなど) に移動します。一般に、最新のインバウンドリンク情報を提供できるフレームワークはオープンソースでも低コストでもありませんが、大手出版社はおそらくニュース価値評価フレームワークの一部として SaaS 費用を負担する可能性があります。

そのようなアクセスを想定すると、私たちのサイエンスライター AI は、多数の科学報道機関がアクセスするという問題に直面します。引用しないでください情報が無料で入手できる場合でも、彼らが書いている論文について。結局のところ、報道機関はソースではなく、二次的なレポートにリンクすることを望んでいます。多くの場合、彼らは実際に研究論文への特権的または半特権的なアクセスを取得しているため（「 「社会」科学作家 以下）、彼らはこれについて不誠実な口実を持っています。

したがって、AI ライターは、論文から実用的なキーワードを抽出し、時間制限付きの検索を実行して、ストーリーがすでに破綻している箇所がある場合にはそれを特定し、その後、事前の拡散を割り引いてよいかどうか、またはストーリーが展開されるかどうかを評価する必要があります。。

論文によっては、YouTube で補足的なビデオ資料が提供されることもあります。その場合、「再生回数」が普及の指標として機能します。さらに、当社の AI は論文から画像を抽出し、体系的な画像ベースの検索を実行して、画像が再公開されたかどうか、どこで、いつ再公開されたかを特定できます。

イースターエッグ

場合によっては、「無味乾燥な」論文から、深遠でニュース価値のある含意を持っているにもかかわらず、著者によって過小評価されている（あるいは見落とされたり軽視されたり）結果が明らかになり、論文全体を読んで計算することによってのみ明らかになることもあります。

まれなケースではあるが、これは著者が一般大衆よりも学界で受け入れられることをはるかに重視しているためであり、おそらく（必ずしも間違っているわけではないが）関係する中心概念が、一般消費者向けに単純化できないと感じているためであると私は考えている。多くの場合、所属機関の広報部門による大げさな取り組みが行われます。

しかし、ほとんどの場合、著者は公式には「科学的削除」のもとで活動しており、自分の作品の意味を割り引いたり、あるいはその意味を見なかったり認めなかったりすることがあります。場合によっては、これらの「イースターエッグ」は、上で述べたように、作品にとって肯定的な指標ではなく、複雑な調査結果の表では皮肉的に隠されている可能性があります。

アルクシブを超えて

コンピュータサイエンスに関する論文を個別のトークンとエンティティにパラメータ化することは、Arxiv のようなドメインでははるかに簡単になると考えるべきです。Arxiv は、分析するための一貫したテンプレート化された「フック」を多数提供し、ほとんどの機能にログインを必要としません。。

すべての科学出版物へのアクセスがオープンソースであるわけではなく、（実際的または法的な観点から）AI サイエンスライターがペイウォールを回避する手段に頼ることができるかどうか、あるいはそうするかどうかはまだわかりません。サイハブ; アーカイブサイトを使用して、ペイウォールを取り除く; そして、その多くは体系的な調査に対して構造的に耐性がある他のさまざまな科学出版プラットフォームに対して同様のドメインマイニングアーキテクチャを構築することが現実的かどうか。

Arxiv であっても、レート制限があるこれにより、AI ライターのニュース評価ルーチンがより「人間らしい」速度まで低下する可能性があります。

「ソーシャル」AI サイエンスライター

Arxiv や同様の「オープン」科学出版プラットフォームのオープンでアクセスしやすい領域を越えると、興味深い新しい論文にアクセスすることさえ困難になる場合があります。著者との連絡手段を見つけて、その論文を読むよう依頼するためにアプローチしたり、さらには見積もりを入手するため（時間のプレッシャーが最優先の要因ではない場合、最近の人文科学記者にとっては珍しいケースです）。

これには、科学ドメインの自動トラバースとアカウントの作成が必要になる場合があります (Arxiv であっても、論文の著者の電子メールアドレスを公開するにはログインする必要があります)。ほとんどの場合、LinkedIn が応答を得るのに最も早い方法ですが、現時点では AI システムがメンバーへの連絡禁止.

研究者がサイエンスライター AI からの勧誘メールをどのように受け取るかについては、食肉製品のサイエンスライティングの世界と同様、おそらくその媒体の影響力に依存します。 AI ベースのライターと推定される人物が、 ワイヤード 自分の作品を広めたいと考えている著者に連絡を取ったとしても、敵対的な反応には応じられない可能性があると想定するのは当然です。

ほとんどの場合、著者は、これらの半自動のやり取りが最終的には人間をループに呼び込むことを期待していると想像できますが、フォローアップの VOIP インタビューが AI によって促進される可能性の領域を超えることはありません。少なくとも、論文の存続可能性が一定の閾値を下回ると予測される場合、およびその出版物が「AI 研究者」との会話に人間の参加を引き付けるのに十分な牽引力を持っている場合。

AIでニュースを識別

ここで概説した原則と課題の多くは、ジャーナリズムの他の分野にわたる自動化の可能性に当てはまります。これまでと同様、潜在的なストーリーを特定することが中心的な課題です。ほとんどの人間のジャーナリストは、実際に記事を書くのは労力の最後の 10% にすぎず、キーボードがカタカタする頃には作業はほぼ終わっていることを認めます。

したがって、主要な課題は、ニュースゲームの多くの不可解な変遷に基づいて、また、人的または情報による探りや流出に対してすでに強化されている膨大な範囲のプラットフォームを横断して、ストーリーを発見、調査、認証できる AI システムを開発することです。さもないと。

科学報道の場合、新しい論文の著者は、ニュース記事の他の潜在的な一次情報源と同じくらい深い利己的な目的を持っており、その成果を解体するには、社会学的、心理的、経済的な動機に関する事前の知識を埋め込む必要があります。したがって、株式、パンデミックの数字、スポーツの結果、地震活動、その他の純粋に統計的なニュースソースの場合のように、ニュース領域が特に階層化されていない限り、自動サイエンスライターと思われる人は、ニュースが今日どこにあるかを確立するために、還元的な NLP ルーチン以上のものを必要とするでしょう。。