人工知能
自動化科学記事執筆への道

この朝、いつも通りArxivのコンピューターサイエンスのセクションを調べて回っていると、ブラジルの連邦大学から出た新しい論文を見つけた。この論文では、科学論文の要約と核心データの抽出を自動化するための新しい自然言語処理フレームワークが提案されている。
このようなことは、私が毎日行っていることなので、この論文は先ほどこの年初めにRedditのライターのスレッドで見たコメントを思い出させた。あるいは、科学記事執筆が、機械学習によって最初に職を奪われるジャーナリズムの仕事の一つになるだろう、という予言的なコメントだった。
明確に述べておくが、私は絶対に、自動化された科学ライターが来ること、そしてこの記事で述べる課題はすべて、現在解決可能であるか、将来的に解決可能になるだろうと信じている。可能な限り、例を示す。また、私は現在または近未来の科学記事執筆AIが論理的に書けるかどうかについては触れていない。現在のNLPのこの分野への関心のレベルに基づいて、この課題も最終的に解決されるだろうと仮定している。
むしろ、私が問うのは、科学ライターAIが、さまざまな出版社の望ましい成果に応じて、関連する科学ストーリーを特定できるかどうかである。
私は、それがすぐに起こることを思っていない。毎週約2000件の新しい科学論文の見出しや本文を調べて回っているが、学術的な提出物をアルゴリズム的に分解することができる範囲については、学術的な索引や科学ジャーナリズムの目的において、かなり懐疑的な見方を持っている。いつものように、それは人々が邪魔をしているのだ。
自動化科学ライターの要件
最新の学術研究についての科学報道を自動化する課題を考えてみよう。公平性を保つために、コーネル大学の非常に人気のある非有料のArxivドメインのCSカテゴリに限定することにする。これには、データ抽出パイプラインに接続できるいくつかのシステム化されたテンプレート機能がある。
新しいブラジルの論文と同様に、タイトル、要約、メタデータ、そして(必要に応じて)本文コンテンツを新しい科学論文を通して反復し、定数、信頼できるパラメータ、トークン、そして実行可能な、還元可能なドメイン情報を探すというタスクを仮定する。
これは、高度に成功した新しいフレームワークが、地震報道、スポーツライティング、金融ジャーナリズム、およびヘルスケア報道の分野で進展している原則に基づいている。
… (以下、同じように翻訳します。長いので省略します。)












