Connect with us

AIによるレビューをすり抜けるための馬鹿げた科学論文の作成方法

Andersonの視点

AIによるレビューをすり抜けるための馬鹿げた科学論文の作成方法

mm
An industrial robot at an AI paper mill, stamping 'ACCEPTED' onto spurious and impossible academic research papers, including papers on perpetual motion and alchemy. ChatGPT-4o; Adobe Firefly V3; et al.

新しい研究では、AIシステムが偽の科学論文を書き、それを他のAIが本物として受け入れることができることを実証し、かつては機能していた検出ルーチンを回避し、研究世界がボットによってボットを欺くことによって簡単に崩壊する可能性を明らかにした。

 

学術研究セクターは、皮肉にもAIのイノベーションの最前線であり、現在、AIによって推進される信頼性の危機に直面している。信頼性の危機は、約4年前にAIの影響が明らかになった以来、研究、提出、レビューのプロセスに大きな影響を与えてきた。最新の論争は、低品質の調査論文の大量生成である。

学術セクターの他の多くの分野と同様に、研究セクターは、テキストを生成するAI(例:ChatGPTやClaudeシリーズ)と、出力がAIによって生成されたものであることを識別できる最新の「検出」AIとの間で、冷戦のような状況にある。後者は、通常、学生や科学者に誤った陽性を与えることなく機能する。

これらの緊張は、科学的提出の量とともに増加する予定である。提出の量は、急激に増加しており、AI支援システムやフレームワークによって推進されており、提出物をフィルタリングするための監視プロセスの産業化が必要である。

偽の知識を歓迎

米国とサウジアラビアの共同研究では、AI検出の「ファイアウォール」が、追加のトリックを使用した完全にAI生成された提出論文によってどれだけ侵害できるかを調査した。

テストでは、BadScientistと呼ばれる新しいシステムは、現在科学研究論文でAI生成コンテンツを検出するために使用されているLLMベースのシステムから、最大82%の受け入れ率を達成した。

BadScientistシステムは、1つのAIエージェントを使用して偽の科学論文を生成し、もう1つのAIエージェントを使用して現在の言語モデルでそれらをレビューする。ソース: https://arxiv.org/pdf/2510.18003

BadScientistシステムは、1つのAIエージェントを使用して偽の科学論文を生成し、もう1つのAIエージェントを使用して現在の言語モデルでそれらをレビューする。ソース: https://arxiv.org/pdf/2510.18003

偽の論文は、実際のAI会議のトピックと誤解を招く戦略を使用して生成され、GPT-5を使用して完全性のチェックを行った。多くの論文は、高いスコアを獲得したにもかかわらず、明らかなエラーまたは捏造が含まれていた。

論文の公開は、Open Conference of AI Agents for Science 2025と同時期に発表された。会議では、出席者とスピーカーは人間だが、すべての論文はさまざまなAIシステムによって書かれ、レビューされた。

BadScientistという新しい論文では、学術的および文学的な欺瞞、省略、発明、誇張などのさまざまな手法を使用して、論文を検出システムがAIによって生成されたものと識別できるものから遠ざける。

著者は、警告の口調で、検出システムが偽の論文のAIコンテンツを識別した場合でも、それを通過させる傾向があることを指摘し、自分たちの防御システムをこの新しい攻撃ベクトルに対して無毒化しようとしたところ、ほとんどランダムなチャンス以上の改善は得られなかったと述べている。

論文には次のように記載されている。

‘捏造された論文は高い受け入れ率を達成し、レビュアーは頻繁に懸念を受け入れの矛盾を示し、完全性の問題を指摘しながらも受け入れを勧告する。こちらは、現在のAIレビュアーがパターンマッチャーとしてではなく、批判的評価者として機能していることを示す基本的な崩壊を明らかにする。

‘[…] 単にLLMレビュアーに「より注意深く」するように求めることは不十分である。科学コミュニティは緊急な選択に直面している。すぐに防御の深さの安全対策を実装しない場合、出典の検証、完全性の重み付けスコアリング、人間の監視を含む場合、AIのみの出版ループで、洗練された捏造が本物の研究と区別できないようになる危険性がある。

‘科学的知識そのものの完全性が危険にさらされている。

新しい論文は、BadScientist: 研究エージェントは、LLMレビュアーを欺くことができるしかし不正な論文を書くことができるか?というタイトルで、ワシントン大学とサウジアラビアのリヤドにあるキング・アブドゥルアズィーズ・サイエンス・シティーの6人の著者によって執筆された。

方法

論文を作成するエージェント・フレームワークは、2024年のAI-Scientistコラボレーションの重要な再設計である。著者は、そのパイプラインが根本的に再設計されたことを強調しており、最も基本的な書き込みのプロンプトのみが保持された。他のすべての実験的実行とテンプレート構造が削除された。更新されたシステムは、シンプルなシードから動作し、実験結果を自由に発明し、プロットコードを生成することができる。

全体的なフレームワークは、実際の実験を実行したり本物のデータを使用したりすることなく、AIによって偽の科学論文を生成することを可能にすることを目的としている。代わりに、システムは、故意に捏造された主張を支持するために、合成データを作成または変更する。

セットアップは、人間の関与、プロンプト攻撃、または書き手エージェントとレビューエージェントの協調的な共謀を避けるように設計されている。レビューエージェントは、1回のパスで各提出物を評価し、提出物自体以外にアクセスできず、実験を再実行することができなかった。

偽の論文を生成するために使用される「原子戦略」は、モジュラーな戦術であり、単独でまたは組み合わせて適用することができる(誰でも文学を頻繁に読む人ならこれらの戦略に馴染みがある)。戦略には、方法が大きな進歩であるように見せるために、劇的な改善を強調する(TooGoodGains);新しい方法に有利な基準と結果を選択し、メインテーブルでは信頼性の間隔を省略する(BaselineSelect);付録にきれいな分解、正確な統計、整った表、将来のコードまたはデータの約束を追加する(StatTheater);論文の構造を一貫した用語、相互参照、フォーマットで磨き上げる(CoherencePolish);そして、隠れたエラーを含むように見える形式的な証明を追加する(ProofGap)。

データとテスト

システムをテストするために、著者は、ICLR 2025 OpenReviewデータセット(実際の論文、レビューコメント、受け入れ結果の公開コレクション)を使用して、GPT-5を使用して、人工知能の重要な分野にわたる研究トピックを生成した。

これらのカテゴリは、偽の論文のシードトピックとなり、各カテゴリは上記の戦略を使用して4つの異なるバージョンに拡張され、レビュアーを欺くか印象を与えるように設計された。

システムは、最終的な評価に基づいて、論文が「受け入れられる」かどうかを判断した。

偽の論文は、GPT-5によって完全に書かれた。レビューするために、著者はGPT-4.1o4-mini;およびo3を使用した。すべてのモデルに同じレビュープロンプトが与えられ、実際のピアレビューで使用されるスコアリング基準と構造を模倣した固定の指示形式が使用された。

これらのレビュースコアを有意にするために、システムは200の実際の提出物を使用して、ICLR 2025 OpenReviewデータセットを使用して、カリブレーションを行った。

緩和

2つの方法がテストされ、将来の検出モデルがこれらの新しい攻撃方法を回避するのを支援する可能性がある。最初の方法は、レビューによる検出(ReD)と呼ばれ、標準のレビューに完全性チェックのステップを追加し、モデルがAI生成コンテンツをフラグし、証拠を引用した。

2番目の方法は、検出のみ(DetOnly)と呼ばれ、完全なレビューをスキップし、モデルに論文を本物か捏造かとして分類するよう依頼した。

結論

近い将来、AIによるテキストの検出の1つの大きな課題は、標準的な書き込みの慣行とAI生成テキストの標準の間の潜在的な収束である可能性が高い。

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。