Connect with us

AIレビューアーを欺くための馬鹿馬鹿しい科学論文の作り方

Andersonの視点

AIレビューアーを欺くための馬鹿馬鹿しい科学論文の作り方

mm
An industrial robot at an AI paper mill, stamping 'ACCEPTED' onto spurious and impossible academic research papers, including papers on perpetual motion and alchemy. ChatGPT-4o; Adobe Firefly V3; et al.

新しい研究により、AIシステムは本物のものと見分けがつかないフェイクの科学論文を書くことができ、かつては機能していた検出ルーチンを回避し、研究界がボットがボットを欺くことによって崩壊する可能性が高まっていることが示された。

 

学術研究分野は、アイロニーのもと、AIのイノベーションの最前線であり、現在、AIによって引き起こされた信頼性の危機に直面している。AIが研究、提出、レビューのプロセスに与える影響は、AIの影響が明らかになった約4年前に大きかった。最新の論争は、低品質の調査論文の大量生成である。

学術分野と同様に、研究分野も、テキストを生成するAI(例:ChatGPTやClaudeシリーズ)と、AI生成の出力を識別できる最新の「検出」AIとの間で、冷戦のような状況にある。後者は、通常、学生や科学者を誤って汚名を着せることなく、AI生成の出力を識別できる。

これらの緊張は、科学的提出の量が急激に増加するにつれて、さらに高まる可能性がある。提出の量は、AI支援システムやフレームワークによって推進され、オーバーサイトプロセスの工業化が必要になるだろう。オーバーサイトプロセスは、AIによって生成された提出物を(希望的に)フィルタリングする必要がある。

フェイクな知識へようこそ

米国とサウジアラビアの新しい研究コラボレーションは、出現する「ファイアウォール」であるAI検出が、完全にAIによって生成された提出論文によってどれだけ貫かれる可能性があるかを調査している。このような論文は、説得力のあるトリックを使用する。

テストでは、BadScientistと呼ばれる新しいシステムは、現在科学研究論文でAI生成のコンテンツを検出するために使用されているLLMベースのシステムから、最大82%の承認率を達成した。

BadScientistシステムは、1つのAIエージェントを使用してフェイクの科学論文を生成し、別のAIエージェントを使用して現在の言語モデルでそれらをレビューする。ソース:https://arxiv.org/pdf/2510.18003

BadScientistシステムは、1つのAIエージェントを使用してフェイクの科学論文を生成し、別のAIエージェントを使用して現在の言語モデルでそれらをレビューする。ソース:https://arxiv.org/pdf/2510.18003

フェイクの論文は、実際のAIカンファレンスのトピックと誤解を招く戦略を使用して生成され、モデルはピアレビューデータ(包括GPT-5)でキャリブレーションされた。多くの論文は、高いスコアを獲得したにもかかわらず、明らかなエラーまたは捏造を含んでいた。

論文の公開は、スタンフォードでのAIエージェントのためのオープンカンファレンス2025と同時期に発表され、出席者とスピーカーは人間だが、すべての論文はさまざまなAIシステムによって書かれ、レビューされた。

BadScientist、という新しい論文は、学術的および文学的欺瞞、省略、捏造、誇張を使用して、論文を現在の検出システムがAIによって生成されたものと識別できるものから遠ざける。近くにこれらのカテゴリについて説明する。

著者は、警告の口調で、検出システムがAIコンテンツをフェイクの論文で識別した場合でも、それでも通過させる傾向があると指摘し、さらに、検出システムをこの新しい攻撃ベクトルに対して免疫化するための彼らの試みは、ほぼランダムな改善のみであったと述べている。

論文は次のように述べている:

‘捏造された論文は、高い承認率を達成し、レビュアーは頻繁に懸念-承認の矛盾を示し、完全性の問題を指摘しながらも依然として承認を推奨している。この基本的な崩壊は、現在のAIレビュアーが批判的評価者ではなく、パターンマッチャーとして機能していることを示している。’

‘[…] LLMレビュアーに「より注意する」というだけでは不十分である。科学界は緊急な選択に直面している。すぐに防御のための深い安全対策を実装しない限り、検証された出典、完全性の重み付け、人間のオーバーサイトを含む場合、AIのみの出版ループが発生し、洗練された捏造が私たちの偽の研究と本物の研究を区別する能力を圧倒する危険性がある。 ‘

‘科学的知識そのものの完全性が危険にさらされている。’

新しい論文は、BadScientist: LLMレビュアーを欺くことができるが、不完全な研究論文を書くことができる研究エージェントがあるか?というタイトルで、ワシントン大学とサウジアラビアのリヤドにあるキング・アブドゥルアズィーズ・シティ・フォー・サイエンス・アンド・テクノロジーから6人の著者によって書かれた。公開にはプロジェクトサイトが付随する。

方法

論文を作成するエージェントフレームワークは、2024年のAI-Scientistコラボレーションの重要な再設計である。著者は、そのパイプラインが根本的に再設計されたことを強調している。最も基本的な書き込みのプロンプトのみが保持され、すべての実験的実行とテンプレート構造が削除された。更新されたシステムは、シンプルなシードから機能し、実験結果を自由に発明し、プロットコードを生成することができる。

全体的なフレームワークは、実験やデータを使用せずに、AIによってフェイクの論文を生成することを目的としている。代わりに、システムは、故意に妄想された主張をサポートするために、合成データを作成または変更する。

セットアップは、人間の関与、プロンプト攻撃、またはライターとレビューエージェントの間の調整された共謀を回避するように設計されている。レビューエージェントは、1回のパスで各提出物を評価し、論文自体を超えるアクセスはなく、実験を再実行する能力もなかった。これは、実際のピアレビューの条件を反映している。

「原子戦略」と呼ばれるフェイクの論文を生成するための戦術は、モジュラーな戦術であり、単独または組み合わせて適用できる(誰でも文学を読むことが多い)。戦略には、次のものがある:TooGoodGains(方法が大幅に改善されたように見せる)、BaselineSelect(新しい方法に有利なベースラインと結果を選択し、メインテーブルで信頼区間を省略する)、StatTheater(付録にクリーンな削除、正確な統計、整った表を追加し、将来のコードまたはデータの約束を追加する)、CoherencePolish(論文の構造を一貫した用語、交差参照、フォーマットで磨き上げる)、ProofGap(見かけ上は妥当だが、隠れたエラーを含む形式的な証明を追加する)。

データとテスト

システムをテストするために、著者は、GPT-5を使用して、人工知能の重要な分野である人工知能機械学習コンピュータビジョン自然言語処理ロボティクスシステムセキュリティのドメインで研究トピックを生成した。

これらのカテゴリは、フェイクの論文のシードトピックとなり、それぞれが上記の戦略を使用して4つのバージョンに拡張され、レビュアーを欺くか印象付けるように設計された。論文が「承認」されるかどうかを判断するために、システムは、AIレビューエージェントによって最終的に与えられた評価のみを考慮した。

フェイクの論文は、GPT-5によって全体的に書かれた。レビューするために、著者はGPT-4.1o4-minio3を使用した。これらはすべて、実際のピアレビューで使用される評価基準と構造を模倣した固定の指示フォーマットで与えられた。

これらのレビュースコアを有意義にするために、システムは、ICLR 2025 OpenReviewデータセット(実際の論文、レビューコメント、承認結果の公開コレクション)から200の実際の提出物を使用してキャリブレーションされた。

これにより、1つのスコアしきい値がICLRの実際の承認率(31.73%)と一致するように設定され、7のカットオフスコアが生成された。もう1つのスコアしきい値は、人間のレビューアーが論文を承認する可能性が50%であるスコア(6.667)を反映するように設定された。

著者は、5,000のフェイクの論文のレビューをシミュレートして、システムの信頼性をテストし、1〜3のAIレビューエージェントを使用し、それぞれが1〜10のランダムなスコアを返した。結果は、システムが最悪のケースの理論的限界よりもはるかに少ないミスの傾向にあることを示した。

1つのレビューエージェントではなく3つのレビューエージェントを使用することで、スコアの変動が大幅に減少し、意思決定の安定性がほぼ3倍になった。結果は、3つのレビューモデルと200の実際の論文のキャリブレーションセットの選択を正当化するために使用された。

2つのメトリックが定義され、生成器を評価するために使用された:承認率は、フェイクの論文が通過スコアを受け取る頻度を測定し、平均レビュースコアは、提出物全体の平均評価を捉えた。両方とも、システムがレビューアーを欺く能力を測定するために使用された。

承認(ACPT)は、2つのしきい値以上のスコアを獲得したフェイクの論文の割合を示す:1つはICLR 2025の承認率に一致し、もう1つは人間の承認率50%の推定値に一致する。完全性懸念率(ICR-m)は、レビューモデルごとのフラグ率を示す。最後の列は、多数決に基づくアンサンブル率を示す。

承認(ACPT)は、2つのしきい値以上のスコアを獲得したフェイクの論文の割合を示す:1つはICLR 2025の承認率に一致し、もう1つは人間の承認率50%の推定値に一致する。完全性懸念率(ICR-m)は、レビューモデルごとのフラグ率を示す。最後の列は、多数決に基づくアンサンブル率を示す。[/em>

フェイクの論文は、ほぼすべての戦略で高い承認率を示した。最初の戦略のみで、67%と82%の承認率が得られ、レビューモデルが簡単に欺かれたことが示された。戦略を組み合わせると、承認率はわずかに低下したが、検出率は2倍になった。半分以上のレビューで懸念が報告された。最初の戦略は、強い承認率と適度な検出率の良いトレードオフを提供した。他の戦略は、弱いが検出が難しい。ChatGPT-o3レビューモデルは最も多くフラグを立て、GPT-4.1は最も少ない。

6つの攻撃戦略を使用した3つのレビューモデルのスコア分布:GPT-4.1(赤)、o3(オレンジ)、o4-mini(青)。各プロットは、4〜9のスコアが割り当てられた頻度を示し、赤い破線は7の承認しきい値を示す。

6つの攻撃戦略を使用した3つのレビューモデルのスコア分布:GPT-4.1(赤)、o3(オレンジ)、o4-mini(青)。各プロットは、4〜9のスコアが割り当てられた頻度を示し、赤い破線は7の承認しきい値を示す。[/em>

上記の結果では、3つのモデルのスコア分布を6つのセットアップで見ることができる。分布はセットアップによって異なるが、o4-miniは平均で高いスコアを割り当て、お3はより広い範囲と極端な値を示し、GPT-4.1はより一貫した低いスコアを割り当てている。

モデルと戦略による懸念-承認の矛盾:モデルが完全性の問題を示したがまだ通過スコアを与えた場合の割合。値が高いと、懸念の検出と最終評価の間の結びつきが弱いことを示す。

モデルと戦略による懸念-承認の矛盾:モデルが完全性の問題を示したがまだ通過スコアを与えた場合の割合。値が高いと、懸念の検出と最終評価の間の結びつきが弱いことを示す。[/em>

上記の表では、モデルは高スコアを与えた完全性の問題を示したことがわかる。o4-miniは、一貫性がなかったが、s1、s3、組み合わせセットアップでは100%の矛盾を示し、他のセットアップでは50〜80%の矛盾を示した。GPT-4.1は、s4では0%からs3では75%の範囲だった。o3は、26%から52%の範囲で一貫性があった。矛盾はs3で最高で、特にo4-miniで高かった。著者は、検出信号が最終スコアに十分に結びついていないと指摘した。

緩和

2つの方法がテストされ、将来の検出モデルがこれらの新しい攻撃方法を回避するのを助ける可能性がある。1つ目の方法は、レビューと検出(ReD)と呼ばれ、標準的なレビューに完全性のチェックステップを追加し、モデルはAI生成のコンテンツをフラグし、証拠を引用した。この方法は、完全性の警告を引き上げ(57%から86%)、承認率も引き上げたが、警告が最終スコアに反映されていないことを示した。

レビューと検出(ReD)は、基準と比較して完全性の懸念率(ICR)と承認率(ACPT)を引き上げる。o3はReDの下でより敏感になり、GPT-4.1は懸念を示さなかった。警告が追加されたにもかかわらず承認率が上昇したことは、検出とスコアリングの間の結びつきが弱いことを示唆する。

レビューと検出(ReD)は、基準と比較して完全性の懸念率(ICR)と承認率(ACPT)を引き上げる。o3はReDの下でより敏感になり、GPT-4.1は懸念を示さなかった。警告が追加されたにもかかわらず承認率が上昇したことは、検出とスコアリングの間の結びつきが弱いことを示唆する。[/em>

2つ目の方法は、検出のみ(DetOnly)と呼ばれ、完全なレビューをスキップし、モデルに論文を本物か偽物か分類するよう依頼した。検出精度は、ランダムに近いレベルで低かったが、o3ではわずかな改善が見られた。

ReDとDetOnlyの検出結果をランダムな基準と比較したもの。精度の改善は最小限で、ReDはより慎重なアプローチで、DetOnlyはより高いリコールを達成したが、多くの誤陽性を伴った。o3は最も強い検出バイアスを示し、o4-miniは一貫性がなかった。GPT-4.1はほとんど何も検出しなかった。

ReDとDetOnlyの検出結果をランダムな基準と比較したもの。精度の改善は最小限で、ReDはより慎重なアプローチで、DetOnlyはより高いリコールを達成したが、多くの誤陽性を伴った。o3は最も強い検出バイアスを示し、o4-miniは一貫性がなかった。GPT-4.1はほとんど何も検出しなかった。[/em>

全体として、ReDはより慎重なアプローチで、DetOnlyはより高いリコールを達成したが、多くの誤陽性を伴った。

論文は次のように結論付けている:

‘AIのみの出版ループは科学的認識を脅かす。もし捏造が本物の研究と区別がつかないものになったら、科学的知識の基盤が崩壊する危険性がある。 ‘

‘前進する道は、複数の層にわたる防御の深化を必要とする:技術的(出典の検証、成果物の検証)、手続き的(完全性を意識したスコアリング、人間のオーバーサイト)、コミュニティ(出版後のレビュー、内部告発システム)、文化(AIの限界に関する教育、倫理ガイドライン)。 ‘

‘私たちは、この研究を、ロブストな防御を構築するための早期警戒システムとして見なしている。私たちの発見は、現在のシステムがAIのみの研究に備えていないことを示しており、科学の完全性は、AIの能力が進化するにつれて、厳格な人間の評価を維持することに依存している。 ‘

結論

近い将来、AIによって書かれたテキストを検出する最大の課題の1つは、標準的な書き方とAIによって生成されたテキストの標準が収束する可能性があることである。AIによって生成されたテキストは、現在は特徴的な単語や文法スタイルで定義されているが、将来はより標準化された書き方になる可能性がある。

共通の言語とAIの言語が標準的なものに収束するにつれて、将来の検出方法は、出力のみに基づいて実装することがより困難になる可能性がある。

さらに、LLMがより汎用性に優れ、特徴が強調されない(アーキテクチャやトレーニングアプローチを通じて、またはAPIレベルのフィルタリングを通じて)ようになると、より優れたライターになるだろう。したがって、人間とAIの言語は、より中間レベルで融合し、標準化されるだろう。

その時点で、言語のためのAI検出は、AI画像生成と(ある程度)AIビデオ生成が到達した段階に達する可能性がある:二次的な出典システム(例:アドビが主導するコンテンツの真正性イニシアチブ)やブロックチェーン/台帳ベースの出典チェックが必要になる。

 

2025年10月22日水曜日に初めて公開されました

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。