私達と接続

AIトレーニングのための研究の収益化:リスクとベストプラクティス

Artificial Intelligence

AIトレーニングのための研究の収益化:リスクとベストプラクティス

mm

公開済み

 on

生成 AI の需要が高まるにつれ、これらのシステムをトレーニングするための高品質データへの渇望も高まっています。学術出版社は、大規模言語モデル (LLM) のトレーニング データを提供するために、研究コンテンツを収益化し始めています。この開発により、出版社に新たな収益源が生まれ、生成 AI が科学的発見に役立つようになりますが、使用される研究の完全性と信頼性について重大な疑問が生じます。これは、販売されているデータセットは信頼できるのか、そしてこの慣行は科学界と生成 AI モデルにどのような影響を与えるのか、という重要な疑問を提起します。

収益化された研究契約の増加

ワイリー、テイラー・アンド・フランシスなどを含む大手学術出版社は、 報告 生成型 AI モデルを開発するテクノロジー企業にコンテンツのライセンスを供与することで、多額の収益を得ています。たとえば、Wiley は今年だけでこうした取引から 40 万ドル以上の収益を得たと発表しました。これらの契約により、AI 企業は多様で広範な科学的データセットにアクセスできるようになり、AI ツールの品質が向上すると考えられます。

出版社の売り文句は単純明快だ。ライセンス供与により、より優れた AI モデルが保証され、社会に利益をもたらし、著者には印税が支払われる。このビジネス モデルは、テクノロジー企業と出版社の両方に利益をもたらす。しかし、科学的知識を収益化する傾向が強まる中、特に疑わしい研究が AI トレーニング データセットに混入した場合には、リスクが伴う。

偽研究の影

学術界は不正研究の問題に馴染みがある。研究によると、多くの発表された研究結果は欠陥があったり、偏っていたり、単に信頼できないものである。2020年の調査では、研究者のほぼ半数が、選択的なデータ報告や不適切なフィールド調査などの問題を報告している。2023年には、 10,000論文 偽造または信頼性の低い結果のために撤回された研究は、毎年増加し続けています。専門家は、この数字は氷山の一角であり、科学データベースには疑わしい研究が無数に出回っていると考えています。

この危機は主に「製紙工場中国、インド、東ヨーロッパなどの地域では、学術的な圧力に反応して捏造された研究を行う影の組織「」がある。 2%の周りに 世界中のジャーナル投稿の 19% はペーパーミルから来ています。これらの偽の論文は正当な研究に似ているかもしれませんが、架空のデータと根拠のない結論に満ちています。憂慮すべきことに、そのような論文は査読をすり抜けて評判の良いジャーナルに掲載され、科学的洞察の信頼性を損ないます。たとえば、COVID-XNUMX パンデミックの間、 欠陥のある研究 イベルメクチンに関する研究では、治療薬としての有効性を誤って示唆し、混乱を招き、効果的な公衆衛生対策を遅らせました。この例は、信頼性の低い研究を広めることで、欠陥のある結果が重大な影響を及ぼす可能性がある潜在的な害を浮き彫りにしています。

AIのトレーニングと信頼への影響

LLM が不正または低品質の研究を含むデータベースでトレーニングする場合、その影響は甚大です。AI モデルは、トレーニング データ内のパターンと関係を使用して出力を生成します。入力データが破損している場合、出力は不正確さを永続させたり、増幅したりする可能性があります。このリスクは、AI によって生成された誤った洞察が生命を脅かす結果をもたらす可能性がある医療などの分野で特に高くなります。
さらに、この問題は学術界と AI に対する国民の信頼を脅かすものである。出版社は契約を締結し続ける中で、販売されるデータの質に関する懸念に対処しなければならない。そうしなければ、科学コミュニティの評判が損なわれ、AI の潜在的な社会的利益が損なわれる可能性がある。

AIのための信頼できるデータの確保

欠陥のある研究が AI トレーニングを妨害するリスクを減らすには、出版社、AI 企業、開発者、研究者、そしてより広範なコミュニティの共同の取り組みが必要です。出版社は、信頼性の低い研究がトレーニング データセットに採用される前にそれを捕捉するために、査読プロセスを改善する必要があります。査読者により良い報酬を提供し、より高い基準を設定することが役立ちます。ここでは、オープンな査読プロセスが重要です。これにより、透明性と説明責任が高まり、研究への信頼を築くのに役立ちます。
AI 企業は、AI トレーニングのための研究を調達する際に、誰と協力するかについてより慎重にならなければなりません。高品質で十分にレビューされた研究で高い評価を得ている出版社やジャーナルを選択することが重要です。この文脈では、論文を撤回する頻度やレビュー プロセスについてどれだけオープンであるかなど、出版社の実績を詳しく調べる価値があります。選択的であることは、データの信頼性を高め、AI および研究コミュニティ全体で信頼を築くことにつながります。

AI 開発者は、使用するデータに対して責任を持つ必要があります。つまり、専門家と協力し、研究を慎重にチェックし、複数の研究の結果を比較するということです。AI ツール自体も、疑わしいデータを識別し、疑わしい研究がさらに広がるリスクを軽減するように設計できます。

透明性も重要な要素です。出版社やAI企業は、研究がどのように使用され、ロイヤリティがどこに行くのかを詳細に公開する必要があります。 ジェネレーティブ AI ライセンス契約トラッカー 有望ではあるが、より広範な採用が必要である。研究者も、自分の研究がどのように利用されるかについて発言権を持つべきである。 オプトインポリシー、のような ケンブリッジ大学出版局は、著者が自分の貢献をコントロールできるようにします。これにより、信頼が構築され、公平性が確保され、著者がこのプロセスに積極的に参加するようになります。

さらに、質の高い研究へのオープンアクセスを奨励し、 包括性と公平性 AI 開発において、政府、非営利団体、業界関係者はオープン アクセスの取り組みに資金を提供し、重要なトレーニング データセットに関して商業出版社への依存を減らすことができます。さらに、AI 業界には、倫理的にデータを入手するための明確なルールが必要です。信頼性が高く、十分にレビューされた研究に重点を置くことで、より優れた AI ツールを構築し、科学的誠実性を保護し、科学技術に対する国民の信頼を維持することができます。

ボトムライン

AI トレーニングのための研究を収益化することには、チャンスと課題の両方があります。学術コンテンツのライセンス供与により、より強力な AI モデルの開発が可能になりますが、使用されるデータの完全性と信頼性に関する懸念も生じます。「ペーパー ミル」による研究を含む欠陥のある研究は、AI トレーニング データセットを破損させ、不正確さをもたらし、国民の信頼と AI の潜在的な利点を損なう可能性があります。AI モデルが信頼できるデータに基づいて構築されるようにするには、出版社、AI 企業、開発者が協力して、査読プロセスを改善し、透明性を高め、高品質で十分に検証された研究を優先する必要があります。そうすることで、AI の未来を守り、科学コミュニティの完全性を維持することができます。

Tehseen Zia 博士は、COMSATS イスラマバード大学の終身准教授であり、オーストリアのウィーン工科大学で AI の博士号を取得しています。 人工知能、機械学習、データ サイエンス、コンピューター ビジョンを専門とし、評判の高い科学雑誌での出版で多大な貢献をしてきました。 Tehseen 博士は、主任研究者としてさまざまな産業プロジェクトを主導し、AI コンサルタントも務めてきました。