Connect with us

複製問題:ジェネレーティブAIモデルが著作権保護されたコンテンツを再生産する方法

人工知能

複製問題:ジェネレーティブAIモデルが著作権保護されたコンテンツを再生産する方法

mm
plagiarism-in-AI

ジェネレーティブAIの急速な進歩は、技術の創造的潜在能力についての興奮を呼んでいます。ただし、これらの強力なモデルは、適切な出典なしに著作権保護されたコンテンツまたは盗作されたコンテンツを再生産することに関する懸念を引き起こします。

ニューラルネットワークがトレーニングデータを吸収する方法

GPT-3のような現代のAIシステムは、転送学習というプロセスを通じてトレーニングされます。彼らは、ウェブサイト、書籍、学術論文など、公開されているソースから大量のデータセットを取得します。たとえば、GPT-3のトレーニングデータには570ギガバイトのテキストが含まれていました。トレーニング中、AIはこの膨大なデータプール内でパターンと統計的関係を探します。単語、文章、段落、言語構造、その他の機能間の相関関係を学習します。

これにより、AIは与えられた入力またはプロンプトに続くシーケンスを予測することで、新しい一貫したテキストまたは画像を生成できます。ただし、これも意味するのは、これらのモデルは著作権、出典、または盗作のリスクを考慮せずにコンテンツを吸収することを意味します。結果として、ジェネレーティブAIは、トレーニングコーパスからverbatimパスまたは著作権保護されたテキストを意図せずに再生産できます。

AIの盗作の重要な例

AIの盗作に関する懸念は、2020年以降、GPTのリリース後に顕著に浮上しました。

最近の研究では、大規模言語モデル(LLM)であるGPT-3は、引用なしにトレーニングデータからのverbatimパスを再生産できることが示されています(Nasr et al., 2023; Carlini et al., 2022)。たとえば、ニューヨークタイムズの訴訟により、OpenAIソフトウェアがニューヨークタイムズの記事をほぼverbatimで生成していることが明らかになりました(ニューヨークタイムズ、2023)。

これらの発見は、一部のジェネレーティブAIシステムが未承認の盗作的な出力を生成し、著作権侵害のリスクをもたらす可能性があることを示唆しています。ただし、発生率は不確実です。LLMの「ブラックボックス」性質により、ニューヨークタイムズの訴訟は、こうした出力が侵害を構成するものであると主張しており、これはジェネレーティブAIの開発に重大な影響を及ぼす可能性があります。全体的に、証拠は、盗作は大規模なニューラルネットワークモデルに内在する問題であり、注意と安全対策が必要であることを示しています。

これらのケースは、AIの盗作リスクに影響を与える2つの重要な要素を明らかにしています:

  1. モデルサイズ – GPT-3.5のような大規模モデルは、小規模モデルよりもverbatimテキストパスを再生産する可能性が高くなります。その大きなトレーニングデータセットは、著作権保護されたソース資料への露出を増やします。
  2. トレーニングデータ – インターネットデータや著作権保護された作品(ライセンスされている場合でも)でトレーニングされたモデルは、慎重にキュレーションされたデータセットでトレーニングされたモデルよりも盗作する可能性が高くなります。

ただし、盗作的な出力の発生率を直接測定することは困難です。ニューラルネットワークの「ブラックボックス」性質により、トレーニングデータとモデル出力の間のつながりを完全に追跡することは困難です。レートは、モデルアーキテクチャ、データセットの品質、プロンプトの作成に大きく依存する可能性があります。ただし、これらのケースは、AIの盗作が確実に発生することを確認しており、これは重大な法的および倫理的影響を及ぼします。

盗作検出システムの出現

対策として、研究者は、テキストや画像がモデルによって生成されたものか、人間によって作成されたものかを自動的に検出するAIシステムの開発を始めています。たとえば、Milaの研究者は、AIによって書かれたテキストの特徴的な言語パターンを分析するGenFaceを提案しました。スタートアップのAnthropicは、会話AIのClaudeの内部の盗作検出機能を開発しました。

ただし、これらのツールには限界があります。GPT-3のようなモデルの大量のトレーニングデータにより、盗作されたテキストの元のソースを特定することは困難です、あるいは不可能です。ジェネレーティブモデルが急速に進化し続けるにつれて、より強力な技術が必要になります。そうするまでの間、手動レビューは、公開前に潜在的に盗作されたまたは侵害しているAI出力をフィルタリングするために不可欠です。

ジェネレーティブAIの盗作を軽減するためのベストプラクティス

ここでは、AI開発者とユーザーが盗作リスクを最小限に抑えるために採用できるベストプラクティスを示します:

AI開発者に対して:

  • トレーニングデータソースを慎重に検証して、適切な許可なしに著作権保護されたまたはライセンスされた資料を除外します。
  • 徹底的なデータドキュメンテーションとプロベナンストラッキング手順を開発します。メタデータ(ライセンス、タグ、作成者など)を記録します。
  • 盗作検出ツールを実装して、高リスクコンテンツをリリース前にフラグ付けします。
  • トレーニングデータソース、ライセンス、AI出力の起源に関する透明性報告書を提供します。懸念が生じた場合、詳細を示します。
  • コンテンツ作成者がトレーニングデータセットから簡単にオプトアウトできるようにします。削除または除外要求に迅速に従います。

ジェネレーティブAIユーザーに対して:

  • 出力を大規模に展開する前に、潜在的に盗作されたまたは出典のないパスを徹底的にフィルタリングします。
  • AIを完全に自律的な創造システムとして扱わないでください。人間のレビューアーが最終的なコンテンツを検討します。
  • 完全に新しいコンテンツを生成するのではなく、AIアシストによる人間の創造を優先します。モデルを言い換えまたはアイデア生成に使用します。
  • AIプロバイダーの利用規約、コンテンツポリシー、盗作対策を使用前に確認します。不透明なモデルを避けます。
  • 最終的な出力に著作権保護された資料が表示される場合、出典を明確に示します。AIの作品を完全にオリジナルであると示さないでください。
  • 盗作リスクをさらに評価および対処するまで、出力をプライベートまたは機密的に共有することを制限します。

ジェネレーティブモデルが普及し続けるにつれて、トレーニングデータ規制を強化する必要があるかもしれません。これには、作成者が作品をデータセットに追加する前にオプトインの同意を得ることが含まれる場合があります。ただし、開発者とユーザーは両方とも、コンテンツ作成者の権利を尊重する倫理的なAIの実践を採用する責任があります。

MidjourneyのV6 Alphaにおける盗作

制限付きのプロンプト後、MidjourneyのV6モデルを使用して、一部の研究者は、映画、テレビ番組、ビデオゲームのスクリーンショットなどの著作権保護された画像を生成することができました。これらは、モデルがトレーニングされたデータに含まれている可能性があります。

有名な映画やビデオゲームのシーンに似たMidjourneyによって生成された画像

有名な映画やビデオゲームのシーンに似たMidjourneyによって生成された画像

これらの実験は、最先端の視覚AIシステムも、トレーニングデータのソーシングがチェックされていない場合、保護されたコンテンツを無意識に盗作する可能性があることをさらに確認します。これは、商業的にジェネレーティブモデルを展開する際に、侵害リスクを制限するために、注意と安全対策が必要であることを強調しています。

AI会社の著作権保護されたコンテンツへの対応

人間とAIの創造性の境界は、著作権法が追いつこうとしています。人間とAIの入力を組み合わせた作品は、人間によってのみ実行された側面のみが著作権保護される可能性があります。

米国著作権局は最近、AIと人間のグラフィックノベルのほとんどの側面に対する著作権を却下し、AIアートを非人間のものと判断しました。また、AIシステムを「著者」から除外する指針を発行しました。連邦裁判所は、AIアートの著作権訴訟でこの姿勢を支持しました。

一方、訴訟はジェネレーティブAIの侵害を主張しています。たとえば、Getty v. Stability AIやアーティスト v. Midjourney/Stability AIなどです。しかし、AI「著者」が存在しない場合、侵害主張が適用されるかどうかは不明です。

対策として、メタ、グーグル、マイクロソフト、アップルなどの主要AI企業は、著作権保護されたデータでAIモデルをトレーニングするために、ライセンスやロイヤリティを支払う必要はないと主張しています。

ここでは、米国におけるAIに関する新しい著作権ルールへの対応として、主要AI企業からの主要な主張を要約します:
メタは、現在ライセンスを課すと混乱を招き、著作権保有者にほとんど利益をもたらさないと主張しています (メタ、2023)。

グーグルは、AIのトレーニングは本を読むなどの著作権侵害ではない行為に相当すると主張しています (グーグル、2022)。

マイクロソフトは、著作権法を変更すると、小規模なAI開発者に不利益をもたらすと警告しています (マイクロソフト、2023)。

アップルは、人間の開発者によって制御されるAIによって生成されたコードの著作権を取得したいと考えています (アップル、2023)。

全体的に、ほとんどの企業は新しいライセンス要件に反対し、AIシステムが著作権保護された作品を出典なしに再生産することに関する懸念を軽視しています。ただし、この姿勢は、最近のAIの著作権訴訟や議論により、論争を呼んでいます。

責任あるジェネレーティブAIイノベーションのためのパス

これらの強力なジェネレーティブモデルが進化し続けるにつれて、盗作リスクを解決することは、主流での受け入れにとって重要です。多角的なアプローチが必要です:

  • トレーニングデータの透明性、ライセンス、作成者同意に関する政策改革。
  • 開発者によるより強力な盗作検出技術と内部ガバナンス。
  • リスクと倫理的なAIの原則へのユーザーの認識の向上。
  • AIの著作権問題に関する明確な法的先例と判例。

適切な安全対策があれば、AIアシストによる創造は倫理的に繁栄できます。ただし、チェックされていない盗作リスクは、公共の信頼を大幅に損なう可能性があります。この問題に対処することは、ジェネレーティブAIの巨大な創造的潜在能力を実現しながら、作成者の権利を尊重するために、非常に重要です。正しいバランスを達成するには、ニューラルネットワークの性質に組み込まれた盗作の盲点に積極的に対処する必要があります。ただし、こうすることで、これらの強力なモデルが人間の創造性を強化することを目的としているのではなく、損なうのを防ぐことができます。

私は過去5年間、機械学習とディープラーニングの魅力的世界に没頭してきました。私の情熱と専門知識は、AI/MLに特に焦点を当てた50以上の多様なソフトウェアエンジニアリングプロジェクトに貢献することにつながりました。私の継続的な好奇心は、私がさらに探究したい分野である自然言語処理にも私を引き寄せました。