人工知能

知的財産権問題：生成型AIモデルが著作権保護されたコンテンツを再生産する方法

公開日 2024年1月9日

更新日 2026年5月22日

著者

Aayush Mittal ミッタル

生成型AIの急速な進歩は、技術の創造的潜在能力についての期待を高めています。しかし、これらの強力なモデルは、適切な帰属なしに著作権保護されたコンテンツまたは盗作されたコンテンツを再生産するリスクも伴います。

ニューラルネットワークがトレーニングデータを吸収する方法

GPT-3のような現代のAIシステムは、転移学習というプロセスを通じてトレーニングされます。彼らは、ウェブサイト、書籍、学術論文などからスクラップされた大量のデータセットをインジェストします。例えば、GPT-3のトレーニングデータは570ギガバイトのテキストを包含しています。トレーニング中、AIはこの膨大なデータプールの中でパターンと統計的関係を探します。単語、文章、段落、言語構造、その他の特徴間の相関関係を学習します。

これにより、AIは与えられた入力またはプロンプトに続く可能性のあるシーケンスを予測することで、新しい整合性のあるテキストまたは画像を生成できます。しかし、これも意味しますが、これらのモデルは著作権、帰属、盗作リスクを考慮せずにコンテンツを吸収します。結果として、生成型AIは、トレーニングコーパスからの著作権保護されたテキストを逐語的に再生産したり、パラフレーズ化したりすることができます。

AIの盗作の重要な例

AIの盗作に関する懸念は、2020年以降にGPTのリリースにより顕著に表面化しました。

最近の研究は、大規模言語モデル（LLM）であるGPT-3が、出典なしにトレーニングデータからの著しい逐語的なパスを再生産できることを示しています（Nasr et al., 2023; Carlini et al., 2022）。例えば、ニューヨークタイムズの訴訟により、オープンAIのソフトウェアがニューヨークタイムズの記事をほぼ逐語的に生成していることが明らかになりました（ニューヨークタイムズ、2023）。

これらの発見は、一部の生成型AIシステムが帰属なしの盗作された出力を生成する可能性があり、著作権侵害のリスクをもたらすことを示唆しています。しかし、LLMの「ブラックボックス」性質により、普遍性は不確実なままです。ニューヨークタイムズの訴訟は、こうした出力が侵害を構成するものであると主張しており、これは生成型AIの開発に重大な影響を及ぼす可能性があります。全体として、証拠は、盗作が大規模なニューラルネットワークモデルに内在する問題であり、注意と安全対策が必要であることを示しています。

これらのケースは、AIの盗作リスクに影響を与える2つの重要な要因を明らかにしています：

モデルサイズ – GPT-3.5のような大規模モデルは、小規模モデルよりも逐語的なテキストパスを再生産する可能性が高くなります。彼らの大きなトレーニングデータセットは、著作権保護されたソースマテリアルへの露出を増加させます。
トレーニングデータ – インターネットデータまたは著作権保護された作品（ライセンスされている場合でも）からスクラップされたモデルは、慎重にキュレーションされたデータセットでトレーニングされたモデルよりも盗作する可能性が高くなります。

しかし、盗作された出力の普遍性を直接測定することは困難です。ニューラルネットワークの「ブラックボックス」性質により、トレーニングデータとモデル出力のリンクを完全に追跡することは困難です。レートは、モデルアーキテクチャ、データセットの品質、プロンプトの構成によって大きく依存する可能性があります。しかし、これらのケースは、AIの盗作が確かに発生することを明確に示しており、これには重大な法的および倫理的影響があります。

新興の盗作検出システム

これに対応して、研究者たちは、テキストと画像を生成するAIシステムと人間が生成したものを自動的に検出するシステムを開発し始めています。例えば、Milaの研究者たちは、AIによって書かれたテキストの言語パターンを分析するGenFaceを提案しました。スタートアップのAnthropicは、会話型AIであるClaudeのための内部の盗作検出能力を開発しました。

しかし、これらのツールには限界があります。GPT-3のようなモデルの大量のトレーニングデータにより、盗作されたテキストの元の出典を特定することは困難です、あるいは不可能です。より強力な技術が必要になりますが、それまでは、人間によるレビューが、潜在的に盗作されたまたは侵害しているAIの出力を使用する前に必須です。

生成型AIの盗作を軽減するためのベストプラクティス

ここでは、AI開発者とユーザーが盗作リスクを最小限に抑えるために採用できるベストプラクティスを示します：

AI開発者向け：

トレーニングデータのソースを慎重に検証し、適切な許可なしに著作権保護されたまたはライセンスされた資料を除外します。
データの文書化とプロベナンスの追跡手順を厳密に開発します。メタデータを記録します。ライセンス、タグ、作成者など。
盗作検出ツールを実装して、リリース前に高リスクのコンテンツをフラグします。
透明性のある報告書を提供し、トレーニングデータのソース、ライセンス、AI出力の起源についての詳細を示します。
コンテンツ作成者がトレーニングデータセットから簡単にオプトアウトできるようにします。削除または除外のリクエストに迅速に従います。

生成型AIのユーザー向け：

出力を慎重にスクリーニングし、潜在的に盗作されたまたは帰属されていないパスを探します。
AIを完全に自律的な創造システムとして扱わないでください。人間のレビュアーが最終的なコンテンツを検討します。
完全に新しいコンテンツを生成するのではなく、AIアシストによる人間の創造を好みます。代わりに、モデルのパラフレーズまたはアイデア生成に使用します。
AIプロバイダーのサービス条件、コンテンツポリシー、盗作対策を使用前に確認します。不透明なモデルは避けます。
最終的な出力に著作権保護された資料が表示される場合、出典を明確に示します。AIの作品を完全にオリジナルであると示さないでください。
盗作リスクをさらに評価および対処するまで、出力をプライベートまたは機密的に共有することを制限します。

生成型モデルが普及し続けるにつれて、トレーニングデータの規制がより厳格になる可能性があります。これには、作成者がデータセットに作品を追加する前にオプトインの同意を得ることを必要とする場合があります。しかし、開発者とユーザーの両方が、コンテンツ作成者の権利を尊重する倫理的なAIの実践を採用する必要があります。

MidjourneyのV6 Alphaにおける盗作

制限付きのプロンプトを使用して、MidjourneyのV6モデルを使用することで、研究者は著作権保護された映画、テレビ番組、ビデオゲームのスクリーンショットとほぼ同じ画像を生成することができました。これらは、おそらくトレーニングデータに含まれていたものです。

有名な映画やビデオゲームのシーンに似たMidjourneyによって生成された画像

これらの実験は、視覚的なAIシステムでも、トレーニングデータのソースがチェックされていないと、保護されたコンテンツを無意識に盗作できることをさらに確認します。これは、商業的に展開する際に盗作のリスクを制限するために、注意と安全対策が必要であることを強調しています。

著作権保護されたコンテンツに対するAI企業の対応

人間とAIの創造性の境界は、複雑な著作権の疑問を引き起こしています。人間とAIの入力を組み合わせた作品は、人間によってのみ実行された部分でしか著作権保護できない可能性があります。

米国著作権局は最近、AIと人間のグラフィックノベルのほとんどの側面に対する著作権を拒否し、AIアートを非人間のものと判断しました。また、著作権の「著者」からAIシステムを除外するガイダンスを発行しました。連邦裁判所は、AIアートの著作権事件でこの姿勢を確認しました。

一方、訴訟では、生成型AIが侵害することを主張しています。例えば、Getty v. Stability AIやアーティスト v. Midjourney/Stability AIなどです。しかし、AI「著者」が存在しない場合、一部は侵害請求が適用されるかどうか疑問視しています。

これに対応して、メタ、グーグル、マイクロソフト、アップルなどの主要AI企業は、AIモデルをトレーニングするために著作権保護されたデータを使用するために、ライセンスやロイヤリティを支払う必要はないと主張しています。

ここでは、AIに関する潜在的な新しい米国著作権ルールに対する主要AI企業からの主要な議論の要約を示します。

メタは、現在ライセンスを課すことは混乱を招き、著作権保有者にほとんど利益をもたらさないと主張しています。

グーグルは、AIのトレーニングは、本を読むなどの非侵害行為に相当すると主張しています（グーグル、2022年）。

マイクロソフトは、著作権法を変更すると、小規模なAI開発者に不利益をもたらす可能性があると警告しています。

アップルは、人間の開発者によって制御されるAI生成コードの著作権を取得したいと考えています。

全体として、ほとんどの企業は新しいライセンス要件に反対し、AIシステムが帰属なしに保護された作品を再生産することに関する懸念を軽視しています。しかし、この姿勢は論争的です。最近のAIの著作権訴訟や論争があります。

責任ある生成型AIイノベーションのためのパス

これらの強力な生成型モデルが進化し続けるにつれて、盗作のリスクを解消することは、主流での受け入れのために重要です。多角的なアプローチが必要です：

トレーニングデータの透明性、ライセンス、作成者同意に関する政策改革。
開発者によるより強力な盗作検出技術と内部ガバナンス。
ユーザーによるリスクの認識と倫理的なAIの原則への従順性の向上。
AIの著作権問題に関する明確な法的先例と判例。

適切な安全対策があれば、AIアシストによる創造は倫理的に繁栄できます。しかし、盗作のリスクが制御されていない場合、公共の信頼を損なう可能性があります。この問題に対処することは、生成型AIの巨大な創造的潜在能力を実現しながら、作成者の権利を尊重するために、直接対処することが不可欠です。適切なバランスの達成には、ニューラルネットワークの本質に組み込まれた盗作の盲点に対処する必要があります。しかし、そうすることで、これらの強力なモデルが人間の創造性を増幅しようとするのではなく、損なうのを防ぐことができます。

Aayush Mittal, ミッタル

私は過去5年間、機械学習とディープラーニングの魅力的世界に没頭してきました。私の情熱と専門知識は、AI/MLに特に焦点を当てた50以上の多様なソフトウェアエンジニアリングプロジェクトに貢献することになりました。私の継続的な好奇心は、自然言語処理という分野にも私を引き付け、さらに探求したいと思っています。