Andersonの視点

現在のAIの実践は、新しい著作権トロールの世代を可能にするかもしれない

公開日 2021年11月5日

更新日 2026年5月24日

著者

Martin Anderson

華為と学術機関の共同研究によると、現在のAIと機械学習の最も重要な研究の多くは、商業的に重要になるなり、訴訟の対象となる可能性がある。なぜなら、ブレークスルーを可能にするデータセットは、無効なライセンスで配布されており、元のデータが取得されたパブリックドメインの条件を尊重していないからである。

実質的には、これには2つのほぼ不可避な結果がある。商業的に成功したAIアルゴリズムが、著作権が尊重されていないデータセットを使用したことが明らかになると、機会主義的な特許トロールの対象となる可能性がある。さらに、組織や個人は、これらの法的脆弱性を利用して、許可なく取得された著作権物の使用を禁止する機械学習技術の展開や拡散に反対することができる。

論文は、このパブリックに利用可能なデータセットを使用して商用のAIソフトウェアを構築できますか？おそらくそうではありませんというタイトルで、華為カナダと華為中国、イギリスのヨーク大学、カナダのビクトリア大学の共同研究である。

6つの人気オープンソースデータセットのうち5つは法的に使用できない

研究のために、著者は華為の部門に、商業プロジェクトで利用したいオープンソースデータセットを選択するように求め、6つの最もリクエストされたデータセットを選択した：CIFAR-10（8000万の小さな画像データセットのサブセットで、撤回された「汚らしい用語」と「攻撃的な画像」があるため、派生物が広がっている）、ImageNet、Cityscapes（独自の素材のみを含む）、FFHQ、VGGFace2、およびMSCOCO。

選択されたデータセットが商業プロジェクトで法的に使用できるかどうかを分析するために、著者はライセンスの連鎖をできるだけ遡ってトレースするための新しいパイプラインを開発したが、多くの場合、ライセンスを取得するためにWebアーカイブのキャプチャに頼る必要があり、場合によっては利用可能な情報からライセンスの状態を「推測」する必要があった。

著者が開発したプロベナンス・トレーシング・システムのアーキテクチャ。ソース：https://arxiv.org/pdf/2111.02374.pdf

著者は、6つのデータセットのうち5つのライセンスが「商業利用の文脈でリスクを伴う」と結論付けた：

「[私たち]は、MS COCOを除いて、研究対象のライセンスが、データでトレーニングされたAIモデルを商業化する権利や、トレーニングされたAIモデルの出力を許可していないことを観察します。実際、これは、プラクティショナーがこれらのデータセットで事前トレーニングされたモデルを使用することさえも禁止します。パブリックに利用可能なデータセットと、これらのデータセットで事前トレーニングされたAIモデルは、広く商業的に使用されています。」

著者はさらに、6つの研究対象データセットのうち3つは、データセットを変更した場合、商業製品でライセンス違反になる可能性があると指摘している。ただし、MS-COCOのみがこれを許可している。データの増強やサブセット、影響力のあるデータセットのスーパーセットは、一般的な慣行である。

CIFAR-10の場合、元のコンパイル者は、データセットを使用するプロジェクトが元のデータセットのリリース時に付随する論文への引用を含めることを要求する以外に、従来のライセンス形式を作成しなかったため、データの法的状態を確立することに対するさらなる障害が生じた。

さらに、CityScapesデータセットのみが、独自の素材のみを含み、CIFAR-10やImageNetは複数のソースを使用しているため、各ソースを調査してトレースする必要があるため、著作権メカニズム（または意味のある免責事項）を確立する必要がある。

脱出の方法はない

商業的なAI企業は、許可なく無料でAIアルゴリズムをトレーニングするデータセットを使用して訴訟から保護するために、3つの要素に頼っているように見える。しかしこれらは、信頼できる長期的な保護を提供していない。

1：国家による規制の緩和
世界中の政府は、データスクラピングの規制を緩和するよう圧力を受けており、これはパフォーマンスの高いAIを実現するために大量のリアルワールドデータが必要なため、通常の著作権遵守とライセンスは非現実的である。ただし、米国のみが、フェアユースドクトリンの下で完全な免責を提供している。これは、2015年にAuthors Guild v. Google, Inc.の判決で確定し、GoogleはGoogle Booksプロジェクトで著作権物を自由に使用できることが確認された。

フェアユースドクトリンの政策が変更された場合（たとえば、著名な組織や企業が関与する別のランドマークケースへの対応として）、これは、現在の著作権侵害データベースの利用を保護するアプリオリの状態となるが、継続的な使用と開発を保護するものではない。

これにより、フェアユースドクトリンの保護は非常に暫定的なものとなり、著作権物によって有効化された既存の商業化された機械学習アルゴリズムが、著作権物を使用したことを理由に運用を停止する可能性がある。ただし、モデルが現在は許可されたコンテンツのみを扱っている場合でも、違法にコピーされたコンテンツでトレーニングされた場合にのみである。

米国以外では、著者は新しい論文で、政策は一般的により厳格であると指摘している。イギリスとカナダは、著作権データの使用を非商業目的のみに限定しており、EUのテキストおよびデータマイニング法も、元のデータの著作権要件に準拠しないAIシステムの商業的利用を除外している。

これらの措置により、組織は他人のデータを使用して素晴らしい成果を上げることができるが、金銭的利益を得るまでである。製品が法的に露出するか、または著作権所有者との契約を結ぶ必要があるが、インターネットの性質上、多くの著作権所有者がすでに連絡が取れなくなっているため、これは不可能な、または非実現可能なプロセスとなる。

2：免責
著者は、新しい論文で、著作権侵害組織が責任を転嫁しようとしている場合、人気のオープンソースデータセットの多くのライセンスが、著作権侵害の請求に対して自己免責することを観察している。

「たとえば、ImageNetのライセンスは、データセットの使用による請求に対してImageNetチームを免責するよう実務者に要求しています。FFHQ、VGGFace2、MS COCOデータセットは、データセットが配布または変更された場合、同じライセンスの下で提示される必要があります。」

実質的には、これにより、FOSSデータセットを使用する者は、最終的な訴訟の際に著作権侵害の責任を負うことになる（ただし、現在の「安全な港」状況が損なわれた場合、元のコンパイル者は保護されない）。

3：不明瞭性による免責
機械学習コミュニティの共同作業的な性質により、企業の秘密主義によって、著作権侵害データセットを使用したアルゴリズムの存在を隠すことは困難である。長期的な商業プロジェクトは、データセットの使用が記録されているオープンなFOSS環境で始まることが多く、GitHubやその他の公開可能なフォーラムで、またはプロジェクトの起源がプレプリントまたは査読付き論文で公開されている場合である。

これが当てはまらない場合でも、モデルインバージョンは、データセットの典型的な特性（またはその一部）を明らかにする、または明示的に出力することができるため、証拠となる、または著作権侵害の疑いを生じさせる可能性がある。

結論

論文は、許可なく取得された著作権物の混沌とした、あるいは暫定的な使用を描写しており、ライセンスの連鎖が、データの元のソースに遡るまでに、数千の著作権所有者との交渉を必要とする、ライセンスの無効性や不明瞭性が生じている。

著者は次のように結論付ける：

「パブリックに利用可能なデータセットは、広く商用のAIソフトウェアを構築するために使用されている。ただし、パブリックに利用可能なデータセットのライセンスが、商業的に使用する権利を与える場合にのみ、商用のAIソフトウェアを構築できます。しかし、パブリックに利用可能なデータセットのライセンスで与えられる権利と義務を確認することは容易ではありません。なぜなら、ライセンスは時々不明確であるか、無効である可能性があるからです。」

シンガポールマネジメント大学の計算法学センターから11月2日に公開された新しい論文「法的データセットの構築」も、データサイエンティストが、データの収集の「ワイルドウエスト」時代が終わろうとしていることを認識し、法的影響を避けるために、より厳格な習慣と方法論を採用する必要があることを強調している。著者は次のように指摘している：

「法的データセットを扱う際には、不十分な保護を提供する法的枠組みが拡大する可能性がある。EUの人工知能法案が採択されれば、AIとデータのガバナンスの風景が大きく変化する。ほかの管轄区域も、独自の法律を制定する可能性がある。」

* インライン引用のハイパーリンクへの変換