Connect with us

現在のAIの実践は新しい著作権トロールの世代を可能にしているかもしれない

倫理

現在のAIの実践は新しい著作権トロールの世代を可能にしているかもしれない

mm

Huaweiと学術界の新しい共同研究によると、人工知能と機械学習の最も重要な現在の研究の多くは、商業的に重要になるなり訴訟の対象となる可能性がある。なぜなら、ブレークスルーを可能にするデータセットは、元のデータが取得されたパブリックドメインの条件を尊重していない無効なライセンスで配布されているからだ。

実際、このことには2つのほぼ不可避な結果がある。商業的に成功したAIアルゴリズムが、著作権が尊重されていないデータセットを使用したことが明らかになると、将来的に機会主義的な特許トロールの対象となる。さらに、組織や個人は、これらの同じ法的脆弱性を使用して、異議を唱えることができる。データセットのライセンスが無効であることが明らかになると、機械学習技術の展開や拡散を阻止することができる。

論文のタイトルは、このパブリックに利用可能なデータセットを使用して商用のAIソフトウェアを構築できますか?おそらくそうではありませんで、Huawei CanadaとHuawei China、イギリスのヨーク大学、カナダのビクトリア大学の共同研究である。

6つのうち5つの人気オープンソースデータセットは法的に使用できない

この研究では、著者はHuaweiの部門に、商業プロジェクトで利用したいオープンソースデータセットを選択するよう依頼し、6つの最もリクエストされたデータセットを選択した。選択されたデータセットは、CIFAR-108000万枚の小さな画像データセットのサブセットで、撤回された「侮辱的な用語」と「攻撃的な画像」がある)、ImageNetCityscapes(独自の素材のみを含む)、FFHQVGGFace2、およびMSCOCOである。

これらのデータセットの法的利用可能性を分析するために、著者はライセンスの連鎖を可能な限り遡ってトレースする新しいパイプラインを開発した。ただし、ライセンスを取得するために、多くの場合、Webアーカイブのキャプチャに頼る必要があり、場合によっては利用可能な情報からライセンスの状態を「推測」する必要があった。

著者が開発したプロベナンス・トレーシング・システムのアーキテクチャ。Source: https://arxiv.org/pdf/2111.02374.pdf

著者が開発したプロベナンス・トレーシング・システムのアーキテクチャ。 Source: https://arxiv.org/pdf/2111.02374.pdf

著者は、6つのデータセットのうち5つについて、ライセンスが「商業利用の文脈で少なくとも1つのリスクを含む」と結論付けた。

「私たちは、MS COCOを除いて、研究対象のライセンスが、データでトレーニングされたAIモデルを商業化する権利、またはトレーニングされたAIモデルの出力を許可していないことを観察しています。したがって、実践者はこれらのデータセットでトレーニングされた事前トレーニング済みモデルを使用することさえもできません。パブリックに利用可能なデータセットとこれらのデータセットでトレーニングされたAIモデルは、広く商業的に使用されています。」

さらに、著者は、6つの研究対象データセットのうち3つについて、データセットを変更すると、ライセンス違反につながる可能性があると指摘している。ただし、MS-COCOのみが変更を許可している。データの増強や、有影響力のあるデータセットのサブセットやスーパーセットは、一般的な慣行である。

CIFAR-10の場合、元のコンパイル者は、データセットを使用するプロジェクトが元のデータセットの発表に伴う論文への引用を含めることを要求した以外に、従来のライセンス形式を作成していない。これは、データの法的状態を確立することに対するさらなる障害をもたらしている。

さらに、CityScapesデータセットのみが、独自に生成された素材を含み、CIFAR-10やImageNetは複数のソースを使用しており、これらのソースはすべて調査してトレースする必要がある。

逃げ道はない

商業的なAI企業は、データセットから著作権で保護されたコンテンツを自由に、許可なく使用してトレーニングされた製品に対する訴訟から保護するために、3つの要素に頼っているようだ。ただし、これらの要素は信頼できる長期的な保護をほとんど(またはまったく)提供していない。

1: 国家の規制の緩和
世界中の政府は、データスクラピングに関する規制を緩和するよう迫られており、通常の著作権遵守とライセンスは現実的ではないため、パフォーマントの高いAI(大量の実世界データに依存する)に対して後れを取らないようにしている。ただし、米国のみが、フェアユースドクトリンの下でこの点で全面的な免責を提供している。

フェアユースドクトリンの政策がいつの日か変更された場合(たとえば、著名な組織や企業が関与する別のランドマーク事件の結果として)、これは、現在の著作権侵害データベースを利用することに対するアプリオリの状態となるだろう。つまり、過去の使用を保護するが、現在および将来の使用や、著作権で保護された素材を使用して有効になったシステムの開発を保護することはできない。

これにより、フェアユースドクトリンの保護は非常に暫定的なものとなり、将来的には、著作権で保護された素材を使用して有効になった商業的な機械学習アルゴリズムを停止することを要求される可能性がある。

米国以外の国では、著者が新しい論文で指摘しているように、政策は一般的に厳格である。イギリスとカナダは、著作権で保護されたデータの使用を非商業目的のみに限定しており、EUのテキストおよびデータマイニング法(最近の提案によって完全に覆い隠されていない)も、AIシステムが元のデータの著作権要件に準拠していない場合、商業的な搾取を除外する。

これらの後者の取り決めは、組織が他人のデータを使用して大きな成果を上げることができるが、金銭的な利益を得ることができないことを意味する。製品が法的に露出されるか、または数千の著作権者のうちの1人との契約を結ぶ必要がある。

2: ケバエムプトル(買主は注意せよ)
新しい論文では、侵害組織が非難を遅らせようとしている場合、多くのオープンソースデータセットのライセンスは、著作権の乱用に関するすべての請求に対して自己免責する。

「たとえば、ImageNetのライセンスでは、実践者はデータセットの使用から生じるすべての請求に対してImageNetチームを免責する必要があります。FFHQ、VGGFace2、MS COCOデータセットは、データセットが配布または変更された場合、同じライセンスの下で提示される必要があります。」

実質的に、これにより、FOSSデータセットを使用する者は、最終的な訴訟の際に著作権で保護された素材の使用に対する責任を負わされる。

3: 不明瞭性による免責
機械学習コミュニティの共同作業の性質により、企業の秘密主義を使用して、著作権侵害データセットを使用したアルゴリズムの存在を隠すことは難しい。長期的な商業プロジェクトは、データセットの使用が記録されているオープンソースの環境で始まることが多く、GitHubや他の公開アクセスのフォーラムで、またはプロジェクトの起源がプレプリントまたはピアレビューの論文で公開されている。

これが当てはまらない場合でも、モデルインバージョンは、データセットの典型的な特性(またはソース素材の一部を明示的に出力する)を明らかにすることができるため、侵害の証拠となるか、または侵害の疑いが十分にあり、法廷命令によってアルゴリズムの開発の履歴と使用されたデータセットの詳細にアクセスできる。

結論

この論文は、許可なく取得された著作権で保護された素材の混沌とした使用と、論理的に遡ると、データの元のソースから得られるライセンスの連鎖を示している。これには、商業的な二次的著作物を許可しない数千の著作権者の交渉が必要となる。

著者は次のように結論付ける。

「パブリックに利用可能なデータセットは、広く商用のAIソフトウェアを構築するために使用されています。ただし、パブリックに利用可能なデータセットに関連するライセンスがそのような使用を許可する場合にのみ、使用できます。ただし、パブリックに利用可能なデータセットに関連するライセンスで提供される権利と義務を確認することは容易ではありません。なぜなら、ライセンスは時々不明確であるか、潜在的に無効であるかだからです。」

新しい研究である法的データセットの構築も、データサイエンティストが「ワイルドウエスト」の時代が終わろうとしていることを認識する必要があることを強調しており、Huaweiの論文の推奨事項に沿った、より厳格な習慣と方法論を採用する必要がある。そうすることで、データセットの使用が法的影響を受けないようにすることができる。

「機械学習データセットに影響を与える立法のコーパスは、現在の法律が十分な 保護を提供していないという懸念の中で成長することになる。EUの人工知能法案が採択されると、AIおよびデータガバナンスの風景が大幅に変化する。 他の管轄区域もそれに続くかもしれない。」

 

機械学習に関するライター、ヒューマンイメージシンセシスのドメインスペシャリスト。Metaphysic.aiの研究コンテンツ責任者を務めた。