スタブ 現在の AI 慣行が新世代の著作権荒らしを可能にする可能性 - Unite.AI
私達と接続

倫理

現在の AI の実践により、新世代の著作権荒らしが可能になる可能性がある

mm
更新中 on

ファーウェイと学術界との新たな共同研究は、ブレークスルーを可能にするデータセットが無効なデータセットで配布されているため、人工知能と機械学習における現在の最も重要な研究の多くが商業的に有名になるとすぐに訴訟にさらされる可能性があることを示唆している。データの取得元である公開ドメインの元の条件を尊重しないライセンス。

実際、これにはほぼ避けられない XNUMX つの結果が考えられます。XNUMX つは、そのようなデータセットを使用したことで知られ、非常に成功し商業化された AI アルゴリズムが、データがスクレイピングされたときに著作権が尊重されなかった日和見的な特許トロールの将来の標的になることです。 そして、組織や個人は、同様の法的脆弱性を利用して、好ましくないと考える機械学習テクノロジーの導入や普及に抗議できるようになるということです。

  というタイトルです この公開されているデータセットを使用して商用 AI ソフトウェアを構築できますか? おそらくそうではありませんこれは、ファーウェイ・カナダとファーウェイ・チャイナ、英国のヨーク大学およびカナダのビクトリア大学との共同研究によるものです。

(人気のある) オープンソース データセット XNUMX つのうち XNUMX つが法的に使用できない

この研究のために、著者らはファーウェイの各部門に、商業プロジェクトで活用したい最も望ましいオープンソース データセットを選択するよう依頼し、その回答から最もリクエストの多かった XNUMX つのデータセットを選択しました。 CIFAR-10 (のサブセット 80 万枚の小さな画像 データセット、以来 撤回 「軽蔑的な用語」と「攻撃的な画像」の場合、その派生語は急増しています)。 ImageNet; 街並み (オリジナルの素材のみが含まれます); FF本社; VGGフェイス2, ムスコ.

選択したデータセットが商業プロジェクトでの合法的な使用に適しているかどうかを分析するために、著者らは、各セットで可能な限りライセンスのチェーンを遡る新しいパイプラインを開発しました。有効期限が切れたドメインからライセンスを見つけ、場合によっては、入手可能な最も近い情報からライセンスのステータスを「推測」する必要がありました。

著者らが開発した来歴追跡システムのアーキテクチャ。 出典: https://arxiv.org/pdf/2111.02374.pdf

著者らが開発した来歴追跡システムのアーキテクチャ。 出典:https://arxiv.org/pdf/2111.02374.pdf

著者らは、XNUMX つのデータセットのうち XNUMX つのデータセットに対してライセンスが必要であることを発見しました。 「少なくとも XNUMX つの商用利用の状況に関連するリスクを含む」:

「MS COCO を除いて、調査対象のライセンスでは、データに基づいてトレーニングされた AI モデル、さらにはトレーニングされた AI モデルの出力を商品化する権利を実務者に認めていないことがわかりました。」 このような結果により、専門家はこれらのデータセットでトレーニングされた事前トレーニング済みモデルを使用することさえ事実上妨げられます。 公開されているデータセットと、それらで事前トレーニングされた AI モデルは、 商業的に広く使用されている。」 *

著者らはさらに、調査対象の XNUMX つのデータセットのうち XNUMX つでは、データセットが変更された場合、商用製品でライセンス違反が発生する可能性があると指摘しています。これは MS-COCO のみが許可しているためです。 しかし、データの増強や、影響力のあるデータセットのサブセットやスーパーセットは一般的に行われています。

CIFAR-10 の場合、元のコンパイラーは従来の形式のライセンスをまったく作成せず、データセットを使用するプロジェクトにデータセットのリリースに伴う元の論文への引用を含めることだけを要求し、確立へのさらなる障害となっていました。データの法的ステータス。

さらに、CityScapes データセットのみに、ネットワーク ソースから「キュレーション」(スクレイピング) されたものではなく、データセットの作成者によって独占的に生成された素材が含まれており、CIFAR-10 と ImageNet は複数のソースを使用しており、それぞれを調査する必要があります。そして、あらゆる種類の著作権メカニズム (または意味のある免責事項) を確立するために遡ります。

追いつめられて

商用 AI 企業が、AI アルゴリズムをトレーニングするためにデータセットの著作権で保護されたコンテンツを自由かつ許可なく使用した製品に関する訴訟から身を守るために、頼りにしていると思われる要素が XNUMX つあります。 これらはどれも、長期にわたる信頼性の高い保護を提供しません。

1: 自由放任国内法
世界中の政府は、高性能 AI (定期的な著作権順守とライセンス供与が非現実的である大量の実世界データに依存する) への競争に後退しないようにするために、データ スクレイピングに関する法律の緩和を余儀なくされていますが、米国は、この点に関して、以下の規定に基づいて本格的な免除を提供している。 フェアユースの教義 – 2015 年に批准された政策 結論 Authors Guild 対 Google, Inc. の訴訟では、検索大手が著作権侵害で告発されることなく、Google ブックス プロジェクトの著作物を自由に取り込むことができると認められました。

フェアユース原則のポリシーが変更された場合(つまり、十分に強力な権限を持つ組織または企業が関与する別の画期的な事件に応じて)、おそらくそれは変更されたものとみなされるでしょう。 アプリオリ 現在の著作権を侵害しているデータベースの悪用に関して述べ、以前の使用を保護する。 だがしかし 継続 同意なしに著作権で保護された素材によって可能になったシステムの使用および開発。

これにより、フェアユース原則の現在の保護は非常に暫定的なものとなり、そのシナリオでは、その起源が著作権で保護された素材によって可能になっている場合、確立され商用化された機械学習アルゴリズムの動作を停止する必要が生じる可能性があります。モデルの 重み 現在は許可されたコンテンツのみを扱っていますが、違法にコピーされたコンテンツについて訓練を受けていました(そして、違法コピーされたコンテンツによって利用されていました)。

著者らが新しい論文で指摘しているように、米国外では政策は一般にそれほど寛大ではない。 英国とカナダは著作権で保護されたデータの非営利目的での使用のみを補償しているのに対し、EU のテキストおよびデータ マイニング法 (この法律は完全には無効になっていません) 最近の提案 より正式な AI 規制の場合)は、元のデータの著作権要件に準拠していない AI システムの商業利用も除外します。

これらの後者の取り決めは、組織が他人のデータを利用して、そこからお金を稼ぐという点に至るまで(ただし、そこには含まれない)、素晴らしい成果を達成できることを意味します。 その段階では、製品は法的に公開されるか、文字通り何百万もの著作権者と協定を結ぶ必要があるが、その多くはインターネットの性質の変化により現在追跡不可能であり、不可能かつ費用のかかる見通しである。

2: 警告エンプター
侵害組織が責任を先送りしたい場合、最も人気のあるオープンソース データセットの多くのライセンスが、著作権侵害の申し立てに対して自動的に補償していることも新しい論文は指摘しています。

「たとえば、ImageNet のライセンスでは、データセットの使用から生じるあらゆる申し立てに対して、ImageNet チームを補償することが実務者に明示的に求められています。 FFHQ、VGGFace2、および MS COCO データセットは、配布または変更される場合、同じライセンスの下でデータセットを提示する必要があります。

事実上、これにより、FOSS データセットの使用者は、最終的に訴訟に直面した場合に、著作権で保護された素材の使用に対する責任を負うことになります (ただし、現在の「安全な港」の風潮が含まれている場合には、必ずしも元のコンパイラを保護するわけではありません)。

3: 曖昧さによる補償
機械学習コミュニティの協調的な性質により、企業のオカルティズムを利用して、著作権を侵害するデータセットから利益を得ているアルゴリズムの存在を隠すことはかなり困難になります。 長期的な商用プロジェクトは、多くの場合、データセットの使用が記録事項となるオープンな FOSS 環境、GitHub やその他の公的にアクセス可能なフォーラム、またはプロジェクトの起源がプレプリントや査読論文で公開されている環境で始まります。

そうでない場合でも、 モデルの反転 is ますます有能になる データセットの典型的な特徴を明らかにすること(または 明示的に出力する ソース資料の一部)、それ自体の証拠を提供するか、アルゴリズム開発の履歴とその開発で使用されたデータセットの詳細への裁判所命令によるアクセスを可能にする十分な侵害の疑いのいずれかを提供します。

まとめ

この論文は、許可なく取得した著作権で保護された素材の無秩序かつ場当たり的な使用と、データの元の情報源にまで論理的に遡り、作品が提示された何千もの著作権所有者との交渉を必要とする一連のライセンスチェーンを描いています。サイトの保護下にはさまざまなライセンス条件があり、その多くは二次的な商業作品を禁止しています。

著者らは結論する:

「公開されているデータセットは、商用 AI ソフトウェアの構築に広く使用されています。 そうすることができるのは、公開されているデータセットに関連付けられたライセンスがその権利を提供している場合のみです。 ただし、公開されているデータセットに関連付けられたライセンスに規定されている権利と義務を確認するのは簡単ではありません。 なぜなら、ライセンスが不明確であるか、無効である可能性があるからです。」

もう一つの新作は、 法的データセットの構築シンガポール管理大学の計算法センターから2月XNUMX日に発表されたこの論文でも、アドホックなデータ収集の「未開の西」時代が終わりに近づいていることをデータサイエンティストが認識する必要性が強調されており、ファーウェイの勧告を反映している。時間の経過とともに文化が変化し、機械学習分野における現在の世界的な学術活動が長年の投資に対する商業的利益を追求しているため、データセットの使用によってプロジェクトが法的影響にさらされないようにするために、より厳格な習慣と方法論を採用するよう論文で求められています。 。 著者は次のように述べています*。

「現行法がもたらす懸念の中で、ML データセットに影響を与える法律のコーパスは今後も増加する傾向にあります」 不十分 保障措置。 AIA草案 [EU 人工知能法]が可決されれば、AI とデータ ガバナンスの状況が大きく変わる可能性があり、他の法域も同様に独自の法律を制定する可能性があります。 '

 

* インライン引用のハイパーリンクへの変換