Andersonの視点
企業のAIに法的ハザードとなる可能性が高いトレーニングデータセットは約80%

LG AI Researchからの最近の論文によると、AIモデルをトレーニングするために使用される「オープン」データセットは、実際には法的リスクをもたらしている可能性があることがわかった。約4分の3のAIデータセットが「商業的に使用可能」というラベルが付いているが、実際には隠れた法的リスクを含んでいることが分かった。
このようなリスクには、未公開の著作権物の含有や、データセットの依存関係に埋もれた制限的なライセンス条項が含まれる。論文の発見が正確であれば、パブリックデータセットに頼る企業は、現在のAIパイプラインを見直す必要があるか、将来的に法的問題に直面する可能性がある。
研究者は、データセットの履歴を高速かつ正確にスキャンして監査できるAIベースのコンプライアンスエージェントを提案している。この提案は、人々から賛否両論を呼ぶ可能性がある。
論文では、次のように述べられている。
「AIトレーニングデータセットの法的リスクは、表面的なライセンス条項だけを見て判断することはできない。データセットの再配布を徹底的に分析することがコンプライアンスを確保するために不可欠である。」
「そのような分析は、複雑さと規模のため、人間の能力を超えている。AIエージェントは、このギャップを埋めることができ、より迅速かつ正確に分析することができる。自動化がなければ、重要な法的リスクは大部分が調査されていないままとなり、倫理的なAI開発と規制遵守が危険にさらされる。」
「私たちは、AI研究コミュニティに、エンドツーエンドの法的分析を基本的な要件として認識し、スケーラブルなデータセットコンプライアンスのための実行可能な道としてAI駆動型アプローチを採用することを呼びかけている。」
2,852個の人気のあるデータセットを調査した結果、研究者の自動化システムは、すべてのコンポーネントと依存関係をトレースした結果、わずか605個(約21%)のみが商業化に法的に安全であることがわかった。
新しい論文は、Do Not Trust Licenses You See — Dataset Compliance Requires Massive-Scale AI-Powered Lifecycle Tracingというタイトルで、LG AI Researchの8人の研究者によって執筆された。
権利と誤り
著者は、企業がAI開発を進める上で直面する課題を強調している。以前の学術的な「フェアユース」の考え方が、法的保護が不明確で安全な港がもはや保証されていない状況に取って代わられている。
ある出版物は最近、指摘したように、企業はトレーニングデータの出典についてますます防御的になっている。著者アダム・ビュックは次のように述べている。
「OpenAIは、GPT-3の主なデータソースを公開したが、GPT-4の論文では、モデルがトレーニングされたデータは、‘パブリックに利用可能なデータ(インターネットデータなど)とサードパーティプロバイダーからライセンスされたデータ’の混合であるとだけ述べている。」
「このような透明性の欠如の背後にある動機は、AI開発者によって特に詳細に説明されていない。実際、多くの場合、説明は全くない。」
「OpenAIは、GPT-4についてさらに詳細を公開しないことを正当化するために、競争環境と大規模モデルの安全性に関する懸念を理由に挙げているが、報告書内ではさらに説明はしていない。」
透明性は、不誠実な用語であるか、単に間違った用語である可能性がある。たとえば、Adobeの旗艦的なFireflyジェネレーティブモデルは、Adobeが利用する権利を持っていたストックデータでトレーニングされたものであり、顧客にシステムの法的使用について安心感を与えていた。しかし、後に、証拠が発見され、Fireflyデータセットには、他のプラットフォームからの潜在的に著作権で保護されたデータが含まれていることがわかった。
先週、議論したように、ライセンスコンプライアンスを保証するための取り組みが増えており、Creative Commonsライセンスで柔軟なライセンスが付与されたYouTubeビデオのみをスクラップする取り組みもある。
問題は、ライセンス自体が誤ったものであるか、または誤って付与されたものである可能性があるということである。新しい研究では、このような事例が発見された。
オープンソースデータセットの調査
NEXUSシステムのような評価システムを開発することは、状況が常に変化しているため、困難である。したがって、論文では、NEXUSデータコンプライアンスフレームワークシステムは、現在の時点でのさまざまな先例と法的根拠に基づいていると述べられている。
NEXUSは、AutoComplianceというAI駆動のエージェントを使用して、自動化されたデータコンプライアンスを実現している。AutoComplianceは、3つの主要なモジュールで構成されている。ウェブエクスプロレーションのためのナビゲーションモジュール、情報抽出のための質問回答(QA)モジュール、法的リスク評価のためのスコアリングモジュール。

AutoComplianceは、ユーザーが提供したWebページから始まり、重要な詳細を抽出して関連リソースを検索し、ライセンス条項と依存関係を特定し、法的リスクスコアを割り当てる。
これらのモジュールは、EXAONE-3.5-32B-Instructモデルを含むファインチューンされたAIモデルによって動作している。AutoComplianceは、効率を高めるために、結果をキャッシュするためのデータベースも使用している。
AutoComplianceは、ユーザーが提供したデータセットURLから始まり、ライセンス条項と依存関係を検索して、関連するデータセットを再帰的にトレースしてライセンス依存グラフを構築する。すべての接続がマッピングされたら、コンプライアンススコアを計算してリスク分類を割り当てる。
新しい研究では、データライフサイクルに参加するさまざまなエンティティタイプを特定し、データセット、データ処理ソフトウェアとAIモデル、プラットフォームサービスプロバイダーを含む。これらは、AI開発に参加するコンポーネントのより広いエコシステムを考慮して、法的リスクを包括的に評価する。

データコンプライアンスは、データライフサイクル全体で法的リスクを評価し、14の基準に基づいてスコアを割り当て、個々のエンティティを分類して依存関係全体でリスクを集計する。
トレーニングとメトリック
著者は、Hugging Faceのトップ1,000のダウンロードデータセットから、216個のアイテムをランダムにサンプリングしてテストセットを作成した。
EXAONEモデルは、ファインチューンされた。ナビゲーションモジュールと質問回答モジュールは、合成データを使用し、スコアリングモジュールは人間がラベル付けしたデータを使用した。
グラウンドトゥルースラベルは、少なくとも31時間のトレーニングを受けた5人の法的専門家によって作成された。人間の専門家は、216のテストケースの依存関係とライセンス条項を手動で特定し、議論を通じてその発見を集約して洗練した。
トレーニングされた、人間によるAutoComplianceシステムは、ChatGPT-4oとPerplexity Proと比較してテストされた。特に、ライセンス条項内でより多くの依存関係が発見された。

216個の評価データセットの依存関係とライセンス条項の特定における正確性。
論文では、次のように述べられている。
「AutoComplianceは、他のすべてのエージェントと人間の専門家を上回り、各タスクで81.04%と95.83%の正確性を達成した。対照的に、ChatGPT-4oとPerplexity Proは、それぞれソースとライセンスタスクで相対的に低い正確性を示した。」
「これらの結果は、AutoComplianceの卓越したパフォーマンスを示し、両方のタスクを驚くほどの正確性で処理する能力を示している。また、これらのドメインでのAIベースのモデルと人間の専門家の間の重要なパフォーマンスギャップも示唆している。」
効率性の点では、AutoComplianceアプローチは、同じタスクの人間の評価に比べて53.1秒で実行され、2,418秒を要した。
さらに、評価の実行コストは0.29ドルで、人間の専門家の場合、207ドルであった。ただし、これは、GCP a2-megagpu-16gpuノードを月額14,225ドルでレンタルした場合のコストに基づいており、大規模な運用におけるコスト効率に関連する。
データセットの調査
分析のために、研究者は、Hugging Faceの3,000個の最もダウンロードされたデータセットと、2023年のデータプロベナンスイニシアチブの612個のデータセットを組み合わせた3,612個のデータセットを選択した。
論文では、次のように述べられている。
「3,612のターゲットエンティティから始めて、17,429個のユニークエンティティを特定し、そのうち13,817個のエンティティがターゲットエンティティの直接的または間接的な依存関係として現れた。」
「私たちの実証的分析では、エンティティとそのライセンス依存グラフが単層構造を持つ場合(エンティティに依存関係がない場合)と、多層構造を持つ場合(エンティティに1つ以上の依存関係がある場合)を考慮する。」
「3,612のターゲットデータセットのうち、2,086個(57.8%)が多層構造を持ち、残りの1,526個(42.2%)が単層構造を持ち、依存関係はなかった。」
著作権で保護されたデータセットは、法的権限がなければ再配布できない。法的権限は、ライセンス、著作権法の例外、または契約条項から得られる。無許可の再配布は、著作権侵害や契約違反などの法的結果につながる可能性がある。したがって、非コンプライアンスの明確な特定は不可欠である。

論文のCriterion 4.4.に基づくデータコンプライアンスの違反の分布。
研究では、9,905件の非コンプライアントなデータセットの再配布が見つかり、2つのカテゴリに分類された。83.5%は、ライセンス条項によって明示的に禁止されており、再配布は明らかな法的違反であった。16.5%は、ライセンス条件が矛盾しているデータセットで、再配布は理論的には許可されていたが、必要な条件を満たさなかったため、下流で法的リスクをもたらした。
著者は、NEXUSで提案されたリスク基準は普遍的ではなく、管轄区域やAIアプリケーションによって異なる可能性があると認めている。将来の改善は、変化する世界的な規制に適応し、AI駆動型の法的レビューを改良することに焦点を当てるべきである。
結論
この論文は、冗長で読みにくいものであるが、業界が現在直面している最大の課題である、オープンなデータが後にさまざまなエンティティによって主張される可能性があるという問題に取り組んでいる。
DMCAの下で、違反は法的に1件あたり大量の罰金を伴う可能性がある。違反が数百万件に及ぶ場合、研究者によって発見された場合、法的責任は非常に重大である。
さらに、企業がデータから利益を得たことを証明できる場合、企業は(通常の場合)、無知を理由に主張することはできない。少なくともアメリカ市場では、現在、企業は、ライセンス契約の複雑な意味を解釈するための現実的なツールを持っていない。
NEXUSのようなシステムを構築する問題は、州ごと、またはEU内で国ごとに調整することだけでなく、実際には世界的な枠組み(「データプロベナンスのインターポール」のようなもの)を作成することである。多様な政府が関与しているが、政府とその法律の現状は常に変化しているという事実によって、後者は、政府の動機と法律の状態が常に変化しているという事実によって妨げられている。
* 私の著者による引用のハイパーリンクの置き換え。
† 論文では6つのタイプが規定されているが、最後の2つは定義されていない。
2025年3月7日初出。












