ソートリーダー
バイアスが AI/ML 戦略を台無しにする仕組みとその対処法

あらゆる種類のモデルにおける「バイアス」とは、正確な応答を提供するのに十分な高品質で多様なデータを使用してモデルがトレーニングされていないために、モデルがプロンプトや入力データに対して不正確に応答する状況を指します。一例としては、 Apple の顔認識電話ロック解除機能は、肌の色が明るい色の人よりも肌の色が濃い人の場合、かなり高い確率で失敗しました。 このモデルは、肌の色が濃い人の画像を十分に訓練されていませんでした。これは比較的リスクの低いバイアスの例でしたが、EU AI 法が市場投入前にモデルの有効性 (および制御) を証明する要件を設けているのはまさにこのためです。ビジネス、財務、健康、または個人的な状況に影響を与える出力を含むモデルは信頼される必要があり、そうでない場合は使用されません。
データを使ってバイアスに取り組む
大量の高品質データ
多くの重要なデータ管理プラクティスの中でも、AI/ML モデルのバイアスを克服して最小限に抑えるための重要な要素は、高品質で多様なデータを大量に取得することです。そのためには、そのようなデータを保有する複数の組織とのコラボレーションが必要です。従来、データの取得とコラボレーションは、プライバシーや IP 保護に関する懸念によって課題を抱えていました。機密データをモデル所有者に送信することはできず、モデル所有者はデータ所有者に IP を漏らすリスクを冒すことはできません。一般的な回避策は、模擬データまたは合成データを使用することです。これは便利ですが、実際の完全なコンテキスト データを使用する場合と比べて制限もあります。ここで、プライバシー強化テクノロジ (PET) が切望されている答えを提供します。
合成データ: 近いが完全ではない
合成データ 実際のデータを模倣するために人工的に生成されます。これは難しいことですが、AI ツールを使用すると少し簡単になります。高品質の合成データは、実際のデータと同じフィーチャ距離を持つ必要があり、そうでない場合は役に立ちません。高品質の合成データを使用すると、小規模で疎外された集団、または AI プロバイダーが単に十分なデータを持たない集団のギャップを埋めることで、トレーニング データの多様性を効果的に高めることができます。合成データは、現実世界では適切な量で見つけるのが難しい可能性がある特殊なケースに対処するために使用することもできます。さらに、組織は、実際のデータへのアクセスをブロックするデータの所在地とプライバシーの要件を満たすために、合成データ セットを生成できます。これは素晴らしいですね。ただし、合成データはパズルの一部にすぎず、解決策ではありません。
合成データの明らかな制限の 1 つは、現実世界から切り離されていることです。たとえば、合成データのみに基づいて訓練された自動運転車は、実際の予期せぬ道路状況に苦戦することになります。さらに、合成データは、その生成に使用された現実世界のデータからバイアスを引き継ぎますが、これは議論の目的をほとんど無視します。結論として、合成データは微調整やエッジケースへの対処には有用なオプションですが、モデルの有効性の大幅な向上とバイアスの最小化は依然として実世界のデータへのアクセスに依存しています。
より良い方法: PET 対応ワークフローを介した実データ
PET は使用中のデータを保護します。 AI/ML モデルに関しては、実行されているモデルの IP も保護できます。これは「一石二鳥」です。 PET を利用したソリューションは、データ プライバシーとセキュリティ上の懸念により、以前はアクセスできなかった実際の機密データセットでモデルをトレーニングするオプションを提供します。データフローを実際のデータにロック解除することは、バイアスを軽減するための最良のオプションです。しかし、実際にはどのように機能するのでしょうか?
現時点では、主要なオプションは機密コンピューティング環境から始まります。次に、PET ベースのソフトウェア ソリューションとの統合により、標準の信頼できる実行環境 (TEE) には含まれていないデータ ガバナンスとセキュリティ要件に対処しながら、すぐに使用できるようにします。このソリューションでは、モデルとデータはすべて、安全なコンピューティング環境に送信される前に暗号化されます。環境はどこにでもホストできます。これは、特定のデータ ローカリゼーション要件に対処する場合に重要です。これは、モデル IP と入力データのセキュリティの両方が計算中に維持されることを意味します。信頼できる実行環境のプロバイダーであっても、モデルやその内部のデータにアクセスすることはできません。暗号化された結果はレビューのために返送され、ログをレビューに利用できるようになります。
このフローにより、データがどこにあるか、誰が所有しているかに関係なく、最高品質のデータが解放され、バイアスの最小化と信頼できる高効率モデルへの道が生まれます。このフローは、EU AI 法の AI 規制サンドボックスの要件で説明されていたものでもあります。
倫理的および法的コンプライアンスの促進
高品質の実際のデータを取得するのは困難です。データ プライバシーとローカライゼーションの要件により、組織がアクセスできるデータセットが即座に制限されます。イノベーションと成長が起こるためには、データがそこから価値を引き出せる人に流れる必要があります。
EU AI 法の第 54 条では、市場に投入する前に何を証明する必要があるかという観点から、「高リスク」モデル タイプの要件を定めています。つまり、チームは内部で現実世界のデータを使用する必要があります。 AI 規制サンドボックス 十分なモデルの有効性と、タイトル III 第 2 章で詳述されているすべてのコントロールへの準拠を示すためです。コントロールには、モニタリング、透明性、説明可能性、データ セキュリティ、データ保護、データの最小化、モデルの保護が含まれます。DevSecOps + Data Ops を考えてください。
最初の課題は、使用する実世界のデータ セットを見つけることです。これは、このようなモデル タイプにとって本質的に機密データであるためです。技術的な保証がなければ、多くの組織はデータのモデルプロバイダーを信頼することをためらったり、信頼することを許可されなかったりする可能性があります。さらに、この法律が「AI 規制のサンドボックス」を定義する方法自体が課題です。要件の中には、モデルの実行後にデータがシステムから削除されることの保証や、それを証明するためのガバナンス制御、施行、レポート作成などが含まれます。
多くの組織は、すぐに使えるデータ クリーン ルーム (DCR) と信頼できる実行環境 (TEE) の使用を試みてきました。ただし、これらのテクノロジー自体は、データと AI の規制要件を運用して満たすために重要な専門知識を必要とします。
DCR は使用が簡単ですが、より堅牢な AI/ML のニーズにはまだ役立ちません。 TEE はセキュリティで保護されたサーバーですが、迅速に使用するには統合コラボレーション プラットフォームが必要です。ただし、これは、プライバシー強化テクノロジー プラットフォームが TEE と統合してその作業を排除し、AI 規制サンドボックスのセットアップと使用、つまり機密データの取得と使用を簡素化する機会を特定します。
これらのテクノロジーは、プライバシーを保護しながらより多様で包括的なデータセットの使用を可能にすることで、AI と ML の実践がデータ プライバシーに関連する倫理基準と法的要件 (GDPR やヨーロッパの EU AI 法など) に確実に準拠するのに役立ちます。要約すると、要件を満たすとうめき声やため息が聞こえることがよくありますが、これらの要件は、モデル開発に使用されるデータ主体のプライバシーを保護しながら、重要なデータ駆動型の意思決定において信頼でき、信頼できるより良いモデルを構築するためのガイドにすぎません。そしてカスタマイズ。