Connect with us

ソートリーダー

バイアスがあなたのAI/ML戦略を殺すことと、それに対処する方法

mm

‘バイアス’は、どのようなタイプのモデルでも、モデルが十分な高品質で多様なデータでトレーニングされていないために、プロンプトまたは入力データに不正確に反応する状況を指します。例としては、Appleの顔認識による携帯電話のロック解除機能があります。この機能は、明るい肌色の人よりも、暗い肌色の人で著しく高い割合で失敗しました。モデルは、暗い肌色の人々の画像で十分にトレーニングされていませんでした。これは、比較的低リスクのバイアスの例ですが、EUのAI法が市場に出る前にモデル効率(およびコントロール)を証明する要件を定めた理由です。ビジネス、金融、健康、または個人の状況に影響を与えるモデル出力は、信頼できるものでなければなりません。そうでない場合は、使用されません。

データを使用したバイアスの対処

大量の高品質データ

多くの重要なデータ管理慣行の中で、AI/MLモデルのバイアスを克服し、最小限に抑えるための重要な要素は、大量の高品質で多様なデータを取得することです。これには、多くの組織と協力してそのようなデータを取得する必要があります。従来、データの取得と協力は、プライバシーと/or知的財産保護の懸念によって妨げられてきました。機密データはモデル所有者に送信できず、モデル所有者はデータ所有者に知的財産を漏らすリスクを負うことはできません。一般的な回避策は、モックまたは合成データを使用することですが、これには、実際の完全なコンテキストのデータを使用することとは比較して、限界があります。これがプライバシー強化技術(PETs)が必要な回答を提供する場所です。

合成データ:近いですが、十分ではない

合成データは、実際のデータを模倣するために人工的に生成されます。これは難しいですが、AIツールによって少し簡単になりました。高品質の合成データは、実際のデータと同じ特徴距離を持っている必要があります。そうでない場合は、役に立たないことになります。高品質の合成データは、トレーニングデータの多様性を効果的に高めるために、より小さなマーガリナライズされた人口またはAIプロバイダーが十分なデータを持たない人口を埋めるために使用できます。合成データは、実世界で十分な量に見つけることが難しいエッジケースに対処するために使用することもできます。さらに、組織は、実際のデータへのアクセスをブロックするデータ居住性とプライバシーの要件を満たすために、合成データセットを生成できます。これは素晴らしいように聞こえます。しかし、合成データはパズルの一部に過ぎません。解決策ではありません。

合成データの明らかな限界の1つは、実世界からの断絶です。例えば、合成データのみでトレーニングされた自律車は、実際の予期せぬ道路状況に苦労します。さらに、合成データは、生成に使用された実世界のデータからバイアスを継承します。これは、基本的に私たちの議論の目的を破壊します。結論として、合成データは微調整とエッジケースの対処に役立つ選択肢ですが、モデル効率とバイアスの最小化の重大な改善は、依然として実世界のデータへのアクセスに依存しています。

より良い方法:PETsを使用した実データ

PETsは、使用中のデータを保護します。AI/MLモデルの場合、モデルを実行するIPも保護できます。PETsを使用するソリューションは、以前はデータプライバシーとセキュリティの懸念によりアクセスできなかった、実際の機密データセットでモデルをトレーニングするオプションを提供します。これが実データへのアクセスを解放する最善の選択肢です。ただし、実際にはどのように機能しますか?

現在、主な選択肢は、コンフィデンシャルコンピューティング環境から始まります。次に、PETsベースのソフトウェアソリューションと統合し、標準の信頼できる実行環境(TEE)に含まれないデータ管理とセキュリティの要件に対処します。このソリューションでは、モデルとデータは、セキュアなコンピューティング環境に送信される前に暗号化されます。環境はどこにでもホストできます。これは、特定のデータローカリゼーションの要件を対処する際に重要です。これは、モデルIPと入力データのセキュリティが計算中に維持されることを意味します。信頼できる実行環境の提供者であっても、環境内にあるモデルまたはデータにアクセスできません。暗号化された結果は、確認のために送信され、ログは確認のために利用可能です。

このフローは、どこにあっても誰が所有しているかに関係なく、最良の品質のデータを解放し、バイアスの最小化と高効率のモデルを可能にします。このフローは、EU AI法がAI規制サンドボックスの要件で説明しているものです。

倫理的および法的コンプライアンスの促進

高品質の実データを取得することは難しいです。データプライバシーとローカリゼーションの要件は、すぐにアクセスできるデータセットを制限します。イノベーションと成長が発生するには、データはそれから価値を抽出できる人々に流れる必要があります。

EU AI法の第54条は、「高リスク」モデルタイプについて、市場に出る前に証明する必要がある要件を定めています。簡単に言えば、チームは、AI規制サンドボックス内で実際のデータを使用して、十分なモデル効率と、第3章第2節に記載されているすべてのコントロールとのコンプライアンスを証明する必要があります。これらのコントロールには、モニタリング、透明性、説明可能性、データセキュリティ、データ保護、データ最小化、およびモデル保護が含まれます。DevSecOps + Data Opsと考えてください。

最初の課題は、実際のデータセットを見つけることです。これは、基本的にそのようなモデルタイプの機密データです。技術的な保証がないと、多くの組織はモデルプロバイダーにデータを信頼することをためらうか、またはそうすることが許可されない可能性があります。さらに、法令がAI規制サンドボックスを定義する方法は、自体が課題です。いくつかの要件には、モデルが実行された後、データがシステムから削除されることを保証すること、および管理、執行、そしてそれを証明するための報告が含まれます。

多くの組織は、既成のデータクリーンルーム(DCR)と信頼できる実行環境(TEE)を使用しようとしました。しかし、これらのテクノロジーは、データとAI規制要件を満たすために、重要な専門知識と作業を必要とします。
DCRは使用しやすいですが、まだより強力なAI/MLニーズに役立つものではありません。TEEはセキュアなサーバーですが、すぐに使用できるように、統合されたコラボレーションプラットフォームが必要です。ただし、これは、TEEと統合することでその作業を削除し、AI規制サンドボックスの設定と使用を簡素化する、プライバシー強化テクノロジープラットフォームの機会を特定します。

プライバシー保護の方法でより多様で包括的なデータセットを使用できるようにすることで、これらのテクノロジーは、データプライバシー(例:GDPRおよびEU AI法)に関する倫理基準と法的要件に従ったAIおよびMLの実践を確実にします。要約すると、要件はしばしば聞こえの悪い音で迎えられますが、これらの要件は、基本的に私たちが重要なデータ駆動型の意思決定に頼ることができる、より優れたモデルを構築するためのものであり、同時にモデル開発とカスタマイズに使用されるデータ主体のプライバシーを保護します。

Adi Hirschteinは、Duality TechnologiesのVP of productです。Adiは、20年以上の経験を持ち、主にデータとAIの分野におけるB2Bスタートアップに焦点を当てた技術企業でイノベーションを構築し、推進してきました。Duality Technologiesに着任する前、Adiは、Iguazio(MLOps会社)でVP of productを務めていましたが、同社はMcKinseyに買収されました。その前、EMCでDirector of productを務めていた際には、Zettapoint(データベースおよびストレージ会社)という別のスタートアップが買収された後、同社のVP of productとして製品の立ち上げから市場への浸透と成長までを牽引しました。