インタビュー
Roshanak Houmanfar, VP of Machine Learning Products at Integrate.ai – Interview Series

Roshanak (Ro) Houmanfarは、integrate.aiのマシンラーニング製品担当VPです。integrate.aiは、開発者が機密データをリスクにさらすことなく、世界で最も重要な問題を解決するのを支援する会社です。Roには、複雑なAIの概念を新しい方法で簡素化し、ユーザーのニーズと結び付ける特技があります。この専門知識を活用して、プライバシー強化技術へのアクセスを民主化するintegrate.aiのミッションの最前線に立っています。
あなたがデータサイエンスとマシンラーニングに最初に惹かれたのは何ですか?
私はロボティクスからスタートしました。ロボティクスのさまざまな角度を実験した後、溶接ラボを焼き尽くしてしまい、ロボティクスの分野の人工知能側に惹かれることが分かりました。那は私を素晴らしいマシンラーニングの世界に導きました。
現在の役割とあなたの1日の平均的な様子を説明してください。
私は、integrate.aiの製品担当VPです。integrate.aiは、開発者が機密データをリスクにさらすことなく、世界で最も重要な問題を解決するのを支援するSaaS会社です。私たちは、分散データの将来のためのプライバシー安全なマシンラーニングと分析のツールを構築しています。
私の日常では、3つのことを達成するために、機能を跨ぐチームと協力して働いています。
将来の知能がどのように見えるかを考え、知能が最も重要な問題を解決する将来を形作る方法を理解すること。
顧客の痛み点を理解し、革新して彼らの仕事をより影響力があり効率的なものにする方法を理解すること。
製品開発において、常にビジョンと顧客のフィードバックを考慮し、チームと協力して最高の機能を提供すること。
合成データは現在マシンラーニングで流行していますが、integrate.aiは少し反対のアプローチを取ります。合成データが望ましい選択肢ではないアプリケーションは何ですか?
合成データが最適な解決策ではない場合を理解するには、まず合成データが最適な解決策である場合を理解する必要があります。合成データは、ターゲットモデルに実データが少ないかまったくない場合に使用されます。たとえば、コールドスタート問題やテキストおよび画像ベースのモデルトレーニングで使用されます。時々、モデルをトレーニングするために必要なデータが十分にない場合があります。これは、合成データが解決策として輝きます。
しかし、合成データは、プライバシー規制、集中化コスト、または他の相互運用性の障壁により、実データがシロ化されている状況で使用されることが増えています。これは、合成データの明らかな誤用です。これらのユースケースでは、合成データの作成の適切な抽象化レベルを決定するのが難しくなり、低品質の合成データが生成され、内在的なバイアスやデバッグが困難な問題が発生する可能性があります。さらに、合成データでトレーニングされたモデルは、実データでトレーニングされたモデルに比べると、品質が低いことが多いです。
integrate.aiは連邦学習ソリューションを提供することに特化しています。連邦学習とは何ですか?
伝統的なマシンラーニングでは、すべてのモデルトレーニングデータを1つのデータベースに集中させる必要があります。連邦学習では、分散化されたデータセット、またはデータが2つ以上の別個のデータベースにあり、簡単に移動できないデータ上でモデルをトレーニングできます。どのように機能するかというと、モデルの一部をデータが存在する場所でトレーニングし、参加するデータセット間でモデルパラメータを共有して、改善されたグローバルモデルを生成します。システム内でデータが移動しないため、組織はプライバシーとセキュリティ規制、コスト、またはその他の集中化に関する懸念なくモデルをトレーニングできます。
一般に、連邦学習でアクセスできるトレーニングデータは、集中化されたデータよりもはるかに高品質です。集中化されたデータは、1つの場所でのアクセス性の代償として、グラニュラ性を失うことがあります。
企業は連邦学習の最適なユースケースをどのように特定しますか?
連邦学習は、データにアクセスしたり、伝統的なマシンラーニングの集中型データレイクにデータを持ち込んだりすることが痛みを伴う状況に構築されたマシンラーニングテクノロジーです。如果以下の症状を経験している場合、連邦学習はあなたのために設計されています:
- あなたは分析とマシンラーニングによって動作するスマート製品を提供していますが、データがあなたの顧客に所有されているため、製品に対してネットワーク効果を作成できません。
- あなたはデータへのアクセスを得るためにパートナーと長いマスターサービス契約またはデータ共有契約を通じて作業しています。
- あなたは、特にデータパートナーシップの結果があなたに不明な状況で、パートナーと協力契約を形成するのに多くの時間を費やしています。
- あなたは多くのデータを持っていますが、評判への影響を恐れてデータセットを売却したいと考えています。
- あなたはすでにデータを売却していますが、データを安全に共有できるようにするのに多くの時間、労力、金銭を費やしています。
- あなたのインフラストラクチャはクラウドへの移行の間に残されましたが、分析とマシンラーニングがまだ必要です。
- あなたには同じ組織に属する多くの子会社がありますが、直接データを共有することはできません。
- あなたが扱っているデータセットは大きすぎるか、移動するのに高額すぎるため、使用することを決めたり、ETLパイプラインのコストが多すぎるため使用しないことを決めたりしています。
- あなたは大きな影響を与えることができるアプリケーションまたは機会を持っていますが、実現するために必要なデータを持っていません。
- あなたのマシンラーニングモデルは頭打ちになり、さらに改善する方法がわかりません。
差分プライバシーは連邦学習と共に使用されることがよくありますが、これは具体的に何ですか?
差分プライバシーは、同時にマシンラーニングの力を利用しながらプライバシーを確保するためのテクニックです。標準の匿名化テクニックとは異なる数学を使用して、差分プライバシーはローカルモデルトレーニング中にノイズを追加し、データセットの統計的特性のほとんどを保持しながら、個人のデータが識別されるリスクを制限します。
理想的な実装では、差分プライバシーはリスクをほぼゼロに近づけますが、マシンラーニングモデルは同等のパフォーマンスを維持します。必要なすべてのセキュリティを提供するものの、モデル結果の品質を低下させることなく、データの匿名化に必要です。
差分プライバシーは、integrate.aiのプラットフォームにデフォルトで含まれています。開発者は、モデルパラメータから個人のデータが推測できないことを保証できます。
integrate.aiの連邦学習プラットフォームの動作を説明してください。
私たちのプラットフォームは、連邦学習と差分プライバシーテクノロジーを利用して、機密データソース上でアクセスまたはアクセスが困難なマシンラーニングと分析の幅広い機能を解放します。モデルトレーニングや分析などの操作はローカルで実行され、エンド結果のみが安全かつ機密的に集約されます。
integrate.aiは、開発者ツールとしてパッケージ化されており、簡単なSDKとエンドツーエンド管理のためのクラウドサービスを使用して、これらの機能をほぼどのソリューションにもシームレスに統合できます。プラットフォームが統合されると、エンドユーザーは機密データセットを跨いで共同作業を行うことができ、データ管理者は完全な管理を維持します。integrate.aiを統合するソリューションは、実験ツールとしても、プロダクションレディサービスの両方として機能できます。
このプラットフォームは精密診断でどのように使用できるかについては、どのような例がありますか?
私たちが協力しているパートナーのネットワークの1つ、オートイズム共有イニシアチブは、オートイズムの診断とそれに関連するゲノムデータのサンプルを収集して、オートイズムの診断との関係を理解しています。各個々のデータサイトには、機械学習モデルを実行するのに十分なデータセットがありませんが、集団的に有意義なサンプルサイズを作成します。しかし、データを移動するとセキュリティとプライバシーに大きなリスクがあり、規制と病院のポリシーにより、これらの研究機関は常にデータを共有しないことに従ってきました。
別のネットワークでは、類似のセットアップで、研究者はより包括的な患者履歴の観点から、臨床試験を患者に割り当てることを改善しようとしています。
関与するさまざまな研究機関には、各患者についてさまざまな情報へのアクセスがあります。1つの研究所には医療画像へのアクセスがあり、別の研究所にはゲノム情報へのアクセスがあり、別の研究所には臨床試験結果へのアクセスがあります。しかし、これらのさまざまな組織は直接情報を共有できません。
integrate.aiのソリューションを使用すると、各組織はデータ管理者からデータを移動せずに、目的のために相互のデータにアクセスできます。したがって、彼らの内部ポリシーに従っています。
プライバシーを理解可能にすることの重要性と、integrate.aiがこれを可能にする方法について議論してください。
プライバシーを理解可能にすることは、歴史的にプライバシーのリスクの曖昧な性質により閉じていたビジネスや組織の多くの扉を開くことになります。GDPR、CCPA、HIPPAなどのプライバシー規制は非常に複雑であり、業界、地域、データの種類によって異なるため、組織はどのデータプロジェクトがプライバシーセーフであるかを判断するのが困難です。各チェックボックスに時間と人力を浪費するのではなく、integrate.aiの連邦学習プラットフォームには、差分プライバシー、ホモモルフィック暗号化、安全なマルチパーティ計算がデフォルトで含まれており、開発者とデータ管理者は、プロジェクトが規制要件に自動的に準拠することを保証します。
integrate.aiについてさらに共有したいことはありますか?
integrate.aiのソリューションは、機密データソース上で、コンプライアント、プライバシーを保存し、セキュアなマシンラーニングと分析を可能にする、開発者にとって非常に親しみやすいツールです。シンプルなAPIを使用して、機密データ上の規制コンプライアンスと契約のすべての複雑さが抽象化されます。integrate.aiのソリューションにより、データサイエンティストとソフトウェア開発者は、現在のインフラストラクチャとワークフローに最小限の影響で、作業負荷を安全に管理できます。
素晴らしいインタビュー、詳細を知りたい読者はintegrate.aiを訪問してください。












