インタビュー
Amy Steier、Gretel.ai プリンシパル・マシンラーニング・サイエンティスト – インタビューシリーズ

Amy Steierは、世界で最も先進的なプライバシーエンジニアリングプラットフォームであるGretel.aiのプリンシパル・マシンラーニング・サイエンティストです。Gretelは、データ駆動型テクノロジーの基盤にプライバシー・バイ・デザインを容易に組み込むことを可能にします。そのAIベースのオープンソースライブラリは、機密情報の変換、匿名化、合成のために設計されています。 Amyは20年以上の経験を持つ、非常に優れた機械学習およびデータサイエンティストです。彼女の情熱はビッグデータと、機械学習、データマイニング、人工知能、統計学の技術を用いてその中に隠された知性を明らかにすることにあります。彼女は予測モデリング、分類、クラスタリング、異常検知、データ可視化、アンサンブル法、情報検索、サイバーセキュリティ分析、NLP、レコメンデーションモデル、ユーザー行動分析に高度なスキルを持っています。 コンピューターサイエンスと機械学習のキャリアを追求することに最初に惹かれたのは何ですか? 私の純粋で、あからさまな、永続的なデータへの愛です。データの持つ力、神秘、魅力、可能性は常に私を魅了してきました。コンピューターサイエンスと機械学習は、その可能性を活用するためのツールです。また、最先端の状態が非常に速く進歩する分野で働くことは非常に楽しいことです。私は研究と製品の交差点が大好きです。最先端のアイデアを取り入れ、それを少しだけ押し進め、既存の具体的な製品ニーズに合わせて形を変えることは、非常に満足のいくことです。 馴染みのない読者のために、合成データとは何か説明していただけますか? 合成データとは、元のデータのように見え、振る舞うが、何らかのユースケースを満たすほどに異なるデータです。最も一般的なユースケースは、元のデータ内の情報のプライバシーを保護する必要性です。別のユースケースは、元のデータセットのサイズを増やすために追加のデータを作成する必要性です。さらに別のユースケースは、元のデータセットにおけるクラスの不均衡やおそらく人口統計的バイアスに対処するのに役立つことです。 合成データは、そうするために必要なデータが存在しない、または利用できない場合でも、新しく革新的な製品やソリューションの開発を継続することを可能にします。 Gretelプラットフォームは、APIを介して合成データを作成するためにどのように機能しますか? GretelプライバシーエンジニアリングAPIを使用すると、データをGretelに取り込み、抽出可能なデータを探索できます。これらは、当社のConsoleで使用されているものと同じAPIです。直感的なインターフェースを通じてAPIを公開することで、開発者やデータサイエンティストがGretelを中心に独自のワークフローを構築できるようにすることを目指しています。 コンソールは合成データの作成を非常に簡単にしますが、APIを使用すると、合成データの作成を自身のワークフローに統合することができます。私はAPIを使用するのが好きです。なぜなら、非常に特定のユースケースに合わせて合成データの作成をカスタマイズできるからです。 合成データの品質を評価するためにGretelが提供するツールのいくつかについて説明していただけますか? 合成データの作成後、Gretelは合成レポートを生成します。このレポートでは、Synthetic Data Quality Score (SQS) およびPrivacy Protection Levelグレード (PPL) を確認できます。 SQSスコアは、生成された合成データが元のデータセットと同じ統計的特性をどの程度維持しているかの推定値です。この意味で、SQSスコアは、合成データセットから導き出された科学的結論が、代わりに元のデータセットを使用した場合と同じかどうかについての有用性スコアまたは信頼性スコアと見なすことができます。 Synthetic Data Quality Scoreは、個々の品質指標であるField Distribution Stability、Field Correlation Stability、Deep Structure Stabilityを組み合わせて計算されます。 Field Distribution Stabilityは、合成データが元のデータと同じフィールド分布をどの程度維持しているかの尺度です。Field Correlation Stabilityは、フィールド間の相関が合成データでどの程度維持されたかの尺度です。最後に、Deep Structure Stabilityは、より深い、複数フィールドの分布と相関の統計的完全性を測定します。これを推定するために、Gretelは、最初に元のデータで計算され、次に合成データで再計算される主成分分析 (PCA) を比較します。 Gretelプライバシーフィルターはどのように機能しますか? Gretel Privacy Filtersは、合成データに対する敵対的攻撃の性質に関する多くの研究の集大成でした。プライバシーフィルターは、敵対者が一般的に悪用する弱点を持つ合成データの作成を防止します。2つのプライバシーフィルターがあり、1つ目はSimilarity Filter、2つ目はOutlier Filterです。Similarity Filterは、トレーニングレコードに過度に類似した合成レコードの作成を防止します。これらは、元のデータに関する洞察を得ようとする敵対者の主要な標的です。2つ目のプライバシーフィルターはOutlier Filterです。これは、トレーニングデータによって定義される空間で外れ値と見なされる合成レコードの作成を防止します。合成データセットで明らかになった外れ値は、メンバーシップ推論攻撃、属性推論、およびさまざまな他の敵対的攻撃によって悪用される可能性があります。それらは深刻なプライバシーリスクです。 合成データは、AIバイアスの軽減にどのように役立ちますか? 最も一般的な手法は、AIシステムに供給されるデータの代表性バイアスに対処することです。例えば、データに強いクラスの不均衡がある場合、またはデータに人口統計的バイアスが存在する場合、Gretelはまずその不均衡を測定し、次に合成データでそれを解決するのに役立つツールを提供します。データのバイアスを取り除くことで、多くの場合、そのデータに基づいて構築されたAIシステムのバイアスも取り除かれます。 あなたは明らかに新しい機械学習技術を学ぶことを楽しんでいますが、個人的にどのようにしてすべての変化についていっていますか? 読み、読み、そしてさらに読みます、笑!私は新しいML技術について読むことから一日を始めるのが好きです。Mediumは私のことをよく知っています。Towards Data ScienceやAnalytics Vidhyaの記事、The Sequenceのようなニュースレターを読むのが好きです。Facebook AI、Google AI、OpenMinedはすべて素晴らしいブログを持っています。NeurIPS、ICML、ICLR、AISTATSなど、フォローすべき良いカンファレンスが多数あります。 また、引用経路を追跡し、好きな論文に類似した論文を見つけるのを助け、あなたの特定の興味を知り、常にバックグラウンドであなたが興味を持つかもしれない論文を監視してくれるツールも楽しんでいます。Zeta Alphaは私がよく使うそのようなツールの一つです。 最後に、同じような興味を持つ同僚がいることの利点を本当に過小評価することはできません。Gretelでは、MLチームは私たちが探求する分野に関連する研究論文を追跡し、頻繁に集まって興味深い論文について議論します。 機械学習の未来についてのあなたのビジョンは何ですか? データへの容易なアクセスは、機械学習における偉大な革新の時代を引き起こし、その後、医療、金融、製造、バイオサイエンスなどの幅広い分野における革新を加速させるでしょう。歴史的に、MLにおける多くの画期的な進歩は、大量の豊富なデータに起因すると言えます。しかし歴史的に、多くの研究はプライバシーの懸念からデータにアクセスしたり共有したりできないことによって妨げられてきました。Gretelのようなツールがこの障壁を取り除くにつれて、データへのアクセスは民主化されるでしょう。機械学習コミュニティ全体が、ほんの一握りのエリート大企業だけでなく、豊かで大規模なデータセットへのアクセスから恩恵を受けることになります。 Gretelについて他に共有したいことはありますか? もしあなたがデータを愛しているなら、あなたはGretelを愛するでしょう(だから明らかに私はGretelを愛しています!)。データへの容易なアクセスは、私がこれまで知ってきたすべてのデータサイエンティストの悩みの種でした。Gretelでは、プライベートで共有可能なデータの作成を可能な限りシンプルにするコンソールと一連のAPIを作成したことを大変誇りに思っています。私たちは、データは共有されるときにより価値があると深く信じています。 素晴らしいインタビューと洞察を共有していただきありがとうございました。さらに学びたい読者は、Gretel.aiをご覧ください。












