Interviews
Amy Steier, Principal Machine Learning Scientist bei Gretel.ai – Interview-Serie

Amy Steier ist die Principal Machine Learning Scientist bei Gretel.ai, der weltweit fortschrittlichsten Plattform für Privacy-Engineering. Gretel macht es einfach, Privacy-by-Design in die Daten-getriebene Technologie zu integrieren. Ihre künstlichen Intelligenz-basierten, Open-Source-Bibliotheken sind für die Transformation, Anonymisierung und Synthese von sensiblen Informationen konzipiert.
Amy ist eine hochqualifizierte Machine-Learning- und Data-Scientistin mit über 20 Jahren Erfahrung. Ihre Leidenschaft gilt Big Data und der Aufdeckung der verborgenen Intelligenz mithilfe von Techniken aus Machine Learning, Data-Mining, künstlicher Intelligenz und Statistik. Sie ist hochqualifiziert in predictiver Modellierung, Klassifizierung, Clustering, Anomalie-Erkennung, Data-Visualisierung, Ensemble-Methoden, Informationsabruf, Cyber-Sicherheitsanalyse, NLP, Empfehlungsmodellen und Benutzerverhaltensanalyse.
Was hat Sie ursprünglich dazu bewogen, eine Karriere in Informatik und Machine Learning zu verfolgen?
Meine reine, unverhohlene, anhaltende Liebe zum Daten. Die Macht, das Geheimnis, die Faszination und das Potenzial von Daten haben mich immer fasziniert. Informatik und Machine Learning sind Werkzeuge, um dieses Potenzial zu nutzen. Es ist auch sehr unterhaltsam, in einem Bereich zu arbeiten, in dem der Stand der Technik so schnell voranschreitet. Ich liebe die Kreuzung von Forschung und Produkt. Es ist sehr befriedigend, bahnbrechende Ideen ein wenig weiterzutreiben und sie dann an die Bedürfnisse bestehender Produkte anzupassen.
Für Leser, die nicht vertraut sind, können Sie erklären, was synthetische Daten sind?
Synthetische Daten sind Daten, die wie die ursprünglichen Daten aussehen und agieren, aber auch unterschiedlich genug sind, um einen bestimmten Anwendungsfall zu erfüllen. Der häufigste Anwendungsfall ist die Notwendigkeit, die Privatsphäre der Informationen in den ursprünglichen Daten zu schützen. Ein weiterer Anwendungsfall ist die Notwendigkeit, zusätzliche Daten zu erstellen, um die Größe des ursprünglichen Datensatzes zu erhöhen. Ein weiterer Anwendungsfall ist, um eine Klassenungleichheit oder perhaps demografische Voreingenommenheit im ursprünglichen Datensatz zu adressieren.
Synthetische Daten ermöglichen es uns, neue und innovative Produkte und Lösungen zu entwickeln, wenn die erforderlichen Daten sonst nicht vorhanden oder verfügbar wären.
Wie funktioniert die Gretel-Plattform, um synthetische Daten über APIs zu erstellen?
Die Gretel-Privacy-Engineering-APIs ermöglichen es Ihnen, Daten in Gretel zu importieren und die Daten zu erkunden, die wir extrahieren können. Dies sind dieselben APIs, die von unserer Console verwendet werden. Durch die Veröffentlichung der APIs über eine intuitive Schnittstelle hoffen wir, Entwickler und Data-Scientist zu befähigen, ihre eigenen Workflows um Gretel herum aufzubauen.
Während die Console das Erstellen von synthetischen Daten sehr einfach macht, ermöglichen die APIs es Ihnen, die Erstellung von synthetischen Daten in Ihren Workflow zu integrieren. Ich liebe es, die APIs zu verwenden, da sie es mir ermöglichen, die Erstellung von synthetischen Daten an einen sehr spezifischen Anwendungsfall anzupassen.
Können Sie einige der Tools besprechen, die von Gretel angeboten werden, um die Qualität der synthetischen Daten zu bewerten?
Nach der Erstellung von synthetischen Daten generiert Gretel einen Synthetic-Bericht. In diesem Bericht können Sie den Synthetic Data Quality Score (SQS) sowie ein Privacy-Schutz-Level-Grade (PPL) sehen.
Der SQS-Score ist eine Schätzung davon, wie gut die generierten synthetischen Daten die gleichen statistischen Eigenschaften wie der ursprüngliche Datensatz aufrechterhalten. In diesem Sinne kann der SQS-Score als eine Nutzlichkeitsscore oder ein Vertrauensscore angesehen werden, ob wissenschaftliche Schlussfolgerungen, die aus dem synthetischen Datensatz gezogen werden, dieselben wären, wenn man den ursprünglichen Datensatz verwendet hätte.
Der Synthetic Data Quality Score wird durch die Kombination der einzelnen Qualitätsmetriken berechnet: Feldverteilungsstabilität, Feldkorrelationsstabilität und tiefe Strukturstabilität.
Feldverteilungsstabilität ist ein Maß dafür, wie gut die synthetischen Daten die gleichen Feldverteilungen wie im ursprünglichen Daten aufrechterhalten. Die Feldkorrelationsstabilität ist ein Maß dafür, wie gut Korrelationen zwischen Feldern im synthetischen Daten aufrechterhalten werden. Und schließlich misst die tiefe Strukturstabilität die statistische Integrität von tieferen, mehrfeldigen Verteilungen und Korrelationen. Um dies zu schätzen, vergleicht Gretel eine Hauptkomponentenanalyse (PCA), die zuerst auf den ursprünglichen Daten und dann auf den synthetischen Daten durchgeführt wird.
Wie funktionieren die Gretel-Privacy-Filter?
Die Gretel-Privacy-Filter waren das Ergebnis umfangreicher Forschung über die Natur von adversarialen Angriffen auf synthetische Daten. Die Privacy-Filter verhindern die Erstellung von synthetischen Daten mit Schwachstellen, die häufig von adversarialen Angriffen ausgenutzt werden. Wir haben zwei Privacy-Filter, den ersten ist der Ähnlichkeits-Filter, und der zweite ist der Outlier-Filter. Der Ähnlichkeits-Filter verhindert die Erstellung von synthetischen Datensätzen, die zu ähnlich zu einem Trainingsdatensatz sind. Diese sind primäre Ziele von adversarialen Angriffen, die versuchen, Einblicke in die ursprünglichen Daten zu gewinnen. Der zweite Privacy-Filter ist der Outlier-Filter. Dieser verhindert die Erstellung von synthetischen Datensätzen, die als Outlier im Raum definiert durch die Trainingsdaten angesehen werden. Outlier, die in einem synthetischen Datensatz aufgedeckt werden, können von Membership-Inference-Angriffen, Attribut-Inference und einer Vielzahl von anderen adversarialen Angriffen ausgenutzt werden. Sie sind ein ernstes Privatsphäre-Risiko.
Wie können synthetische Daten bei der Reduzierung von AI-Bias helfen?
Die häufigste Technik ist, die repräsentative Voreingenommenheit der Daten zu adressieren, die in ein AI-System eingespeist werden. Zum Beispiel, wenn es eine starke Klassenungleichheit in Ihren Daten gibt oder wenn es eine demografische Voreingenommenheit in Ihren Daten gibt, bietet Gretel Tools an, um die Ungleichheit zu messen und dann in den synthetischen Daten zu lösen. Durch die Entfernung der Voreingenommenheit in den Daten entfernen Sie oft auch die Voreingenommenheit im AI-System, das auf den Daten aufbaut.
Sie scheinen es zu genießen, neue Machine-Learning-Technologien zu lernen, wie halten Sie persönlich Schritt mit all den Veränderungen?
Lesen, lesen und dann noch mehr lesen, lol! Ich genieße es, meinen Tag mit dem Lesen über neue ML-Technologien zu beginnen. Die Medium kennt mich so gut. Ich genieße es, Artikel in Towards Data Science, Analytics Vidhya und Newslettern wie The Sequence zu lesen. Facebook AI, Google AI und OpenMined haben großartige Blogs. Es gibt eine Vielzahl von guten Konferenzen, die man verfolgen kann, wie NeurIPS, ICML, ICLR, AISTATS.
Ich genieße auch Tools, die Zitierwege verfolgen, Ihnen helfen, ähnliche Artikel wie die, die Ihnen gefallen, zu finden, und die Ihre spezifischen Interessen kennen und immer im Hintergrund auf der Suche nach einem Artikel sind, der Sie interessieren könnte. Zeta Alpha ist ein solches Tool, das ich viel verwende.
Schließlich kann man den Nutzen von Kollegen mit ähnlichen Interessen nicht unterschätzen. Bei Gretel verfolgt das ML-Team Forschungsarbeiten, die für die Felder relevant sind, die wir erforschen, und wir kommen häufig zusammen, um interessante Artikel zu diskutieren.
Was ist Ihre Vision für die Zukunft von Machine Learning?
Einfacher Zugang zu Daten wird eine großartige Ära der Innovation in Machine Learning einleiten, die dann die Innovation in einer breiten Palette von Feldern wie Gesundheitswesen, Finanzen, Fertigung und Biowissenschaften ankurbelt. Historisch gesehen können viele bahnbrechende Fortschritte in ML der Verfügbarkeit großer Mengen an reichen Daten zugeschrieben werden. Historisch gesehen wurde jedoch viel Forschung durch die Unfähigkeit behindert, auf Daten zuzugreifen oder sie zu teilen, weil von Privatsphäre-Bedenken. Wenn Tools wie Gretel diese Barriere entfernen, wird der Zugang zu Daten demokratisiert. Die gesamte Machine-Learning-Community wird von der Verfügbarkeit reicher, großer Datensätze profitieren, anstatt nur ein paar Elite-Unternehmen.
Gibt es noch etwas, das Sie über Gretel teilen möchten?
Wenn Sie Daten lieben, werden Sie Gretel lieben (also liebe ich Gretel!). Einfacher Zugang zu Daten war der Stachel im Fleisch jedes Data-Scientists, den ich je kennengelernt habe. Bei Gretel sind wir stolz darauf, eine Console und eine Reihe von APIs geschaffen zu haben, die die Erstellung privater, teilbarer Daten so einfach wie möglich machen. Wir glauben fest daran, dass Daten wertvoller sind, wenn sie geteilt werden.
Vielen Dank für das großartige Interview und für das Teilen Ihrer Erkenntnisse. Leser, die mehr erfahren möchten, sollten Gretel.ai besuchen.












