Интервью
Эми Стейер, главный ученый в области машинного обучения в Gretel.ai – Серия интервью

Эми Стейер является главным ученым в области машинного обучения в Gretel.ai, самой передовой платформы для инженерии конфиденциальности в мире. Gretel упрощает процесс внедрения конфиденциальности по设计 в основу технологий, основанных на данных. Ее библиотеки на основе искусственного интеллекта и с открытым исходным кодом предназначены для преобразования, анонимизации и синтеза конфиденциальной информации.
Эми является высококвалифицированным специалистом в области машинного обучения и науки о данных с более чем 20-летним опытом. Ее страсть – большие данные и выявление скрытой интеллекта с помощью методов машинного обучения,=data mining, искусственного интеллекта и статистики. Она высококвалифицирована в прогностическом моделировании, классификации, кластеризации, обнаружении аномалий, визуализации данных, ансамблевых методах, поиске информации, аналитике кибербезопасности, NLP, моделях рекомендаций и аналитике поведения пользователей.
Что изначально привлекло вас к карьере в области компьютерных наук и машинного обучения?
Моя чистая, беззастенчивая, постоянная любовь к данным. Сила, загадка, интрига и потенциал данных всегда меня fascинировали. Компьютерные науки и машинное обучение – это инструменты для использования этого потенциала. Также очень весело работать в области, где состояние искусства развивается так быстро. Мне нравится пересечение исследований и продукта. Это очень удовлетворительно брать передовые идеи, немного продвигать их вперед и затем преобразовывать их для удовлетворения существующих, осязаемых потребностей продукта.
Для читателей, которые не знакомы, могли бы вы объяснить, что такое синтетические данные?
Синтетические данные – это данные, которые выглядят и действуют как исходные данные, но также достаточно различны, чтобы удовлетворять некоторому случаю использования. Самый распространенный случай использования – необходимость защиты конфиденциальности информации в исходных данных. Другой случай использования – необходимость создания дополнительных данных для увеличения размера исходного набора данных. Еще один случай использования – помощь в решении проблемы классового дисбаланса или демографического предвзятости в исходном наборе данных.
Синтетические данные позволяют нам продолжать разрабатывать новые и инновационные продукты и решения, когда данные, необходимые для этого, в противном случае не были бы присутствовать или доступны.
Как платформа Gretel работает для создания синтетических данных через API?
API инженерии конфиденциальности Gretel позволяют вам передать данные в Gretel и изучить данные, которые мы можем извлечь. Это те же API, которые используются нашей консолью. Открывая API, через интуитивно понятный интерфейс, мы надеемся дать возможность разработчикам и ученым строить свои собственные рабочие процессы вокруг Gretel.
Хотя консоль делает создание синтетических данных очень простым, API позволяют вам интегрировать создание синтетических данных в ваш рабочий процесс. Мне нравится использовать API, потому что они позволяют мне настроить создание синтетических данных для очень конкретного случая использования.
Могли бы вы обсудить некоторые инструменты, которые предлагает Gretel для оценки качества синтетических данных?
После создания синтетических данных Gretel сгенерирует отчет о синтетических данных. В этом отчете вы можете увидеть балл качества синтетических данных (SQS), а также оценку уровня защиты конфиденциальности (PPL).
Балл SQS – это оценка того, насколько хорошо сгенерированные синтетические данные сохраняют статистические свойства исходного набора данных. В этом смысле балл SQS можно рассматривать как балл полезности или доверия к тому, что научные выводы, сделанные из синтетического набора данных, были бы одинаковыми, если бы вы использовали исходный набор данных вместо этого.
Балл качества синтетических данных рассчитывается путем объединения отдельных метрик качества: стабильности распределения полей, стабильности корреляции полей и стабильности глубокой структуры.
Стабильность распределения полей – это мера того, насколько хорошо синтетические данные сохраняют те же распределения полей, что и в исходных данных. Стабильность корреляции полей – это мера того, насколько хорошо корреляции между полями сохраняются в синтетических данных. И, наконец, стабильность глубокой структуры измеряет статистическую целостность более глубоких, многофакторных распределений и корреляций. Чтобы оценить это, Gretel сравнивает анализ главных компонентов (PCA), сначала рассчитанный для исходных данных, а затем снова для синтетических данных.
Как работают фильтры конфиденциальности Gretel?
Фильтры конфиденциальности Gretel были результатом многочисленных исследований по природе атак на синтетические данные. Фильтры конфиденциальности предотвращают создание синтетических данных с уязвимостями, обычно используемыми атаками. У нас есть два фильтра конфиденциальности, первый – фильтр подобия, и второй – фильтр аномалий. Фильтр подобия предотвращает создание синтетических записей, которые слишком похожи на запись обучения. Это первые цели атак, направленных на получение информации об исходных данных. Второй фильтр конфиденциальности – фильтр аномалий. Это предотвращает создание синтетических записей, которые будут считаться аномалиями в пространстве, определённом обучающими данными. Аномалии, выявленные в синтетическом наборе данных, могут быть использованы атаками на членство, атрибуты и многие другие виды атак. Они представляют собой серьезный риск для конфиденциальности.
Как синтетические данные могут помочь в снижении предвзятости ИИ?
Самый распространенный метод – решение проблемы представительского предвзятости данных, поступающих в систему ИИ. Например, если существует сильный дисбаланс классов в ваших данных или существует демографическое предвзятость в ваших данных, Gretel предлагает инструменты для измерения дисбаланса и его решения в синтетических данных. Удаляя предвзятость в данных, вы часто удаляете предвзятость и в системе ИИ, построенной на этих данных.
Вы явно любите узнавать о новых технологиях машинного обучения, как вы лично следите за всеми изменениями?
Читаю, читаю и еще раз читаю, лол! Мне нравится начинать свой день с чтения о новых технологиях машинного обучения. Medium знает меня так хорошо. Мне нравится читать статьи в Towards Data Science, Analytics Vidhya и новостные рассылки, такие как The Sequence. Facebook AI, Google AI и OpenMined имеют отличные блоги. Существует множество хороших конференций, за которыми стоит следить, таких как NeurIPS, ICML, ICLR, AISTATS.
Мне также нравятся инструменты, которые отслеживают цитаты, помогают найти статьи, похожие на те, которые вам нравятся, и которые узнают ваши конкретные интересы и всегда будут следить за статьями, которые могут вас заинтересовать. Zeta Alpha – один из таких инструментов, который я часто использую.
Наконец, вы не можете переоценить пользу от того, что у вас есть коллеги с подобными интересами. В Gretel команда машинного обучения отслеживает исследовательские статьи, связанные с областями, которые мы исследуем, и часто собирается, чтобы обсудить интересные статьи.
Каково ваше видение будущего машинного обучения?
Легкий доступ к данным запустит великую эру инноваций в машинном обучении, что затем ускорит инновации в широком спектре областей, таких как здравоохранение, финансы, производство и биологические науки. Исторически, многие прорывные достижения в машинном обучении можно отнести к большому объему богатых данных. Однако исторически многие исследования были затруднены из-за невозможности доступа или обмена данными из-за проблем конфиденциальности. Когда инструменты, такие как Gretel, удаляют этот барьер, доступ к данным будет демократизирован. Всему сообществу машинного обучения будет полезно иметь доступ к богатым, большим наборам данных, вместо того, чтобы только несколько элитных мегакомпаний имели к ним доступ.
Есть ли что-то еще, что вы хотели бы поделиться о Gretel?
Если вы любите данные, вы полюбите Gretel (так что rõчно, я люблю Gretel!). Легкий доступ к данным был шипом в боку каждого ученого, которого я когда-либо знал. В Gretel мы гордимся тем, что создали консоль и набор API, которые делают создание частных, обменных данных как можно проще. Мы глубоко верим, что данные более ценны, когда они обмениваются.
Спасибо за отличное интервью и за обмен вашими идеями. Читателям, которые хотят узнать больше, следует посетить Gretel.ai.












