Інтерв’ю

Емі Стайер, Головний вчений з машинного навчання в Gretel.ai – Серія інтерв’ю

Published February 8, 2022

Updated April 28, 2026

Antoine Tardif, CEO & Founder of Unite.AI

Емі Стайер є Головним вченим з машинного навчання в Gretel.ai, найбільшої платформи з інженерії конфіденційності. Gretel робить легко впровадження конфіденційності за проектом у тканину даних технологій. Її бібліотеки, засновані на штучному інтелекті та відкритих джерелах, призначені для перетворення, анонізації та синтезу конфіденційних даних.

Емі є висококваліфікованим вченим з машинного навчання та даних з більш ніж 20-річним досвідом. Її пристрасть – великі дані та відкриття прихованих інтелектів за допомогою технік машинного навчання, даних гірництва, штучного інтелекту та статистики. Вона висококваліфікована у прогнозуванні моделей, класифікації, кластеризації, виявленні аномалій, візуалізації даних, ансамблевих методах, інформаційному пошуку, кібербезпеці аналітиці, NLP, моделях рекомендацій та аналітиці поведінки користувачів.

Що спочатку привернуло вас до кар’єри в комп’ютерних науках та машинному навчанні?

Моя чиста, беззастережна, тривала любов до даних. Потужність, загадковість, інтрига та потенціал даних завжди мене приваблювали. Комп’ютерні науки та машинне навчання – це інструменти для використання цього потенціалу. Це також дуже весело працювати в галузі, де стан мистецтва рухається так швидко. Мне подобається перетин досліджень та продукту. Це дуже задовольняє взяти ідеї з краю мистецтва, трохи їх розширити, а потім змінити їх, щоб вони відповідали існуючим, осяжним потребам продукту.

Для читачів, які незнайомі, можете пояснити, що таке синтетичні дані?

Синтетичні дані – це дані, які виглядають і діють як оригінальні дані, але також достатньо різні, щоб задовольнити певний випадок використання. Найпоширеніший випадок використання – це потреба захистити конфіденційність інформації в оригінальних даних. Інший випадок використання – це потреба створити додаткові дані для збільшення розміру оригінального набору даних. Ще одним випадком використання є допомога у вирішенні проблеми класової нерівності або демографічної упередженості в оригінальному наборі даних.

Синтетичні дані дозволяють нам продовжувати розробляти нові та інноваційні продукти та рішення, коли необхідні дані інакше не будуть присутні або доступні.

Як платформа Gretel працює для створення синтетичних даних через API?

API інженерії конфіденційності Gretel дозволяють вам імпортувати дані в Gretel та дослідити дані, які ми можемо витягнути. Це ті самі API, які використовуються нашим Консолі. Відкриваючи API через інтуїтивний інтерфейс, ми сподіваємося надати розробникам та вченим даних можливість створювати свої власні робочі процеси навколо Gretel.

Хоча консоль робить створення синтетичних даних дуже легким, API дозволяють вам інтегрувати створення синтетичних даних у ваш робочий процес. Мне подобається використовувати API, оскільки вони дозволяють мені налаштувати створення синтетичних даних для дуже конкретного випадку використання.

Чи можете обговорити деякі інструменти, які пропонуються Gretel для оцінки якості синтетичних даних?

Після створення синтетичних даних Gretel генерує звіт про синтетичні дані. У цьому звіті ви можете побачити Бал синтетичних даних якості (SQS), а також оцінку рівня захисту конфіденційності (PPL).

Бал SQS – це оцінка того, наскільки добре згенеровані синтетичні дані зберігають ті самі статистичні властивості, що й оригінальний набір даних. У цьому сенсі бал SQS можна розглядати як бал корисності або бал довіри щодо того, чи будуть науковими висновками, зробленими з синтетичних даних, ті самі, що й у разі використання оригінального набору даних.

Бал синтетичних даних якості обчислюється шляхом поєднання окремих метрик якості: Стабільності розподілу полів, Стабільності кореляції полів та Глибокої структурної стабільності.

Стабільність розподілу полів – це міра того, наскільки добре синтетичні дані зберігають той самий розподіл полів, що й у оригінальних даних. Стабільність кореляції полів – це міра того, наскільки добре кореляції між полями зберігаються у синтетичних даних. А нарешті, глибока структурна стабільність вимірює статистичну цілісність глибших, багатовимірних розподілів та кореляцій. Для оцінки цього Gretel порівнює аналіз головних компонентів (PCA), спочатку обчислений для оригінальних даних, а потім знову для синтетичних даних.

Як працюють фільтри конфіденційності Gretel?

Фільтри конфіденційності Gretel були результатом великих досліджень щодо природи атак на синтетичних даних. Фільтри конфіденційності запобігають створенню синтетичних даних з слабкостями, які часто використовуються атаками. У нас є два фільтри конфіденційності, перший – фільтр подібності, а другий – фільтр аутсайдерів. Фільтр подібності запобігає створенню синтетичних записів, які надто схожі на тренувальний запис. Це перші цілі атак, які намагаються здобути інформацію про оригінальні дані. Другий фільтр конфіденційності – фільтр аутсайдерів. Це запобігає створенню синтетичних записів, які будуть вважатися аутсайдерами у просторі, визначеному тренувальними даними. Аутсайдери, відкриті у синтетичних даних, можуть бути використані атаками на членство, атрибутні атаки та широкий спектр інших атак. Вони являють собою серйозний ризик для конфіденційності.

Як синтетичні дані можуть допомогти у зменшенні упередженості штучного інтелекту?

Найпоширеніший метод – це вирішення представницької упередженості даних, які подаються до системи штучного інтелекту. Наприклад, якщо існує сильна класова нерівність у ваших даних або існує демографічна упередженість у ваших даних, Gretel пропонує інструменти для вимірювання дисбалансу та його вирішення у синтетичних даних. Видаливши упередженість у даних, ви часто видаляєте упередженість у системі штучного інтелекту, побудованій на даних.

Ви явно любите дізнаватися про нові технології машинного навчання, як ви особисто слідкуєте за всіма змінами?

Читайте, читайте та ще раз читайте, lol! Мне подобається починати свій день з читання про нові технології машинного навчання. МEDIUM знає мене так добре. Мне подобається читати статті в Towards Data Science, Analytics Vidhya та новини, такі як The Sequence. Facebook AI, Google AI та OpenMined мають великі блоги. Є багато хороших конференцій, яких слід слідкувати, таких як NeurIPS, ICML, ICLR, AISTATS.

Мне також подобається інструменти, які відстежують слід цитування, допомагають вам знайти статті, подібні до тих, які вам подобаються, та які знають ваші конкретні інтереси та завжди спостерігають у фоновому режимі за статтею, яка може вас зацікавити. Zeta Alpha – один із таких інструментів, який я часто використовую.

Нарешті, ви не можете недооцінити користь від того, що у вас є колеги з подібними інтересами. У Gretel команда машинного навчання відстежує дослідження паперів, пов’язаних із областями, які ми досліджуємо, та часто збирається для обговорення цікавих паперів.

Яке ваше бачення майбутнього машинного навчання?

Легкий доступ до даних ініціює велику епоху інновацій у машинному навчанні, яке потім прискорює інновації у широкому спектрі галузей, таких як охорона здоров’я, фінанси, виробництво та біологічні науки. Історично, багато революційних досягнень у машинному навчанні можна віднести до великого обсягу багатих даних. Однак історично багато досліджень було ускладнено через неможливість доступу або обміну даними через проблеми конфіденційності. Коли інструменти, такі як Gretel, усувають цей бар’єр, доступ до даних буде демократизований. Уся спільнота машинного навчання буде користуватися доступом до багатих, великих наборів даних, а не тільки кілька елітних мега-компаній.

Чи є щось інше, що ви хотіли б поділитися про Gretel?

Якщо вам подобаються дані, вам сподобається Gretel (так rõчно, я люблю Gretel!). Легкий доступ до даних був колючкою у боці кожного вченого даних, якого я коли-небудь знав. У Gretel ми з великою гордістю створили консоль та набір API, які роблять створення приватних, спільних даних так просто, як це тільки можливо. Ми глибоко віримо, що дані більш цінні, коли вони спільні.

Дякую за велике інтерв’ю та за те, що поділилися своїми ідеями. Читачам, які бажають дізнатися більше, слід відвідати Gretel.ai.

Antoine Tardif, CEO & Founder of Unite.AI

Антуан є видним лідером і засновником Unite.AI, який рухає невпинною пристрастю до формування та просування майбутнього штучного інтелекту та робототехніки. Як серійний підприємець, він вважає, що штучний інтелект буде таким же революційним для суспільства, як і електрика, і часто захоплюється потенціалом деструктивних технологій та AGI.

Як футуролог, він присвячений дослідженню того, як ці інновації сформують наш світ. Крім того, він є засновником Securities.io, платформи, орієнтованої на інвестування в передові технології, які переінакшують майбутнє та змінюють цілі сектори.

Unite.AI

Емі Стайер, Головний вчений з машинного навчання в Gretel.ai – Серія інтерв’ю

You may like