заглушки Емі Штаєр, головний науковець з машинного навчання Gretel.ai - Серія інтерв'ю - Unite.AI
Зв'язатися з нами

інтерв'ю

Емі Штаєр, головний науковець з машинного навчання Gretel.ai – Серія інтерв’ю

mm

опублікований

 on

Емі Стайєр є головним науковцем у галузі машинного навчання Gretel.ai, найдосконаліша у світі платформа розробки конфіденційності. Gretel дозволяє легко вбудовувати конфіденційність за проектом у структуру технології, керованої даними. Його бібліотеки з відкритим кодом на основі штучного інтелекту призначені для перетворення, анонімізації та синтезу конфіденційної інформації.

Емі — висококваліфікований фахівець із машинного навчання та обробки даних із понад 20-річним досвідом. Її пристрасть — великі дані та виявлення прихованого інтелекту за допомогою методів машинного навчання, аналізу даних, штучного інтелекту та статистики. Вона має високі навички в галузі прогнозного моделювання, класифікації, кластеризації, виявлення аномалій, візуалізації даних, методів ансамблю, пошуку інформації, аналітики кібербезпеки, НЛП, моделей рекомендацій і аналітики поведінки користувачів.

Що спочатку привабило вас продовжити кар’єру в галузі інформатики та машинного навчання?

Моя щира, відверта, незмінна любов до даних. Сила, таємниця, інтрига та потенціал даних завжди захоплювали мене. Інформатика та машинне навчання є інструментами для використання цього потенціалу. Також страшенно весело працювати в сфері, де сучасні технології змінюються так швидко. Мені подобається перетин дослідження та продукту. Це дуже приємно взяти передові ідеї, просувати їх трохи далі, а потім трансформувати їх відповідно до існуючих, відчутних потреб продукту.

Для читачів, які не знайомі, чи могли б ви пояснити, що таке синтетичні дані?

Синтетичні дані – це дані, які виглядають і діють як вихідні дані, але також достатньо відрізняються, щоб задовольнити певний варіант використання. Найпоширенішим випадком використання є необхідність захисту конфіденційності інформації у вихідних даних. Іншим випадком використання є необхідність створення додаткових даних для збільшення розміру вихідного набору даних. Ще один варіант використання полягає в тому, щоб допомогти усунути класовий дисбаланс або, можливо, демографічну упередженість у вихідному наборі даних.

Синтетичні дані дозволяють нам продовжувати розробку нових та інноваційних продуктів і рішень, коли дані, необхідні для цього, інакше були б відсутні або недоступні.

Як працює платформа Gretel для створення синтетичних даних через API?

API розробки конфіденційності Gretel дозволяють вам завантажувати дані в Gretel і досліджувати дані, які ми можемо отримати. Це ті самі API, які використовуються нашими Консоль. Розкриваючи API через інтуїтивно зрозумілий інтерфейс, ми сподіваємося дати можливість розробникам і дослідникам даних будувати власні робочі процеси навколо Gretel.

Хоча консоль дуже спрощує створення синтетичних даних, API дозволяють інтегрувати створення синтетичних даних у ваш робочий процес. Я люблю використовувати API, тому що це дає мені змогу налаштувати створення синтетичних даних для дуже конкретного випадку використання.

Чи можете ви обговорити деякі інструменти, які пропонує Gretel, щоб допомогти оцінити якість синтетичних даних?

Після створення синтетичних даних Gretel створить синтетичний звіт. У цьому звіті ви можете побачити Показник якості синтетичних даних (SQS), а також ступінь захисту конфіденційності (PPL).

Оцінка SQS — це оцінка того, наскільки добре згенеровані синтетичні дані зберігають ті самі статистичні властивості, що й вихідний набір даних. У цьому сенсі оцінку SQS можна розглядати як оцінку корисності або оцінку впевненості щодо того, чи будуть наукові висновки, зроблені на основі синтетичного набору даних, такими ж, якби замість цього використовувався вихідний набір даних.

Показник якості синтетичних даних обчислюється шляхом поєднання окремих показників якості: стабільності розподілу поля, стабільності кореляції поля та стабільності глибокої структури.

Стабільність розподілу полів — це показник того, наскільки добре синтетичні дані зберігають той самий розподіл полів, що й у вихідних даних. Стабільність кореляції полів — це міра того, наскільки добре зберігалися кореляції між полями в синтетичних даних. І, нарешті, стабільність глибокої структури вимірює статистичну цілісність більш глибоких, багатопольових розподілів і кореляцій. Щоб оцінити це, Гретель порівнює аналіз основних компонентів (PCA), обчислений спочатку на вихідних даних, а потім знову на синтетичних даних.

Як працюють фільтри конфіденційності Gretel?

Команда Фільтри конфіденційності Gretel були кульмінацією багатьох досліджень природи змагальних атак на синтетичні дані. Фільтри конфіденційності запобігають створенню синтетичних даних із недоліками, якими зазвичай користуються зловмисники. У нас є два фільтри конфіденційності: перший — це фільтр подібності, а другий — фільтр викидів. Фільтр подібності запобігає створенню синтетичних записів, які надто схожі на навчальний запис. Це головні об’єкти зловмисників, які прагнуть отримати інформацію про вихідні дані. Другий фільтр конфіденційності – це фільтр викидів. Це запобігає створенню синтетичних записів, які будуть вважатися викидом у просторі, визначеному навчальними даними. Викиди, виявлені в синтетичному наборі даних, можуть бути використані за допомогою атак на визначення членства, визначення атрибутів і багатьох інших супротивницьких атак. Вони становлять серйозну загрозу конфіденційності.

Як синтетичні дані можуть допомогти зменшити зміщення ШІ?

Найпоширенішим прийомом є усунення упередженості представлення даних, що надходять у систему ШІ. Наприклад, якщо у ваших даних є сильний класовий дисбаланс або, можливо, у ваших даних існує демографічна помилка, Gretel пропонує інструменти, які допоможуть спочатку виміряти дисбаланс, а потім усунути його в синтетичних даних. Усунувши зміщення в даних, ви часто потім усуваєте зміщення в системі ШІ, побудованій на даних.

Вам явно подобається вивчати нові технології машинного навчання, як ви особисто встигаєте за всіма змінами?

Читайте, читайте, а потім читайте ще, лол! Мені подобається починати день з читання про нові технології ML. Медіум так добре мене знає. Мені подобається читати статті в Towards Data Science, Analytics Vidhya та інформаційні бюлетені, такі як The Sequence. У Facebook AI, Google AI і OpenMined є чудові блоги. Існує безліч хороших конференцій, як-от NeurIPS, ICML, ICLR, AISTATS.

Мені також подобаються інструменти, які відстежують сліди цитувань, допомагають вам знаходити статті, схожі на ті, що вам подобаються, які дозволяють дізнатися про ваші інтереси та завжди спостерігають у фоновому режимі за документом, який може вас зацікавити. Zeta Alpha є одним із таких інструментів, яким я часто користуюся.

Нарешті, ви дійсно не можете недооцінювати переваги мати колег зі схожими інтересами. У Gretel команда ML відстежує дослідницькі статті, що стосуються галузей, які ми досліджуємо, і часто збирається разом, щоб обговорити цікаві статті.

Яке ваше бачення майбутнього машинного навчання?

Легкий доступ до даних започаткує велику еру інновацій у машинному навчанні, яке потім пришвидшить інновації в широкому спектрі галузей, таких як охорона здоров’я, фінанси, виробництво та біологічні науки. Історично склалося так, що багато новаторських досягнень у ML можна пояснити великим обсягом насичених даних. Проте історично багатьом дослідженням перешкоджала неможливість отримати доступ або обмінюватися даними через проблеми конфіденційності. Коли такі інструменти, як Gretel, усунуть цей бар’єр, доступ до даних буде демократизованим. Уся спільнота машинного навчання виграє від доступу до багатих, великих наборів даних, а не лише кількох елітних мегакомпаній.

Чи є ще щось, чим ви хотіли б поділитися про Гретель?

Якщо ви любите дані, ви полюбите Гретель (так явно я люблю Гретель!). Легкий доступ до даних був шипою в оці кожного спеціаліста з обробки даних, якого я коли-небудь знав. У Gretel ми дуже пишаємося тим, що створили консоль і набір API, які максимально спрощують створення приватних даних, доступних для спільного використання. Ми глибоко переконані, що дані більш цінні, коли ними ділиться.

Дякуємо за чудове інтерв’ю та за те, що ви поділилися своїми ідеями, читачі, які хочуть дізнатися більше, повинні відвідати Gretel.ai.

Партнер-засновник unite.AI і член Технологічна рада Forbes, Антуан - це а футурист який захоплений майбутнім ШІ та робототехніки.

Він також є засновником Securities.io, веб-сайт, який зосереджується на інвестиціях у революційні технології.