toco Amy Steier, principal cientista de aprendizado de máquina da Gretel.ai - Série de entrevistas - Unite.AI
Entre em contato

Entrevistas

Amy Steier, principal cientista de aprendizado de máquina da Gretel.ai – série de entrevistas

mm

Publicado

 on

Amy Steier é a principal cientista de aprendizado de máquina da Gretel.ai, a plataforma de engenharia de privacidade mais avançada do mundo. O Gretel facilita a incorporação da privacidade por design na estrutura da tecnologia orientada por dados. Suas bibliotecas de código aberto baseadas em IA foram projetadas para transformar, anonimizar e sintetizar informações confidenciais.

Amy é uma cientista de dados e aprendizado de máquina altamente talentosa com mais de 20 anos de experiência. Sua paixão é big data e trazer à tona a inteligência oculta usando técnicas de aprendizado de máquina, mineração de dados, inteligência artificial e estatística. Ela é altamente qualificada em modelagem preditiva, classificação, agrupamento, detecção de anomalias, visualização de dados, métodos de conjunto, recuperação de informações, análise de segurança cibernética, NLP, modelos de recomendação e análise comportamental do usuário.

O que inicialmente o atraiu para seguir carreira em ciência da computação e aprendizado de máquina?

Meu amor puro, descarado e duradouro pelos dados. O poder, o mistério, a intriga e o potencial dos dados sempre me fascinaram. A ciência da computação e o aprendizado de máquina são ferramentas para aproveitar esse potencial. Também é extremamente divertido trabalhar em um campo onde o estado da arte se move tão rapidamente. Eu amo a interseção de pesquisa e produto. É muito gratificante pegar ideias de ponta, levá-las um pouco mais longe e, em seguida, transformá-las para atender às necessidades de produtos tangíveis existentes.

Para leitores que não estão familiarizados, você poderia explicar o que são dados sintéticos?

Dados sintéticos são dados que se parecem e agem como os dados originais, mas também são diferentes o suficiente para satisfazer algum caso de uso. O caso de uso mais comum é a necessidade de proteger a privacidade das informações nos dados originais. Outro caso de uso é a necessidade de criar dados adicionais para aumentar o tamanho do conjunto de dados original. Ainda outro caso de uso é ajudar a resolver um desequilíbrio de classe ou talvez um viés demográfico no conjunto de dados original.

Os dados sintéticos nos permitem continuar desenvolvendo produtos e soluções novos e inovadores quando os dados necessários para isso não estariam presentes ou disponíveis.

Como funciona a plataforma Gretel para criar dados sintéticos via APIs?

As APIs de engenharia de privacidade do Gretel permitem que você ingira dados para o Gretel e explore os dados que podemos extrair. Essas são as mesmas APIs usadas por nossos cônsul. Ao expor as APIs por meio de uma interface intuitiva, esperamos capacitar desenvolvedores e cientistas de dados a criar seus próprios fluxos de trabalho em torno do Gretel.

Embora o console facilite muito a criação de dados sintéticos, as APIs permitem que você integre a criação de dados sintéticos em seu fluxo de trabalho. Adoro usar as APIs porque elas me permitem personalizar a criação de dados sintéticos para um caso de uso muito específico.

Você poderia discutir algumas das ferramentas oferecidas por Gretel para ajudar a avaliar a qualidade dos dados sintéticos?

Após a criação dos dados sintéticos, Gretel irá gerar um Relatório Sintético. Neste relatório você pode ver o Índice de qualidade de dados sintéticos (SQS), bem como um nível de proteção de privacidade (PPL).

A pontuação do SQS é uma estimativa de quão bem os dados sintéticos gerados mantêm as mesmas propriedades estatísticas do conjunto de dados original. Nesse sentido, a pontuação do SQS pode ser vista como uma pontuação de utilidade ou uma pontuação de confiança sobre se as conclusões científicas extraídas do conjunto de dados sintéticos seriam as mesmas se alguém tivesse usado o conjunto de dados original.

O Índice de Qualidade de Dados Sintéticos é calculado combinando as métricas de qualidade individuais: Estabilidade de Distribuição de Campo, Estabilidade de Correlação de Campo e Estabilidade de Estrutura Profunda.

A estabilidade da distribuição de campo é uma medida de quão bem os dados sintéticos mantêm as mesmas distribuições de campo dos dados originais. A estabilidade de correlação de campo é uma medida de quão bem as correlações entre os campos foram mantidas nos dados sintéticos. E, finalmente, a Deep Structure Stability mede a integridade estatística de distribuições e correlações mais profundas e multicampos. Para estimar isso, Gretel compara uma Análise de Componentes Principais (PCA) calculada primeiro nos dados originais e, em seguida, novamente nos dados sintéticos.

Como funcionam os filtros de privacidade Gretel?

A Gretel Filtros de Privacidade foram o culminar de muitas pesquisas sobre a natureza dos ataques adversários em dados sintéticos. Os Filtros de Privacidade impedem a criação de dados sintéticos com pontos fracos comumente explorados por adversários. Temos dois Filtros de Privacidade, o primeiro é o Filtro de Similaridade e o segundo é o Filtro Outlier. O Filtro de Similaridade impede a criação de registros sintéticos excessivamente semelhantes a um registro de treinamento. Esses são os principais alvos dos adversários que buscam obter informações sobre os dados originais. O segundo Filtro de Privacidade é o Filtro Outlier. Isso evita a criação de registros sintéticos que seriam considerados outliers no espaço definido pelos dados de treinamento. Outliers revelados em um conjunto de dados sintéticos podem ser explorados por ataques de inferência de membros, inferência de atributos e uma ampla variedade de outros ataques adversários. Eles são um sério risco de privacidade.

Como os dados sintéticos podem ajudar a reduzir o viés da IA?

A técnica mais comum é abordar o viés representacional da alimentação de dados em um sistema de IA. Por exemplo, se houver um forte desequilíbrio de classe em seus dados, ou talvez exista um viés demográfico em seus dados, Gretel oferece ferramentas para ajudar a medir primeiro o desequilíbrio e depois resolvê-lo nos dados sintéticos. Ao remover o viés nos dados, você geralmente remove o viés no sistema de IA criado com base nos dados.

Você claramente gosta de aprender sobre novas tecnologias de aprendizado de máquina. Como você acompanha pessoalmente todas as mudanças?

Leia, leia e depois leia um pouco mais, lol! Gosto de começar meu dia lendo sobre as novas tecnologias de ML. A Médium me conhece tão bem. Gosto de ler artigos em Towards Data Science, Analytics Vidhya e boletins informativos como The Sequence. Facebook AI, Google AI e OpenMined têm ótimos blogs. Há uma infinidade de boas conferências a seguir, como NeurIPS, ICML, ICLR, AISTATS.

Também gosto de ferramentas que rastreiam trilhas de citações, ajudam você a encontrar artigos semelhantes aos que você gosta e que conhecem seus interesses específicos e estão sempre observando em segundo plano um artigo que possa interessá-lo. Zeta Alpha é uma dessas ferramentas que eu uso muito.

Finalmente, você realmente não pode subestimar o benefício de ter colegas com interesses semelhantes. Na Gretel, a equipe do ML rastreia trabalhos de pesquisa relevantes para os campos que exploramos e frequentemente se reúne para discutir artigos interessantes.

Qual é a sua visão para o futuro do aprendizado de máquina?

O fácil acesso aos dados instigará uma grande era de inovação no aprendizado de máquina, que turbinará a inovação em um amplo espectro de campos, como saúde, finanças, manufatura e biociências. Historicamente, muitos avanços inovadores em ML podem ser atribuídos a um grande volume de dados avançados. No entanto, historicamente, muitas pesquisas foram prejudicadas pela incapacidade de acessar ou compartilhar dados devido a preocupações com a privacidade. À medida que ferramentas como o Gretel removem essa barreira, o acesso aos dados será democratizado. Toda a comunidade de aprendizado de máquina se beneficiará do acesso a grandes e ricos conjuntos de dados, em vez de apenas algumas megaempresas de elite.

Há mais alguma coisa que você gostaria de compartilhar sobre Gretel?

Se você adora dados, vai adorar Gretel (é claro que adoro Gretel!). O fácil acesso aos dados tem sido a pedra no sapato de todos os cientistas de dados que já conheci. Na Gretel, temos muito orgulho de ter criado um console e um conjunto de APIs que simplificam ao máximo a criação de dados privados e compartilháveis. Acreditamos profundamente que os dados são mais valiosos quando são compartilhados.

Obrigado pela ótima entrevista e por compartilhar suas idéias, os leitores que desejam aprender mais devem visitar Gretel.ai.

Sócio fundador da unite.AI e membro do Conselho de Tecnologia da Forbes, Antoine é um futurista que é apaixonado pelo futuro da IA ​​e da robótica.

Ele também é o fundador da Valores Mobiliários.io, um site que foca em investir em tecnologia disruptiva.