Entrevistas

Roshanak Houmanfar, VP de Produtos de Aprendizado de Máquina na Integrate.ai – Série de Entrevistas

mm

Roshanak (Ro) Houmanfar é a VP de produtos de aprendizado de máquina para integrate.ai, uma empresa que ajuda desenvolvedores a resolver os problemas mais importantes do mundo sem arriscar dados sensíveis. Ro tem um dom especial para encontrar novas maneiras de simplificar conceitos complexos de IA e conectá-los às necessidades dos usuários. Com essa expertise, ela está à frente da missão da integrate.ai de democratizar o acesso à tecnologia de privacidade.

O que inicialmente a atraiu para a ciência de dados e o aprendizado de máquina?

Eu comecei minha jornada em robótica. Depois de experimentar com os diferentes ângulos da robótica e queimar um laboratório de soldagem, cheguei à conclusão de que estava mais atraída pelo lado de inteligência artificial do meu campo, e isso me levou ao mundo maravilhoso do aprendizado de máquina.

Pode descrever seu papel atual e como é um dia típico para você?

Eu sou a VP de Produto da integrate.ai, uma empresa de SaaS que ajuda desenvolvedores a resolver os problemas mais importantes do mundo sem arriscar dados sensíveis. Estamos construindo ferramentas para aprendizado de máquina e análise de privacidade para o futuro distribuído dos dados.

No meu dia a dia, trabalho com nossas equipes em diferentes funções para alcançar três coisas:

Pensar no que o futuro da inteligência pode ser e como podemos moldar esse futuro para que a inteligência resolva os problemas mais críticos.

Entender os pontos de dor dos nossos clientes e como podemos inovar para tornar o trabalho deles mais impactante e eficiente.

Certificar-me de que nossa visão e o feedback dos clientes sejam sempre considerados no desenvolvimento do produto, trabalhando em colaboração com nossas equipes para entregar os melhores recursos.

Dados sintéticos estão atualmente em alta no aprendizado de máquina, mas a integrate.ai adota uma abordagem um pouco contrária. Quais são algumas aplicações em que os dados sintéticos podem não ser uma opção desejável?

Para entender quando os dados sintéticos não são a melhor solução, é importante entender primeiro quando eles são. Os dados sintéticos são melhores usados quando o alvo do modelo tem uma pequena quantidade de dados reais disponíveis ou nenhum – por exemplo, em problemas de inicialização e treinamento de modelos baseados em texto e imagem. Às vezes, simplesmente não há dados suficientes para treinar um modelo, e é aí que os dados sintéticos brilham como solução.

No entanto, os dados sintéticos estão sendo cada vez mais usados em situações em que há muitos dados reais, mas esses dados estão isolados devido a regulamentações de privacidade, custos de centralização ou outros obstáculos de interoperabilidade. Isso é um uso indevido dos dados sintéticos. Nesses casos de uso, é difícil determinar o nível correto de abstração para a criação de dados sintéticos, resultando em dados sintéticos de baixa qualidade que podem causar vieses inerentes ou outros problemas que são difíceis de depurar. Além disso, os modelos treinados com dados sintéticos não se comparam aos treinados com dados reais de alta qualidade e granulares.

A integrate.ai se especializa em oferecer soluções de aprendizado federado, pode descrever o que é aprendizado federado?

No aprendizado de máquina tradicional, todos os dados de treinamento do modelo devem ser centralizados em um banco de dados. Com o aprendizado federado, os modelos podem ser treinados em conjuntos de dados descentralizados e distribuídos – ou dados que residem em dois ou mais bancos de dados separados e não podem ser facilmente movidos. Isso funciona da seguinte maneira: partes de um modelo de aprendizado de máquina são treinadas onde os dados estão localizados, e os parâmetros do modelo são compartilhados entre os conjuntos de dados participantes para produzir um modelo global aprimorado. E, como nenhum dado se move dentro do sistema, as organizações podem treinar modelos sem obstáculos como regulamentações de privacidade e segurança, custos ou outras preocupações de centralização.

Em geral, os dados de treinamento acessíveis com o aprendizado federado são de muito maior qualidade, pois os dados centralizados tendem a perder um pouco de sua granularidade em troca de facilidade de acesso em um local.

Como uma empresa identifica os melhores casos de uso para o aprendizado federado?

O aprendizado federado é uma pilha de tecnologia de aprendizado de máquina projetada para situações em que o acesso a dados ou a transferência deles para a infraestrutura tradicional de aprendizado de máquina com lagos de dados centralizados é doloroso. Se você está experimentando um dos seguintes sintomas, o aprendizado federado é para você:

  • Você fornece produtos inteligentes alimentados por análise e aprendizado de máquina e não pode criar efeitos de rede para seus produtos porque os dados são de propriedade dos seus clientes.
  • Você está trabalhando em acordos de serviço mestre ou acordos de compartilhamento de dados para obter acesso a dados de seus parceiros.
  • Você está gastando muito tempo formando contratos de colaboração com seus parceiros, particularmente em situações em que o resultado dessa parceria de dados é incerto para você.
  • Você tem acesso a uma grande quantidade de dados e deseja monetizá-los, mas tem medo das implicações para sua reputação.
  • Você já está monetizando seus dados, mas está gastando muito tempo, esforço e dinheiro para tornar os dados seguros para compartilhar.
  • Sua infraestrutura foi deixada para trás durante a mudança para a nuvem, mas você ainda precisa de análise e aprendizado de máquina.
  • Você tem muitas subsidiárias que pertencem à mesma organização, mas não podem compartilhar dados diretamente entre si.
  • Os conjuntos de dados com os quais você está lidando são muito grandes ou caros para mover, então você decidiu não usá-los ou suas pipelines ETL custam muito.
  • Você tem um aplicativo ou oportunidade que acredita que possa ter um impacto significativo, mas não tem os dados necessários para torná-lo realidade.
  • Seus modelos de aprendizado de máquina atingiram um platô e você não sabe como melhorá-los.

A privacidade diferencial é frequentemente usada em conjunto com o aprendizado federado, o que é isso especificamente?

A privacidade diferencial é uma técnica para garantir a privacidade ao mesmo tempo em que aproveita o poder do aprendizado de máquina. Usando matemática diferente das técnicas de desidentificação padrão, a privacidade diferencial adiciona ruído durante o treinamento do modelo local, preservando a maioria das características estatísticas do conjunto de dados, enquanto limita o risco de que os dados de qualquer indivíduo sejam identificados.

Em implementações ideais, a privacidade diferencial traz o risco para perto de zero, enquanto os modelos de aprendizado de máquina mantêm um desempenho semelhante – fornecendo toda a segurança necessária para a desidentificação de dados, sem reduzir a qualidade dos resultados do modelo.

A privacidade diferencial é incluída na plataforma da integrate.ai por padrão, para que os desenvolvedores possam garantir que os dados individuais não possam ser inferidos a partir dos parâmetros do modelo.

Pode descrever como a plataforma de aprendizado federado da integrate.ai funciona?

Nossa plataforma aproveita as tecnologias de aprendizado federado e privacidade diferencial para desbloquear uma gama de capacidades de aprendizado de máquina e análise em dados que de outra forma seriam difíceis ou impossíveis de acessar devido a obstáculos de privacidade, confidencialidade ou técnicos. Operações como treinamento de modelo e análise são realizadas localmente, e apenas os resultados finais são agregados de forma segura e confidencial.

A integrate.ai é embalada como uma ferramenta para desenvolvedores, permitindo que eles integrem facilmente essas capacidades em quase qualquer solução com um kit de desenvolvimento de software (SDK) fácil de usar e um serviço de nuvem de apoio para gerenciamento de ponta a ponta. Uma vez que a plataforma é integrada, os usuários finais podem colaborar em conjuntos de dados sensíveis, enquanto os custodiantes retêm o controle total. Soluções que incorporam a integrate.ai podem servir como ferramentas de experimentação eficazes e serviços prontos para produção.

Quais são alguns exemplos de como essa plataforma pode ser usada em diagnósticos de precisão?

Uma das redes de parceiros com quem estamos trabalhando, a Autism Sharing Initiative, coleta informações relacionadas ao diagnóstico de autismo, bem como amostras de dados genômicos para entender as conexões entre os diferentes genótipos e fenótipos e os diagnósticos de autismo. Cada site de dados individual não tem conjuntos de dados suficientes para fazer com que os modelos de aprendizado de máquina sejam executados, mas coletivamente eles criam um tamanho de amostra significativo. No entanto, mover dados representa um alto risco para a segurança e a privacidade, e devido a regulamentações e políticas hospitalares, esses institutos de pesquisa sempre optaram por não compartilhar.

Em uma rede diferente, com uma configuração semelhante, os pesquisadores estão interessados em melhorar a atribuição de ensaios clínicos a pacientes usando uma visão mais holística da história de cada paciente.

Os diferentes institutos de pesquisa envolvidos têm acesso a informações variadas sobre cada paciente – um laboratório tem acesso a seus exames médicos, outro laboratório tem acesso a suas informações genômicas e outro instituto tem os resultados de seus ensaios clínicos. Mas essas diferentes organizações não podem compartilhar informações diretamente entre si.

Com a solução da integrate.ai, cada organização pode acessar os dados dos outros para seus objetivos sem mover os dados para longe dos custodiantes de dados e, portanto, aderindo às suas políticas internas.

Pode discutir a importância de tornar a privacidade compreensível e como a integrate.ai possibilita isso?

Tornar a privacidade compreensível significa abrir muitas portas para empresas e organizações que historicamente estavam fechadas devido à natureza ambígua do risco. Regulamentações de privacidade como o GDPR, a CCPA e a HIPPA são incrivelmente complexas e podem variar dependendo da indústria, região e tipo de dados, tornando difícil para as organizações determinar quais projetos de dados são seguros em termos de privacidade. Em vez de gastar tempo e mão de obra verificando cada caixa, a plataforma de aprendizado federado da integrate.ai oferece privacidade diferencial, criptografia homomórfica e computação de múltiplas partes seguras por padrão, para que os desenvolvedores e os custodiantes de dados possam descansar tranquilos sabendo que seus projetos atenderão automaticamente aos requisitos regulamentares, sem a dor de cabeça de pular por cada hoop categorial.

Há algo mais que você gostaria de compartilhar sobre a integrate.ai?

A solução da integrate.ai é uma ferramenta incrivelmente amigável para desenvolvedores que permite aprendizado de máquina e análise de dados sensíveis de forma compatível, preservando a privacidade e segurança. Por meio de APIs fáceis de usar, toda a complexidade do cumprimento regulamentar e dos contratos em cima de dados sensíveis é abstraída. A solução da integrate.ai permite que os cientistas de dados e os desenvolvedores de software gerenciem suas cargas de trabalho com segurança, com impacto mínimo em sua infraestrutura e fluxos de trabalho atuais.

Obrigado pela grande entrevista, leitores que desejam aprender mais devem visitar integrate.ai.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.