Entrevistas
Patricia Thaine, CEO da Private AI – Série de Entrevistas

Patricia Thaine é Co-Fundadora e CEO da Private AI, Candidata a Doutorado em Ciência da Computação na Universidade de Toronto e Afiliada Pós-Graduada no Instituto Vector, realizando pesquisas sobre processamento de linguagem natural que preserva a privacidade, com foco em criptografia aplicada. Ela também realiza pesquisas sobre métodos computacionais para decifrar línguas perdidas.
Patricia é recipiente da Bolsa de Pós-Graduação do NSERC, da Bolsa de Graduação do RBC, da Bolsa de Graduação Beatrice “Trixie” Worsley em Ciência da Computação e da Bolsa de Graduação de Ontário. Ela tem oito anos de experiência em pesquisa e desenvolvimento de software, incluindo no Laboratório de Desenvolvimento de Línguas da McGill, no Laboratório de Linguística Computacional da Universidade de Toronto, no Departamento de Linguística da Universidade de Toronto e na Agência de Saúde Pública do Canadá.
O que a atraiu inicialmente para a ciência da computação?
A capacidade de resolver problemas e ser criativa ao mesmo tempo. É como um ofício. Você vê suas ideias de produtos se tornarem realidade, assim como um carpinteiro constrói móveis. Como ouvi alguém dizer uma vez: a programação é a ferramenta criativa definitiva. O fato de os produtos que você constrói poderem ser escalados e usados por pessoas em todo o mundo é o sorvete no topo do bolo.
Pode discutir a história de criação da Private AI e como ela surgiu a partir de sua observação de que há uma falta de ferramentas fáceis de integrar para preservar a privacidade?
Por meio da fala e da escrita, parte de nossas informações mais sensíveis é produzida e transferida para as empresas cujos serviços usamos. Quando estávamos considerando quais produtos de NLP construir, havia uma camada de privacidade que teríamos que integrar, que simplesmente não existia no mercado. Para usar soluções de privacidade, as empresas precisavam transferir os dados de seus usuários para um terceiro, usar soluções de código aberto subpar, que simplesmente não são suficientes para proteger adequadamente a privacidade do usuário, ou construir uma solução internamente com muito pouca especialização em privacidade. Então, decidimos nos concentrar em criar os melhores produtos possíveis para desenvolvedores e equipes de IA que precisam que as saídas das tecnologias de melhoria da privacidade funcionem facilmente para suas necessidades.
Por que a IA que preserva a privacidade é importante?
Aproximadamente 80 por cento das informações produzidas são não estruturadas e a IA é a única maneira de dar sentido a todos esses dados. Ela pode ser usada para o bem, como ajudar a detectar quedas em uma população idosa, ou para o mal, como perfilar e rastrear indivíduos de populações subrepresentadas. Garantir que a privacidade seja construída nos softwares que criamos torna muito mais difícil que a IA seja usada de forma prejudicial.
Como a privacidade é uma vantagem competitiva?
Há muitos motivos, mas aqui estão apenas alguns:
- Mais e mais usuários se importam com a privacidade e, à medida que os consumidores se tornam mais educados, essa preocupação está crescendo: 70 por cento dos consumidores estão preocupados com a privacidade de seus dados.
- É muito mais fácil fazer negócios com outras empresas se você tiver protocolos e tecnologias de proteção e privacidade de dados adequados.
- Quando você constrói seus produtos de uma maneira que preserve a privacidade, você está acompanhando melhor onde estão os pontos de vulnerabilidade em seu serviço e, especialmente por meio da minimização de dados, você está se livrando dos dados que não precisa e que poderiam causar problemas quando ocorre um ataque cibernético.
Pode discutir a importância do treinamento de privacidade de dados e por que ele é suscetível à engenharia reversa?
Essa é uma ótima pergunta e precisa haver muito mais educação sobre isso. Simplificadamente, os modelos de aprendizado de máquina memorizam informações. Quanto maiores os modelos, mais eles memorizam casos de bordo. O que isso significa é que as informações que esses modelos foram treinados podem ser expostas em produção. Isso foi demonstrado em vários artigos de pesquisa, incluindo The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks e Extracting Training Data from Large Language Models.
Também foi demonstrado que informações pessoais podem ser extraídas de embeddings de palavras e, para aqueles com alguma dúvida sobre isso ser um problema real, houve também um escândalo este ano quando um robô de amor coreano estava escrevendo detalhes de usuários em chats com outros usuários.
Quais são suas opiniões sobre aprendizado federado e privacidade do usuário?
O aprendizado federado é um grande passo quando o caso de uso permite. No entanto, ainda é possível extrair informações sobre as entradas de um usuário a partir das atualizações de peso enviadas para a nuvem a partir do dispositivo de um usuário específico, então é importante combinar o aprendizado federado com outras tecnologias de melhoria da privacidade (privacidade diferencial e criptografia homomórfica/computação segura de múltiplas partes). Cada tecnologia de melhoria da privacidade deve ser escolhida de acordo com o caso de uso – nenhuma pode ser usada como um martelo para resolver todos os problemas. Nós passamos pela árvore de decisão aqui. Um grande ganho é que você nunca envia seus dados brutos fora do seu dispositivo. Uma grande desvantagem é que, se você precisar de dados para depurar um sistema ou ver se ele está sendo treinado corretamente, torna-se muito mais difícil obter. O aprendizado federado é um ótimo começo com muitos problemas não resolvidos que a pesquisa e a indústria estão trabalhando.
A Private AI permite que os desenvolvedores integrem a análise de privacidade com várias linhas de código para garantir a privacidade, como isso funciona?
Nossa tecnologia é executada como uma API REST que nossos usuários enviam solicitações POST para com o texto que desejam redigir, desidentificar ou pseudonimizar/aumentar com dados realistas. Alguns de nossos clientes enviam transcrições de chamadas que precisam ser redigidas para serem compatíveis com o PCI, enquanto outros enviam chats inteiros para que possam usar as informações para treinar chatbots, analisadores de sentimento ou outros modelos de NLP. Nossos usuários também podem escolher quais entidades precisam manter ou usar como metadados para rastrear onde os dados pessoais estão armazenados. Nós tiramos a dor de cabeça de ter que treinar um sistema preciso para detectar e substituir informações pessoais em dados muito sujos.
Por que a privacidade para dispositivos IoT é uma questão atual e quais são suas opiniões sobre como resolvê-la?
Em última análise, a melhor maneira de resolver um problema de privacidade é muito dependente do caso de uso, e os dispositivos IoT não são diferentes. Enquanto vários casos de uso podem depender de implantação de borda, inferência de borda e aprendizado federado que preserva a privacidade (por exemplo, crowd sensing em cidades inteligentes), outros casos de uso podem precisar depender de agregação de dados e anonimização (por exemplo, informações de uso de energia). Com isso dito, os dispositivos IoT são um exemplo perfeito de como a privacidade e a segurança devem andar de mãos dadas. Esses dispositivos são notoriamente inseguros para ataques cibernéticos, então há apenas tanto que as tecnologias de melhoria da privacidade podem fazer sem corrigir as vulnerabilidades principais do dispositivo. Por outro lado, sem pensar em maneiras de melhorar a privacidade do usuário, as informações coletadas dentro de nossas casas podem ser compartilhadas, sem controle, com partes desconhecidas, tornando extremamente difícil garantir a segurança das informações. Nós temos dois fronts para melhorar aqui e a legislação preliminar sendo escrita pela Comissão Europeia sobre a segurança dos dispositivos IoT pode acabar sendo o que faz com que os fabricantes de dispositivos levem a sério sua responsabilidade em relação à segurança e privacidade dos consumidores.
Há algo mais que você gostaria de compartilhar sobre a Private AI?
Nós somos um grupo de especialistas em privacidade, linguagem natural, linguagem falada, processamento de imagens, implantação de modelos de aprendizado de máquina em ambientes de recursos baixos, apoiados pelo M12, o fundo de venture da Microsoft.
Certificamos de que os produtos que criamos, além de serem altamente precisos, sejam também eficientes computacionalmente, para que você não tenha uma conta de nuvem enorme em suas mãos no final do mês. Além disso, os dados de nossos clientes nunca são transferidos para nós – tudo é processado no ambiente deles.
Obrigado pela ótima entrevista, para saber mais, visite Private AI.












