Connect with us

Wilson Pang, Co-Autor de Real World AI – Série de Entrevistas

Entrevistas

Wilson Pang, Co-Autor de Real World AI – Série de Entrevistas

mm

Wilson Pang ingressou na Appen em novembro de 2018 como CTO e é responsável pelos produtos e tecnologia da empresa. Wilson tem mais de dezenove anos de experiência em engenharia de software e ciência de dados. Antes de ingressar na Appen, Wilson foi diretor de dados da Ctrip na China, a segunda maior empresa de agência de viagens online do mundo, onde liderou engenheiros de dados, analistas, gerentes de produtos de dados e cientistas para melhorar a experiência do usuário e aumentar a eficiência operacional que cresceu o negócio. Antes disso, ele foi diretor sênior de engenharia da eBay na Califórnia e forneceu liderança em vários domínios, incluindo serviço e soluções de dados, ciência de busca, tecnologia de marketing e sistemas de faturamento. Ele trabalhou como arquiteto na IBM antes da eBay, construindo soluções de tecnologia para vários clientes. Wilson obteve seu mestrado e bacharelado em engenharia elétrica na Universidade de Zhejiang na China.

Discutimos seu novo livro: O Mundo Real da IA: Um Guia Prático para Aprendizado de Máquina Responsável

Você descreve como, quando liderou as equipes de ciência de busca da eBay, uma de suas primeiras lições com aprendizado de máquina foi entender a importância de saber quais métricas medir. O exemplo dado foi como a métrica “compras por sessão” não levou em conta o valor monetário de um item. Como as empresas podem melhor entender quais métricas precisam ser medidas para evitar problemas semelhantes?

Comece com os objetivos que sua equipe atribui ao modelo de IA – no nosso caso, queríamos impulsionar mais receita com aprendizado de máquina. Quando você vincula métricas aos objetivos, pense sobre quais mecânicas essas métricas produzirão, uma vez que você libere o modelo e as pessoas começarem a interagir com ele, mas também anote suas suposições. No nosso caso, supusemos que o modelo otimizaria a receita, mas o número de compras por sessão não se traduzia nisso, porque o modelo estava otimizando para um alto número de vendas de baixo valor e, no final do dia, não estávamos ganhando mais dinheiro. Uma vez que percebemos isso, fomos capazes de mudar as métricas e apontar o modelo na direção certa. Portanto, determinar as métricas granulares, bem como anotar suposições, é fundamental para o sucesso de um projeto.

O que você aprendeu pessoalmente ao pesquisar e escrever este livro?

Temos muitos problemas diferentes que podem ser resolvidos por IA de diferentes empresas e diferentes setores. Os casos de uso podem ser muito diferentes, a solução de IA pode ser diferente, os dados para treinar essa solução de IA podem ser diferentes. No entanto, independentemente de todas essas diferenças, os erros que as pessoas cometem durante sua jornada de IA são bastante semelhantes. Esses erros aconteceram novamente e novamente em todos os tipos de empresas de todos os setores.

Compartilhamos algumas práticas recomendadas comuns ao implementar projetos de IA com a esperança de ajudar mais pessoas e empresas a evitar esses erros e ganhar confiança para implantar IA responsável.

Quais são as lições mais importantes que você espera que as pessoas levem ao ler este livro?

Acreditamos firmemente que usos pensados, responsáveis e éticos da tecnologia de aprendizado de máquina podem tornar o mundo um lugar mais justo, justo e inclusivo. A tecnologia de aprendizado de máquina promete redefinir tudo ao longo do mundo dos negócios, mas não precisa ser difícil. Existem métodos e processos testados e comprovados que as equipes podem seguir e obter confiança para implantar em produção.

Outra lição importante é que os proprietários de linhas de negócios (como gerentes de produto) e membros da equipe do lado mais técnico (como engenheiros e cientistas de dados) precisam falar uma linguagem comum. Para implantar IA com sucesso, os líderes devem preencher a lacuna entre as equipes, fornecendo especialistas em negócios e C-level o suficiente contexto para conversar eficientemente com implementadores técnicos.

Muitas pessoas pensam primeiro em código quando pensam em IA. Uma das lições importantes no livro é que os dados são fundamentais para o sucesso do modelo de IA. Há muito o que fazer com os dados, desde a coleta até o rotulamento, armazenamento e todos os passos influenciarão o sucesso do modelo. As implantações de IA mais bem-sucedidas são aquelas que dão grande ênfase aos dados e se esforçam para melhorar continuamente esse aspecto de seu modelo de ML.

Tudo o que o IA do mundo real requer é uma equipe multifuncional e um espírito inovador.

Discutido é determinar quando a precisão de um modelo de IA é suficientemente alta para apoiar o uso de IA. Qual é a maneira mais fácil de avaliar o tipo de precisão necessária?

Depende dos casos de uso e da tolerância ao risco. As equipes que desenvolvem IA devem sempre ter uma fase de teste onde determinam os níveis de precisão e os limites aceitáveis para suas organizações e partes interessadas. Para casos de uso de vida ou morte – onde há potencial de dano se a IA der errado, como no caso de software de sentença, carros autônomos, casos de uso médicos, a barra é muito, muito alta – e as equipes devem colocar contingências no lugar, caso os modelos estejam errados. Para casos de uso mais tolerantes a falhas – onde há muita subjetividade em jogo – como conteúdo, busca ou relevância de anúncios, as equipes podem confiar no feedback do usuário para continuar ajustando seus modelos, mesmo enquanto estão em produção. Claro, há alguns casos de uso de alto risco aqui, onde material ilegal ou imoral pode ser mostrado aos usuários, então mecanismos de segurança e feedback devem ser colocados em prática aqui também.

Você pode definir a importância de definir o sucesso de um projeto de antemão?

É igualmente importante começar com um problema de negócios quanto definir o sucesso de antemão, pois os dois andam de mãos dadas. Seguindo o exemplo no livro sobre o concessionário de automóveis que usa IA para rotular imagens, eles não determinaram o que o sucesso parecia, porque não definiram um problema de negócios para resolver. O sucesso para eles poderia ter sido uma variedade de coisas, o que torna difícil resolver um problema, mesmo para equipes de pessoas, quanto mais para um modelo de aprendizado de máquina com um escopo fixo. Se eles tivessem definido o sucesso como rotular com precisão 80% de todos os danos nos veículos usados no estoque, então, quando tivessem rotulado com precisão 85%, a equipe teria considerado um sucesso. Mas se esse sucesso não estiver vinculado ao problema de negócios e ao impacto direto nos negócios, é difícil avaliar o projeto fora da definição focada da precisão do rotulamento nesse exemplo. Aqui, o problema de negócios era mais complexo e rotular danos era apenas um componente disso. No seu caso, eles poderiam ter sido melhores definindo o sucesso como economizar tempo/dinheiro no processo de reclamação ou otimizar o processo de reparo em X% e, em seguida, traduzir o impacto do rotulamento em resultados de negócios reais.

Quão importante é garantir que os exemplos de dados de treinamento cubram todos os casos de uso que ocorrerão na implantação em produção?

É extremamente importante que o modelo seja treinado em todos os casos de uso para evitar viés. Mas também é importante notar que, embora seja impossível cobrir absolutamente todos os casos de uso em produção, as equipes que constroem IA precisam entender seus dados de produção, bem como seus dados de treinamento, para que possam treinar a IA para o que ela encontrará em produção. Acessar dados de treinamento que venham de grandes grupos diversificados com vários casos de uso será fundamental para o sucesso do modelo. Por exemplo, um modelo que é treinado para reconhecer o animal de estimação de alguém em uma imagem carregada precisa ser treinado em todos os tipos de animais de estimação; cães, gatos, pássaros, pequenos mamíferos, répteis, etc. Se o modelo for treinado apenas em cães, gatos e pássaros, então, quando alguém carregar uma imagem com seu porquinho-da-índia, o modelo não poderá identificá-lo. Embora isso seja um exemplo muito simples, mostra como treinar em tantos casos de uso quanto possível é fundamental para o sucesso de um modelo.

Discutido no livro é a necessidade de desenvolver bons hábitos de higiene de dados de cima para baixo, quais são os primeiros passos comuns para nutrir esse hábito?

Bons hábitos de higiene de dados aumentarão a usabilidade dos dados internos e os prepararão para casos de uso de ML. Toda a empresa deve se tornar boa em organizar e manter o rastreamento de seus conjuntos de dados. Uma maneira segura de alcançar isso é torná-lo um requisito de negócios e rastrear a implementação, para que haja muito poucos relatórios que se tornem trabalhos personalizados, e as equipes trabalhem mais e mais com pipelines de dados canalizados para um repositório central, com uma ontologia clara. Outra boa prática é manter um registro de quando e onde os dados foram coletados e o que aconteceu com eles antes de serem colocados no banco de dados, bem como estabelecer processos para limpar dados não utilizados ou obsoletos periodicamente.

Obrigado pela grande entrevista, para os leitores que estão interessados em aprender mais, recomendo que leiam o livro O Mundo Real da IA: Um Guia Prático para Aprendizado de Máquina Responsável.

Antoine é um líder visionário e sócio-fundador da Unite.AI, impulsionado por uma paixão inabalável em moldar e promover o futuro da IA e da robótica. Um empreendedor serial, ele acredita que a IA será tão disruptiva para a sociedade quanto a eletricidade, e é frequentemente pego falando sobre o potencial das tecnologias disruptivas e da AGI. Como um futurista, ele está dedicado a explorar como essas inovações moldarão nosso mundo. Além disso, ele é o fundador da Securities.io, uma plataforma focada em investir em tecnologias de ponta que estão redefinindo o futuro e remodelando setores inteiros.