toco Xavier Conort, cofundador e CPO da FeatureByte - série de entrevistas - Unite.AI
Entre em contato

Entrevistas

Xavier Conort, cofundador e CPO da FeatureByte – série de entrevistas

mm

Publicado

 on

Xavier Conorto é um cientista de dados visionário com mais de 25 anos de experiência em dados. Ele começou sua carreira como atuário no setor de seguros antes de fazer a transição para a ciência de dados. Ele é um dos melhores competidores do Kaggle e foi o cientista-chefe de dados da DataRobot antes de cofundar a FeatureByte.

FeatureByte tem como missão escalar a IA empresarial, simplificando e industrializando radicalmente os dados de IA. A plataforma de gerenciamento e engenharia de recursos capacita os cientistas de dados a criar e compartilhar recursos de última geração e pipelines de dados prontos para produção em minutos, em vez de semanas ou meses.

Você começou sua carreira como atuário no setor de seguros antes de fazer a transição para Data Science. O que causou essa mudança?

Um momento decisivo foi vencer o GE Flight Quest, uma competição organizada pela GE com um prêmio total de $ 250, onde os participantes tinham que prever atrasos de voos domésticos nos Estados Unidos. Devo parte desse sucesso a uma valiosa prática de seguros: a modelagem em 2 estágios. Essa abordagem ajuda a controlar o viés em recursos que não possuem representação suficiente nos dados de treinamento disponíveis. Juntamente com outras vitórias no Kaggle, essa conquista me convenceu de que minha formação atuarial me proporcionou uma vantagem competitiva no campo da ciência de dados.

Durante minha jornada no Kaggle, também tive o privilégio de me conectar com outros cientistas de dados entusiastas, incluindo Jeremy Achin e Tom De Godoy, que mais tarde se tornariam os fundadores da DataRobot. Compartilhamos uma experiência comum em seguros e alcançamos sucessos notáveis ​​no Kaggle. Quando finalmente lançaram Robô de dados, uma empresa especializada em AutoML, eles me convidaram para me juntar a eles como Cientista Chefe de Dados. A visão deles de combinar as melhores práticas do setor de seguros com o poder do aprendizado de máquina me entusiasmou, apresentando uma oportunidade de criar algo inovador e impactante.

Na DataRobot e foram fundamentais na construção de seu roteiro de ciência de dados. Que tipo de desafios de dados você enfrentou?

O desafio mais significativo que enfrentamos foi a qualidade variável dos dados fornecidos como entrada para nossa solução AutoML. Esse problema geralmente resultava em uma colaboração demorada entre nossa equipe e os clientes ou em resultados decepcionantes na produção, se não fosse tratado adequadamente. Os problemas de qualidade surgiram de várias fontes que exigiam nossa atenção.

Um dos principais desafios surgiu do uso geral de ferramentas de business intelligence para preparação e gerenciamento de dados. Embora essas ferramentas sejam valiosas para gerar insights, elas carecem dos recursos necessários para garantir a correção pontual para a preparação de dados de aprendizado de máquina. Como resultado, podem ocorrer vazamentos nos dados de treinamento, levando ao sobreajuste e ao desempenho impreciso do modelo.

A falta de comunicação entre cientistas de dados e engenheiros de dados foi outro desafio que afetou a precisão dos modelos durante a produção. Inconsistências entre as fases de treinamento e produção, decorrentes do desalinhamento entre essas duas equipes, podem afetar o desempenho do modelo em um ambiente do mundo real.

Quais foram algumas das principais conclusões dessa experiência?

Minha experiência na DataRobot destacou a importância da preparação de dados no aprendizado de máquina. Ao enfrentar os desafios de gerar dados de treinamento de modelo, como correção pontual, lacunas de conhecimento, conhecimento de domínio, limitações de ferramentas e escalabilidade, podemos aprimorar a precisão e a confiabilidade dos modelos de aprendizado de máquina. Cheguei à conclusão de que simplificar o processo de preparação de dados e incorporar tecnologias inovadoras será fundamental para liberar todo o potencial da IA ​​e cumprir suas promessas.

Também ouvimos do seu co-fundador Razi Raziuddin sobre a história da gênese por trás do FeatureByte, podemos obter sua versão dos eventos?

Quando discuti minhas observações e insights com meu cofundador Razi Raziuddin, percebemos que compartilhamos um entendimento comum dos desafios na preparação de dados para aprendizado de máquina. Durante nossas discussões, compartilhei com Razi minhas percepções sobre os avanços recentes na comunidade MLOps. Pude observar o surgimento de lojas de recursos e plataformas de recursos que as primeiras empresas de tecnologia de IA implementam para reduzir a latência do serviço de recursos, incentivar a reutilização de recursos ou simplificar a materialização de recursos em dados de treinamento, garantindo a consistência do serviço de treinamento. No entanto, ficou evidente para nós que ainda havia uma lacuna no atendimento às necessidades dos cientistas de dados. Razi compartilhou comigo suas percepções sobre como a pilha de dados moderna revolucionou o BI e a análise, mas não está sendo totalmente aproveitada para a IA.

Tornou-se evidente para Razi e para mim que tínhamos a oportunidade de causar um impacto significativo simplificando radicalmente o processo de engenharia de recursos e fornecendo aos cientistas de dados e engenheiros de ML as ferramentas certas e a experiência do usuário para experimentação e serviço de recursos perfeitos.

Quais foram alguns dos seus maiores desafios ao fazer a transição de cientista de dados para empreendedor?

A transição de um cientista de dados para um empreendedor exigiu que eu mudasse de uma perspectiva técnica para uma mentalidade mais ampla voltada para os negócios. Embora eu tivesse uma base sólida para entender os pontos problemáticos, criar um roteiro, executar planos, formar uma equipe e gerenciar orçamentos, descobri que elaborar a mensagem certa que realmente ressoasse com nosso público-alvo era um dos meus maiores obstáculos.

Como cientista de dados, meu foco principal sempre foi analisar e interpretar dados para obter insights valiosos. No entanto, como empreendedor, precisava redirecionar meu pensamento para o mercado, os clientes e o negócio em geral.

Felizmente, consegui superar esse desafio aproveitando a experiência de alguém como meu cofundador Razi.

Nós ouvimos de Razi sobre por que a engenharia de recursos é tão difícil, na sua opinião, o que a torna tão desafiadora?

A engenharia de recursos tem dois desafios principais:

  1. Transformar colunas existentes: envolve a conversão de dados em um formato adequado para algoritmos de aprendizado de máquina. São usadas técnicas como codificação one-hot, dimensionamento de recursos e métodos avançados, como transformações de texto e imagem. A criação de novos recursos a partir dos existentes, como recursos de interação, pode melhorar muito o desempenho do modelo. Bibliotecas populares como scikit-learn e Hugging Face fornecem amplo suporte para esse tipo de engenharia de recursos. As soluções AutoML também visam simplificar o processo.
  2. Extraindo novas colunas de dados históricos: os dados históricos são cruciais em domínios de problemas, como sistemas de recomendação, marketing, detecção de fraudes, precificação de seguros, pontuação de crédito, previsão de demanda e processamento de dados de sensores. Extrair colunas informativas desses dados é um desafio. Os exemplos incluem tempo desde o último evento, agregações sobre eventos recentes e incorporações de sequências de eventos. Esse tipo de engenharia de recursos requer conhecimento de domínio, experimentação, fortes habilidades de codificação e engenharia de dados e conhecimento profundo de ciência de dados. Fatores como vazamento de tempo, manipulação de grandes conjuntos de dados e execução de código eficiente também precisam ser considerados.

No geral, a engenharia de recursos requer experiência, experimentação e construção de pipelines de dados ad hoc complexos na ausência de ferramentas projetadas especificamente para isso.

Você poderia compartilhar como o FeatureByte capacita os profissionais de ciência de dados enquanto simplifica os pipelines de recursos?

O FeatureByte capacita os profissionais de ciência de dados simplificando todo o processo na engenharia de recursos. Com um Python SDK intuitivo, ele permite a criação e extração rápida de recursos de XLarge Event e Tabelas de itens. A computação é tratada com eficiência ao alavancar a escalabilidade de plataformas de dados como Snowflake, DataBricks e Spark. Os notebooks facilitam a experimentação, enquanto o compartilhamento e a reutilização de recursos economizam tempo. A auditoria garante a precisão dos recursos, enquanto a implantação imediata elimina as dores de cabeça do gerenciamento de pipeline.

Além desses recursos oferecidos por nossa biblioteca de código aberto, nossa solução corporativa fornece uma estrutura abrangente para gerenciar e organizar operações de IA em escala, incluindo fluxos de trabalho de governança e uma interface de usuário para o catálogo de recursos.

Qual é a sua visão para o futuro do FeatureByte?

Nossa visão final para FeatureByte é revolucionar o campo da ciência de dados e aprendizado de máquina, capacitando os usuários a liberar todo o seu potencial criativo e extrair valor sem precedentes de seus ativos de dados.

Estamos particularmente entusiasmados com o rápido progresso em IA generativa e transformadores, que abrem um mundo de possibilidades para nossos usuários. Além disso, nos dedicamos a democratizar a engenharia de recursos. A IA generativa tem o potencial de reduzir a barreira de entrada para a engenharia de recursos criativos, tornando-a mais acessível a um público mais amplo.

Em resumo, nossa visão para o futuro do FeatureByte gira em torno da inovação contínua, aproveitando o poder da IA ​​generativa e democratizando a engenharia de recursos. Nosso objetivo é ser a plataforma que permite aos profissionais de dados transformar dados brutos em informações acionáveis ​​para aprendizado de máquina, impulsionando inovações e avanços em todos os setores.

Você tem algum conselho para aspirantes a empreendedores de IA?

Defina seu espaço, mantenha o foco e receba novidades.

Ao definir o espaço que pretende possuir, poderá diferenciar-se e estabelecer uma forte presença nessa área. Pesquise o mercado, entenda as necessidades e os pontos problemáticos de clientes em potencial e se esforce para fornecer uma solução exclusiva que atenda a esses desafios de maneira eficaz.

Defina sua visão de longo prazo e estabeleça metas claras de curto prazo que se alinhem com essa visão. Concentre-se em construir uma base sólida e agregar valor ao espaço escolhido.

Por fim, embora seja importante manter o foco, não deixe de abraçar novidades e explorar novas ideias em seu espaço definido. O campo da IA ​​está em constante evolução e abordagens inovadoras podem abrir novas oportunidades.

Obrigado pela ótima entrevista, os leitores que desejam saber mais devem visitar FeatureByte.

Sócio fundador da unite.AI e membro do Conselho de Tecnologia da Forbes, Antoine é um futurista que é apaixonado pelo futuro da IA ​​e da robótica.

Ele também é o fundador da Valores Mobiliários.io, um site que foca em investir em tecnologia disruptiva.