Entrevistas
Anthony Deighton, CEO da Tamr – Série de entrevistas

Anthony Deighton é o CEO da Tamr. Ele tem 20 anos de experiência na construção e expansão de empresas de software empresarial. Mais recentemente, ele passou dois anos como Diretor de Marketing na Celonis, estabelecendo sua liderança na categoria de software de Process Mining e criando programas de geração de demanda, resultando em um crescimento de 130% no ARR. Antes disso, ele atuou por mais de 10 anos na Qlik, transformando-a de uma desconhecida empresa de software sueca em uma empresa de capital aberto - em funções de liderança de produto, marketing de produto e, finalmente, como CTO. Ele começou sua carreira na Siebel Systems aprendendo como construir empresas de software empresarial em diversas funções de produtos.
Você pode compartilhar alguns marcos importantes de sua jornada na indústria de software empresarial, especialmente seu tempo na Qlik e na Celonis?
Comecei minha carreira em software empresarial na Siebel Systems e aprendi muito sobre como construir e dimensionar empresas de software empresarial com a equipe de liderança de lá. Entrei na Qlik quando ela era uma pequena e desconhecida empresa de software sueca, com 95% da pequena equipe de 60 pessoas localizada em Lund, Suécia. Brinco que, como não era engenheiro nem vendedor, fui encarregado do marketing. Construí a equipe de marketing lá, mas com o tempo meu interesse e contribuições gravitaram para o gerenciamento de produtos e, eventualmente, me tornei Diretor de Produtos. Abrimos o capital da Qlik em 2010 e continuamos como uma empresa pública de sucesso. Depois disso, queríamos fazer algumas aquisições, então montei uma equipe de M&A. Depois de uma gestão longa e razoavelmente bem-sucedida como empresa pública, acabamos vendendo a Qlik para uma empresa de private equity chamada Thoma Bravo. Foi, como gosto de dizer, o ciclo de vida completo de uma empresa de software empresarial. Depois de deixar a Qlik, juntei-me à Celonis, uma pequena empresa alemã de software que tentava obter sucesso vendendo nos EUA. Novamente, administrei o marketing como CMO. Crescemos muito rapidamente e construímos uma função de marketing global de muito sucesso.
Tanto a Celonis quanto a Qlik estavam focadas no front-end do desafio de análise de dados – como posso ver e entender os dados? No caso do Qlik, foram painéis; no caso da Celonis, foram os processos de negócios. Mas um desafio comum a ambos foram os dados por trás dessas visualizações. Muitos clientes reclamaram que os dados estavam errados: registros duplicados, registros incompletos, silos de dados ausentes. Foi isso que me atraiu em Tamr, onde senti que, pela primeira vez, poderíamos ser capazes de resolver o desafio dos dados corporativos confusos. Os primeiros 15 anos da minha carreira em software empresarial foram gastos visualizando dados, espero que os próximos 15 possam ser gastos limpando esses dados.
Como suas primeiras experiências moldaram sua abordagem para construir e expandir empresas de software empresarial?
Uma lição importante que aprendi na mudança do Siebel para o Qlik foi o poder da simplicidade. O Siebel era um software muito poderoso, mas foi eliminado no mercado pela Salesforce.com, que criou um CRM com muito menos recursos (“um brinquedo” que Siebel costumava chamá-lo), mas os clientes podiam colocá-lo em funcionamento rapidamente porque era entregue como uma solução SaaS. Parece óbvio hoje, mas na época a sabedoria era que os clientes compravam recursos, mas o que aprendemos é que os clientes investem em soluções para resolver seus problemas de negócios. Portanto, se o seu software resolver o problema com mais rapidez, você ganha. O Qlik era uma solução simples para o problema de análise de dados, mas era radicalmente mais simples. Como resultado, poderíamos vencer concorrentes mais ricos em recursos, como Business Objects e Cognos.
A segunda lição importante que aprendi foi na transição de minha carreira de marketing para produto. Pensamos nesses domínios como distintos. Em minha carreira, descobri que transito com fluidez entre produto e marketing. Existe uma ligação íntima entre o produto que você constrói e como você o descreve para clientes em potencial. E existe uma ligação igualmente importante entre o que as perspectivas exigem e o produto que devemos construir. A capacidade de alternar entre essas conversas é um fator crítico de sucesso para qualquer empresa de software empresarial. Um motivo comum para o fracasso de uma startup é acreditar que “se você construí-la, eles virão”. Esta é a crença comum de que se você apenas criar um software interessante, as pessoas farão fila para comprá-lo. Isso nunca funciona, e a solução é um processo de marketing robusto conectado ao seu processo de desenvolvimento de software.
A última ideia que compartilharei vincula meu trabalho acadêmico com meu trabalho profissional. Tive a oportunidade, na escola de administração, de assistir a um curso sobre a teoria da inovação disruptiva de Clay Christensen. No meu trabalho profissional, tive a oportunidade de experimentar ser o disruptor e ser perturbado. A principal lição que aprendi é que qualquer inovação disruptiva é resultado de uma mudança exógena de plataforma que torna o impossível finalmente possível. No caso da Qlik, foi a disponibilidade da plataforma de servidores de grande memória que permitiu à Qlik interromper os relatórios tradicionais baseados em cubos. Na Tamr, a disponibilidade da plataforma de aprendizado de máquina em escala nos permite interromper o MDM manual baseado em regras em favor de uma abordagem baseada em IA. É importante sempre descobrir qual mudança de plataforma está causando sua disrupção.
O que inspirou o desenvolvimento do Master Data Management (MDM) nativo de IA e como ele difere das soluções tradicionais de MDM?
O desenvolvimento do Tamr surgiu do trabalho acadêmico no MIT (Massachusetts Institute of Technology) em torno da resolução de entidades. Sob a liderança acadêmica do vencedor do Prêmio Turing, Michael Stonebraker, a questão que a equipe estava investigando era “podemos vincular registros de dados entre centenas de milhares de fontes e milhões de registros”. À primeira vista, este é um desafio intransponível porque quanto mais registos e fontes, mais registos cada correspondência possível precisa de ser comparada. Os cientistas da computação chamam isso de “problema n-quadrado” porque o problema aumenta geometricamente com a escala.
Os sistemas MDM tradicionais tentam resolver esse problema com regras e grandes quantidades de curadoria manual de dados. As regras não são escaláveis porque você nunca consegue escrever regras suficientes para cobrir todos os casos e gerenciar milhares de regras é uma impossibilidade técnica. A curadoria manual é extremamente cara porque depende de humanos para tentar trabalhar com milhões de registros e comparações possíveis. Em conjunto, isto explica a fraca adoção pelo mercado das soluções tradicionais de MDM (Master Data Management). Falando francamente, ninguém gosta do MDM tradicional.
A ideia simples de Tamr era treinar uma IA para fazer o trabalho de ingestão de fontes, correspondência de registros e resolução de valores. O melhor da IA é que ela não come, não dorme nem tira férias; também é altamente paralelizável, portanto pode receber grandes volumes de dados e se esforçar para torná-los melhores. Assim, onde o MDM costumava ser impossível, é finalmente possível obter dados limpos, consolidados e atualizados (ver acima).
Quais são os maiores desafios que as empresas enfrentam com o gerenciamento de dados e como a Tamr aborda essas questões?
O primeiro, e provavelmente o mais importante desafio que as empresas enfrentam na gestão de dados, é que os seus utilizadores empresariais não utilizam os dados que geram. Ou dito de outra forma, se as equipas de dados não produzirem dados de alta qualidade que as suas organizações utilizam para responder a questões analíticas ou simplificar processos de negócio, então estarão a desperdiçar tempo e dinheiro. Um resultado principal do Tamr é uma página 360 para cada registro de entidade (pense: cliente, produto, peça, etc.) que combina todos os dados primários e de terceiros subjacentes para que os usuários corporativos possam ver e fornecer feedback sobre os dados. Como um wiki para os dados da sua entidade. Esta página 1 também é a entrada para uma interface de conversação que permite aos usuários corporativos fazer e responder perguntas com os dados. Portanto, a primeira tarefa é fornecer os dados ao usuário.
Por que é tão difícil para as empresas fornecer aos usuários os dados que eles adoram? Porque existem três problemas principais subjacentes a esse objetivo: carregar uma nova fonte, combinar os novos registros com os dados existentes e fixar os valores/campos nos dados. Tamr facilita o carregamento de novas fontes de dados porque sua IA mapeia automaticamente novos campos em um esquema de entidade definido. Isso significa que, independentemente de como uma nova fonte de dados chama um campo específico (exemplo: cust_name), ele é mapeado para a definição central direita dessa entidade (exemplo: “nome do cliente”). O próximo desafio é vincular registros duplicados. A duplicação, neste contexto, significa que os registos são, de facto, a mesma entidade do mundo real. A IA da Tamr faz isso e até usa fontes externas de terceiros como “verdade básica” para resolver entidades comuns, como empresas e pessoas. Um bom exemplo disso seria vincular todos os registros de muitas fontes de um cliente importante como “Dell Computer”. Por último, para qualquer registo podem existir campos em branco ou incorretos. Tamr pode imputar os valores de campo corretos de fontes internas e de terceiros.
Você pode compartilhar uma história de sucesso em que Tamr melhorou significativamente o gerenciamento de dados e os resultados de negócios de uma empresa?
A CHG Healthcare é um player importante no setor de pessoal de saúde, conectando profissionais de saúde qualificados com instalações necessitadas. Quer se trate de médicos temporários através da Locums, enfermeiros com a RNnetwork ou soluções mais amplas através do próprio CHG, eles fornecem soluções de pessoal personalizadas para ajudar as instalações de saúde a funcionarem sem problemas e a prestarem cuidados de qualidade aos pacientes.
A sua proposta de valor fundamental é ligar os prestadores de cuidados de saúde certos às instalações certas, no momento certo. O desafio deles era que eles não tinham uma visão precisa e unificada de todos os provedores da sua rede. Dada a sua escala (mais de 7.5 milhões de fornecedores), era impossível manter os seus dados precisos com abordagens legadas e baseadas em regras sem gastar muito com curadores humanos. Eles também não podiam ignorar o problema, uma vez que suas decisões sobre pessoal dependiam dele. Dados ruins para eles podem significar que um fornecedor recebe mais turnos do que pode suportar, levando ao esgotamento.
Usando os recursos avançados de IA/ML da Tamr, a CHG Healthcare reduziu registros médicos duplicados em 45% e eliminou quase completamente a preparação manual de dados que estava sendo feita por recursos escassos de dados e análises. E o mais importante, ao ter uma visão confiável e precisa dos fornecedores, a CHG consegue otimizar a equipe, permitindo-lhes oferecer uma melhor experiência ao cliente.
Quais são alguns equívocos comuns sobre IA no gerenciamento de dados e como o Tamr ajuda a dissipar esses mitos?
Um equívoco comum é que a IA tem que ser “perfeita” ou que as regras e a curadoria humana são perfeitas em contraste com a IA. A realidade é que as regras falham o tempo todo. E, mais importante ainda, quando as regras falham, a única solução é mais regras. Então, você tem uma confusão incontrolável de regras. E a curadoria humana também é falível. Os humanos podem ter boas intenções (embora nem sempre), mas nem sempre estão certos. O que é pior, alguns curadores humanos são melhores que outros, ou simplesmente podem tomar decisões diferentes de outros. A IA, por outro lado, é probabilística por natureza. Podemos validar através de estatísticas a precisão de qualquer uma destas técnicas e, quando o fazemos, descobrimos que a IA é menos dispendiosa e mais precisa do que qualquer alternativa concorrente.
Tamr combina IA com refinamento humano para precisão dos dados. Você pode explicar como essa combinação funciona na prática?
Os humanos fornecem algo excepcionalmente importante para a IA – eles fornecem o treinamento. A IA trata realmente de dimensionar os esforços humanos. O que Tamr procura nos humanos é o pequeno número de exemplos (“rótulos de treinamento”) que a máquina pode usar para definir os parâmetros do modelo. Na prática, o que parece é que os humanos gastam uma pequena quantidade de tempo com os dados, dando exemplos de erros e equívocos ao Tamr nos dados, e a IA executa essas lições em todo o(s) conjunto(s) de dados. Além disso, à medida que novos dados são adicionados ou alterados, a IA pode revelar casos em que está lutando para tomar decisões com confiança (“correspondências de baixa confiança”) e pedir a opinião do ser humano. Essa contribuição, claro, serve para refinar e atualizar os modelos.
Qual o papel dos grandes modelos de linguagem (LLMs) na qualidade dos dados e nos processos de enriquecimento do Tamr?
Primeiro, é importante deixar claro no que os LLMs são bons. Fundamentalmente, os LLMs são sobre linguagem. Eles produzem sequências de texto que significam alguma coisa e podem “entender” o significado do texto que lhes é entregue. Então, você poderia dizer que são máquinas de linguagem. Portanto, para Tamr, onde a linguagem é importante, usamos LLMs. Um exemplo óbvio está em nossa interface de conversação, que fica sobre os dados de nossa entidade, que carinhosamente chamamos de CDO virtual. Quando você fala com seu CDO da vida real, ele entende você e responde usando uma linguagem que você entende. Isso é exatamente o que esperaríamos de um LLM e é exatamente assim que o usamos nessa parte do nosso software. O que há de valioso no Tamr neste contexto é que usamos os dados da entidade como contexto para a conversa com nosso vCDO. É como se o seu CDO da vida real tivesse TODOS os MELHORES dados empresariais ao seu alcance quando responde às suas perguntas – não seria ótimo!
Além disso, há casos em que, ao limpar valores de dados ou imputar valores ausentes, queremos usar uma interpretação baseada em linguagem de valores de entrada para encontrar ou corrigir um valor ausente. Por exemplo, você pode perguntar no texto “rolamento de esferas de 5 mm” qual é o tamanho da peça, e um LLM (ou uma pessoa) responderia corretamente “5 mm”.
Por último, os LLMs subjacentes são modelos incorporados que codificam o significado da linguagem para tokens (pense em palavras). Estes podem ser muito úteis para calcular a comparação linguística. Portanto, embora “5” e “cinco” não tenham caracteres em comum, eles têm um significado linguístico muito próximo. Portanto, podemos usar essas informações para vincular registros.
Como você vê a evolução do futuro do gerenciamento de dados, especialmente com os avanços na IA e no aprendizado de máquina?
A era do “Big Data” do início dos anos 2000 deve ser lembrada como a era do “Small Data”. Embora muitos dados tenham sido criados nos últimos mais de 20 anos, possibilitados pela comoditização do armazenamento e da computação, a maioria dos dados que tiveram impacto nas empresas é de escala relativamente pequena — relatórios básicos de vendas e clientes, análises de marketing, e outros conjuntos de dados que poderiam ser facilmente representados em um painel. O resultado é que muitas das ferramentas e processos utilizados na gestão de dados são otimizados para “pequenos dados”, razão pela qual a lógica baseada em regras, complementada com curadoria humana, ainda é tão proeminente na gestão de dados.
A maneira como as pessoas desejam usar os dados está mudando fundamentalmente com os avanços na IA e no aprendizado de máquina. A ideia de “agentes de IA” que podem executar autonomamente uma parte significativa do trabalho de uma pessoa só funciona se os agentes tiverem os dados de que necessitam. Se você espera que um agente de IA atue na linha de frente do suporte ao cliente, mas tem cinco representações da “Dell Computer” em seu CRM e elas não estão conectadas às informações do produto em seu ERP, como você pode esperar que eles forneçam resultados de alta qualidade? serviço de qualidade quando alguém da Dell entra em contato?
A implicação disto é que as nossas ferramentas e processos de gestão de dados terão de evoluir para lidar com a escala, o que significa abraçar a IA e a aprendizagem automática para automatizar mais atividades de limpeza de dados. Os seres humanos continuarão a desempenhar um papel importante na supervisão do processo, mas fundamentalmente precisamos de pedir às máquinas que façam mais para que não sejam apenas os dados num único painel que sejam precisos e completos, mas sim a maioria dos dados na empresa.
Quais são as maiores oportunidades para as empresas hoje em dia quando se trata de aproveitar os seus dados de forma mais eficaz?
Aumentar o número de maneiras pelas quais as pessoas podem consumir dados. Não há dúvida de que as melhorias nas ferramentas de visualização de dados tornaram os dados muito mais acessíveis em toda a empresa. Agora, os líderes de dados e análises precisam olhar além do painel em busca de maneiras de agregar valor com os dados. Interfaces como páginas internas 360, gráficos de conhecimento e assistentes de conversação estão sendo possibilitadas por novas tecnologias e oferecem aos potenciais consumidores de dados mais maneiras de usar os dados em seu fluxo de trabalho diário. É particularmente poderoso quando estão incorporados nos sistemas que as pessoas já utilizam, como CRMs e ERPs. A maneira mais rápida de criar mais valor a partir dos dados é levá-los às pessoas que podem utilizá-los.
Obrigado pela ótima entrevista, os leitores que desejam saber mais devem visitar Tamr.