Entretiens
Anthony Deighton, PDG de Tamr – Série d’entretiens

Anthony Deighton est le PDG de Tamr. Il dispose de 20 ans d’expérience dans la construction et la mise à l’échelle de sociétés de logiciels d’entreprise. Récemment, il a passé deux ans en tant que directeur marketing chez Celonis, établissant leur leadership dans la catégorie de logiciels de Process Mining et créant des programmes de génération de demande qui ont abouti à une croissance de 130 % du chiffre d’affaires annuel. Auparavant, il a occupé pendant plus de 10 ans des postes chez Qlik, faisant passer l’entreprise d’une société de logiciels suédoise inconnue à une entreprise publique – dans des rôles allant de la direction produit, du marketing produit à celui de directeur technique. Il a commencé sa carrière chez Siebel Systems en apprenant à construire des sociétés de logiciels d’entreprise dans divers rôles de produit.
Pouvez-vous partager certains jalons clés de votre parcours dans l’industrie des logiciels d’entreprise, en particulier votre temps chez Qlik et Celonis ?
J’ai commencé ma carrière dans les logiciels d’entreprise chez Siebel Systems et j’ai appris beaucoup de choses sur la construction et la mise à l’échelle de sociétés de logiciels d’entreprise de l’équipe de direction. J’ai rejoint Qlik lorsque c’était une petite société de logiciels suédoise inconnue avec 95 % de l’équipe de 60 personnes basée à Lund, en Suède. Je plaisante en disant que puisque je n’étais pas un ingénieur ou un commercial, j’ai été chargé du marketing. J’ai construit l’équipe marketing là-bas, mais avec le temps, mon intérêt et mes contributions se sont orientés vers la gestion de produit, et finalement, je suis devenu directeur des produits. Nous avons introduit Qlik en bourse en 2010, et nous sommes restés une société publique prospère. Après cela, nous voulions effectuer certaines acquisitions, donc j’ai créé une équipe de fusions et acquisitions. Après une longue et raisonnablement réussie carrière en tant que société publique, nous avons finalement vendu Qlik à une société de capital-investissement appelée Thoma Bravo. C’était, comme je le dis, le cycle de vie complet d’une société de logiciels d’entreprise. Après avoir quitté Qlik, j’ai rejoint Celonis, une petite société de logiciels allemande qui essayait de réussir en vendant aux États-Unis. Encore une fois, j’ai dirigé le marketing en tant que directeur marketing. Nous avons grandi très rapidement et avons construit une fonction marketing mondiale très réussie.
Les deux sociétés, Celonis et Qlik, se concentraient sur le côté avant du défi d’analyse de données – comment puis-je voir et comprendre les données ? Dans le cas de Qlik, il s’agissait de tableaux de bord ; dans le cas de Celonis, il s’agissait de processus métier. Mais un défi commun aux deux était les données derrière ces visualisations. De nombreux clients se plaignaient que les données étaient incorrectes : enregistrements en double, enregistrements incomplets, silos de données manquants. C’est ce qui m’a attiré chez Tamr, où j’ai senti que pour la première fois, nous pourrions peut-être résoudre le défi des données d’entreprise en désordre. Les 15 premières années de ma carrière dans les logiciels d’entreprise ont été consacrées à la visualisation des données, j’espère que les 15 prochaines années pourront être consacrées au nettoyage de ces données.
Comment vos expériences précoces ont-elles façonné votre approche de la construction et de la mise à l’échelle de sociétés de logiciels d’entreprise ?
Une leçon importante que j’ai apprise en passant de Siebel à Qlik est le pouvoir de la simplicité. Siebel était un logiciel très puissant, mais il a été tué sur le marché par Salesforce.com, qui a créé un CRM avec beaucoup moins de fonctionnalités (« un jouet » selon Siebel), mais les clients pouvaient le lancer rapidement parce qu’il était livré comme une solution SaaS. Cela semble évident aujourd’hui, mais à l’époque, la sagesse était que les clients achetaient des fonctionnalités, mais ce que nous avons appris, c’est que les clients investissent dans des solutions pour résoudre leurs problèmes commerciaux. Donc, si votre logiciel résout leur problème plus rapidement, vous gagnez. Qlik était une solution simple au problème d’analyse de données, mais c’était radicalement plus simple. En conséquence, nous pouvions battre des concurrents plus riches en fonctionnalités tels que Business Objects et Cognos.
La deuxième leçon importante que j’ai apprise est dans ma transition de carrière du marketing à la gestion de produit. Nous pensons à ces domaines comme distincts. Dans ma carrière, j’ai trouvé que je passe facilement de la gestion de produit au marketing. Il y a un lien intime entre le produit que vous construisez et la façon dont vous le décrivez aux clients potentiels. Et il y a un lien tout aussi important entre ce que les prospects exigent et ce que nous devrions construire. La capacité de passer entre ces conversations est un facteur de réussite critique pour toute société de logiciels d’entreprise. Une raison courante de l’échec d’une start-up est de croire « si vous le construisez, ils viendront ». C’est la croyance courante que si vous construisez simplement un logiciel cool, les gens feront la queue pour l’acheter. Cela ne fonctionne jamais, et la solution est un processus marketing robuste connecté à votre processus de développement de logiciels.
La dernière idée que je partagerai relie mon travail universitaire à mon travail professionnel. J’ai eu l’occasion à l’école de commerce de suivre un cours sur la théorie de l’innovation disruptive de Clay Christensen. Dans mon travail professionnel, j’ai eu l’occasion d’expérimenter à la fois être le disrupteur et être disrupté. La leçon clé que j’ai apprise est qu’une innovation disruptive est le résultat d’un déplacement de plateforme exogène qui rend enfin possible l’impossible. Dans le cas de Qlik, c’était la disponibilité de serveurs à grande mémoire qui a permis à Qlik de perturber les rapports traditionnels basés sur des cubes. Chez Tamr, la disponibilité de l’apprentissage automatique à grande échelle nous permet de perturber la gestion manuelle des règles de MDM en faveur d’une approche basée sur l’IA. Il est important de toujours déterminer quel déplacement de plateforme conduit à votre perturbation.
Qu’est-ce qui a inspiré le développement de la gestion des données maîtres (MDM) native IA, et comment diffère-t-elle des solutions MDM traditionnelles ?
Le développement de Tamr est issu d’un travail universitaire au MIT (Massachusetts Institute of Technology) sur la résolution d’entités. Sous la direction universitaire du lauréat du prix Turing Michael Stonebraker, la question que l’équipe étudiait était « pouvons-nous relier des enregistrements de données à travers des centaines de milliers de sources et des millions d’enregistrements ». À première vue, c’est un défi insurmontable car plus il y a d’enregistrements et de sources, plus il y a d’enregistrements dont chaque correspondance possible doit être comparée. Les informaticiens appellent cela un « problème n-carré » car le problème augmente géométriquement avec l’échelle.
Les systèmes MDM traditionnels tentent de résoudre ce problème avec des règles et une grande quantité de curation de données manuelle. Les règles ne sont pas évolutives car vous ne pouvez jamais écrire suffisamment de règles pour couvrir chaque cas de figure et la gestion de milliers de règles est une impossibilité technique. La curation manuelle est extrêmement coûteuse car elle repose sur des humains qui tentent de résoudre des millions de correspondances possibles et d’enregistrements. Cela explique ensemble la mauvaise adoption du marché des solutions MDM traditionnelles (Master Data Management). Honnêtement, personne n’aime les MDM traditionnelles.
L’idée simple de Tamr était de former une IA pour effectuer le travail d’ingestion de sources, de correspondance d’enregistrements et de résolution de valeurs. La grande chose à propos de l’IA est qu’elle ne mange pas, ne dort pas et ne prend pas de vacances ; elle est également très parallélisable, elle peut donc prendre en charge d’énormes volumes de données et les améliorer sans relâche. Donc, là où la MDM était impossible, il est enfin possible d’obtenir des données propres, consolidées et à jour (voir ci-dessus).
Quels sont les plus grands défis auxquels les sociétés sont confrontées dans la gestion de leurs données, et comment Tamr répond à ces problèmes ?
Le premier, et probablement le plus important défi que les sociétés rencontrent dans la gestion de leurs données, est que leurs utilisateurs métier n’utilisent pas les données qu’ils génèrent. Ou dit différemment, si les équipes de données ne produisent pas des données de haute qualité que leurs organisations utilisent pour répondre à des questions analytiques ou rationaliser les processus métier, alors ils gaspillent du temps et de l’argent. Un résultat principal de Tamr est une page 360 pour chaque enregistrement d’entité (pensez : client, produit, pièce, etc.) qui combine toutes les données sous-jacentes de première et de troisième partie afin que les utilisateurs métier puissent voir et fournir des commentaires sur les données. Comme un wiki pour vos données d’entité. Cette page 360 est également la saisie pour une interface conversationnelle qui permet aux utilisateurs métier de poser et de répondre à des questions avec les données. Donc, le travail numéro un est de donner aux utilisateurs les données.
Pourquoi est-il si difficile pour les sociétés de donner aux utilisateurs des données qu’ils aiment ? Parce qu’il y a trois problèmes difficiles sous-jacents à cet objectif : charger une nouvelle source, faire correspondre les nouveaux enregistrements avec les données existantes et corriger les valeurs/champs dans les données. Tamr facilite le chargement de nouvelles sources de données car son IA mappe automatiquement les nouveaux champs dans un schéma d’entité défini. Cela signifie que quelle que soit la façon dont une nouvelle source de données appelle un champ particulier (par exemple : cust_name), il est mappé au bon champ d’entité central (par exemple : « nom du client »). Le prochain défi est de relier les enregistrements qui sont des doublons. La duplication dans ce contexte signifie que les enregistrements sont en fait la même entité du monde réel. L’IA de Tamr le fait, et utilise même des sources tierces externes en tant que « vérité de base » pour résoudre des entités communes telles que les sociétés et les personnes. Un bon exemple de cela serait de relier tous les enregistrements de sources multiples pour un client important comme « Dell Computer ». Enfin, pour chaque enregistrement, il peut y avoir des champs qui sont vides ou incorrects. Tamr peut imputer les valeurs de champ correctes à partir de sources internes et tierces.
Pouvez-vous partager une histoire de réussite où Tamr a considérablement amélioré la gestion des données et les résultats commerciaux d’une société ?
CHG Healthcare est un acteur majeur de l’industrie du recrutement de santé, reliant des professionnels de la santé qualifiés à des établissements qui en ont besoin. Que ce soit des médecins temporaires via Locums, des infirmières avec RNnetwork ou des solutions plus larges via CHG lui-même, ils fournissent des solutions de recrutement personnalisées pour aider les établissements de santé à fonctionner sans heurt et à offrir des soins de qualité aux patients.
Leur valeur fondamentale est de relier les bons professionnels de la santé aux bons établissements au bon moment. Leur défi était qu’ils n’avaient pas une vue unifiée et précise de tous les prestataires de leur réseau. Compte tenu de leur ampleur (7,5 millions de prestataires et plus), il était impossible de maintenir leurs données précises avec des approches basées sur des règles et des ressources humaines sans casser la banque sur les curateurs humains. Ils ne pouvaient pas non plus ignorer le problème puisque leurs décisions de recrutement en dépendaient. De mauvaises données pour eux pourraient signifier qu’un prestataire obtient plus de postes qu’il ne peut gérer, ce qui conduit à l’épuisement.
En utilisant les capacités avancées d’IA et d’apprentissage automatique de Tamr, CHG Healthcare a réduit les enregistrements de médecins en double de 45 % et a presque complètement éliminé la préparation manuelle des données qui était effectuée par les ressources rares en données et en analyse. Et surtout, en ayant une vue fiable et précise des prestataires, CHG est en mesure d’optimiser le recrutement, ce qui leur permet de fournir une meilleure expérience client.
Quelles sont les idées fausses les plus courantes sur l’IA dans la gestion des données, et comment Tamr aide à dissiper ces mythes ?
Une idée fausse courante est que l’IA doit être « parfaite », ou que les règles et la curation humaine sont parfaites par contraste avec l’IA. La réalité est que les règles échouent tout le temps. Et, plus important encore, lorsque les règles échouent, la seule solution est plus de règles. Donc, vous avez un désordre ingérable de règles. Et la curation humaine est également faillible. Les humains peuvent avoir de bonnes intentions (bien que pas toujours), mais ils ne sont pas toujours corrects. Ce qui est pire, certains curateurs humains sont meilleurs que d’autres, ou peuvent simplement prendre des décisions différentes. L’IA, en revanche, est probabiliste par nature. Nous pouvons valider par des statistiques à quel point ces techniques sont précises, et lorsque nous le faisons, nous constatons que l’IA est moins coûteuse et plus précise que toute alternative concurrente.
Tamr combine l’IA avec l’affinement humain pour l’exactitude des données. Pouvez-vous expliquer comment cette combinaison fonctionne dans la pratique ?
Les humains fournissent quelque chose d’exceptionnellement important à l’IA – ils fournissent la formation. L’IA est vraiment à propos de la mise à l’échelle des efforts humains. Ce que Tamr recherche chez les humains, ce sont les petits exemples (« étiquettes de formation ») que la machine peut utiliser pour définir les paramètres du modèle. Dans la pratique, cela ressemble à ce que les humains passent un peu de temps avec les données, en fournissant à Tamr des exemples d’erreurs et de fautes dans les données, et que l’IA exécute ces leçons sur l’ensemble des données. En outre, à mesure que de nouvelles données sont ajoutées ou que les données changent, l’IA peut présenter des instances où elle a du mal à prendre des décisions avec confiance (« correspondances de faible confiance ») et demander une contribution humaine. Cette contribution, bien sûr, sert à affiner et à mettre à jour les modèles.
Quel rôle les grands modèles de langage (LLM) jouent-ils dans les processus de qualité et d’enrichissement des données de Tamr ?
Tout d’abord, il est important d’être clair sur ce que les LLM sont bons. Fondamentalement, les LLM sont liés au langage. Ils produisent des chaînes de texte qui ont un sens, et ils peuvent « comprendre » le sens du texte qui leur est donné. Donc, vous pourriez dire qu’ils sont des machines de langage. Donc, pour Tamr, où le langage est important, nous utilisons les LLM. Un exemple évident est dans notre interface conversationnelle qui repose sur nos données d’entité que nous appelons affectueusement notre CDO virtuel. Lorsque vous parlez à votre véritable CDO, ils vous comprennent et répondent en utilisant un langage que vous comprenez. C’est exactement ce que nous attendons d’un LLM, et c’est exactement comment nous l’utilisons dans cette partie de notre logiciel. Ce qui est précieux chez Tamr dans ce contexte est que nous utilisons les données d’entité comme contexte pour la conversation avec notre vCDO. C’est comme si votre véritable CDO avait toutes les meilleures données d’entreprise à portée de main lorsqu’il répond à vos questions – ce serait formidable !
En outre, il y a des cas où, dans le nettoyage des valeurs de données ou l’attribution de valeurs manquantes, nous voulons utiliser une interprétation basée sur le langage des valeurs d’entrée pour trouver ou corriger une valeur manquante. Par exemple, vous pourriez demander à partir du texte « 5 mm de bille » quelle est la taille de la pièce, et un LLM (ou une personne) répondrait correctement « 5 mm ».
Enfin, les modèles d’intégration sous-jacents aux LLM codent la signification du langage en jetons (pensez à des mots). Ceux-ci peuvent être très utiles pour calculer la comparaison linguistique. Donc, même si « 5 » et « cinq » partagent aucun caractère, ils sont très proches en signification linguistique. Donc, nous pouvons utiliser ces informations pour relier des enregistrements ensemble.
Comment voyez-vous l’avenir de la gestion des données, en particulier avec les progrès de l’IA et de l’apprentissage automatique ?
L’ère des « Big Data » du début des années 2000 devrait être rappelée comme l’ère des « Small Data ». Alors qu’une grande quantité de données a été créée au cours des 20 dernières années, rendue possible par la commodification du stockage et du calcul, la majorité des données qui ont eu un impact dans l’entreprise est à l’échelle relativement petite – des rapports de base de vente et de client, des analyses de marketing et d’autres ensembles de données qui pourraient facilement être représentés dans un tableau de bord. Le résultat est que de nombreux outils et processus utilisés dans la gestion des données sont optimisés pour les « petites données », c’est pourquoi la logique basée sur des règles, complétée par la curation humaine, est encore si répandue dans la gestion des données.
La façon dont les gens veulent utiliser les données change fondamentalement avec les progrès de l’IA et de l’apprentissage automatique. L’idée d’« agents IA » qui peuvent effectuer de manière autonome une partie importante du travail d’une personne ne fonctionne que si les agents ont les données dont ils ont besoin. Si vous attendez d’un agent IA qu’il serve sur le front de la prise en charge client, mais que vous avez cinq représentations de « Dell Computer » dans votre CRM et qu’il n’est pas connecté aux informations sur les produits dans votre ERP, comment pouvez-vous attendre qu’il fournisse un service de haute qualité lorsque quelqu’un de Dell contacte ?
L’implication de ceci est que nos outils et processus de gestion des données devront évoluer pour gérer l’échelle, ce qui signifie adopter l’IA et l’apprentissage automatique pour automatiser davantage les activités de nettoyage des données. Les humains joueront toujours un rôle important dans la supervision du processus, mais fondamentalement, nous devons demander aux machines de faire plus afin qu’il ne s’agisse pas seulement des données dans un seul tableau de bord qui sont précises et complètes, mais qu’il s’agisse de la majorité des données de l’entreprise.
Quelles sont les plus grandes opportunités pour les entreprises aujourd’hui lorsqu’il s’agit d’utiliser leurs données de manière plus efficace ?
Augmenter le nombre de façons dont les gens peuvent consommer les données. Il n’y a aucun doute que les améliorations des outils de visualisation de données ont rendu les données beaucoup plus accessibles dans l’ensemble de l’entreprise. Maintenant, les dirigeants des données et de l’analyse doivent regarder au-delà du tableau de bord pour trouver des moyens de livrer de la valeur avec les données. Des interfaces telles que des pages 360 internes, des graphes de connaissances et des assistants conversationnels sont rendues possibles par les nouvelles technologies et offrent aux consommateurs potentiels de données plus de moyens d’utiliser les données dans leur flux de travail quotidien. C’est particulièrement puissant lorsque ceux-ci sont intégrés dans les systèmes que les gens utilisent déjà, tels que les CRM et les ERP. Le moyen le plus rapide de créer plus de valeur à partir des données est de les amener aux personnes qui peuvent les utiliser.
Je vous remercie pour cette grande interview, les lecteurs qui souhaitent en savoir plus devraient visiter Tamr.












