Interviews
Anthony Deighton, CEO van Tamr – Interviewreeks

Anthony Deighton is CEO van Tamr. Hij heeft 20 jaar ervaring met het bouwen en schalen van enterprise softwarebedrijven. Recentelijk bracht hij twee jaar door als Chief Marketing Officer bij Celonis, waar hij hun leiderschap in de Process Mining softwarecategorie vestigde en vraaggeneratieprogramma’s creëerde die resulteerden in een groei van 130% van de jaarlijkse omzet. Daarvoor werkte hij meer dan 10 jaar bij Qlik, waar hij het bedrijf van een onbekend Zweeds softwarebedrijf naar een beursgenoteerd bedrijf groeide – in rollen van productleiderschap, productmarketing en uiteindelijk als CTO. Hij begon zijn carrière bij Siebel Systems, waar hij leerde hoe hij enterprise softwarebedrijven kon bouwen in verschillende productrollen.
Kunt u enkele belangrijke mijlpalen uit uw reis in de enterprise software-industrie delen, met name uw tijd bij Qlik en Celonis?
Ik begon mijn carrière in enterprise software bij Siebel Systems en leerde veel over het bouwen en schalen van enterprise softwarebedrijven van het leiderschapsteam daar. Ik sloot me aan bij Qlik toen het een klein, onbekend Zweeds softwarebedrijf was met 95% van het kleine team van 60 personen gevestigd in Lund, Zweden. Ik grap dat omdat ik geen ingenieur of verkoper was, ik de leiding kreeg over marketing. Ik bouwde het marketingteam daar op, maar na verloop van tijd verschoof mijn interesse en bijdrage naar productmanagement, en uiteindelijk werd ik Chief Product Officer. We namen Qlik in 2010 publiekelijk genoteerd en gingen verder als een succesvol beursgenoteerd bedrijf. Daarna wilden we enkele overnames doen, dus ik startte een M&A-team. Na een lange en redelijk succesvolle periode als beursgenoteerd bedrijf, verkochten we Qlik uiteindelijk aan een private equity-firma genaamd Thoma Bravo. Het was, zoals ik het graag zeg, de volledige levenscyclus van een enterprise softwarebedrijf. Na mijn vertrek bij Qlik, sloot ik me aan bij Celonis, een klein Duits softwarebedrijf dat probeerde succes te behalen met de verkoop in de VS. Opnieuw leidde ik marketing als CMO. We groeiden heel snel en bouwden een zeer succesvolle wereldwijde marketingfunctie.
Beide Celonis en Qlik waren gericht op het front-end van de data-analyse-uitdaging – hoe zie ik en begrijp ik data? In het geval van Qlik was dat dashboards; in het geval van Celonis waren het bedrijfsprocessen. Maar een gemeenschappelijke uitdaging voor beide was de data achter deze visualisaties. Veel klanten klaagden dat de data verkeerd was: dubbele records, onvolledige records, ontbrekende datasilo’s. Dit is wat me aangetrokken heeft tot Tamr, waar ik voelde dat we voor het eerst de uitdaging van rommelige enterprise-data zouden kunnen oplossen. De eerste 15 jaar van mijn enterprise softwarecarrière werden besteed aan het visualiseren van data, ik hoop dat de komende 15 jaar besteed kunnen worden aan het opschonen van die data.
Hoe hebben uw vroege ervaringen uw aanpak beïnvloed voor het bouwen en schalen van enterprise softwarebedrijven?
Een belangrijke les die ik leerde bij de overgang van Siebel naar Qlik, was de kracht van eenvoud. Siebel was zeer krachtige software, maar het werd op de markt gedood door Salesforce.com, die een CRM maakte met veel minder functies (“een speeltje” noemde Siebel het), maar klanten konden het snel in gebruik nemen omdat het werd geleverd als een SaaS-oplossing. Het lijkt vandaag de dag vanzelfsprekend, maar op dat moment was de wijsheid dat klanten functies kochten, maar wat we leerden, is dat klanten investeren in oplossingen om hun bedrijfsproblemen op te lossen. Dus, als uw software hun probleem sneller oplost, wint u. Qlik was een eenvoudige oplossing voor het data-analyseprobleem, maar het was radicaal eenvoudiger. Als gevolg daarvan konden we concurreren met meer functierijke concurrenten zoals Business Objects en Cognos.
De tweede belangrijke les die ik leerde, was in mijn carrièrepad van marketing naar product. We denken aan deze domeinen als distinct. In mijn carrière heb ik ontdekt dat ik vloeiend beweeg tussen product en marketing. Er is een intieme link tussen het product dat u bouwt en hoe u het beschrijft aan potentiële klanten. En er is een even belangrijke link tussen wat prospects eisen en wat product we moeten bouwen. De mogelijkheid om tussen deze gesprekken te bewegen, is een kritische succesfactor voor elk enterprise softwarebedrijf. Een veelvoorkomende reden voor het falen van een start-up is het geloof dat “als je het bouwt, zullen ze komen.” Dit is het algemene geloof dat als je alleen maar cool software bouwt, mensen in de rij zullen staan om het te kopen. Dit werkt nooit, en de oplossing is een robuust marketingproces dat is verbonden met uw software-ontwikkelingsproces.
De laatste gedachte die ik zal delen, verbindt mijn academische werk met mijn professionele werk. Ik had de gelegenheid om op de business school een klas te volgen over Clay Christensen’s theorie van disruptieve innovatie. In mijn professionele werk heb ik de kans gehad om zowel de disruptor te zijn als gedisrupteerd te worden. De belangrijkste les die ik heb geleerd, is dat elke disruptieve innovatie het resultaat is van een exogene platformshift die het onmogelijke eindelijk mogelijk maakt. In het geval van Qlik was het de beschikbaarheid van grote geheugenservers die Qlik in staat stelde om traditionele cube-gebaseerde rapportage te disrupteren. Bij Tamr maakt de beschikbaarheid van machine learning op grote schaal het mogelijk om handmatige, regelgebaseerde MDM te disrupteren ten gunste van een AI-gebaseerde aanpak. Het is belangrijk om altijd te ontdekken welke platformshift uw disruptie aandrijft.
Wat inspireerde de ontwikkeling van AI-native Master Data Management (MDM), en hoe verschilt het van traditionele MDM-oplossingen?
De ontwikkeling van Tamr kwam voort uit academisch onderzoek aan het MIT (Massachusetts Institute of Technology) naar entiteitsresolutie. Onder het academische leiderschap van de Turing Award-winnaar Michael Stonebraker, onderzocht het team de vraag “kunnen we datarecords koppelen over honderdduizenden bronnen en miljoenen records?” Op het eerste gezicht is dit een onoverkomelijke uitdaging, omdat het probleem exponentieel toeneemt met de schaal.
Traditionele MDM-systemen proberen dit probleem op te lossen met regels en grote hoeveelheden handmatige datacuratie. Regels schalen niet, omdat u nooit genoeg regels kunt schrijven om elke hoekcase te dekken en het beheren van duizenden regels is een technische onmogelijkheid. Handmatige curatie is extreem duur, omdat het afhankelijk is van mensen die proberen om miljoenen mogelijke records en vergelijkingen te doorwerken. Samen genomen, verklaart dit de slechte marktadoptie van traditionele MDM-oplossingen (Master Data Management). Om eerlijk te zijn, houdt niemand van traditionele MDM.
Tamr’s eenvoudige idee was om een AI te trainen om het werk van broninname, recordkoppeling en waarde-resolutie te doen. Het grote voordeel van AI is dat het niet eet, slaapt of vakantie neemt; het is ook hoogst parallelleerbaar, dus het kan grote hoeveelheden data aan en kan deze blijven verwerken om deze te verbeteren. Dus, waar MDM vroeger onmogelijk was, is het nu eindelijk mogelijk om schoon, geconsolideerde en up-to-date data te krijgen (zie boven).
Wat zijn de grootste uitdagingen waar bedrijven mee te maken krijgen bij hun datamanagement, en hoe lost Tamr deze problemen op?
De eerste, en mogelijk de belangrijkste uitdaging die bedrijven tegenkomen bij hun datamanagement, is dat hun business-gebruikers de gegenereerde data niet gebruiken. Of, zoals het ook kan worden uitgedrukt, als datateams geen hoogwaardige data produceren die hun organisaties gebruiken om analytische vragen te beantwoorden of bedrijfsprocessen te stroomlijnen, dan verspillen ze tijd en geld. Een primaire output van Tamr is een 360-pagina voor elke entiteitsrecord (denk aan: klant, product, onderdeel, enz.) die alle onderliggende eerste en derde partijen combineert, zodat business-gebruikers de data kunnen zien en feedback kunnen geven op de data. Dit is als een wiki voor uw entiteitsdata. Deze 360-pagina is ook de invoer voor een conversatie-interface die business-gebruikers in staat stelt om vragen te stellen en te beantwoorden met de data. Dus, de eerste taak is om de gebruiker de data te geven.
Waarom is het zo moeilijk voor bedrijven om gebruikers data te geven die ze leuk vinden? Omdat er drie primaire moeilijke problemen onderliggen aan dit doel: het laden van een nieuwe bron, het koppelen van nieuwe records aan de bestaande data en het corrigeren van waarden/velden in de data. Tamr maakt het gemakkelijk om nieuwe gegevensbronnen te laden, omdat de AI automatisch nieuwe velden in een gedefinieerd entiteitschema kaart. Dit betekent dat, ongeacht hoe een nieuwe gegevensbron een bepaald veld noemt (bijvoorbeeld “klant_naam”), het wordt toegewezen aan de juiste centrale definitie van die entiteit (bijvoorbeeld “klantnaam”). De volgende uitdaging is om dubbele records te koppelen. Dubbele records in deze context betekenen dat de records in feite dezelfde werkelijke entiteit zijn. Tamr’s AI doet dit en gebruikt zelfs externe derde partijen als “grondwaarheid” om algemene entiteiten zoals bedrijven en personen op te lossen. Een goed voorbeeld hiervan zou zijn om alle records over meerdere bronnen voor een belangrijke klant zoals “Dell Computer” te koppelen. Ten slotte kan er voor elk record sprake zijn van velden die leeg of onjuist zijn. Tamr kan de juiste veldwaarden imputeren uit interne en externe bronnen.
Kunt u een succesverhaal delen waarin Tamr de datamanagement en bedrijfsresultaten van een bedrijf aanzienlijk verbeterde?
CHG Healthcare is een belangrijke speler in de gezondheidszorguitbestedingsindustrie, die gekwalificeerde gezondheidszorgprofessionals verbindt met faciliteiten die ze nodig hebben. Of het nu gaat om tijdelijke artsen via Locums, verpleegkundigen met RNnetwork of bredere oplossingen via CHG zelf, ze bieden aangepaste uitzendoplossingen om gezondheidszorgfaciliteiten soepel te laten draaien en kwaliteitszorg te bieden aan patiënten.
Hun fundamentele waardepropositie is het verbinden van de juiste gezondheidszorgverleners met de juiste faciliteit op het juiste moment. Hun uitdaging was dat ze geen nauwkeurig, geünificeerd beeld hadden van alle verleners in hun netwerk. Gezien hun omvang (7,5 miljoen+ verleners) was het onmogelijk om hun data nauwkeurig te houden met traditionele, regelgebaseerde benaderingen zonder de bank te breken met menselijke curators. Ze konden het probleem ook niet negeren, omdat hun uitzendbeslissingen ervan afhankelijk waren. Slechte data voor hen kon betekenen dat een verlener meer diensten krijgt dan hij aankan, waardoor hij uitgeput raakt.
Met behulp van Tamr’s geavanceerde AI/ML-mogelijkheden, reduceerde CHG Healthcare het aantal dubbele artsenrecords met 45% en elimineerde het bijna volledig de handmatige datavoorbereiding die werd gedaan door schaarse data- en analyticsbronnen. En het belangrijkste is dat, door een betrouwbaar en nauwkeurig beeld van verleners te hebben, CHG in staat is om uitzendingen te optimaliseren, waardoor ze een betere klantbeleving kunnen bieden.
Wat zijn enkele veelvoorkomende misverstanden over AI in datamanagement, en hoe helpt Tamr deze mythen te weerleggen?
Een veelvoorkomend misverstand is dat AI “perfect” moet zijn, of dat regels en menselijke curatie perfect zijn in tegenstelling tot AI. De realiteit is dat regels vaak falen. En, belangrijker nog, wanneer regels falen, is de enige oplossing meer regels. Dus, u hebt een onbeheersbaar rommeltje aan regels. En menselijke curatie is ook feilbaar. Mensen kunnen goede bedoelingen hebben (hoewel niet altijd), maar ze zijn niet altijd juist. Wat erger is, sommige menselijke curators zijn beter dan anderen, of maken gewoon andere beslissingen dan anderen. AI, daarentegen, is van nature probabilistisch. We kunnen valideren via statistieken hoe nauwkeurig deze technieken zijn, en wanneer we dat doen, komen we tot de conclusie dat AI minder duur en nauwkeuriger is dan elke concurrerende optie.
Tamr combineert AI met menselijke verfijning voor datanauwkeurigheid. Kunt u uitleggen hoe deze combinatie in de praktijk werkt?
Mensen bieden iets uitzonderlijk belangrijks aan AI – ze bieden de training. AI gaat eigenlijk over het schalen van menselijke inspanningen. Wat Tamr zoekt bij mensen, is het kleine aantal voorbeelden (“trainingslabels”) dat de machine kan gebruiken om de modelparameters in te stellen. In de praktijk ziet dit eruit als mensen die een kleine hoeveelheid tijd besteden aan de data, voorbeelden van fouten en fouten in de data geven aan Tamr, en de AI loopt deze lessen over de volledige dataset. Bovendien, wanneer nieuwe data wordt toegevoegd of data verandert, kan de AI instanties oppervlakken waar het moeite heeft om beslissingen te nemen (“lage vertrouwenswaarde-overeenkomsten”) en vraagt het de mens om input. Deze input, natuurlijk, gaat naar het verfijnen en updaten van de modellen.
Wat is de rol van grote taalmodellen (LLM’s) in Tamr’s datakwaliteit- en verrijkingprocessen?
Ten eerste is het belangrijk om duidelijk te zijn over waar LLM’s goed in zijn. Fundamenteel zijn LLM’s over taal. Ze produceren tekstreeksen die iets betekenen en ze kunnen de betekenis van tekst begrijpen die aan hen wordt gegeven. Dus, je zou kunnen zeggen dat ze taalmachines zijn. Dus, voor Tamr, waar taal belangrijk is, gebruiken we LLM’s. Een voor de hand liggend voorbeeld is in onze conversatie-interface die bovenop onze entiteitsdata zit, die we onze virtuele CDO noemen. Wanneer u met uw echte CDO spreekt, begrijpt hij u en reageert hij met taal die u begrijpt. Dit is precies wat we van een LLM verwachten en dat is precies hoe we het in dat deel van onze software gebruiken. Wat waardevol is aan Tamr in deze context, is dat we de entiteitsdata gebruiken als context voor het gesprek met onze vCDO. Het is alsof uw echte CDO alle beste ondernemingsgegevens tot zijn beschikking heeft wanneer hij op uw vragen reageert – zou dat niet geweldig zijn!
Bovendien zijn er gevallen waarin we bij het schoonmaken van datawaarden of het invullen van ontbrekende waarden, taalgebaseerde interpretatie van invoerwaarden willen gebruiken om een ontbrekende waarde te vinden of te corrigeren. Bijvoorbeeld, u kunt vragen van de tekst “5mm balbearing” wat de grootte van het onderdeel is, en een LLM (of een persoon) zou correct antwoorden “5mm.”
Ten slotte zijn onderliggende LLM’s embeddingsmodellen die taalbetekenis coderen naar tokens (denk aan woorden). Deze kunnen erg nuttig zijn voor het berekenen van linguïstische vergelijking. Dus, terwijl “5” en “vijf” geen letters delen, zijn ze zeer dichtbij in linguïstische betekenis. Dus, we kunnen deze informatie gebruiken om records met elkaar te koppelen.
Hoe ziet u de toekomst van datamanagement evolueren, met name met de vooruitgang in AI en machine learning?
De “Big Data”-era van het begin van de jaren 2000 zou moeten worden herinnerd als de “Small Data”-era. Hoewel veel data is gegenereerd in de afgelopen 20+ jaar, mogelijk gemaakt door de commodificatie van opslag en rekenkracht, heeft de meeste data die een impact heeft gehad in de onderneming, een relatief kleine schaal – basisverkoop- en klantrapporten, marketinganalyse en andere datasets die gemakkelijk in een dashboard kunnen worden weergegeven. Het resultaat is dat veel van de tools en processen die worden gebruikt in datamanagement, geoptimaliseerd zijn voor ‘kleine data’, wat de reden is dat regelgebaseerde logica, aangevuld met menselijke curatie, nog steeds zo prominent is in datamanagement.
De manier waarop mensen data willen gebruiken, verandert fundamenteel met de vooruitgang in AI en machine learning. Het idee van “AI-agents” die een aanzienlijk deel van iemands werk kunnen uitvoeren, werkt alleen als de agents de data hebben die ze nodig hebben. Als u verwacht dat een AI-agent op de frontlinie van klantenservice werkt, maar u hebt vijf vertegenwoordigingen van “Dell Computer” in uw CRM en het is niet verbonden met productinformatie in uw ERP, hoe kunt u dan verwachten dat ze hoge kwaliteit service leveren wanneer iemand van Dell contact opneemt?
De implicatie hiervan is dat onze datamanagementtools en -processen zullen moeten evolueren om schaal aan te kunnen, wat betekent dat we AI en machine learning moeten omarmen om meer datavisie-activiteiten te automatiseren. Mensen zullen nog steeds een belangrijke rol spelen in het toezicht op het proces, maar fundamenteel moeten we de machines vragen om meer te doen, zodat het niet alleen de data in een enkel dashboard is die nauwkeurig en volledig is, maar het is de meeste data in de onderneming.
Wat zijn de grootste kansen voor bedrijven vandaag de dag om hun data effectiever te gebruiken?
Het verhogen van het aantal manieren waarop mensen data kunnen consumeren. Er is geen twijfel over dat verbeteringen in datavisualisatietools data veel toegankelijker hebben gemaakt voor de hele onderneming. Nu moeten daten analytics-leiders kijken naar manieren om waarde te leveren met data buiten het dashboard. Interfaces zoals interne 360-pagina’s, kennisgraphen en conversatieassistenten worden mogelijk gemaakt door nieuwe technologieën en geven potentiële data-consumenten meer manieren om data te gebruiken in hun dagelijkse workflow. Het is bijzonder krachtig wanneer deze zijn ingebed in de systemen die mensen al gebruiken, zoals CRM’s en ERP’s. De snelste manier om meer waarde te creëren uit data is door de data naar de mensen te brengen die het kunnen gebruiken.
Bedankt voor het geweldige interview, lezers die meer willen leren, moeten bezoeken Tamr.












