Интервью
Энтони Дейтон, генеральный директор Tamr – Серия интервью

Энтони Дейтон является генеральным директором Tamr. Он имеет 20 лет опыта создания и масштабирования компаний по разработке программного обеспечения для предприятий. В последние два года он занимал должность главного маркетингового директора в Celonis, где установил лидерство компании в категории программного обеспечения для Process Mining и создал программы генерации спроса, в результате чего выросла выручка на 130%. Ранее он работал более 10 лет в Qlik, где вырос из небольшой неизвестной шведской компании в публичную компанию – на различных должностях, от руководства продуктом, маркетинга продукта и, наконец, технического директора. Он начал свою карьеру в Siebel Systems, где учился строить компании по разработке программного обеспечения для предприятий в различных ролях.
Можете ли вы поделиться некоторыми ключевыми вехами из вашего пути в индустрии программного обеспечения для предприятий, особенно вашим временем в Qlik и Celonis?
Я начал свою карьеру в программном обеспечении для предприятий в Siebel Systems и многое узнал о создании и масштабировании компаний по разработке программного обеспечения для предприятий от команды руководителей там. Я присоединился к Qlik, когда это была небольшая, неизвестная шведская компания с 95% небольшой команды из 60 человек, расположенной в Лунде, Швеция. Я шучу, что поскольку я не был инженером или продажником, меня поставили во главе маркетинга. Я построил маркетинговую команду там, но со временем мой интерес и вклад сместились в сторону управления продуктом, и в конечном итоге я стал главным по продукту. Мы вывели Qlik на биржу в 2010 году, и мы продолжали быть успешной публичной компанией. После этого мы хотели сделать некоторые приобретения, поэтому я начал команду по слияниям и поглощениям. После долгого и достаточно успешного периода в качестве публичной компании мы в конечном итоге продали Qlik частной инвестиционной фирме Thoma Bravo. Это было, как я люблю говорить, полный жизненный цикл компании по разработке программного обеспечения для предприятий. После ухода из Qlik я присоединился к Celonis, небольшой немецкой компании по разработке программного обеспечения, которая пыталась добиться успеха на рынке США. Снова я руководил маркетингом в качестве главного маркетингового директора. Мы быстро выросли и построили очень успешную глобальную маркетинговую функцию.
Обе компании Celonis и Qlik были сосредоточены на переднем крае проблемы анализа данных – как я могу увидеть и понять данные? В случае с Qlik это были панели управления; в случае с Celonis – бизнес-процессы. Но общей проблемой для обеих было то, что данные, лежащие в основе этих визуализаций, были неверными: дублирующиеся записи, неполные записи, отсутствующие разрозненные данные. Это привлекло меня к Tamr, где я почувствовал, что впервые мы можем решить проблему запутанных данных предприятия. Первые 15 лет моей карьеры в программном обеспечении для предприятий были потрачены на визуализацию данных, я надеюсь, что следующие 15 лет будут потрачены на очистку этих данных.
Как ваш ранний опыт повлиял на ваш подход к созданию и масштабированию компаний по разработке программного обеспечения для предприятий?
Одним из важных уроков, которые я выучил при переходе от Siebel к Qlik, была сила простоты. Siebel было очень мощным программным обеспечением, но оно было убито на рынке Salesforce.com, который создал CRM с гораздо меньшим количеством функций (“игрушкой”, как называла его Siebel), но клиенты могли быстро запустить его, потому что оно было поставлено в качестве решения SaaS. Казалось очевидным в то время, но мы узнали, что клиенты покупают решения для решения своих бизнес-проблем. Итак, если ваше программное обеспечение решает их проблему быстрее, вы выигрываете. Qlik было простым решением проблемы анализа данных, но оно было радикально проще. В результате мы могли победить более функциональных конкурентов, таких как Business Objects и Cognos.
Вторым важным уроком, который я выучил, было моё карьерное развитие от маркетинга к продукту. Мы думаем об этих областях как о различных. В своей карьере я обнаружил, что я легко перемещаюсь между продуктом и маркетингом. Есть интимная связь между тем, какой продукт вы строите, и тем, как вы его описываете потенциальным клиентам. И есть не менее важная связь между тем, чего требуют потенциальные клиенты, и тем, какой продукт мы должны построить. Способность перемещаться между этими разговорами является критическим фактором успеха для любой компании по разработке программного обеспечения для предприятий. Обычной причиной неудачи стартапа является убеждение в том, что “если вы построите это, они придут”. Это обычное убеждение в том, что если вы просто построите крутое программное обеспечение, люди выстроятся, чтобы его купить. Это никогда не работает, и решение заключается в прочном маркетинговом процессе, связанном с вашим процессом разработки программного обеспечения.
Последняя идея, которую я хочу поделиться, связывает мою академическую работу с моей профессиональной работой. У меня была возможность в бизнес-школе посетить курс о теории деструктивного инноваций Клея Кристенсена. В своей профессиональной работе я имел возможность испытать на себе и быть деструктором, и быть деструктированным. Основной урок, который я выучил, заключается в том, что любая деструктивная инновация является результатом внешней платформенной сдвига, который делает невозможное наконец-то возможным. В случае с Qlik это была платформенная доступность больших серверов памяти, которая позволила Qlik деструктировать традиционное отчетность на основе кубов. В Tamr платформенная доступность машинного обучения в масштабе позволяет нам деструктировать ручные правила-основанные MDM в пользу подхода на основе ИИ. Важно всегда выяснять, какой платформенный сдвиг движет вашим деструктивом.
Что вдохновило разработку AI-родного Master Data Management (MDM), и как он отличается от традиционных решений MDM?
Разработка Tamr возникла из академической работы в MIT (Массачусетском технологическом институте) вокруг разрешения сущностей. Под академическим руководством лауреата Тьюринга Майкла Стоунбрейкера команда исследовала вопрос: “Можем ли мы связать записи данных через сотни тысяч источников и миллионы записей?” На первый взгляд, это seems непреодолимая задача, потому что чем больше записей и источников, тем больше записей необходимо сравнить. Компьютерные ученые называют это “n-квадратной проблемой”, потому что проблема увеличивается геометрически с масштабом.
Традиционные системы MDM пытаются решить эту проблему с помощью правил и большого количества ручной очистки данных. Правила не масштабируются, потому что вы никогда не можете написать достаточно правил, чтобы покрыть каждый угловой случай, и управление тысячами правил является технической невозможностью. Ручная очистка чрезвычайно дорога, потому что она полагается на людей, чтобы попытаться проработать миллионы возможных записей и сравнений. Взятые вместе, это объясняет плохое принятие традиционных решений MDM на рынке. Честно говоря, никто не любит традиционные MDM.
Простая идея Tamr заключалась в том, чтобы обучить ИИ выполнять работу по ингестию источников, сопоставлению записей и разрешению значений. Великое дело об ИИ заключается в том, что он не ест, не спит и не берет отпуск; он также высоко параллелизирован, поэтому он может справиться с огромными объемами данных и работать над их улучшением. Итак, где MDM раньше было невозможно, теперь наконец-то возможно достичь чистых, консолидированных и актуальных данных (см. выше).
Какие являются самыми большими проблемами, с которыми сталкиваются компании в управлении данными, и как Tamr решает эти проблемы?
Первая, и, возможно, наиболее важная проблема, с которой сталкиваются компании в управлении данными, заключается в том, что их бизнес-пользователи не используют данные, которые они генерируют. Или, по-другому, если команды данных не производят высококачественные данные, которые их организации используют для ответа на аналитические вопросы или оптимизации бизнес-процессов, то они тратят время и деньги. Основным выводом Tamr является 360-страница для каждой записи сущности (думайте: клиент, продукт, часть и т. д.), которая объединяет все основные и третьи данные, чтобы бизнес-пользователи могли увидеть и предоставить обратную связь по данным. Как Вики для ваших данных сущностей. Эта 360-страница также является входом для разговорного интерфейса, который позволяет бизнес-пользователям задавать и отвечать на вопросы с данными. Итак, работа номер один – дать пользователю данные.
Почему так трудно для компаний дать пользователям данные, которые они любят? Потому что есть три основных трудных проблемы, лежащих в основе этой цели: загрузка нового источника, сопоставление новых записей в существующие данные и исправление значений/полей в данных. Tamr делает легко загрузку новых источников данных, потому что его ИИ автоматически сопоставляет новые поля в определённую схему сущности. Это означает, что независимо от того, как новый источник данных называет определённое поле (например, cust_name), оно сопоставляется с правильным центральным определением этой сущности (например, “имя клиента”). Следующей проблемой является связь дубликатов записей. Дубликат в этом контексте означает, что записи являются, на самом деле, одной и той же реальной сущностью. ИИ Tamr делает это, и даже использует внешние третьи источники в качестве “эталона” для разрешения общих сущностей, таких как компании и люди. Хороший пример этого будет связь всех записей по многим источникам для важного клиента, такого как “Dell Computer”. Наконец, для любой данной записи могут быть поля, которые пусты или неверны. Tamr может заполнить правильные значения полей из внутренних и третьих источников.
Можете ли вы поделиться историей успеха, где Tamr значительно улучшил управление данными и бизнес-результаты компании?
CHG Healthcare – это крупный игрок в индустрии здравоохранения, соединяющий квалифицированных специалистов здравоохранения с учреждениями, которым они нужны. Будь то временные врачи через Locums, медсестры с RNnetwork или более широкие решения через CHG itself, они предоставляют индивидуальные решения по подбору персонала, чтобы помочь учреждениям здравоохранения работать гладко и оказывать качественную помощь пациентам.
Их основная ценность заключается в том, чтобы соединить правильных специалистов здравоохранения с правильным учреждением в правильное время. Их проблемой было то, что у них не было точного, объединённого представления всех поставщиков в их сети. Учитывая их масштаб (7,5 миллионов+ поставщиков), было невозможно поддерживать точность данных с помощью устаревших, основанных на правилах подходов без разорения на человеческих кураторах. Они также не могли игнорировать проблему, поскольку их решения по подбору персонала зависели от этого. Плохие данные для них могли означать, что поставщик получает больше смен, чем он может справиться, что приводит к выгоранию.
Используя передовые возможности ИИ/МЛ Tamr, CHG Healthcare сократила дублирующие записи врачей на 45% и几乎 полностью исключила ручную подготовку данных, которая выполнялась редкими ресурсами данных и аналитики. И, что наиболее важно, имея доверенную и точную картину поставщиков, CHG может оптимизировать подбор персонала, что позволяет им предоставлять лучший опыт для клиентов.
Какие существуют распространенные заблуждения об ИИ в управлении данными, и как Tamr помогает развеять эти мифы?
Распространенным заблуждением является то, что ИИ должен быть “идеальным”, или что правила и ручная очистка являются идеальными по сравнению с ИИ. Реальность заключается в том, что правила часто терпят неудачу. И, что более важно, когда правила терпят неудачу, единственным решением является еще больше правил. Итак, у вас есть неуправляемый беспорядок правил. И ручная очистка также несовершенна. Люди могут иметь хорошие намерения (хотя не всегда), но они не всегда правы. Что хуже, некоторые человеческие кураторы лучше, чем другие, или могут принимать разные решения, чем другие. ИИ, в отличие, является вероятностным по своей природе. Мы можем проверить статистически, насколько точны эти методы, и когда мы это делаем, мы обнаруживаем, что ИИ менее дорогой и более точный, чем любая конкурирующая альтернатива.
Tamr объединяет ИИ с человеческим совершенствованием для точности данных. Можете ли вы подробнее рассказать о том, как это сочетание работает на практике?
Люди предоставляют ИИ нечто исключительно важное – обучение. ИИ на самом деле является масштабированием человеческих усилий. То, чего Tamr ищет у людей, – это небольшое количество примеров (“меток обучения”), которые машина может использовать для установки параметров модели. На практике это выглядит так: люди тратят немного времени на работу с данными, предоставляя Tamr примеры ошибок и ошибок в данных, и ИИ запускает эти уроки на весь набор данных. Кроме того, когда добавляются новые данные или данные меняются, ИИ может выделять случаи, когда он испытывает трудности с принятием уверенных решений (“слабые совпадения”), и просить человека о входных данных. Эти входные данные, конечно, идут на совершенствование и обновление моделей.
Какую роль играют большие языковые модели (LLM) в процессах качества и обогащения данных Tamr?
Прежде всего, важно быть ясным о том, что LLM хороши. Основательно, LLM – это о языке. Они производят строки текста, которые имеют смысл, и они могут “понимать” смысл текста, который передан им. Итак, можно сказать, что они являются языковыми машинами. Итак, для Tamr, где язык важен, мы используем LLM. Одним из очевидных примеров является наш разговорный интерфейс, который находится поверх наших данных сущностей, который мы ласково называем нашим виртуальным CDO. Когда вы говорите со своим реальным CDO, они понимают вас и отвечают на языке, который вы понимаете. Это именно то, чего мы ожидаем от LLM, и это именно то, как мы используем его в этом phầnе нашего программного обеспечения. То, что ценно в Tamr в этом контексте, заключается в том, что мы используем данные сущностей в качестве контекста для разговора с нашим виртуальным CDO. Это как если бы ваш реальный CDO имел все лучшие корпоративные данные у себя под рукой, когда он отвечает на ваши вопросы – не было бы это здорово!
Кроме того, есть случаи, когда при очистке значений данных или заполнении пропущенных значений мы хотим использовать языковую интерпретацию входных значений, чтобы найти или исправить пропущенное значение. Например, вы можете спросить из текста “5 мм шарикоподшипник”, какой размер детали, и LLM (или человек) правильно ответит “5 мм”.
Наконец, лежащие в основе LLM есть модели вложений, которые кодируют языковое значение в токены (думайте: слова). Эти могут быть очень полезными для расчета лингвистического сравнения. Итак, хотя “5” и “пять” не имеют общих символов, они очень близки по лингвистическому значению. Итак, мы можем использовать эту информацию, чтобы связать записи вместе.
Как вы видите будущее управления данными, особенно с учетом достижений в области ИИ и машинного обучения?
Эра “Больших Данных” начала 2000-х годов должна быть запомнена как эра “Малых Данных”. Хотя было создано много данных за последние 20+ лет, облегченное коммодитизацией хранилища и вычислений, большинство данных, которые оказали влияние в корпорациях, относительно малы по масштабу – базовые отчеты о продажах и клиентах, маркетинговая аналитика и другие наборы данных, которые легко можно изобразить на панели управления. Результатом является то, что многие инструменты и процессы, используемые в управлении данными, оптимизированы для “малых данных”, что является причиной того, что логика, основанная на правилах, дополненная ручной очисткой, все еще так распространена в управлении данными.
Способ, которым люди хотят использовать данные, фундаментально меняется с достижениями в области ИИ и машинного обучения. Идея “агентов ИИ”, которые могут автономно выполнять значительную часть работы человека, работает только в том случае, если у агентов есть данные, которые им нужны. Если вы ожидаете, что агент ИИ будет работать на переднем крае поддержки клиентов, но у вас есть пять представлений “Dell Computer” в вашей CRM и оно не связано с информацией о продукте в вашем ERP, как вы можете ожидать, что они предоставят высококачественную службу, когда кто-то из Dell обратится?
Вытекающим из этого является то, что наше инструментарий и процессы управления данными должны эволюционировать, чтобы справиться с масштабом, что означает принятие ИИ и машинного обучения для автоматизации более данных очистки. Люди все еще будут играть большую роль в надзоре за процессом, но фундаментально мы должны просить машины делать больше, чтобы не только данные на одной панели управления были точными и полными, но и большинство данных в корпорации.
Какие являются самыми большими возможностями для бизнеса сегодня, когда речь идет об более эффективном использовании своих данных?
Увеличение количества способов, которыми люди могут потреблять данные. Нет сомнений в том, что улучшения инструментов визуализации данных сделали данные гораздо более доступными на протяжении всей корпорации. Теперь лидеры данных и аналитики должны смотреть за пределы панели управления, чтобы найти способы доставить ценность с помощью данных. Интерфейсы, такие как внутренние 360-страницы, графы знаний и разговорные помощники, облегчаются новыми технологиями и дают потенциальным потребителям данных больше способов использовать данные в своей повседневной работе. Это особенно мощно, когда они встроены в системы, которые люди уже используют, такие как CRM и ERP. Быстрейший способ создать больше ценности из данных – это принести данные к людям, которые могут их использовать.
Спасибо за отличное интервью, читателям, которые хотят узнать больше, следует посетить Tamr.












