Connect with us

Доктор Майк Флаксман, вице-президент по продукту в HEAVY.AI – Серия интервью

Интервью

Доктор Майк Флаксман, вице-президент по продукту в HEAVY.AI – Серия интервью

mm

Доктор Майк Флаксман в настоящее время является вице-президентом по продукту в HEAVY.AI, ранее он занимал должность менеджера продукта и возглавлял практику.spatial Data Science в профессиональных услугах. Он провел последние 20 лет, работая в области пространственного экологического планирования. До HEAVY.AI он основал Geodesign Technologies, Inc и стал сооснователем GeoAdaptive LLC, два стартапа, применяющих технологии пространственного анализа к планированию. До жизни в стартапе он был профессором планирования в MIT и менеджером отрасли в ESRI.

HEAVY.AI – это аппаратно-ускоренная платформа для анализа данных в реальном времени с высоким влиянием. Она использует как обработку GPU, так и CPU для быстрого запроса огромных наборов данных, с поддержкой SQL и геопространственных данных. Платформа включает в себя инструменты визуального анализа для интерактивных панелей, фильтрации и масштабируемых визуализаций данных, что позволяет эффективно анализировать большие данные в различных отраслях.

Можете ли вы рассказать нам о своем профессиональном прошлом и о том, что привело вас к присоединению к HEAVY.AI?

До присоединения к HEAVY.AI я провел годы в академии, в конечном итоге преподавая пространственный анализ в MIT. Я также управлял небольшой консалтинговой фирмой, с разнообразными клиентами из государственного сектора. Я участвовал в проектах GIS в 17 странах. Моя работа привела меня от консультирования организаций, таких как Межамериканский банк развития, до управления технологиями GIS для архитектуры, инженерии и строительства в ESRI, крупнейшем разработчике GIS в мире.

Я хорошо помню свою первую встречу с тем, что сейчас является HEAVY.AI, когда в качестве консультанта я был ответственным за планирование сценариев для программы сохранения среды обитания пляжей Флориды. Мои коллеги и я боролись с моделированием среды обитания морских черепах с помощью данных Landsat с разрешением 30м, и друг указал мне на совершенно новые и очень актуальные данные – 5см LiDAR. Это было именно то, что нам нужно с научной точки зрения, но что-то в 3600 раз больше, чем то, что мы планировали использовать. Не нужно говорить, что никто не собирался увеличивать мой бюджет даже на долю этого. Итак, в тот день я положил инструменты, которые я использовал и преподавал на протяжении нескольких десятилетий, и пошел искать что-то новое. HEAVY.AI легко и без усилий прорезал и отображал эти данные, и я сразу же был увлечен.

Продвинувшись вперед на несколько лет, я все еще считаю, что то, что делает HEAVY.AI, довольно уникально, и его ранняя ставка на GPU-аналитику была именно там, где индустрия все еще нуждается. HEAVY.AI твердо фокусируется на демократизации доступа к большим данным. Это имеет компонент объема данных и скорости обработки, конечно, по сути давая каждому свой собственный суперкомпьютер. Но все более важным аспектом с появлением крупных языковых моделей является возможность сделать пространственное моделирование доступным для многих людей. В эти дни, вместо того, чтобы тратить годы на изучение сложного интерфейса с тысячами инструментов, вы можете просто начать разговор с HEAVY.AI на человеческом языке вашего выбора. Программа не только генерирует необходимые команды, но и представляет актуальные визуализации.

За кулисами обеспечение легкости использования, конечно, очень сложно. В настоящее время, как вице-президент по управлению продуктом в HEAVY.AI, я тесно участвую в определении того, какие функции и возможности мы отдаём приоритет нашим продуктам. Мой обширный опыт в области GIS позволяет мне действительно понять потребности наших клиентов и руководить нашим дорожной картой разработки соответственно.

Как ваш предыдущий опыт в области пространственного экологического планирования и стартапов повлиял на вашу работу в HEAVY.AI?

Экологическое планирование – это особенно сложная область, где необходимо учитывать как различные человеческие потребности, так и природный мир. Общий подход, который я выучил рано, заключался в сочетании метода, известного как участие в планировании, с технологиями дистанционного зондирования и GIS. До того, как согласовать план действий, мы создавали несколько сценариев и симулировали их положительные и отрицательные последствия в компьютере с помощью визуализаций. Использование участия в процессах позволяло нам объединить различные формы экспертизы и решать очень сложные проблемы.

Хотя мы обычно не занимаемся экологическим планированием в HEAVY.AI, этот шаблон все еще работает очень хорошо в деловой среде. Итак, мы помогаем клиентам создавать цифровые двойники ключевых частей их бизнеса, и мы позволяем им создавать и оценивать бизнес-сценарии быстро.

Я полагаю, что мой опыт преподавания дал мне глубокое сочувствие к пользователям программного обеспечения, особенно к сложным программным системам. Там, где один студент спотыкается в одном месте, это случайно, но там, где десятки или сотни людей совершают подобные ошибки, вы знаете, что у вас есть проблема с дизайном. Может быть, моя любимая часть дизайна программного обеспечения – это принятие этих знаний и применение их при проектировании новых поколений систем.

Можете ли вы объяснить, как HeavyIQ использует обработку естественного языка для облегчения исследования и визуализации данных?

В эти дни кажется, что каждый и его брат рекламируют новую модель генерации AI, большинство из которых являются забываемыми клонами друг друга. Мы прошли совершенно другой путь. Мы считаем, что точность, воспроизводимость и конфиденциальность являются важными характеристиками для любых инструментов бизнес-аналитики, включая те, которые генерируются с помощью крупных языковых моделей (LLM). Итак, мы построили их в нашем предложении на фундаментальном уровне. Например, мы строго ограничиваем входные данные моделей строго к корпоративным базам данных и предоставляем документы внутри периметра безопасности предприятия. Мы также ограничиваем выходные данные последними HeavySQL и Charts. Это означает, что какой бы вопрос вы ни задали, мы попытаемся ответить на ваши данные, и мы покажем вам точно, как мы получили этот ответ.

С этими гарантиями на месте, важно, чтобы наши клиенты не беспокоились о том, как мы обрабатываем запросы. Но за кулисами еще одно важное отличие от потребительской генерации AI заключается в том, что мы обширно настраиваем модели против конкретных типов вопросов, которые бизнес-пользователи задают бизнес-данным, включая пространственные данные. Итак, например, наша модель отлично выполняет пространственные и временные соединения, которые не входят в классические бенчмарки SQL, но наши пользователи используют ежедневно.

Мы упаковываем эти основные возможности в интерфейс Notebook, который мы называем HeavyIQ. IQ заключается в том, чтобы сделать исследование и визуализацию данных так интуитивно возможными, как это только возможно, используя обработку естественного языка (NLP). Вы задаете вопрос на английском языке – например, “Какие были погодные условия в Калифорнии на прошлой неделе?” – и HeavyIQ переводит это в запросы SQL, которые наш GPU-ускоренный база данных обрабатывает быстро. Результаты представлены не только как данные, но и как визуализации – карты, графики, все, что наиболее актуально. Это о том, чтобы обеспечить быстрое, интерактивное запрос, особенно при работе с большими или быстро меняющимися наборами данных. Что важно здесь, так это то, что это часто не первый вопрос, который вы задаете, а, может быть, третий, который действительно доходит до основной идеи, и HeavyIQ предназначен для облегчения этого более глубокого исследования.

Каковы основные преимущества использования HeavyIQ по сравнению с традиционными инструментами BI для телекоммуникаций, коммунальных услуг и государственных агентств?

HeavyIQ отличается в средах, где вы имеете дело с крупномасштабными, высокоскоростными данными – именно теми данными, с которыми работают телекоммуникационные компании, коммунальные услуги и государственные агентства. Традиционные инструменты бизнес-аналитики часто испытывают трудности с объемом и скоростью этих данных. Например, в телекоммуникациях у вас могут быть миллиарды записей звонков, но это крошечная доля сброшенных звонков, на которых вам нужно сосредоточиться. HeavyIQ позволяет вам просеять через эти данные в 10-100 раз быстрее благодаря нашей инфраструктуре GPU. Эта скорость, в сочетании с возможностью интерактивного запроса и визуализации данных, делает ее бесценной для анализа рисков в коммунальных услугах или планирования сценариев в реальном времени для государственных агентств.

Другое преимущество, уже упомянутое выше, заключается в том, что пространственные и временные запросы SQL чрезвычайно мощны аналитически – но могут быть медленными или трудными для написания вручную. Когда система работает на том, что мы называем “скоростью любопытства”, пользователи могут задавать как больше вопросов, так и более тонкие вопросы. Итак, например, инженер телекоммуникационной компании может заметить временный скачок неисправностей оборудования из системы мониторинга, иметь интуицию, что что-то идет не так на конкретном объекте, и проверить это с помощью пространственного запроса, возвращающего карту.

Какие меры предпринимаются для предотвращения утечки метаданных при использовании HeavyIQ?

Как описано выше, мы построили HeavyIQ с учетом конфиденциальности и безопасности на его основе. Это включает не только данные, но и несколько видов метаданных. Мы обширно используем метаданные на уровне столбцов и таблиц при определении, какие таблицы и столбцы содержат информацию, необходимую для ответа на запрос. Мы также используем внутренние документы компании, где это предоставлено, для помощи в том, что известно как генерация, дополненная извлечением (RAG). Наконец, сами языковые модели генерируют дальнейшие метаданные. Все они, но особенно последние два, могут быть высоко чувствительными для бизнеса.

В отличие от третьих моделей, где ваши данные обычно отправляются на внешние серверы, HeavyIQ работает локально на той же инфраструктуре GPU, что и остальная часть нашей платформы. Это гарантирует, что ваши данные и метаданные остаются под вашим контролем, без риска утечки. Для организаций, которые требуют самого высокого уровня безопасности, HeavyIQ может даже быть развернут в полностью изолированной среде, гарантируя, что конфиденциальная информация никогда не покидает определенное оборудование.

Как HEAVY.AI достигает высокой производительности и масштабируемости с огромными наборами данных, используя инфраструктуру GPU?

Секретный соус заключается в основном в избегании перемещения данных, распространенного в других системах. В его основе это начинается с базы данных, специально разработанной для работы на NVIDIA GPU. Мы работаем над этим более 10 лет и действительно считаем, что у нас есть лучшее решение, когда речь идет о GPU-ускоренном анализе.

Даже лучшие CPU-ориентированные системы заканчиваются гораздо раньше среднего GPU. Стратегия, когда это происходит на CPU, требует распределения данных по нескольким ядрам и затем по нескольким системам (так называемое “горизонтальное масштабирование”). Это работает хорошо в некоторых контекстах, где вещи менее критичны по времени, но в целом начинает застревать на производительности сети.

В дополнение к избеганию всех этих перемещений данных при запросах мы также избегаем их при многих других общих задачах. Первое – это то, что мы можем отображать графику без перемещения данных. Затем, если вы хотите моделирование ML, мы снова делаем это без перемещения данных. И если вы опрашиваете данные с помощью крупной языковой модели, мы еще раз делаем это без перемещения данных. Даже если вы являетесь специалистом по данным и хотите опросить данные из Python, мы снова предоставляем методы для выполнения этого на GPU без перемещения данных.

Это означает, что на практике мы можем выполнять не только запросы, но и отображение в 10-100 раз быстрее, чем традиционные CPU-ориентированные базы данных и серверы карт. Когда вы имеете дело с огромными, высокоскоростными наборами данных, с которыми работают наши клиенты – такими как модели погоды, записи звонков или спутниковые изображения – этот прирост производительности абсолютно необходим.

Как HEAVY.AI поддерживает усилия по реагированию на чрезвычайные ситуации через HeavyEco?

Мы построили HeavyEco, когда увидели, что некоторые из наших крупнейших клиентов из коммунальных услуг испытывают значительные трудности с простым потреблением современных моделей погоды, а также визуализацией их для совместных сравнений. Это заняло у одного клиента до четырех часов, чтобы просто загрузить данные, и когда вы сталкиваетесь с быстроменяющимися экстремальными погодными условиями, такими как пожары… это просто не хорошо.

HeavyEco предназначен для предоставления информации в реальном времени в высокоценных ситуациях, таких как во время лесного пожара или наводнения. В таких сценариях вам нужно принимать решения быстро и на основе лучших возможных данных. Итак, HeavyEco служит в первую очередь в качестве профессионально управляемой конвейера данных для авторитетных моделей, таких как те, которые предоставляются NOAA и USGS. На основе этих моделей HeavyEco позволяет вам запускать сценарии, строить модели воздействия на здания и визуализировать данные в реальном времени. Это дает первым респондентам критически важную информацию, которая им нужна, когда это имеет значение.

В конечном итоге, наша цель – дать нашим пользователям возможность исследовать свои данные на скорости мысли. Будь то запуск сложных пространственных моделей, сравнение прогнозов погоды или попытка выявить закономерности в геопространственных временных рядах, мы хотим, чтобы они могли делать это без каких-либо технических барьеров на их пути.

Что отличает проприетарную LLM HEAVY.AI от других третьих LLM в плане точности и производительности?

Наша проприетарная LLM специально настроена для типов аналитики, на которых мы фокусируемся – таких как текст в SQL и текст в визуализации. Мы изначально попробовали традиционные третьи модели, но обнаружили, что они не соответствуют высоким требованиям точности наших пользователей, которые часто принимают критические решения. Итак, мы настроили ряд открытых моделей и протестировали их на отраслевых бенчмарках.

Наша LLM намного более точна для продвинутых концепций SQL, которые наши пользователи нуждаются, особенно в геопространственных и временных данных. Кроме того, поскольку она работает на нашей инфраструктуре GPU, она также более безопасна.

В дополнение к встроенным возможностям модели мы также предоставляем полный интерактивный интерфейс для администраторов и пользователей, чтобы добавить метаданные, актуальные для области или бизнеса. Например, если базовая модель не работает так, как ожидается, вы можете импортировать или настроить метаданные на уровне столбцов или добавить информацию по руководству и сразу же получить обратную связь.

Как HEAVY.AI представляет себе роль геопространственного и временного анализа данных в формировании будущего различных отраслей?

Мы считаем, что геопространственный и временной анализ данных будут иметь решающее значение для будущего многих отраслей. Что мы действительно фокусируемся на, так это помочь нашим клиентам принимать лучшие решения, быстрее. Будь то телекоммуникации, коммунальные услуги, государственные агентства или другие – наличие возможности анализировать и визуализировать данные в реальном времени может быть игроком, меняющим правила игры.

Наша миссия – сделать этот мощный анализ доступным для всех, а не только для крупных игроков с огромными ресурсами. Мы хотим обеспечить, чтобы наши клиенты могли воспользоваться данными, которые у них есть, чтобы оставаться впереди и решать проблемы, когда они возникают. По мере того, как данные продолжают расти и становиться более сложными, мы видим свою роль в обеспечении того, чтобы наши инструменты эволюционировали вместе с ними, чтобы наши клиенты всегда были готовы к тому, что будет дальше.

Антуан - видный лидер и сооснователь Unite.AI, движимый непоколебимой страстью к формированию и продвижению будущего ИИ и робототехники. Как серийный предприниматель, он считает, что ИИ будет столь же разрушительным для общества, как электричество, и часто увлекается потенциалом разрушительных технологий и ИИ.

Как футуролог, он посвящен изучению того, как эти инновации изменят наш мир. Кроме того, он является основателем Securities.io, платформы, ориентированной на инвестиции в передовые технологии, которые переопределяют будущее и меняют целые сектора.