访谈
HEAVY.AI 产品副总裁迈克·弗拉克斯曼博士 – 采访系列

迈克·弗拉克斯曼博士目前是HEAVY.AI的产品副总裁,此前他曾担任产品经理,并领导专业服务中的空间数据科学实践。他在空间环境规划领域工作了20年。加入HEAVY.AI之前,他创立了Geodesign Technologies, Inc.和GeoAdaptive LLC两个应用空间分析技术的初创公司。在创业之前,他曾是MIT的规划教授和ESRI的行业经理。
HEAVY.AI是一个硬件加速的平台,用于实时、高影响力数据分析。它利用GPU和CPU处理来快速查询大型数据集,并支持SQL和地理空间数据。该平台包括交互式仪表盘、交叉过滤和可扩展数据可视化的可视分析工具,实现了各个行业的高效大数据分析。
您能否告诉我们您的职业背景以及是什么让您加入HEAVY.AI?
在加入HEAVY.AI之前,我在学术界度过了很多年,最后在MIT教空间分析。我还经营着一家小型咨询公司,拥有多个公共部门客户。我曾参与了17个国家的GIS项目。我的工作让我从为像美洲开发银行这样的组织提供建议,到在ESRI(世界上最大的GIS开发商)管理建筑、工程和建筑领域的GIS技术。
我清楚地记得我第一次遇到现在的HEAVY.AI,那是在我作为顾问时,我负责佛罗里达海滩栖息地保护计划的场景规划。我的同事和我当时正在努力使用30m Landsat数据和5cm LiDAR数据来建模海龟栖息地。我的朋友指给我看了一些全新的、非常相关的数据——5cm LiDAR数据。它从科学上来说正是我们需要的,但比我们计划使用的数据大了3600倍。自然,没有人会增加我的预算,甚至只是增加一小部分。所以那天我放下了我使用和教授了几十年的工具,去寻找新的东西。HEAVY.AI轻松地切割和渲染了这些数据,我立即被吸引住了。
快进几年,我仍然认为HEAVY.AI所做的事情相当独特,它对GPU分析的早期押注正是行业需要的方向。HEAVY.AI专注于民主化大数据的访问。这不仅包括数据量和处理速度的组成部分,基本上为每个人提供了自己的超级计算机。随着大型语言模型的出现,空间建模的可访问性也变得越来越重要。现在,人们不需要花费数年时间学习复杂的接口和成千上万的工具,而可以直接用自己的语言与HEAVY.AI交谈。该程序不仅生成所需的命令,还提供相关的可视化。
在幕后,提供易用性的工作非常困难。作为HEAVY.AI的产品管理副总裁,我深入参与确定产品的功能和能力的优先顺序。我的广泛的GIS背景让我能够真正理解客户的需求,并指导我们的开发路线图。
您之前在空间环境规划和初创公司的经验如何影响您在HEAVY.AI的工作?
环境规划是一个特别具有挑战性的领域,因为您需要考虑人类的不同需求和自然世界。早期我所学到的通用解决方案是将参与式规划与遥感和GIS技术相结合。在采取行动计划之前,我们会创建多个场景并使用可视化在计算机中模拟其积极和消极影响。使用参与式过程使我们能够结合各种形式的专业知识并解决非常复杂的问题。
虽然我们通常不会在HEAVY.AI进行环境规划,但这种模式在商业环境中仍然非常有效。因此,我们帮助客户构建业务的关键部分的数字孪生体,并让他们快速创建和评估业务场景。
我认为我的教学经验让我对软件用户,尤其是复杂软件系统的用户产生了深深的同情。一个学生在某个地方跌倒是随机的,但几十或几百人在同一个地方犯同样的错误,你就会知道那里有设计问题。也许我最喜欢的软件设计部分是将这些见解应用于设计新一代系统。
您能否解释HeavyIQ如何利用自然语言处理来促进数据探索和可视化?
这些日子来,每个人和他的兄弟都在吹捧新的genAI模型,大多数都是彼此的忘却克隆。我们走了一条非常不同的道路。我们相信准确性、可复制性和隐私是任何商业分析工具的基本特征,包括使用大型语言模型(LLM)生成的工具。因此,我们在我们的产品中内置了这些特征。例如,我们严格限制模型输入到企业数据库,并在企业安全周界内提供文档。我们还将输出限制为最新的HeavySQL和图表。这意味着无论您问什么问题,我们都会尝试用您的数据回答,并且会向您展示我们如何得出该答案。
在这些保证到位的情况下,客户不太关心我们如何处理查询。然而,在幕后,我们的模型与消费者genAI有一个重要的区别,我们对模型进行了大量的微调,以适应商业用户对商业数据(包括空间数据)提出的特定问题。例如,我们的模型在执行空间和时间序列连接方面非常出色,这些操作不在经典的SQL基准测试中,但我们的用户每天都在使用它们。
我们将这些核心功能打包到一个名为HeavyIQ的笔记本接口中。IQ的目标是通过使用自然语言处理(NLP)使数据探索和可视化变得尽可能直观。您可以用英语问一个问题,比如“上周加利福尼亚州的天气模式是什么?”——HeavyIQ会将其转换为我们的GPU加速数据库可以快速处理的SQL查询。结果不仅以数据形式呈现,还以可视化形式呈现——地图、图表等等。这是为了实现快速、交互式的查询,特别是在处理大型或快速移动的数据集时。这里的关键是,往往不是您第一次问的问题,而是第三个问题,才能真正揭示核心见解,HeavyIQ的设计就是为了促进这种更深入的探索。
HeavyIQ相比传统的商业智能工具,对于电信、公用事业和政府机构来说有什么主要优势?
HeavyIQ在处理大规模、高速度数据的环境中表现出色——正是电信、公用事业和政府机构处理的数据类型。传统的商业智能工具通常难以应对这种数据的体积和速度。例如,在电信领域,您可能有数十亿条通话记录,但您关注的是被丢弃的通话的微小部分。HeavyIQ允许您比传统的商业智能工具快10到100倍地筛选这些数据。这种速度,加上交互式查询和可视化的能力,使其对于公用事业的风险分析或政府机构的实时场景规划来说是无价的。
另一个优势是空间和时间SQL查询在分析方面非常强大,但可能很慢或很难手动编写。当系统以我们称之为“好奇速度”的速度运行时,用户可以问更多问题和更细致的问题。例如,电信工程师可能会从监控系统中注意到设备故障的时间波峰,并有直觉认为某个设施出了问题,可以用空间查询返回地图来检查这一点。
使用HeavyIQ时,有哪些措施可以防止元数据泄露?
正如前面所述,我们已经在HeavyIQ中内置了隐私和安全。包括不仅数据,还有几种元数据。我们广泛使用列级和表级元数据来确定哪些表和列包含回答查询所需的信息。我们还使用内部公司文档(如果提供)来帮助所谓的检索增强生成(RAG)。最后,语言模型本身会生成更多元数据。所有这些元数据,尤其是后两种,可能对业务非常敏感。
与第三方模型不同,第三方模型通常会将您的数据发送到外部服务器,HeavyIQ在与我们平台其他部分相同的GPU基础设施上运行。这确保您的数据和元数据保持在您的控制之下,没有任何泄漏的风险。对于需要最高安全性水平的组织,HeavyIQ甚至可以在完全隔离的环境中部署,确保敏感信息永远不会离开特定的设备。
HEAVY.AI如何通过GPU基础设施实现大型数据集的高性能和可扩展性?
秘密在于避免其他系统中普遍存在的数据移动。从根本上说,这始于一个专门为在NVIDIA GPU上运行而设计的数据库。我们已经在这方面工作了10多年,我们相信我们拥有GPU加速分析的最佳解决方案。
即使是最好的基于CPU的系统也会在GPU之前就耗尽动力。一旦在CPU上发生这种情况,策略就是将数据分布在多个核心和多个系统(所谓的“水平扩展”)上。这在某些情况下效果很好,但通常会因网络性能而受到限制。
除了在查询中避免数据移动外,我们还避免了许多其他常见任务中的数据移动。首先,我们可以在不移动数据的情况下渲染图形。其次,如果您想要进行ML推理建模,我们也可以在不移动数据的情况下进行。最后,如果您使用大型语言模型来询问数据,我们同样可以在不移动数据的情况下进行。即使您是数据科学家,想要从Python中询问数据,我们也提供了在GPU上无需数据移动的方法。
这意味着我们可以执行不仅查询,而且渲染10到100倍快于传统的基于CPU的数据库和地图服务器。当您处理我们客户所处理的海量、高速度数据集时,这种性能提升是绝对必要的。
HEAVY.AI如何在大数据分析和人工智能快速演变的格局中保持其竞争优势?
这是一个很好的问题,我们一直在思考这个问题。大数据分析和人工智能的格局正在以令人难以置信的速度演变,新的突破和创新不断涌现。我们在GPU数据库技术上拥有10年的领先优势,这当然有帮助。
我认为关键是我们要保持对核心使命的专注——民主化大型地理空间数据的访问。这意味着不断推动GPU加速分析的可能性的边界,并确保我们的产品在这一领域提供无与伦比的性能和功能。我们的一大部分工作是继续投资于开发定制的、微调的语言模型,这些模型真正理解空间SQL和地理空间分析的细微差别。
我们建立了一个广泛的训练数据库,远远超出了通用基准测试,以确保我们的对话式分析工具可以以自然、直观的方式与用户互动。我们知道技术本身是不够的。我们必须与客户和他们不断变化的需求保持密切联系。归根结底,我们的竞争优势在于我们无情地专注于为用户提供变革性的价值。我们不仅仅是跟上市场的步伐——我们正在推动大数据和人工智能的可能性的边界。我们将继续这样做,无论格局如何快速演变。
HEAVY.AI如何通过HeavyEco支持紧急响应工作?
我们创建了HeavyEco,因为我们看到一些最大的公用事业客户在处理今天的天气模型输出以及与它们进行比较方面遇到了重大挑战。对于一位客户来说,仅仅加载数据就需要花费长达四个小时的时间,当您面临快速移动的极端天气条件,如野火时,这根本不够好。
HeavyEco的设计目的是在高风险情况下提供实时洞察,例如野火或洪水期间。在这种情况下,您需要快速做出决定,并且需要基于最好的可用数据。因此,HeavyEco首先作为权威模型(如NOAA和USGS模型)的专业管理数据管道。除了这些数据外,HeavyEco还允许您运行场景、构建影响模型并实时可视化数据。这为急救人员提供了他们在最需要时所需的关键信息。最终,我们的目标是让用户能够以思维的速度探索他们的数据。无论他们是运行复杂的空间模型、比较天气预报还是尝试在地理空间时间序列中找出模式,我们都希望他们能够做到这一点,而不会有任何技术障碍阻碍他们。
HEAVY.AI的专有LLM与其他第三方LLM相比,在准确性和性能方面有什么区别?
我们的专有LLM专门针对我们关注的分析类型进行了调整,例如文本到SQL和文本到可视化。我们最初尝试使用传统的第三方模型,但发现它们无法满足用户的高准确性要求。因此,我们对一系列开源模型进行了微调,并将它们与行业基准进行了测试。
我们的LLM对于用户需要的高级SQL概念(尤其是在地理空间和时间数据方面)更为准确。另外,由于它在我们的GPU基础设施上运行,因此也更安全。
除了内置模型功能外,我们还为管理员和用户提供了一个完整的交互式用户界面,以添加域或业务相关的元数据。例如,如果基础模型的性能不如预期,您可以导入或调整列级元数据,添加指导信息,并立即获得反馈。
HEAVY.AI如何看待地理空间和时间数据分析在塑造各个行业未来的作用?
我们相信地理空间和时间数据分析将在各个行业的未来发挥至关重要的作用。我们真正关注的是帮助客户做出更好的决定,速度更快。无论您是在电信、公用事业还是政府行业,还是其他行业,能够实时分析和可视化数据都可能带来革命性的变化。
我们的使命是让这种强大的分析能力对每个人都可用,而不仅仅是拥有大量资源的大玩家。我们希望确保客户能够利用他们拥有的数据来保持领先地位,并随着问题的出现而解决它们。随着数据的增长和变得更加复杂,我们的角色是确保我们的工具与之同时演进,以便客户始终为下一步做好准备。感谢这次精彩的采访,希望读者能够通过访问HEAVY.AI网站来了解更多信息。












