罗布·吉亚迪纳(Rob Giardina)是 Claritype 的联合创始人和首席执行官,该公司开发的人工智能系统为企业数据分析提供可解释性和可审计性。他此前曾在 Palantir Technologies 担任前沿部署工程师。
四分之三的人表示,他们的组织使用AI。然而,大部分活动仍然集中在非结构化内容上:总结会议,撰写电子邮件或自动化客户支持。但是,讽刺的是,实际上驱动业务决策的数据——财务报告,仓库表格和KPI——仍然基本上没有被AI触及。原因不是缺乏雄心,而是缺乏信任。当一个模型产生一个句子时,这通常可以被修复;但是,当它产生一个数字时,这将是灾难性的。CFO不能签署一个他们无法验证的答案。今天,结构化数据分布在数十个系统中,每个系统都有自己的规则和关系。让AI在这种复杂性中正确推理是一个比任何聊天机器人更难的挑战。企业和他们的团队——包括非技术用户——需要以简单的方式与他们的数据交互,以减少瓶颈并检索快速、准确的见解。无需学习SQL。一些解决方案正在出现——让我们来看看一些著名的例子,它们的优点和缺点。AI和结构化数据——一座太远的桥梁过去两年中,出现了几项尝试,以连接AI见解和结构化数据。许多来自拥有大量资源和数据的科技巨头。例如,Snowflake引入了Cortex Analyst,它尝试允许用户对Snowflake数据仓库提出自然语言问题。为了提高准确性,Cortex有一种方式提供语义元数据——但是该模型受到严重限制。首先,它必须手动构建,即使这样,它也只能在最多10个表格上运行,对于中型公司来说已经不够了。一旦超过这个限制,信任就会破裂,因为准确性会下降。这个故事在Databricks的尝试中重复出现了,它使用AI/BI Genie采取了文本到SQL的方法。这个解决方案只能在小型域上有效地部署,一旦数据集增加,准确性就会下降。Microsoft Power BI Copilot采取了表面层面的生成方法,将AI直接嵌入仪表板中,以描述视觉效果,建议措施和草拟报告。它增强了探索,但没有改变分析的推理或验证方式。每个响应仍然依赖于模型的判断,当该判断失败时,没有审计跟踪或确定性逻辑可以依靠。这些系统集体指向正确的方向:在结构化企业数据上部署AI。然而,它们也共享一个关键缺陷。它们依赖于AI模型从自然语言生成SQL,当SQL出错时——这经常发生——业务用户就会卡住。不能读SQL的高管没有办法诊断或纠正结果。对话就此停止。另一种解决问题的方法是预先索引可能的问答对。Ada的GARAGe等遵循这种方法。在狭窄的领域中,问题是可预测的,这种方法效果良好,但随着数据复杂性的增长,其性能会下降。一旦表格和模式增加,预先索引就会变得难以管理。不同的路径:生成增强检索生成增强检索(GAR)将当前的检索增强生成方法颠倒过来(检索增强生成从相关信息中获取并将其纳入LLM以提高准确性)。与其要求LLM编写SQL,GAR使用生成AI来理解用户查询的意图,然后创建推理步骤来生成答案。在GAR中,查询直接与知识库交互。它们被编译而不是生成,相同的问题总是产生相同的答案。GAR中的推理链是一个永久的、可审查的工件,而不是一个暂时的聊天,因此整个推理链可以被重现。这意味着结果比通用genAI引擎的结果准确性要高得多。在其核心,GAR做了三件事: 自动构建语义层。GAR使用AI来发现系统间的关系和业务定义,统一数据到一个模型中 将业务意图转化为高级分析语言。这种语言捕获业务概念级别的查询(“每次访问的收入按提供商划分为Q2”),并直接编译为SQL。 记录每个推理步骤以实现可审计性。每个响应的来源都是可追溯的。 为什么这很重要通过将推理限制在业务自己的内部知识模型中,GAR可以消除幻觉并提供可证明正确的答案。定义、指标和查询模式随着时间的推移而积累,使得以后的答案更加个性化。信任对于依赖结构化数据做出明智的业务决策的业务用户来说至关重要。随着越来越多的组织实施高级AI解决方案,他们将要求框架使幻觉和错误的风险降至几乎为零。当查询直接连接到您的数据时,当AI可以在大型数据集上工作而不会崩溃,并且当答案以一致性和可证明性提供时,就会发生这种情况。