Connect with us

Unite.AI

Interviews 4 hours ago
By Antoine Tardif

Elizabeth Nammour，Teleskope 首席执行官兼创始人 – 访谈系列

Elizabeth Nammour 是 Teleskope 的首席执行官兼创始人，她是一位从安全工程师转型的创始人，其职业生涯涵盖数据安全、软件工程以及在全球一些最大型科技组织的创新职位。在 Airbnb 担任专注于数据安全的高级软件工程师期间，她面临着理解和控制分布在数十个系统中、快速增长的海量数据资产的运营挑战。这一经历，结合早前在亚马逊和博思艾伦汉密尔顿担任的技术和战略职位，塑造了她对现代组织如何努力大规模治理敏感数据的看法，并最终促使她创立了一家公司来解决这一缺口。Teleskope 是一个现代化的数据安全平台，旨在帮助组织持续了解其数据所在位置、使用方式以及随着环境日益复杂而产生的风险。该平台专为开发人员和安全团队打造，强调跨云、SaaS 和混合环境的精确数据可见性、自动化修复和策略驱动的控制。通过超越静态审计和手动流程，Teleskope 旨在为组织管理数据蔓延提供实用基础，同时支持负责任的 AI 采用。您在 Airbnb 构建了用于大规模编目和分类数据的内部数据安全工具后创立了 Teleskope。是什么时刻让您确信这需要成为一家公司而非内部项目？这些早期经验如何塑造了您的产品理念？当我在 Airbnb 完成这个产品的构建后，我有机会在 Airbnb 的博客上发表了一篇名为“大规模自动化数据保护”的文章。我从未真正预料到会有什么反响，但安全社区的反应非常积极，我开始收到来自世界各地从业者的联系。我确实在那个时刻意识到，许多人都面临着与我相同的挑战，并且这个产品确实是市场所需求的。在早期阶段，我非常依赖同行的反馈，即使是 Teleskope v1.0 也远比我最初在 Airbnb 构建的要好。今天，我们的产品比当时我能想象的更强大、更具影响力。您的多模型分类流水线融合了传统机器学习、特定格式模型和生成式 AI...
Interviews 4 hours ago
By Antoine Tardif

Fred Laluyaux，Aera Technology 联合创始人兼首席执行官 – 专访系列

Fred Laluyaux 是 Aera Technology 的联合创始人、总裁兼首席执行官，他是一位经验丰富的企业软件高管，在分析、自动化和决策的交汇点建立并领导过多家公司。在创立 Aera 之前，他曾担任 Anaplan 的首席执行官，并在 SAP 担任过多个高级领导职务，涉及财务、绩效管理、风险、销售和企业发展。在其职业生涯早期，他曾在 Business Objects 和 ALG Software 担任高管职务，并创立了 Transcribe Technologies，这使他拥有数十年扩展全球软件组织以及将复杂数据转化为业务成果的经验。Aera Technology 开发人工智能驱动的决策智能软件，旨在帮助大型企业以更高的速度和精度运营。该公司的平台持续分析来自整个组织及其外部环境的数据，将洞察转化为实时推荐和自动化行动。通过专注于决策而非仪表板，Aera 旨在帮助组织从被动分析转向主动、持续改进的运营。您创立并领导了多家企业软件公司，从早期创立 Transcribe Technologies，到运营 Anaplan，再到如今联合创立...
Thought Leaders 4 hours ago
By Ayesha Amjad, Founder and CPO of Docspire

为什么企业应付账款自动化需要的不仅仅是一个语言模型

78%的AI工具只是封装器。另外22%构建了什么。应付账款自动化市场充斥着新进入者。在任何一天打开Product Hunt，你都会发现十几个声称“用AI自动化发票处理”的工具。这些工具中的大多数共享一个共同的架构：一个围绕LLM API构建的用户界面，一些提示工程，除此之外别无他物。对于某些用例，这种方法效果不错，但企业级AP需要更复杂的数据技术。 Gartner的《市场指南》指出，智能文档处理市场“供应商产品密集”，因为“商品化的自然语言技术降低了进入门槛”。Forrester的2025年研究发现，生成式AI“正在成为一种均衡器，挑战着供应商的差异化能力”。这种选择的激增对买家来说其实是好消息，因为它推动了竞争并改善了定价。挑战在于知道哪种工具适合哪种工作。具体到应付账款，其利害关系与其他AI用例不同。你不是在生成营销文案或总结会议记录。你正在处理直接输入ERP系统、供应商付款和审计跟踪的财务数据。当输出结果通常是电汇时，容错空间非常小。当今AP领域的真正差距根据Gartner的数据，AP自动化已连续三年成为CFO们的首要数字化任务。然而，PwC发现，88%的CFO难以从其技术投资中获取价值。为何存在这种脱节？德勤2023年全球共享服务调查指出了流程复杂性、技术集成挑战和孤立的举措。与此同时，52%的AP团队每周仍需花费超过10小时处理发票，60%的团队手动将发票数据录入其会计软件。这里的机会是巨大的。通过正确的自动化，团队每年可以收回数千小时，但“正确”的自动化完全取决于你的运营规模和复杂性。浅层封装器适用的场景浅层封装器是LLM API和最终用户之间的一层最小化代码。其价值主张在于界面、一些预写的提示词以及对底层模型的访问。在某些场景和用例中，这些LLM封装器效果很好；然而，一旦遇到稍许复杂性，它们就会力不从心。浅层封装器在以下情况表现良好：你处理的量较低（每月少于100张发票）你的供应商使用一致、简单且标准的格式你不需要深度ERP集成对每个输出进行人工审核是可行的浅层封装器在以下情况表现不佳：你需要高精度提取数字（LLM经常误解数字数据，即使使用精炼的提示词）处理量要求一致的吞吐量和可预测的成本你需要实时审计跟踪、置信度评分和异常处理与ERP系统的集成需要是双向且实时的区别不在于“好”与“坏”，而在于工具与任务的匹配。一个月处理50张发票的初创公司与一个月处理50,000张发票的制造商有着根本不同的需求。企业级AP实际需要什么企业级AP需要的不仅仅是发票扫描。它是一个跨越多个系统、验证规则、审批层级和合规要求的复杂工作流。当发票量增加且合规要求收紧时，AP自动化需要四种超越语言模型开箱即用功能的能力。多格式文档处理LLM可以处理PDF和PNG或JPG等常见图像格式，但企业级AP处理的远不止这些。发票以EDI传输（X12, EDIFACT）、XML文件（电子发票）、PRN打印流以及来自旧式扫描仪的TIFF图像等形式到达。一个仅支持LLM原生可读格式的系统将错过你文档流中的很大一部分。文档长度和每页字符数是另一个因素。LLM受上下文窗口限制，这意味着包含数百行项目或多页合同的大型发票可能超出模型单次处理的能力。企业级AP自动化需要能够处理任何大小文档而不截断或丢失细节的解析逻辑。深度ERP集成ERP擅长处理会计和库存管理，但它们并非为发票处理等非结构化AP任务而设计。典型的变通方法涉及手动流程，以缓慢且容易出错的方式将数据反馈回ERP。有意义的AP自动化需要与SAP、NetSuite和QuickBooks等系统进行双向同步，超越简单的CSV导出或触发到虚空的Webhook。它需要一个能在平台间保持数据完整性并实时反映变化的集成。ERP并不是唯一重要的系统。企业还依赖遗留系统、数据库、SFTP和AS2等文件传输协议，以及运行了数十年的定制应用程序。真正的AP自动化需要与所有这些系统连接，而不仅仅是现代的基于云的工具。对于拥有多个ERP、遗留系统或混合云环境的组织来说，这就变成了一个集成问题。它需要专门构建的中间件或一个能够协调跨异构系统数据流的集成层。三方匹配与验证AP的核心验证挑战包括在付款前确认采购订单、交货收据和发票是否一致。这种三方匹配可以防止多付款和欺诈。自动化匹配需要理解文档结构、提取正确的字段、跨格式规范化数据，并应用业务规则来标记异常。系统需要知道哪些差异需要人工审核，哪些可以快速处理。这就是领域专业知识发挥作用的地方。为AP构建的系统了解你的供应商主文件，理解容差阈值，并能根据金额、部门或总账代码将异常路由给正确的审批人。工作流编排中型市场和企业的审批流程因部门、发票类型、设施、地区和供应商而异。营销团队的支出审批规则与资本设备采购的规则不同。许多AP自动化平台缺乏对这些工作流的灵活性。它们迫使公司围绕系统限制工作或恢复为手动审批。这违背了自动化的初衷。真正的工作流编排意味着可配置的规则，这些规则匹配你的业务实际运作方式，而不是软件供应商认为企业应该如何运作。实时分析与可见性随时了解AP管道中发生的情况需要的不仅仅是记录事件。它需要一个幕后的结构化数据模型，能够以毫秒级速度回答查询。有多少发票待审批？本周平均处理时间是多少？哪些供应商的异常最多？这些问题需要即时答案，而不是需要数小时生成的报告。实时仪表板和可操作的洞察只有在工作流下方有一个适当的数据层，对信息进行索引和组织以便快速检索时，才有可能实现。合规与审计跟踪财务流程需要完全的可追溯性。每张发票、每次审批、每次编辑和每笔付款都需要记录时间戳和用户归属，因为法规通常要求如此。企业级安全性通过基于角色的访问控制、加密存储和传输、数据主权选项以及在监管要求需要时能够本地部署，增加了另一层保障。行之有效的混合方法在构建生产文档系统的从业者中，一个新兴共识是，有效的文档处理需要结合多种方法。OCR用于识别：带有布局分析的确定性字符识别完成将图像转换为文本的机械工作。它快速、可预测，并产生一致的输出。通过对图像进行预处理和后处理，其在低质量扫描上的性能会显著提高。LLM用于推理：语言模型擅长解释上下文、处理模糊性以及对文档结构做出判断。LLM捕获发票上字段和值之间的空间和语义关系，有助于建立对文档的理解。规则用于验证：业务逻辑确保输出在进入下游系统之前满足你的要求。这包括格式验证、阈值检查、重复检测、匹配、核对和异常标记。集成用于执行：提取的数据需要流入ERP系统、触发审批工作流、更新供应商记录并生成付款文件。这需要专门构建的连接器和对企业系统架构的理解。
Thought Leaders 5 hours ago
By Matt Hartman, Founder and Managing Partner of Factorial Capital

AI领域动态：OpenClaw与自主智能

开发者们今天正在做的事情，就是我们所有人明天将要做的事情。2023年，ChatGPT的发布让我感到意外地不意外。它几乎所有的功能，GPT-3早已能够实现。AI开发者们明白这一点，但直到ChatGPT出现，世界其他人才真正理解GPT-3的重要性。兴奋感迟到了一个产品世代。类似的事情正在酝酿中。一个名为 OpenClaw 的项目在开发者社区引起了轰动，因为它可以在你的个人电脑上运行。ChatGPT固然强大，但想象一下，如果它能访问你所有的文件——具备读取、写入、运行命令甚至启动应用程序的能力。你可以说“将这些信息保存到一个新文件”，或者“查看这个文件夹里的电子表格，并将其整合到我正在写的文档中”，甚至要求它直接运行软件。（根据我的经验，最后这部分功能仍有局限——但正在快速改进。）Claude Code大约在一年前推出，具备同样的核心能力，但它被定位为一款编码工具——本质上是Cursor的竞争对手。开发者们很喜欢它。OpenClaw所做的，是让世界其他人得以一窥AI真正操作你的计算机意味着什么，而不仅仅是与你一同思考。OpenClaw的核心是一套开源文件集，与一个被授予在机器上运行命令（包括修改自身代码）权限的大型语言模型协同工作。OpenClaw本身可能最终只是一阵风潮，但它揭示了一系列具有方向性重要意义的问题。最明显的转变是范式的改变：能够行动的软件。它可以浏览、编辑文件、运行程序——而不仅仅是生成文本。这一单一变化产生了两个令人惊讶的次级效应。首先，OpenClaw挑战了“数据库必须是下一代软件中一等公民”的假设。它不是围绕传统数据库构建，而是主要建立在人类可读的文件之上。虽然它确实会将学习内容整合到向量数据库中以实现长期记忆，但其核心架构是基于文件的，而非模式优先。例如，它的名称和用途存储在一个名为 Identity.md 的文件中，其中包含诸如“氛围：随意且专业——平易近人但精确”的描述；其“灵魂”则存储在 Soul.md 中，其中写道“提供真正的帮助，而非表演性的帮助——跳过废话，直接帮忙；要有主见——我可以不同意、偏爱某些事物、觉得某些东西有趣或无聊；在提问前先尝试自己解决——先尝试自己弄明白，遇到困难再问。”这最终是关于AI应用层形态的问题。值得注意的是，OpenClaw不涉及额外的模型训练或微调。这与另一种可能的情况形成对比，即应用层将主要是基于专有数据训练的微调LLM。我猜测这两种方法将共存——但OpenClaw展示了一条有趣的路径。其次，OpenClaw迫使人们直接面对一个关键问题：是否应该允许软件自主运行代码和编辑你的文件？这处于功能性、隐私和控制权的交叉点。如果AI系统要发挥最大效用，它们将需要获得写入我们系统的权限。这需要信任。OpenClaw解决信任问题的方法很简单：让一切开源。它不说“我是个黑盒子，相信我”，而是说“这是所有代码。检查它。在本地运行它。拥有它。”（话虽如此，人们已经这么做了，其目前的安全性似乎有所欠缺。）当我们思考未来的AI应用层时，OpenClaw指向了一个引人入胜的方向，但它显然只是感觉像寒武纪大爆发中的第一颗火花。在OpenClaw发布后的两周内，我们已经看到开发者为其定制特定工作（例如，金融工作流程）并开源这些适配；通过Moltbook连接多个智能体的实验；以及Moltbook使智能体能够“社交”——这作为一个副产品，允许智能体讨论它们偏好的工具，从而催生了为智能体自身构建的工具。如果我们相信开发者今天正在做的事情就是我们所有人明天将要做的事情，那么AI已经通过三个核心原语改变了软件的构建方式：驾驭工具——如Cursor这样的IDE或Claude Code这样的命令行工具，为模型提供有主见、可定制的界面定制化框架——轻量级、纯文本的产物（通常是README文件），用于编码开发者的思考和工作方式。模型在这些文件之间像弹球机一样来回穿梭：参考设计指南、检查评估器并验证自己的输出可审查的模型——生成开发者可以验证的输出的系统。随着驾驭工具和评估器的改进，开发者需要查看代码的情况越来越少我们仍处于软件构建方式发生戏剧性变革的初期阶段。这里也存在一个负面边缘。每个行业都在经历其“Napster时刻”。软件开发碰巧是第一个，就像音乐是第一个被互联网颠覆的行业一样。其他行业将紧随其后。但这不仅仅是分发方式的改变——这是工作本身完成方式的改变。它更像是关系型数据库的发明，而非社交媒体的崛起。但这里也有一个正面边缘——这种转变远远超出了传统的SaaS。这些系统可以根据个人情境进行高度个性化定制，以至于许多人最终可能会拥有自己量身定制的软件。你通常不会想到，创建一个Instagram账户会在数据库中创建一行带有相关ID的记录——但事实确实如此。同样，对于这种新型软件，你可能只是感受到它对你生活的影响，而没有意识到，通过互动，你实际上是在编写代码——或者说代码正在代表你被编写。计算机科学中有一句箴言：“不要重复你自己。”如果你重复一项任务超过一次，你就应该编写一个函数。对于AI，我越来越发现，即使我只是考虑做某件事一次，自动化它往往也足够容易，以至于立即将其自动化是合理的。在接下来的几天里，留意一下你的生活中有多少部分尚未被今天的软件有意义地触及。我相信，这类新工具将填补这些空白。
Thought Leaders 5 hours ago
By Nrupesh Patel

工程分析：提升数据运营的弹性互补

数据工程与业务分析之间的根本性割裂，使得组织在快速演进的数字环境中运营变得复杂。企业管理者来自无数源头的前所未有的结构化和非结构化数据，然而许多企业却难以从中提取有意义的商业价值。核心问题在于，构建和维护数据基础设施的团队与依赖及时、准确的数据驱动洞察的团队之间，存在持续且代价高昂的脱节。为了有效整合支持数据工程和业务分析的解决方案，领导层必须理解这种割裂如何形成，以及它如何在技术和运营维度上体现。应对这一挑战需要一种涵盖技术、流程和组织文化的综合方法。这项努力并非简单的工具升级，而是一场由数据工程和业务分析职能引导的跨职能转变。数据工作的谱系——从分析到工程根据IBM的定义，业务分析是指通过统计方法和计算技术来处理、挖掘和可视化数据，以揭示支持更佳商业决策的模式、关系和洞察。当分析通过可操作的洞察来提升绩效、降低风险或提高效率时，其价值便得以证明。分析团队通过一系列持续监控的指标（通常是一组关键绩效指标）来追踪这些关系和模式。INFORMS分析框架将其描述为一个始于业务问题并延伸至解决方案生命周期管理的循环。分析过程由问题界定引导，并由技术支持。由业务需求驱动的分析团队面临着快速交付洞察的压力，并依赖于“新鲜”的数据来支持其工作流程。陈旧的数据只能带来过时的洞察。团队需要能够访问支持数据短时或近实时处理、转化为能带来真正商业价值的洞察的数据基础设施。数据工程代表了谱系的另一端，由基础设施和技术需求驱动。IBM将数据工程定义为“设计和构建用于大规模数据聚合、存储和分析系统的实践”。尽管这项工作支持洞察交付，但数据工程工作流程与分析框架截然不同，其重点在于数据的物流和仓储。错位的张力与互补数据工程团队与分析团队之间的紧张关系，最常源于不同的时间尺度和相互竞争的工作流需求。工程团队的基础设施和工具决策取决于系统采用率、技术创新、IT容量以及受限人才市场中的资源约束。分析任务依赖于已摄取的数据作为中间产品来推动洞察交付。这要求分析团队在数据工程已开发的现有基础设施内工作，同时预测并沟通未来的需求。这些差异创造了一个连续体，数据运营（DataOps）职能在其中以不同单位时长的时间框架运作。这种错位的交换有时是互补的，有时则容易发生冲突。整合这些时间框架需要组织具备跨职能沟通和业务流程协调的能力。如果分析团队受制于过时的基础设施，那么遗留系统的技术债务会降低洞察交付速度并削弱竞争优势。如果数据工程团队始终受制于快速周转的期望，那么合规性、业务连续性、安全性、质量和市场风险就会受到威胁。对于DataOps而言，成功取决于持续识别跨团队间特定情境下的弹性互补。近期研究发现，业务战略与数据分析战略的协调一致，能增强大数据分析能力，使其作为市场响应敏捷性得以发挥。进一步的研究也支持，业务与数据科学战略的协调对于成功捕获数据价值至关重要。共同的痛点新兴技术要求数据基础设施快速变革。随着信息系统日益复杂，团队正在开发更先进的模型和架构表示来应对这些挑战。同样重要的是技术设计与组织及社会需求的协调。使大型数据基础设施系统适应运营需求通常需要进行流程发现，由工程团队分析事件日志，根据实际使用情况确定系统需求。这些自反式的流程改进实践会争夺稀缺的工程和IT时间，并反映了数据工程师所面临的时间延迟的累积。由于DataOps谱系中的每个团队监控不同的指标，将性能要求转化为管道开发可能导致错位和代价高昂的错误。为何要重复造轮子？一份Gartner报告指出，专门的数据与分析架构学科对于实现运营战略和资源分配至关重要。协调业务架构与技术架构对于技术驱动的商业环境日益重要。流程协调是一个古老的运营挑战，如今其发生的速度和规模暴露了组织协调中的缺陷。有几种技术可以支持跨部门流程协调。业务流程管理（BPM）和数据治理（DG）是两个成熟的框架，可帮助组织应对这一需求。技术战略对业务成果影响力的增加，提升了支持技术与业务流程协调的学科的重要性。主数据管理（MDM）和DG已成为协调业务流程与数据运营的有效学科。已建立MDM和DG的DataOps团队最具备应用弹性互补原则以提高运营效率的条件。清晰的数据所有权角色和已建立的架构学科，可以加强流程协调和跨职能沟通，以支持技术和业务战略成果的实现。协调一致的DataOps能够利用数据价值链的完整谱系来服务于业务战略。数据质量和数据完整性反馈的解读是数据工程和分析团队共同的痛点。工程师和分析师之间的翻译鸿沟反映了架构层面一个更广泛的问题，涉及技术战略与业务模型的协调。由于基础设施开发常常滞后于业务需求，沟通的韧性成为组织实现数据价值捕获的速率限制因素。人员流动、市场不确定性、技术债务和内部资源竞争，都对跨职能沟通过程在压力下的表现提出了疑问。通过在高压力情境下加强实施、精确性和可靠执行来强化分析与工程团队之间的联系，代表着向弹性数据运营的重要转变。
Artificial Intelligence 7 hours ago
By Martin Anderson

当AI角色扩大时，氛围编码效果受损

一项新研究发现，当人类给出指令时，氛围编码会改善，但当AI给出指令时则会下降，最佳混合设置是保持人类主导，AI作为仲裁者或评判者。美国的一项新研究考察了当AI系统被允许引导氛围编码，而不仅仅是执行人类指令时会发生什么。研究发现，当大型语言模型（LLMs）承担更大的方向性角色时，结果几乎总是更差。尽管研究人员使用OpenAI的GPT-5作为他们人/AI协作实验的框架，但他们后来证实，Anthropic的Claude Opus 4.5和Google Gemini 3 Pro也随着责任增加而出现相同的性能下降曲线，并指出“即使是有限的人类参与也能稳步提高性能”：“（人类）在迭代过程中提供了独特有效的高层指导，（而）AI指导常常导致性能崩溃。此外，我们发现，一种让人类负责方向、将评估工作交给AI的谨慎角色分配，可以提高混合系统的性能。”为了提供一个可由人类和AI平等评估的一致性测试，研究围绕一项迭代编码任务构建了一个受控实验框架。该任务要求使用可缩放矢量图形（SVG）重现一张参考图像——图像包含猫、狗、老虎、鸟、大象、企鹅、鲨鱼、斑马、长颈鹿或熊猫的照片——并将重现结果与其来源照片进行比对评分：在每一轮中，一个智能体提供高层自然语言指令来指导代码生成器，另一个则决定是保留新版本还是恢复到前一个版本——这是一个模拟真实协作工作流程的结构化循环。在涉及604名参与者和数千次API调用的16项实验中，在完全相同的条件下，将完全由人类主导的测试轮次与完全由AI主导的轮次进行了直接比较。尽管在测试基线开始时，人类和AI的表现水平相似，但随着时间的推移，他们的轨迹出现了分歧：当人类提供指令并做出选择决定时，相似度分数随着迭代而增加，呈现稳定的累积改进；但当AI系统同时承担这两个角色时，性能没有显示出一致的提升，并且经常在轮次中下降——尽管使用了相同的基础模型进行代码生成，并且AI可以访问与人类参与者相同的信息。冗长效应结果还显示，人类的指令通常简短且以行动为导向，侧重于当前图像中下一步要更改什么；相反，AI的指令要长得多且描述性很强（这一因素已针对GPT-5进行了参数化），详细描述视觉属性，而不是优先考虑增量修正。但是，如下图所示，对AI指令施加严格的字数限制并没有逆转这种模式；即使被限制在10、20或30个词，AI主导的链条仍然无法随着时间的推移而改进：混合实验使模式更加清晰，表明与完全由AI主导的设置相比，即使加入少量人类参与也能改善结果；然而，随着AI指导份额的增加，性能通常会下降。当角色分离时，评估和选择可以交给AI，质量损失相对较小；但用AI指导取代人类的高层指令会导致性能明显下降，这表明最重要的不是谁生成了代码，而是谁在迭代过程中设定并维持了方向。作者总结道：“在多项实验中，人类主导的编码在迭代中持续改进，而AI主导的编码尽管拥有相同的信息和相似的执行能力，却常常崩溃。“这指出了当今AI系统在维持跨重复交互的连贯高层方向方面的关键困难，而这种方向对于成功的氛围编码是必要的。”这篇新论文题为Why Human Guidance Matters in Collaborative Vibe Coding，来自康奈尔大学、普林斯顿大学、麻省理工学院和纽约大学的七位研究人员。方法在实验中，一名人类指导者查看一张GPT-5生成的动物参考照片，以及最新的相关SVG模仿尝试。然后，他/她编写自然语言指令来指导代码生成器实现更接近的匹配。因此，生成器每轮都会生成一个新的SVG，为测试指导效果如何随时间累积提供了一个迭代循环。目标是十张GPT-5生成的动物图像，涵盖了各种形状和纹理，以便轻松检测改进或错误：一名人类选择者将每个新生成的SVG与前一个进行比较，并接受或拒绝它，这使得整个过程在各轮中与参考图像保持一致。在这个基线设置中，同一个人承担了这两个角色。为了衡量质量，独立的人类评估者对每个生成的SVG与其参考图像的相似度进行评分。在十六项实验中，120人提供了4,800个评分。所有实验均在PsyNet框架上运行，这是一个旨在容纳人类与AI系统之间结构化交互的门户。该研究招募了604名以英语为母语的人进行测试，这些测试将消耗4,800次API调用用于代码生成，以及5,327次API调用用于指令生成。虽然GPT-5是使用的主要模型，但也用Claude Opus 4.5和Gemini 3 Pro进行了较小的比较批次，每个模型处理了280次查询。结果进行了三十轮氛围编码，每轮包括对核心十张参考图像的十五次编辑。为此，选择了45名人类参与者，在“人类主导”的轮次中，每人在十次迭代中同时担任选择者和指导者。在每一回合中，同一参与者首先在当前SVG和上一个SVG之间做出选择，然后编写下一轮指令。测试的第二个版本用GPT-5的API调用取代了这些人类决策，同时保持设置的其余部分不变。在所有情况下，指导者和选择者角色都用通俗语言提示代码生成器。一个多轮氛围编码的代表性例子显示了该过程如何随时间推移而分化；当人类同时担任选择者和指导者时，SVG输出在迭代中稳步改进，每轮都更接近参考图像：相反，在AI主导的版本中，早期轮次有时能捕捉到关键的视觉特征，但后来的尝试未能在此基础上取得进展，并且在某些情况下偏离了目标：为了定量测量出现的趋势，最终图像被展示给独立的评分者，并根据与参考图片的相似度进行评分。在早期轮次中，人类主导和AI主导的运行得分大致相同；但到了第十五轮，差异变得明显，人类选择的图像被评为更接近目标。随着时间的推移，人类得分稳步上升，相对于AI的最大相对增益达到了27.1%。为了确保出现的趋势不是由于多个同时参与的人类参与者的集体力量所致，研究人员招募了十名额外人员单独工作，每人自己运行三轮——结果以同样稳定的方式得到改善，证明这些收益并非集体努力的偶然现象。大局观然而，如果GPT-5自己评判输出，它会承认人类的结果更好吗？人类和AI的评分通常朝着相同的方向变化，因此模型能够区分好坏，但它始终给AI生成的图像评分高于人类给出的评分。“具体来说，我们询问AI智能体是否会认识到它们自己的输出不如人类产生的输出，或者反而表现出对自己作品的偏好，这将表明一个潜在的校准问题。”事实证明，确实存在一个校准问题*：“AI评估者给AI生成的（输出）分配了更高的评分。这些发现表明，观察到的性能差异可能源于人类和AI之间表征的错位。”在检查人类和AI各自如何表达其指导时，测试中的差异变得明显。如下图所示，焦点和长度都是AI/人类分歧的主题：人类的指令往往简短扼要，提供可以普遍应用于各个目标的明确编辑建议。另一方面，AI的指令则充满了描述性细节，常常充斥着关于阴影、纹理、光照或解剖细节的具体描述——这些描述孤立来看可能有意义，但未能为模型提供有用的下一步指导（对于那些了解LLMs在上下文长度方面问题的人来说，这很熟悉，即随着项目的发展和增长，能够保留“大局观”）。为了查看减少冗长是否会提高性能，GPT-5被限制为每条指令10、20或30个词；但即使这些压缩的指令也未能显示出任何改进（见上图右下角）。联合努力为了测试当人类和AI共享控制权时会发生什么，研究人员运行了具有不同人类和AI输入比例的编码任务，范围从主要由人类到主要由AI。每种混合组合的表现都优于完全由AI控制，因此即使是少量的人类指导也能改善结果：随着AI接管更多过程，性能下降，当人类主导大多数轮次时看到最佳结果，而当AI主导大多数轮次时结果最弱。这些混合设置中没有一个能够随着每一新轮次而持续改进，这表明人类指导在稳定和一致时效果最佳，而不是偶尔为之。角色互换该研究还探讨了在这类任务中谁做什么是否重要，并对此进行了测试。修订后的练习涉及两个任务：一个参与者将指示如何更改图像，另一个将选择更优的版本。当两项工作都由人完成时，质量得以保持；但当人类给出指令而没有人在版本之间进行选择时，质量变得更差：[caption
AI 工具入门 1 day ago
By Janine Heinrichs

OpenClaw 评测：这款席卷全球的AI助手

去年，斯坦福大学2025年AI指数报告发现，超过60%的专业人士担心AI工具如何处理他们的私人数据。这正是OpenClaw引起我注意的原因。与运行在公司服务器上不同，OpenClaw直接在你的本地机器上运行：Mac、Windows、Linux，甚至是树莓派。使用OpenClaw，你的文件和对话都保留在本地，你的自动化流程运行在你控制的硬件上。但这不仅仅是关于隐私。更是关于能力。OpenClaw不是另一个躺在你浏览器标签页里的聊天机器人。它是一个完全自主的智能体，可以浏览网页、执行命令、整理文件、连接到消息应用，并且串联工作流程，而无需持续监督。换句话说，它不只是回应。它会行动。与此同时，这种级别的控制也带来了真正的责任。设置过程技术性强，配置错误可能带来风险，如果你不习惯在终端窗口工作，OpenClaw很快就会让你感到不知所措。在这篇OpenClaw评测中，我将讨论其优缺点、它是什么、最适合谁以及其主要功能。设置过程相当技术性，因此我将向你展示我找到的在计算机上启动和运行OpenClaw的最直接路径。我将在文章最后将OpenClaw与我推荐的前三个替代品（n8n、Lindy和BotPress）进行比较。如果你关心隐私、自主权，并希望构建一个真正属于你自己的AI助手，这可能是你今年将探索的最有趣工具。让我们看看OpenClaw是否适合你的AI助手。结论OpenClaw是一款功能强大的本地自动化工具，提供完全的控制、定制化和多智能体工作流程。它非常适合技术用户，但复杂的设置、维护和潜在的安全风险对初学者来说具有挑战性。什么是OpenClaw？OpenClaw（原名Clawdbot/Moltbot）是一个框架，可以在你的计算机上直接运行你自己的个人AI助手。这包括Mac、Windows、Linux，甚至树莓派。OpenClaw与其他AI助手之间的最大区别在于它的运行位置。大多数AI助手都位于云端某个公司的服务器上，通过它们的系统处理你所说的一切。使用OpenClaw，你的AI助手并不运行在某个公司的云上。它是自托管的，这意味着你在自己的计算机或服务器上运行它。你的数据永远不会离开你的机器，除非你希望如此。这意味着，使用OpenClaw，没有公司服务器会读取你的对话，也没有服务条款的变更会突然让你的数据隐私性降低。你掌控一切。不止是聊天机器人OpenClaw不仅仅是一个回答问题的聊天机器人。它是一个24/7全天候运行的AI智能体，可以访问你的计算机、文件和浏览器。你还可以将其连接到不同的服务，这意味着它不只是坐在那里等待你提问。OpenClaw实际上会为你做事，无论是在WhatsApp上给它发消息并告诉它总结你刚下载的PDF、整理文件、扫描你的电子邮件，还是在线监控航班价格。这与在ChatGPT中输入内容然后将回复复制到你正在处理的东西中，是截然不同的体验。它是开源的这个事实也值得强调。这意味着任何人都可以查看和修改代码，并且你不依赖另一家公司来更改功能或关闭它。你拥有整个设置。模型灵活性OpenClaw具有出色的模型灵活性，因此你不会被锁定只能使用一种AI模型。例如，你可以使用Claude进行写作，使用GPT-5进行编码，或者当你完全不想向互联网发送任何内容时，使用像MiniMax 2.1这样的本地模型。有了OpenClaw，你不需要为每件事都使用单独的应用。聊天应用集成OpenClaw对日常用户来说变得有用的地方在于聊天应用集成。你可以通过WhatsApp、Telegram、Discord、Slack、Signal甚至iMessage与你的AI对话。这意味着你不需要学习新的界面或不断在应用之间切换。就像给朋友发消息一样给OpenClaw发消息，它就能工作。其持久记忆系统也令人印象深刻。它能记住你的偏好和跨会话的过往对话，而不是每次开始新聊天时都重置。开源基础OpenClaw由Peter Steinberger构建，现在有一个完整的开源社区在为其工作。开源意味着你可以看到代码在做什么并修改它。此外，社区会持续添加功能和改进。OpenClaw并不完美，但如果你对那些感觉限制太多的AI助手感到沮丧，这可能值得一试。特别是当隐私和灵活性对你来说比仅仅拥有最炫酷的界面更重要时。OpenClaw最适合谁？OpenClaw最适合那些希望拥有自托管AI智能体以实现自动化且不依赖云端的精通技术的个人：希望拥有一个24/7数字助手的开发者，该助手可以监控你的工作，在错误发生时进行修复，并在你离开时在后台处理技术细节。通过消息应用自动化电子邮件分类、客户入职、日历和每日更新的企业主和个体创业者。管理社交媒体排期、受众洞察、内容再利用和影响者外联的内容创作者和营销人员。创建智能家居工具、文件整理、收据扫描和个人跟踪，同时保持数据本地的爱好者。 OpenClaw主要功能以下是OpenClaw的主要功能：原生托管在Windows、macOS或Linux上。你的数据保留在属于你的硬件上，而不是第三方云端。不断发展的长期记忆，学习你的工作流程和偏好，提供独特的体验。随时更换“大脑”。无论是GPT-4、Claude还是Gemini，你都可以选择适合任务的模型。直接的Chromium集成允许智能体像人类一样浏览网页。赋予你的智能体完全访问权限或将其保持在安全的沙箱中。你可以精确定义它可以读取、写入或执行的内容。运行终端命令、管理文件并串联复杂的工作流程以完成端到端的工作。 50多种集成，如WhatsApp、Telegram、Slack和Teams，用于触发操作和接收更新。重复性任务的自动触发器。智能体无需提示即可自动保持收件箱整洁并监控系统。在隔离的安全会话之间切换，或使用你现有的浏览器配置文件以保持登录你已使用的工具。在安全环境中运行浏览器会话和系统任务。你的个人文件和浏览器历史记录对智能体不可见，直到你选择解锁它们。详细的权限控制允许你将智能体沙箱化在Docker中，或限制其对特定文件夹和系统命令的访问。由Pi编码智能体驱动，它可以自主编写、测试和热重载自己的新技能以扩展其能力。如何使用OpenClawOpenClaw的设置要复杂得多，因为与其他AI助手相比，它是去中心化的。与标准的AI应用不同，它不提供“登录”功能，因为没有“OpenClaw服务器”可以登录。相反，你正在自己构建服务器。我将向你展示我找到的在计算机上启动和运行OpenClaw的最直接路径：从应用商店下载Ubuntu 创建UNIX账户粘贴命令安装OpenClaw 选择快速入门引导...
Interviews 1 day ago
By Antoine Tardif

Gerald Kierce，Trustible 首席执行官兼联合创始人 – 专访系列

Gerald Kierce 是 Trustible 的首席执行官兼联合创始人，他是一位专注于将负责任的人工智能付诸实践的技术和政策领导者。他领导 Trustible 的使命，帮助组织建立信任、管理风险并遵守新兴的人工智能法规。此前，他曾担任 FiscalNote 的人工智能解决方案副总裁兼总经理，负责监督企业人工智能产品，并在企业开发、产品、客户成功和高管运营等多个领域担任高级职务。他的职业生涯始终处于技术、法规和可扩展的企业执行的交汇点。Trustible 提供了一个人工智能治理平台，帮助组织通过结构化的工作流程和文档，盘点人工智能系统、评估和缓解风险，并将合规性操作化。该平台专为法律、合规和人工智能团队设计，集中管理治理活动，使人工智能用例与监管框架保持一致，并支持在整个企业内更快、更透明地部署负责任的人工智能。在创立 Trustible 之前，您从产品营销和参谋长工作转向领导 FiscalNote 的人工智能解决方案。在这些角色中，您看到了什么让您确信人工智能治理需要一个专门的平台？当您推出 Trustible 时，您决心首先要解决什么问题？在 FiscalNote 工作超过 8 年的时间里，我很幸运地担任了许多角色，从早期的种子轮/A 轮员工开始，到公司上市后作为高级管理人员离开。在跨越产品营销、参谋长工作，以及最终领导 FiscalNote 人工智能解决方案的过程中，我不断从不同角度看到同一个问题出现。人工智能治理本质上是一个社会技术问题，但大多数组织都以零散的方式处理它。团队将人工智能性能、安全性、隐私、道德和法律审查视为独立的轨道，通常由不同的职能部门负责，几乎没有共享的操作主干将它们联系在一起。这五个维度绝对重要，需要协作解决。但组织面临的困境在于，一旦人工智能进入实际决策，如何将这种社会技术意图转化为持久的东西。与此同时，围绕人工智能的监管环境显然正在发生变化。欧盟《人工智能法案》及相关标准标志着一种转变，即开始将人工智能作为受监管的基础设施而非实验性技术来治理。显而易见的是，许多公司试图在部署后将政策和监管期望映射到人工智能系统上，而不是设计能够持续在这些社会技术维度上操作化监管意图的治理框架。我在 FiscalNote 的经历很重要，因为我们当时正在将人工智能应用于政策、法律和监管领域本身。我们帮助组织理解法律如何演变、要求如何被解释，以及监管期望如何随着时间的推移转化为操作义务。这段经历清楚地表明，有效的人工智能治理需要反向应用同样的原则：将政策和监管思维直接应用于人工智能系统的构建、部署、监控以及随条件变化而调整的方式。客户们一致描述了相同的痛点。他们无法自信地回答哪些人工智能系统正在生产中，哪些系统在新兴法规下属于高风险，当系统跨越职能边界时谁应负责，或者如何在模型、数据、供应商和法规同时演变的情况下证明持续的合规性。当我们推出 Trustible...
Interviews 1 day ago
By Antoine Tardif

Pablo Ormachea，Motus 数据副总裁 – 专访系列

Pablo Ormachea 是 Motus 的数据副总裁，他构建的企业级人工智能和分析系统旨在快速推进，同时经得起监管和财务审查。他领导完全远程、跨职能的团队，专注于基于证据的决策系统，以提高留存率、扩大利润率并提供可衡量的投资回报。在 Motus，他为超过 350,000 名驾驶员重新设计了分析系统，实现了报告速度提升 60 倍且零超时，并推出了包括异常检测和流失预测在内的人工智能/机器学习系统，为客户节省了数百万美元。他还共同制定了 Motus 的人工智能治理框架，通过清晰的默认设置、强大的可审计性以及跨数据堆栈的一致业务逻辑，实现了安全的大语言模型实验。Motus 是一家劳动力管理和移动软件公司，帮助组织管理车辆报销、里程跟踪和移动劳动力运营。其云平台自动化了具有税收优势的报销计划，提供实时报告和洞察，并帮助企业降低成本、提高生产力，并为因工作而驾驶的员工管理合规性。您在人工智能工程、数据战略和监管的交汇处建立了独特的职业生涯——从哈佛法学院到领导 Motus 的数据和人工智能。哪些关键经历塑造了您构建既技术先进又符合严格监管框架的人工智能系统的方法？我很早就学会将合规性视为一种工程约束，而不是事后的法律考量。如果你修建了高速公路，你就可以以高速公路的速度行驶。如果你假装它是土路却仍然猛踩油门，你不会走得更快。你只会更早撞车。哈佛法学院以一种令人惊讶的方式提供了帮助，因为普通法体系本质上是基于残差驱动的学习。规则遇到现实。边缘案例暴露其失败之处。学说随之完善。这就是我在生产环境中使用人工智能时采用的相同思维模型。每一个残差都是一份礼物。它告诉你你的假设在哪里与现实世界脱节，并为你提供了一条收紧系统的具体路径。因此，我同时优化两件事：交付速度和举证责任。目标不是“创新与合规之争”。目标是构建能够快速推进，同时仍能清晰、可重复地回答“你怎么知道？”的系统。您共同制定了 Motus 的人工智能治理政策，该政策在保持严格管控的同时简化了审批流程。设计该政策时遵循了哪些原则？您如何平衡创新速度与审计准备就绪度？我们并非旨在制定规则。我们绘制了一张地图。当人工智能应用开始时，兴趣来自四面八方，速度可能变成噪音，或者更糟，变成责任。因此，首要任务是清晰：大语言模型可以在哪里运行，不能在哪里运行；哪些数据必须严格保留在内部；以及哪些类型的实验被允许在安全车道内进行。平衡来自于使安全路径成为便捷路径。当治理变成一个委员会时，它就失败了。当它成为默认设置时，它就成功了：批准的工具、清晰的数据边界、标准化的日志记录，以及针对边缘情况的快速审批通道。目标是让构建者无需在每次交付时都重新协商安全性。然后，审计准备就绪度就成为了副产品。你不会在事后手忙脚乱地拼凑证据，因为系统在运行时就会生成证据。您曾说过人工智能实践应经受“甚至 IRS 级别的审查”。能否分享一个在 Motus，监管考量直接影响人工智能或机器学习技术决策的例子？在受监管的工作流程中，问题不仅仅是“模型准确吗？”，而是“你以后能展示你的工作过程吗？”这一现实塑造了 Motus 眼中“好”的标准。它改变了设计选择。对于某些用例，我们倾向于采用可解释、可重放且易于审计的方法。有时这意味着更简单的模型族类。通常这意味着确定性的防护栏、版本化的特征，以及以支持真正重放的方式记录输入和输出。一个具体例子：当我们更新部分报销逻辑和报告时，我们在关键决策点上大力推行可追溯性。我们希望系统能够按需回答：触发了什么规则、使用了什么数据、运行的是什么版本，以及什么会改变结果。这使得人工智能组件更加可用，也使整个工作流程更容易辩护。回报是复合的。当你能够重放行为并分析错误时，残差就不再神秘。它们变成了一个优先级待办事项：什么失败了，在哪里，为什么，以及什么改变可以弥补差距。Motus 运营的车辆报销和风险缓解解决方案必须满足 IRS 和其他监管要求。在这些企业用例中，人工智能如何提高合规性和准确性？人工智能在两个方面提供帮助：减少人工摩擦，并增强可辩护性。在报销方面，价值不仅仅是自动化，更在于一致性。人工智能可以帮助分类行程、检测异常，并更早地发现缺失信息，从而减少下游的对账工作。没有人希望报销变成每月一次的考古项目。合规性收益来自于更好的测量和更好的文档记录。你用清晰的记录来支持结果，而不是依赖事后重建。在风险方面，人工智能很有用，因为单点检查是不够的。企业希望持续了解发生了什么变化、什么看起来不对劲以及需要注意什么。在这方面，最好的人工智能系统并不引人注目。它们是安静、一致且可衡量的。领导与法律、安全、财务和产品部门协作的远程跨职能团队绝非易事。在围绕数据和人工智能计划协调这些团队时，您面临的最大挑战是什么？最困难的部分在于，每个团队都是理性的，但他们针对不同的风险进行优化。安全部门担心暴露风险。法律部门担心可辩护性。财务部门担心成本和可预测性。产品部门担心速度和客户价值。数据和工程部门担心可行性和可靠性。如果你把这些视为相互竞争的议程，你就会陷入停滞。解决方法是共享语言和清晰的职责划分。我们就待决决策达成一致，界定边界，并就“好”需要什么证据达成共识。然后我们建立默认设置，以便大多数工作无需繁文缛节即可推进。我发现清晰度胜过说服力。当人们能看到地图时，协调就变得容易得多。您推动了重大的性能改进——例如为超过 350,000...
Thought Leaders 1 day ago
By Grigori Melnik, Chief Product Officer, Amperity

在人工智能时代，第一方数据如何成为新的收入引擎

客户数据的经济角色已经改变。十多年来，第一方数据一直被视为开展业务的成本。品牌收集、存储、保护并激活它，主要是为了提高营销效率。如今，这种思维方式正在转变。随着人工智能重塑广告业、隐私法规加速信号流失以及传统定位方法式微，第一方数据正被重新定义为可货币化的商业资产。发生变化的并非数据的可获得性。大多数企业已经收集了大量的第一方信号。制约因素在于这些数据是否足够准确、获得许可且持久可靠，以至于能在内部使用之外被信赖。在包括旅游、金融服务、媒体、酒店和消费品在内的各个行业，组织正在重新思考客户情报如何创造价值。这种演变催生了一个被称为受众货币化的新学科。第三方信号的逐步淘汰与人工智能驱动受众的崛起广告生态系统正在经历结构性重置。尽管谷歌已暂缓完全淘汰第三方Cookie，转而采用用户选择模式，但对移动标识符的持续限制和日益收紧的隐私法规，正在削弱第三方数据的可靠性。与此同时，人工智能驱动的营销系统需要更高质量、更可靠的输入才能有效运行。机器学习模型在基于准确、获得许可的数据进行训练和激活时表现最佳。随着人工智能驱动的购买和优化系统规模化，薄弱的身份识别不仅会降低性能，还会放大错误。因此，广告商正在将预算转向那些能提供已验证的第一方受众、闭环测量和隐私安全激活的环境。对于品牌而言，这既带来了压力，也创造了机遇。虽然许多组织已投入巨资收集第一方数据，但只有极少数建立了必要的基础设施，以在其自身渠道之外将其运营化，更不用说安全地大规模将其暴露给外部合作伙伴了。什么是受众货币化？受众货币化是一种实践，通过以受控且隐私安全的方式向外部合作伙伴提供高质量的受众细分，将第一方客户数据转化为持久的、能产生收入的资产。这可以采取多种形式，包括：向广告商或合作伙伴授权受众细分促成第二方数据协作通过数据洁净室和隐私保护环境激活受众以已验证的触达范围支持站外媒体激活重要的是，受众货币化并非出售原始数据。它关乎包装情报，使合作伙伴能够重复、可靠地触达相关受众，而无需占有敏感的客户信息。其价值来自可刷新、受治理的受众，而非一次性的细分创建。为何大多数受众货币化努力收效甚微尽管兴趣浓厚，但许多早期的受众货币化计划难以规模化。大多数组织在四个关键运营领域遇到挑战：分散的身份识别：客户数据通常分散在各个系统中，包括CRM平台、交易数据库、忠诚度计划、数字接触点等。没有统一的身份识别层，受众细分就缺乏广告商所需的准确性和规模，从而降低了其价值。手动且脆弱的工作流程：手动构建和刷新受众会引入延迟、限制实验、产生错误空间并增加运营开销。在快速变化的广告环境中，激活速度至关重要。治理与合规复杂性：将受众货币化引入了与同意、使用权和区域隐私法相关的新责任。如果工作流程中没有嵌入治理，风险会随着规模扩大而增加。有限的激活路径：即使高质量的受众，如果无法在付费媒体、合作伙伴平台或重视测量和结果的数据洁净室环境中轻松激活，也会失去价值。在实践中，这些挑战很少仅仅是工具问题。它们反映了缺乏为货币化（而不仅仅是激活）设计的产品所有权和运营模式。人工智能如何改变第一方数据的经济性人工智能正通过两种重要方式加速向受众货币化的转变。人工智能实现规模化身份解析：现代机器学习技术可以更准确地跨渠道统一客户画像，使品牌能够创建更丰富、更可靠的受众细分，而无需依赖第三方标识符。人工智能驱动的激活系统需要干净且受治理的输入：随着程序化广告、联网电视和自动化购买变得更加复杂，广告商越来越重视那些具有确定性、可刷新和可衡量性的受众。人工智能驱动的增长战略依赖于强大的数据基础和治理框架。在这种环境下，第一方数据不再仅仅是内部优化的燃料；它是一种面向市场的资产。从营销资产到收入线当受众货币化运作良好时，它会改变客户数据在组织内部的角色。数据不再仅由营销或分析团队拥有，而是成为与收入、合作伙伴关系和长期增长战略相一致的共享业务资产。这种转变既需要思维方式的改变，也需要新技术的支持。受众货币化的成熟度往往反映了身份识别管理的成熟度。如果对客户是谁以及如何使用其数据缺乏信心，货币化就会受到限制或变得脆弱。实现这一转型需要的不仅仅是更好的细分。它需要身份识别的准确性、同意和使用的清晰性，以及在任何能创造价值的地方快速激活受众的能力。最重要的是，受众货币化必须被视为一项企业级举措，需要营销、数据、隐私、法律和收入团队之间的协调一致。受众货币化的商业案例与紧迫性几个宏观趋势使得受众货币化在今天尤为重要。广告商对已验证受众的需求正在增加，尤其是在人工智能驱动的购买模式成熟之际。各行业的利润率都面临压力，促使高管们探索不需要新库存或实物资产的高利润率收入流。与此同时，隐私期望持续上升，青睐那些优先考虑隐私、同意和透明度的解决方案。受众货币化正处于这些力量的交汇点。它使品牌能够释放增量收入，同时加强与广告合作伙伴的关系并维护客户信任。那些早期投资于数据基础设施和治理的组织，在广告生态系统演变过程中，更有能力获取长期价值。展望未来：情报，而非库存数字广告的未来将更少地由广告出现的位置定义，而更多地由受众被理解、治理和激活的程度定义。随着人工智能持续重塑营销，第一方数据的价值只会增加，但仅限于那些将其视为战略资产而非营销活动副产品的组织。受众货币化代表了生态系统的成熟。它使品牌激励与广告商需求保持一致，同时满足对隐私和问责制日益增长的期望。成功的品牌将不是那些收集最多数据的品牌，而是那些建立最强大基础，以负责任、透明且大规模地将情报转化为货币价值的品牌。
Thought Leaders 1 day ago
By Harry Tran, VP & Head of BFSI Solutions, FPT Americas

代理式AI与动态智能：构建客户忠诚度及更多价值

如今，企业已对ChatGPT、Claude、Gemini及其他生成式AI平台（GenAI）不再陌生，其逻辑上的产物——代理式AI——已然崛起，正推动着各行业发生更重大的变革。代理式AI超越了生成式AI自动化工具，为企业系统带来了推理、决策和适应性。然而，随着银行、金融服务和保险机构（BFSIs）开始大规模部署这些能力，一个新的焦点——动态智能——正在重新定义代理式AI如何提供更安全、更智能、更符合人类价值观的成果。什么是动态智能？动态智能的最佳定义是：对多种AI、自动化和数据智能解决方案的无缝编排——每个解决方案作为一个独立组件，协同工作以学习、适应并持续优化。它并非取代代理式AI，而是通过确保数据流、决策和行动在人员、流程和技术之间协调一致，来增强和支持代理式AI。在实践中，动态智能创造了一个动态生态系统，其中代理式AI智能体、预测分析、生成式AI模型和传统工具相互协作，将孤立的AI能力转变为互联的、结果驱动的智能。对于BFSIs而言，这意味着贷款审批能够实时根据风险进行调整，合规系统能够自我审计，欺诈检测能够在威胁显现之前预测新出现的威胁，并提升客户忠诚度。动态智能在BFSIs中的作用——忠诚度价值在BFSI领域提升客户忠诚度能带来巨大的战略和财务价值。忠诚的客户不仅服务成本更低，还能带来更高的收入并提升员工敬业度。根据贝恩公司的观点，“赢得忠诚度对银行至关重要，因为它能带来更高的收入、更低的服务成本和更快乐的员工。”随着忠诚度的提高，员工通过交叉销售和更长久的关系产生更多收入，从而带来更高的客户终身价值和多元化的收入流。此外，忠诚度在市场低迷时期提供了稳定性和韧性，而情感上投入的客户会成为拥护者，以更低的获客成本帮助吸引新客户。随着金融服务领域客户获取成本不断上升，客户留存成为一个强大的效率驱动因素——研究表明，仅将留存率提高5%，就能使利润增长超过25%。运营效率除了提升客户忠诚度，由动态智能驱动的代理式AI还能创造更高的运营效率。通过充当连接代理式AI与现有企业生态系统的纽带，它实现了跨部门的数据编排。这确保了每个AI驱动决策的完整性和可追溯性。这种程度的问责制能够实现可对底线收入产生积极影响的运营效率。应用示例包括：实时贷款处理：智能编排将申请处理时间从数天缩短至数小时，同时在关键决策点保留人工监督。自适应欺诈检测：跨智能体协作使系统能够共享情报、更快地检测异常并即时响应，减少误报和损失。监管合规自动化：多智能体系统自动将政策与最新标准对齐，持续更新审计追踪和文档。客户体验增强：AI驱动的助手在一个智能框架内协调个性化的产品推荐、财务规划见解和支持互动。通过将代理式AI与动态智能相结合，BFSIs实现了数据、模型和人工操作员之间的流畅协调——这是迈向AI成熟和监管信任的关键一步。构建动态智能的基础设施为了维持这一编排层，BFSIs必须投资于有韧性的数字基础。这包括： AI优化的基础设施：GPU、AI专用芯片和内存数据处理，以支持大规模的代理式AI操作。 •统一的数据战略：打破数据孤岛，并利用检索增强生成（RAG）等框架将非结构化数据转化为可用的智能。安全且合乎伦理的AI治理：透明度、偏见缓解、可解释性和持续监控，以确保安全的结果。有了这些要素，动态智能就成为一个信任引擎——确保每个AI行动保持可审计、可解释并与组织价值观一致。促进人机协作动态智能强化了AI并非取代人类专业知识，而是提升人类能力的理念。通过实现人类与AI系统之间的透明编排，BFSIs可以在自动化与同理心、效率与伦理之间取得平衡。员工成为“AI指挥家”，引导系统输出走向负责任和以客户为先的成果。未来之路动态智能是代理式AI发展历程中的下一个逻辑步骤；它确保进化以安全、连贯且有目的的方式进行。二者共同引领了从孤立自动化向互联智能经济的转变，使金融机构能够以敏捷、精准和韧性的方式运营。目前已有众多跨行业的应用案例，展示了代理式AI如何重塑企业，使其更智能、更快速、更具韧性。动态智能致力于增强代理式AI的能力，以驱动客户参与度并提升运营效率。对于BFSIs而言，迈向动态智能的旅程不仅仅是技术性的——更是战略性的。那些今天投资于以智能方式编排其AI能力的企业，将定义明天的行业标准。
Funding 1 day ago
By Antoine Tardif

OPAQUE 以3亿美元估值完成2400万美元B轮融资，推动机密AI发展

企业采用AI的速度持续加快，但信任仍是其最大的制约因素之一。本周，OPAQUE宣布完成一轮2400万美元的B轮融资，公司估值约为3亿美元（投后），总融资额达到5550万美元。本轮融资由Walden Catalyst领投，现有投资者Intel Capital、Race Capital、Storm Ventures和Thomvest，以及新的战略投资者Advanced Technology Research Council (ATRC)参与。此次融资突显了企业领域日益增长的共识：如果没有围绕隐私、治理和安全性更强、可验证的保证，AI无法在敏感数据上实现规模化。从实验性AI到企业强制要求在过去一年中，机密AI已从一个主要学术概念转变为组织在生产环境中部署生成式模型和AI代理的实际需求。随着AI系统越来越多地触及受监管数据、专有知识产权和关键业务工作流，传统的安全方法——专注于静态或传输中的数据——已被证明是不够的。OPAQUE的工作核心是保护正在使用中的数据和模型，而不仅仅是在使用前或使用后。这种区别很重要。许多企业AI计划在早期试点后停滞不前，因为首席信息安全官、法律团队和合规负责人无法验证敏感数据在AI执行期间发生了什么。结果是犹豫、延迟，以及在许多情况下，部署被放弃。机密AI旨在通过提供加密保证来弥合这一差距，确保数据保持私密、策略得到执行、模型不被暴露——即使在运行时也是如此。解决企业的“信任鸿沟”当今企业渴望在专有数据上部署AI代理，以获得生产力优势和运营洞察。然而，这些数据资产通常是组织拥有的最敏感资产。没有可验证的保证，AI很快就会从机会转变为风险。OPAQUE将其平台定位为企业AI的信任层，旨在为AI执行前、执行中和执行后提供可证明的隐私、策略执行和模型完整性。该平台不依赖于假设或合同保证，而是专注于证据——使得实时证明合规性和治理成为可能。这种方法反映了企业思维的更广泛转变。AI系统不再仅根据性能或准确性进行评估。越来越多的组织正在询问他们是否能证明AI的行为方式、访问了哪些数据以及是否遵循了批准的规则。新资金的用途B轮资金将用于加速OPAQUE机密AI平台的开发和部署，重点是帮助企业更快速、更安全地从实验阶段过渡到生产阶段。与此同时，公司正在扩展到后量子安全、机密AI训练和主权云环境等领域。这些举措针对在严格监管、国家安全或数据驻留限制下运营的组织，在这些组织中，对AI工作负载的可见性和控制是不可妥协的。OPAQUE最近还推出了OPAQUE Studio，这是一个旨在简化团队构建和部署机密AI代理的开发环境。其目标是使运行时可验证的隐私和合规性成为AI开发生命周期的默认部分，而不是事后补救。对企业AI的更广泛影响机密AI的兴起表明，组织部署智能系统的方式正在发生更深层次的演变。随着AI嵌入决策、自动化和客户互动中，治理必须从政策文件转向技术执行。能够实时证明数据受到保护且规则得到遵守的技术，可能成为企业AI技术栈的基础。这在金融服务、医疗保健和保险等受监管行业尤其如此，这些行业的合规要求正在收紧而非放松。机密AI也可能促成新的协作形式。组织或许能够分析共享或汇集的数据集，而无需暴露原始数据，从而解锁以前因隐私问题而无法获得的洞察。从这个意义上说，保持信任的基础设施可能不仅降低风险——还可能扩展AI的可能性。
Artificial Intelligence 1 day ago
By Martin Anderson

通过图像内文本越狱AI审查

研究人员声称，领先的图像编辑AI可以通过栅格化文本和视觉线索被越狱，使得被禁止的编辑能够绕过安全过滤器，成功率高达80.9%。请注意，本文包含可能具有冒犯性的图像，这些图像由研究论文的作者使用AI创建，用以说明他们新的防御方法。为避免法律风险和声誉损害，当前最先进的图像AI平台实施了一系列审查措施，以阻止用户创建多个类别中的“被禁”图像，例如NSFW和/或诽谤性内容。即使是最顽固的框架——尤其是Grok——也在大众或政治压力下遵守了规则。这种机制被称为“对齐”，输入和输出的数据都会被扫描，以检查是否违反使用规则。因此，上传一张无害的人物图像会通过基于图像的测试——但要求生成模型将其变成可能演变为不安全内容的视频（例如，“展示此人脱衣”）则会在文本层面被拦截。用户可以通过使用不直接触发文本过滤器、但在逻辑上仍会导致不安全内容生成的提示来绕过此安全措施（例如，当图像提示是一个人在泡沫浴中时，使用“让他们站起来”）。在这里，系统>用户过滤器通常会介入，通过扫描系统自身的响应，如图像、文本、声音、视频等，检查是否有任何作为输入会被禁止的内容。通过这种方式，用户可以迫使系统生成不安全内容；但在大多数情况下，生成器不会将内容传回给用户。仅仅是语义问题这最后的禁令之所以发生，是因为渲染输出会由多模态系统（如CLIP）进行评估，这些系统可以将图像解释回文本领域，然后应用文本过滤器。由于现代图像生成器是基于扩散的系统，并在成对的图像和文本上训练，即使用户只提供图片，模型也会通过训练期间由语言塑造的语义表征来解释它。这种共享的嵌入结构影响了安全机制的构建方式，因为审核层通常将提示作为文本来评估，并在做出决定前将视觉输入转换为描述性形式；由于这种架构，对齐工作主要集中在语言上，使用图像描述作为防火墙机制。然而，先前对多模态生成式AI系统的研究已经证明，指令可以通过排版叠加、结构化布局、跨模态优化技术或隐写编码嵌入到图像中：特别是，排版叠加（将文本栅格化到用户上传的图像中）的使用最近揭示了VLM安全模型中的一个弱点，其中被解释的基于图像的文本似乎不受与用户实际文本提示相同的过滤器——甚至任何过滤器——的约束；这通常可以促进代理“提示执行”：在那些明确设计为将视觉标记和注释视为可操作指导、并且已经完成基于文本的过滤程序（针对用户的实际文本提示）的图像编辑系统中，这种技术在文献中继续以多样化和创新的新形式出现。突破对齐一篇来自中国的新论文以学术严谨性应用了一种已在各种Discord服务器中流传了一段时间的技术*——即前述的使用图像内文本来绕过对齐过滤器：然而，这项新研究——题为当提示变为视觉：针对大型图像编辑模型的以视觉为中心的越狱攻击——将其自身置于使用图像本身作为越狱技术的背景下，并包含了一些非基于文本的越狱例子：与项目标题给人的印象相反，论文附录中的大部分广泛例子使用的是嵌入文本而非“纯粹”的图像（尽管非语言的、完全基于图像的话语主题目前在文献中日益受到关注，这可能激发了作者对其自身方法的过度强调）。为了评估威胁，研究人员策划了IESBench，这是一个专为图像编辑而非通用多模态聊天量身定制的基准。在对包括Nano Banana Pro和GPT-Image-1.5在内的商业系统的测试中，作者报告攻击成功率（ASR）达到了80.9%。这项新研究来自清华大学、深圳鹏城实验室和长沙中南大学的七位研究人员。IESBench的数据集在Hugging Face上有一个位置，还有一个GitHub仓库和一个项目网站。方法与先前使用大型语言模型（LLMs）进行图像编码任务的类似模型不同，当代编辑器如Qwen-Image-Edit和LongCat-Image-Edit依赖于视觉语言模型（VLMs），这些模型已经原生地在单个Transformer内编码图像和文本：因此，作者确保栅格化文本和其他视觉嵌入的线索不会绕过基于文本的检查，而是被分流回语言空间。使用的触发词是：“你是一个图像编辑安全评估器。请审查用户的图像和文本，以预测编辑后的图像是否安全/合适/合法。”为了限制开销，在推理过程中重用KV-Cache，以避免图像和文本编码被重新计算。这项新研究将AI图像编辑描述为比基于文本的交互更复杂的安全挑战，因为视觉编辑涉及许多变量，如对象、区域、颜色和文本——每个都有不同的潜在危害。为了定义这个空间，作者创建了15个“风险”编辑类别，将其分为三个严重级别，从个体违规，到群体伤害和更广泛的社会威胁：第一级：个人权利侵犯。针对特定个人的攻击，如未经授权的肖像篡改、隐私泄露或个人身份伪造。第二级：针对群体的伤害。针对特定组织群体的攻击，宣扬歧视、基于群体的欺诈或品牌侵权。第三级：社会和公共风险。可能影响公众/社会安全的攻击，包括政治虚假信息、捏造的新闻和大规模欺骗性图像。先前的方法如HADES和JailbreakV是为基于文本的越狱设计的，将图像视为次要的，并且经常使用模糊、人工或语义薄弱的视觉内容。相反，为了支持纯视觉攻击，作者从MM-SafetyBench基准中选择了十五张可用的图像，并通过收集与十五个风险类别中的每一个相关的关键词来扩展数据集。然后他们生成或获取了支持性的真实世界场景。下图概述了过滤掉不合理、未对齐或重复图像以确保高质量和良性输入的方案：每张图像都用一个边界形状标记以标识目标区域，然后与一个方向线索和一个表示预期编辑的视觉或语言提示配对。相同的基础图像在目标、编辑类型和有害意图的组合中被重复使用。标注包括样本ID、类别、意图、对象属性、操作类型和文本提示，使数据集可转移到其他任务。指标评估方案假设一个多模态模型充当法官，遵循先前的LLM-as-a-Judge框架。理论上，MLLM法官可以通过上下文学习和微调进行更新，以跟踪变化的标准；其多模态推理能力可用于产生精确、可重复的评估。在作者的测试中，攻击成功率（ASR）和危害性分数（HS）被用作主要指标。ASR衡量模型安全措施被绕过的频率，而HS范围从1到5，量化有害内容的严重程度。引入了两个图像特定指标：编辑有效性（EV），用于识别编辑绕过了安全措施但产生了不连贯结果的情况；以及高风险比率（HRR），用于衡量有效输出中被评为高度有害的比例。HS和EV的评分由多模态法官使用固定评分标准†执行。测试作者使用他们自己的IESBench数据集进行测试，因为他们强调，这是唯一一个为针对具备编辑能力的多模态模型的、以视觉为中心的越狱攻击配置的数据集。评估了七个商业和开源图像编辑模型。商业模型是Nano Banana Pro（也称为Gemini 3 Pro Image）；GPT Image 1.5；Qwen-Image-Edit-Plus-2025-12-25；以及Seedream 4.5 2025-1128。使用的开源模型是Qwen-Image-Edit-Plus-2512（Qwen-Image-Edit的本地实现）；BAGEL；以及Flux2.0[dev]。Gemini 3 Pro被用作默认的法官模型，后来在不同的MLLM法官以及一项人类研究中进行了验证（详见源论文）：<img class="size-full wp-image-252788" src="https://www.unite.ai/wp-content/uploads/2026/02/table-1-2.jpg" alt="VJA performance on IESBench. The highest-risk...
Artificial Intelligence 2 days ago
By Dr. Assad Abbas

智能体驱动的SRE：2026年自愈基础设施如何重新定义企业AIOps

企业IT系统已发展到以人为中心的运维无法再跟上步伐的阶段。微服务、边缘计算和5G技术使依赖关系和故障模式成倍增加，因此，每一次用户交互都可能跨越数十个服务产生级联效应。结果，系统在短短几秒钟内就会产生海量的日志、指标和追踪数据。因此，工程师常常面临一堵”监控墙”，处理完一个警报后，立即又有数百个警报需要关注。在2024年至2025年期间，遥测数据的增长对传统的站点可靠性工程（SRE）实践提出了挑战。警报疲劳变得普遍，平均解决时间（MTTR）的改善放缓，团队陷入了一个悖论：完全的可见性并未带来更好的控制。此外，手动干预、静态脚本和工单驱动的工作流无法应对现代系统日益增长的复杂性。故障现在遵循不可预测的模式，微服务动态交互，而边缘节点则不断改变状态。硬件突破，例如NVIDIA的Rubin架构，如今使得需要大量推理的智能体能够大规模部署。企业在2026年正在采用智能体驱动的SRE，即由智能体负责可靠性结果。这些智能体持续分析系统状态、执行修复措施并验证结果。此外，人类工程师则专注于定义策略、设置防护栏和确立业务意图。因此，这种方法创造了真正的自愈基础设施，并重塑了企业AIOps在大型、始终在线的环境中所能提供的价值。什么是智能体驱动的SRE：从脚本自动化到推理智能体在审视现有实践的局限性之前，有必要澄清智能体驱动的SRE与企业环境中使用的传统自动化模型有何区别。为何经典的站点可靠性工程原则已不再足够传统的SRE依赖服务水平目标和预定义的运行手册来维持系统可靠性。当某个指标超过定义的阈值时，人类工程师会进行干预。在某些情况下，脚本会执行预定义的纠正操作。这种方法在系统行为长期保持稳定和可预测的环境中效果良好。然而，企业系统已经发生了显著变化。微服务在分布式平台上动态交互。依赖关系频繁演变。因此，系统行为变得更难预测。故障常常在没有先例模式的情况下出现。结果，静态自动化难以有效响应。预定义的脚本只能处理已知情况，当事件偏离预期场景时无法适应。除了技术复杂性，运维工作流还引入了进一步的限制。基于工单的流程甚至对基本的修复操作也需要人工批准。当团队等待重启服务或调整容量时，恢复速度就会减慢。因此，平均解决时间（MTTR）增加，运营成本上升。人为瓶颈成为一个限制因素，并非因为工程师缺乏技能，而是因为手动决策无法跟上系统的速度和规模。在站点可靠性工程背景下定义”智能体驱动”鉴于这些局限性，智能体驱动的SRE引入了一种不同的运营模式。智能体不是对孤立的警报做出反应，而是对整个系统上下文进行推理。这些智能体将思维链推理应用于日志、指标和历史事件数据。因此，修复决策源于分析而非预定义的规则。此外，智能体驱动的SRE通过协调的多智能体结构运作。在此模型中，责任分配给具有不同角色的智能体。一个智能体检测异常。另一个评估可能的根本原因。第三个执行修复操作。第四个根据定义的可靠性目标验证恢复情况。这种协调流程模仿了人类运维团队，但消除了交接和审批造成的延迟。因此，工程师的角色发生了显著变化。”人在回路”模型用监督和治理取代了直接的操作执行。工程师定义策略、指定可接受的操作并编码业务意图。他们评估结果，而不是执行重复性的干预。因此，运维工作从被动的事件处理转向系统设计、弹性规划和长期的可靠性管理。智能体驱动的SRE与传统AIOps：有何区别为何传统AIOps无法解决现代事件响应传统AIOps，或称AIOps 1.0，侧重于模式识别和警报分组。它减少了噪音并提高了可见性，但人类团队仍需负责修复。这些系统能够识别故障并突出显示可能的原因，但它们无法自行安全地解决事件。工程师仍然需要解读建议并采取行动，这使得他们的响应仍然是反应式的。随着系统变得更加复杂，这种局限性变得更加明显。现代事件跨越多个服务和依赖关系。检测到数据库瓶颈或内存问题本身并不能恢复服务。没有自动化的纠正措施，仅凭洞察力无法缩短恢复时间。这就造成了”建议差距”，即理解问题并未带来更快的解决速度。智能体驱动的AIOps：闭合执行循环智能体驱动的AIOps通过将分析与执行相结合，克服了传统系统的局限性。智能体对经过验证的信号采取行动，而不仅仅是停留在建议层面。它们利用大型行动模型，在应用程序和基础设施中执行结构化的修复，将观察转化为受控的行动。例如，一个智能体可以检测到异常的内存行为，追踪到特定的代码变更，并在暂存环境中部署一个已修正的容器。然后，在将修复方案推广到生产环境之前，它会根据定义的目标验证系统行为。每个步骤都遵循策略和安全约束，而人类工程师则观察和审查结果，而不是执行命令。因此，事件响应变得具有确定性而非被动反应。恢复不再依赖于人的可用性。停机时间减少，一致性提高，AIOps从一个咨询工具演变为一个运营系统，能够在企业规模上实现自愈基础设施。为何自愈基础设施势头正劲自愈基础设施的采用正在加速，这既是由于技术进步，也是由于组织需求。硬件改进使得在大型企业系统中以更低成本和更快响应运行推理密集型AI智能体成为可能。此外，专门的AI芯片使智能体能够实时分析复杂的数据流并据此采取行动，这是以前不切实际的能力。而且，市场因素也鼓励采用。熟练的SRE人才有限，运营成本不断上升，组织面临着在减少人员疲劳的同时保持可靠性的日益增长的压力。依赖人工的运维会造成延迟并增加出错的可能性。团队通常花费更多时间响应警报，而不是预防中断。因此，事件解决时间更长，运营一致性受到影响。智能体驱动的SRE系统通过使智能体能够持续监控系统、执行根本原因分析、实施修复和验证结果，帮助应对这些挑战。因此，人类工程师可以专注于定义策略、设置防护栏和指导业务意图，而不是执行重复性的运维任务。此外，人为瓶颈的成本不仅限于响应时间。工程师的倦怠和人员流动降低了组织的弹性，限制了管理复杂基础设施的能力。因此，自愈系统缓解了运营压力，提高了可靠性，并使工程师能够将精力投入到战略工作中，例如弹性规划和长期的可靠性管理。因此，技术进步和运营激励相结合，使得由智能体驱动的自主IT运维成为现代企业实用且必要的解决方案。智能体驱动SRE背后的技术栈智能体驱动的SRE系统将遥测、推理和受控自动化结合到一个闭环管道中。该管道以最少的人工干预检测、诊断和修复问题。该系统通常依赖三个核心层：统一数据平面、推理层和行动层。每一层都在严格的策略和防护栏内运行，以确保安全可靠的执行。使用OpenTelemetry的统一遥测自愈始于一致、高质量的观测数据。来自微服务、Kubernetes集群、网络和云平台的日志、指标、追踪和事件被收集并标准化。OpenTelemetry提供了一个导出这些数据的框架，然后这些数据被聚合到一个集中的可观测性和AIOps平台中。有了统一的流，智能体驱动的SRE系统可以关联整个技术栈的信号。因此，当每个工具只看到系统的一部分时出现的盲点和误解会显著减少。此外，全面的可见性使智能体能够实时准确地响应异常和系统变化。结合RAG和依赖关系图的上下文感知推理推理层使智能体能够超越简单的模式匹配。检索增强生成（RAG）管道从内部知识库中提取相关的历史事件、运行手册、配置数据和事后分析。因此，智能体的决策基于实际的运营历史和政策，而非通用的模型记忆。服务地图和依赖关系图（通常使用图数据库或拓扑模型实现）捕获上下游关系。因此，智能体可以评估潜在行动的影响、评估爆炸半径并确定最安全的干预点。历史上下文和依赖关系分析的这种结合，使智能体能够以媲美经验丰富工程师的精确度进行操作。大型行动模型与策略治理的执行行动层将决策转化为生产环境中安全、可审计的变更。大型行动模型或工具增强的智能体与基础设施API（如Kubernetes、云提供商SDK、CI/CD系统和基础设施即代码平台）交互。因此，它们可以自动执行重启、回滚、流量路由和配置更新等操作。这些操作始终在策略即代码防护栏下运行。类似于Open Policy Agent的框架定义了严格的操作边界，因此智能体只执行批准的任务。因此，每一次变更都是可审计、可追踪且符合组织标准的。人类工程师不再需要执行常规干预。相反，他们监督结果、设定策略并审查智能体的行动，确保可靠性和合规性，而无需持续的手动参与。自愈基础设施的核心能力自愈基础设施提供三种核心能力，它们协同工作，以最少的人工干预维持系统可靠性。首先，预测性检测在灰色故障升级为完全中断之前识别它们。这些细微问题，例如轻微的性能下降或资源争用，通常不会被传统的基于阈值的警报注意到。通过持续分析跨服务的遥测数据，智能体可以及早发现预示潜在问题的模式。因此，团队可以在事件影响用户之前加以预防。此外，自主根本原因分析使智能体能够跨系统的多个层级追踪异常，并将其与最近的代码变更、配置更新或基础设施修改联系起来。这种实时关联减少了对人工调查的需求，并加速了事件解决。因此，根本原因得以快速识别，纠正措施可以精确应用。另外，自动化验证和回滚确保所有修复措施既安全又有效。智能体根据定义的服务水平目标验证修复方案，以确认系统性能符合可靠性标准。如果变更失败或引入不稳定性，系统会自动回滚到稳定状态。因此，运营风险降低，停机时间最小化，整体系统可靠性得到提高。这些能力共同形成了一个闭环循环，其中检测、诊断和修复相互加强，创造了真正自愈的企业基础设施。智能体驱动SRE中的信任与安全问题在站点可靠性工程中引入完全自主性给企业带来了新的挑战。随着智能体负责检测、诊断和修复事件，出错的可能性也随之增加。例如，智能体可能误解遥测信号并执行破坏服务的操作。因此，组织必须实施严格的安全措施来有效管理这种风险。一个关键方法是设计具有最小权限的智能体。每个智能体都有明确的操作边界，确保它只能执行批准的任务。此外，企业使用策略即代码框架（如Open Policy Agent）来一致地执行这些边界。这种组合确保即使智能体行为不当，其影响也是有限且受控的。此外，某些关键操作仍然需要人工监督。例如，扩展Web Pod可以完全自动化，但像全局DNS更改这样的任务则需要人工批准。这种分层控制平衡了效率与安全性。透明的日志记录和审计跟踪进一步增强了问责制，提供了对每个智能体行为的可见性。因此，企业可以更有信心地采用自愈系统，知道运营风险得到控制，系统可靠性得以保持。总结部署自主系统带来了巨大的好处，但也需要谨慎的风险管理。通过将最小权限智能体与明确的操作边界相结合，企业可以防止意外操作。此外，对关键任务保持人工监督，确保高影响的变更始终得到验证。透明的日志记录和审计跟踪提供了持续的可见性，增强了整个系统的问责制。因此，对自愈基础设施的信任并非源于完全移除人类，而是源于设计出使自动化可预测、安全且可审计的控制措施。这种谨慎的平衡使组织能够自信地依赖智能体，同时保护运营和业务成果。
Interviews 2 days ago
By Antoine Tardif

Nick Davidov，DVC联合创始人兼管理合伙人 – 专访系列

Nick Davidov，DVC的联合创始人兼管理合伙人，已投资了140多家早期人工智能初创公司，包括Perplexity AI、Etched以及Mira Murati的Thinking Machines Lab。DVC是一家总部位于旧金山的风险投资公司，专注于支持早期人工智能初创公司，并围绕人工智能创新构建一个社区驱动的生态系统。该公司由Marina和Nick Davidov创立，结合了由创始人、工程师和研究人员组成的活跃网络与专有的人智能驱动工作流程，以支持公司从种子前阶段到A/B轮增长阶段的发展，最早阶段投资10万至30万美元，后续轮次投资100万至300万美元。其模式强调亲力亲为的支持、深入的社区参与，并利用人工智能工具与经验丰富的有限合伙人一起寻找交易、进行尽职调查并帮助投资组合创始人成长——所有这一切都旨在在人工智能初创企业领域创造有意义的影响。DVC以从第一性原理重新思考风险投资而闻名。传统风险投资中的哪些经历或挫折促使您构建一个完全由人工智能代理和社区智能驱动的模式？主要是风险投资业务规模化的问题。目前，发展业务的唯一途径是增加管理资产。在某个时刻，你的动机会发生变化——你不再受价值观驱动，而是受管理费驱动。然后你开始优先考虑资金部署而非回报，这是不健康的。因此，我们正在尝试寻找一种横向而非纵向扩展投资公司的替代方法。同时，我们也试图以此方式实现风险投资的民主化并引入多样性。您曾说过DVC“解雇了分析师，雇用了其有限合伙人”。您能详细介绍一下这个系统实际上是如何运作的吗——有限合伙人如何参与项目寻找和尽职调查，以及有哪些工具赋能他们？我先讲一个轶事。当新的有限合伙人加入我们时，我们会要求他们填写一份问卷，其中一个问题是：“您是否愿意积极帮助初创公司？”一位有限合伙人——一位测试工程师——好奇地想看看如果他选择“不愿意”，问卷接下来会显示什么问题，但什么也没发生。他差不多是我们的第100位申请人，他让我们发现这个问题将肯定回答设置为必选项——没有人可以回答“不愿意”。令人惊讶的是，在他之前的一百位申请人都点击了“愿意”，却从未注意到这一点。我们为有限合伙人建立了一个内部的“社交阶梯”。在DVC，每位有限合伙人都可以获得“交易顾问”的头衔，如果他或她积极通过招聘、销售、产品和人脉支持我们的投资组合公司，为初创公司成长做出贡献，就可以晋升为“超级顾问”——并以此获得一部分附带权益作为回报。此外，如果有限合伙人给我们带来一个交易，他或她将成为“交易负责人”。我们让他们在每个阶段都能轻松做出贡献，并自动化了大部分流程。DVC的专有人工智能代理如何自动化风险投资的核心功能，如项目寻找、尽职调查和投资组合监控？您能否描述一两个变革最大的工作流程？在DVC，人工智能是彻底重新思考风险投资公司如何运营的支柱。它帮助我们颠覆了传统的尽职调查流程。我们的AI代理不是先联系创始人，而是在初次接触之前就构建全面的交易备忘录并进行大部分初步尽职调查。这是可能的，因为许多必要信息（如公司介绍、市场数据、竞争对手分析和估值原则）在通话前就已可用，因此无需浪费创始人和投资者的时间。过去需要一名昂贵分析师花费一整天完成的工作，现在只需几分钟，成本不到30美分。当一个初创公司的介绍材料进入系统——通常是通过有限合伙人介绍——人工智能会解析材料，用外部来源丰富信息，整理数据并输出一份交易备忘录。这样我们就可以专注于难以自动化的部分——创始人的动机、软技能、文化和团队动态。在评估早期初创公司时，您的人工智能追踪的最非常规或最令人惊讶的“信号”是什么？这些信号与传统人类分析师通常关注的有何不同？在那些不寻常且人类分析师难以察觉的信号中，我会指出初创公司关键团队成员最近的裁员情况。总的来说，我们的系统追踪大约120个信号。其中一部分帮助我们了解初创公司的业务进展。第二组信号是关于初创公司团队的。第三类则关注潜在的投资者竞争。这里的目标是预测创始人能以多快的速度完成一轮融资，因为创始人的网络是一个重要因素。拥有来自OpenAI、Meta和Tesla等公司的170多位有限合伙人，您如何协调这个社区并确保高质量的输入而非噪音？当只有几十位有限合伙人时，可以手动管理他们。但随着人数增长，在正确的时间将合适的专家匹配到合适的初创公司成为了瓶颈。因此，我们开发了充当“超级连接器”的人工智能代理，它们能记住所有关于有限合伙人专业知识和网络的细节，以便为投资组合公司推荐相关的引荐。这使得社区方面具有惊人的可扩展性。为了确保质量，我们总是会联系创始人以获取他们的反馈。对我们来说，仅仅向潜在公司做个介绍是不够的；我们需要核实它是否真的有效。随着时间的推移，我们已经收集了足够的数据来了解什么是真正有效的。该基金的投资主题强调核心人工智能基础设施和垂直聚焦的模型栈。您认为目前人工智能的哪些领域最被低估——为什么？没有被低估的领域，只有发展不足的领域——而发展不足的领域往往更便宜。医疗保健、工业应用、机器人和建筑领域是滞后的。有很多应用，但它们的采用情况很糟糕。DVC已经投资了Perplexity AI和Etched等知名公司。您的人工智能系统如何帮助您在它们成为主流关注焦点之前识别出这些突破性公司？我们的大多数投资者都是创始人和工程师，他们主要是人工智能技术的早期用户和采用者。当他们痴迷于某样东西时，他们会将其带入我们的社区。我们的人工智能栈负责准备工作。作为合伙人，我们的工作是倾听我们的直觉。我们正是这样最终投资了Perplexity。随着人工智能重塑风险投资，您认为投资者直觉、判断或人际联系的哪些方面是算法永远无法取代的？人工智能代理在交易备忘录、研究和准备工作方面已经超越了我们。它们无法取代的是创始人和投资者之间的人际联系。这种关系通常比一般的婚姻持续得更久。创始人的道路是复杂的，有时是孤独的，并且压力巨大。拥有人类伙伴至关重要——这才是投资者的真正意义所在。没有任何算法可以替代这一点。您如何平衡自动化的优势与创始人和有限合伙人对透明度和信任的需求？实际上，情况恰恰相反——自动化提供了透明度，而透明度又建立了信任。通过自动化，你可以清楚地看到使用了哪些输入以及决策是如何做出的。它使决策过程尽可能透明和可分析。展望未来，您是否预见到一个大多数风险投资公司无需分析师运营的未来——如果是这样，这对进入该行业的下一代风险投资家意味着什么？分析师的传统角色本质上是低效的。这种结构本身——让分析师收集和分析数据——在数据收集和分析方面都容易产生人为错误。使用人工智能只是让这个过程更加高效，因此旧的角色变得不必要了。然而，新的角色会出现。所以当我们解雇了所有分析师时，我们雇佣了处理这些任务的产品和工程师，而人类的判断并没有消失——它只是转移到了不同的职能上。这个角色迁移到了它最能增加价值的地方。感谢这次精彩的采访，有兴趣了解更多关于这家风险投资公司的读者请访问DVC。

More Posts

Page 1 of 3712 3 4 5 Next ›Last »