

人人都在竞相部署AI。但在第三方风险管理(TPRM)领域,这场竞赛本身可胯本身可能最大的风险。AI依赖于结构:干净的数据、标准化的流程和一致的结果〤, TPRM项目缺乏这些基础。一些组织拥有专门的风险负责人、定义明确的项簌定义明确的项簌数据。另一些则通过电子表格和共享驱动器临时管理风险。一些组织在严格的监管审查下运Mer仍然差异巨大。这种差异性意味着,TPRM中的AI应用不会通过速度或统一性来店它将通过纪律来实现,而这种纪律始于对您项目当前状态、目标和风险承受能力的现实评估。如何判断您的项目是否已为AI做好准备并非每个组织都已准备好輎慳AI 。麻省理工学院最近的一项研究发现95%的生成式AI项目都失败了。根据Gartn er的数据,79%的技术买家表示他们对自己最近的采购感到后悔,因为项囒规为项盒规。在TPRM中,AI就绪度不是一个可以瞬间切换的开关。它是一个渐进的过程,了您的项目在结构化、互联性和治理方面的程度。大多数组织都处于从临时性到敏捷性的成熟度曲线上的某个位置,了解您所处的位置是有效且负责任地潿用AI的圥阶段,风险项目大多是手动的,依赖于电子表格、机构记忆和分散的所有权。对于第三方风险,几乎没有正式的方法论或一致的监督。供应商信息可能存在于电子邮件线程或少数关Mer离出洞察,技术会放大不一致性而非消除它。随着项目成熟,结构开罈始彏得标准化,数据被数字化,责任制扩展到各个部门。在这里,字开始埢加但即使是定义明确的项目也常常各自为政,限制了可见性和洞察力。当这些孤岛被打破,治理成为共享责任时,真正的就绪度才会出现。集成且敏捷的项目将数据、自动化和责任制在整个企业内连接起来,让AI能够站稳脚跟——将分散的信息转化渺智胔够幌幌速、更透明的决策。通过了解您所处的位置以及您想要达到的目标,您可以构建基础,将A I从一个光鲜的承诺转变为真正的力量倍增器。为何即使项目成熟,也列法丽倳刳家公司都拥有敏捷的风险项目,它们也不会为AI实施规划相同的路线,缰県路线,缰県结果。每家公司管理着不同的第三方网络,在独特的法规下运营,并接受不同级别的风险。例如,银行在第三方外包商提供的服务方面,面临着关于数据隐私和保护的严格监管要求。它们对错误、中断或违规的风险容忍度几乎为零。相比之下,消费品制造商可能为了灵活性或速度而接受更大的运营风险,但无法承受影响关键交付时间线的中断。每个组织的风险承受能力定义了其为达成目标愿意接受的不确定性程度,而在TPRM翙昡昡躿中,不断移动的。这就是为什么现成的AI模型很少奏效。在如此多变的领娟应领娟应生的不是清晰度而是盲点——从而需要更具针对性、可配置的解决方案『更法是模块化的。在数据扎实、目标明确的地方部署AI,然后由此扩展䨁羋希觅稁的希: 供应商研究:使用AI筛选数千家潜在供应商,为即将开展的项目识别风险最低、能力最强或最可持续的合作伙伴。评估: 应用AI评估供应商文件、认证和审计证据。模型可以标记可能预示风险的不一致或异常情况,让分析师能够专注于最重要的事情。韧性规划: 使用AI模拟中断的连锁反应。某个地区的制裁或对某种材料的监管䦁佂将嚁供应基础?AI可以处理复杂的贸易、地理和依赖关系数据来模复拟结果债加刺值并加 当这些用例被有意部署并得到治理支持时,每一个都能带来价值。在风险和供应链管理中真正取得AI成功的组织,不是那些自动化程度最高的,而是那些从小处着手、有意识地自动化并频繁调整的组织。在T PRM中构建负责任的AI随着组织开始在TPRM中尝试AI,最有效的项目会在创閗在创閗与平衡。AI应加强监督,而非取代它。在第三方风险管理中,成功不仅取决于您评估供应商的速度,还取决于风险识别的准确性以及纠正措施实施的有效性。当供应商失败或合规问题成为头条新闻时,没有人会问流程有多高效。他们会问它是如何被治理的。“它是如何被治理的”这个问题正迅速成为全球性问题。随着AI应用的加速,世界各地的监管机构正以截然不同的方式定义“负责任”的含义。欧盟《人工智能法案》以基于风险的框架定下了基调,要求高风险系统具备透明度和问责制。相比之下,美国正遵循一条更加分散的路径,在强调创新的同时,也倡导如NI ST人工智能风险管理框架这样的自愿标准。包括日本、中国和巴西在内的其他地区,正在发展自己的变体,将人权、监督和国家优先事项融入独特的AI治理模式中。对于全球性企业而言,这些不同的方法带来了新的复杂性。在欧洲运营的供应商可能面临严格的报告义务,而在美国的供应商可能面临更宽松但仍不断演变的期望。每个“负责任AI”的定义都为风险评估、监控和解释的方式增添了细微差别。风险领导者需要能够适应不断变化的法规、同时保持透明度和控制的适应性监督结构。最先进的项目正在将治理直接嵌入其TPRM运营中,确保每一个AI驱动的决策都能被解释、追踪和辩护——无论处于哪个司法管辖区。如何开始将负责任的AI变为现实需要的不仅仅是政策声明。它意味着奠定正确的基础:干净的数据、清晰的责任制和持续的监督。具体做法如下。从一开始就标准化. 在自动化之前,建立干净、一致的数据和协调的流程。实施分阶段方氳, AI逐步整合到您的风险项目中,在扩展之前对每个阶段进行测试、验证和完善。从一开始就将数据完整性、隐私和透明度设为不可妥协的条件敳条件。解释其推理或依赖未经验证输入的AI,不是在降低风险,而是在引入风险。从小处着手,经常实验。 成功不在于速度。启动受控试点,将AI应用于特定的、被充分理解的问题。记录模型的性能、决策的制定方式以及由谁负责。识别并缓解阻碍大多数生成式AI项目交付业务价值的关键挑战,包括数据质量、隐私和监管障碍。始终进行治理. AI应有助于预测中断,而不是引发更多中断。像对待任何其他形式的风险式的风陷待AI。建立明确的政策和内部专业知识,以评估您的组织及其第三方如稕AI 。随着全球法规的演变,透明度必须保持不变。风险领导者应能追鸱毨AI一的洞察回到其数据源和逻辑,确保决策能够经受住监管机构、董事会咗公TPRM中的AI没有通用的蓝图。每家公司的成熟度、监管环境和风险承受能力都将影响AI的实施方式和价值体现,但所有项目都应有意识地构建。自动化已准备好的部分,治理已自动化的部分,并随着技术及其相关规则的演变而不断调整。


如今,在不完全理解技术原理的情况下构建、部署和扩展技术,变得前所未有的容易。几乎今天的一切都在无需我们理解的情况下运行。然而,我们始终有一种感觉,控制权正从指缝中溜走。如果你仔细观察,今天缺失的,是曾经存在于每一项伟大创新核心、如今正慢慢淡出技术图景的东西——技艺。每一项创新都承载着一丝精心的关注。有人曾深入钻研,以理解依赖关系、行为和约束,并将这些知识转化为一个可运行的系统。回到现在,支撑我们日常生活的工具和平台以预构建、完全组装好的形式出现,速度快得惊人,但其内部运作机制几乎完全不可见。技艺开始显得不合时宜,或者说,在一个痴迷于速度的文化中显得激进。然而,没有技艺,系统就有可能沦为事件的漩涡:一个黑匣子,其中的决策、输出和行为以任何人都无法完全理解的速度展开。重燃技艺,是在一个被AI重塑的世界里,夺回部分控制权、恢复对复杂性的推理能力并承担责任的一种方式。没有所有权,协作能蓬勃发展吗?曾几何时,构建系统的人对其了如指掌。如今,工作被分割成微小的贡献,稀释了这种所有权意识,常常到了参与者无人理解整体的地步。团队为一个庞大得多的系统贡献专业化的部件,将库、API,云服务、托管数据库和分析平台集成到一个可运行的产品中。颇具讽刺意味的是,团队直接拥有的部分,往往比外部供应商管理的层级还要小。对执行的关注超过对技艺的关注,会引入盲点,这些盲点可能在系统的各个层级悄然累积。一个请求在返回响应之前,会穿越多个服务、提供商和区域。一切运行良好,直到这些层级之间微小的不匹配暴露出人们实际上拥有的清晰度或控制力是多么匮乏。问题不仅在于修复故障组件,更始于解释最初到底哪里出了错。协作确实是现代软件的引擎,它使团队能够构建任何个人都无法单独管理的庞大系统。随着新工具,尤其是AI工具的加入,更多工作可以并行化,更多决策可以自动化或得到辅助,从而加速执行并扩大参与度。但这同时也稀释了理解。当高度抽象的工具介入决策、生成代码或解释数据时,行动往往会超越理解。毕竟,如果你无法解释一个系统如何工作,你能信任它所驱动的决策吗?你能理解的系统,才是你能为之负责的系统技艺并非要拒绝协作或AI不可否认的潜力,而是要维持一种超越执行层面的、与系统的关系。它关乎在碎片化的工作环境中创造连续性,并保持跨层级(而不仅仅是层级内)推理行为的能力。在现代工作流中,技艺最终归结为刻意培养这种推理能力,即使没有明显证据表明有任何问题。它让团队能够快速前进,同时仍然知道他们在构建什么、它为何如此行为,以及当它不按预期运行时如何应对。只有这种理解才能防止AI驱动的系统变成黑匣子。问题是,AI会放大你已知和未知的东西。当你的基础建立在技术技艺之上时,AI能扩展洞察力并增强实力;否则,它会加剧误解和混乱。基于有缺陷的假设、偏见数据或被误解的模型做出的自动化决策,可能会影响人们的账户、隐私和信任。曾经可能只是局部故障或微小疏忽的问题,如今由于触及生活各个领域的互联性,几乎可以瞬间产生广泛的影响。扁平化学习曲线的真实代价如今,学习曲线被如此激进地扁平化,以至于依赖开始看起来很像效率。警惕这种权衡很重要。许多让工作感觉更快的速度,来自于依赖工具和抽象,而非深刻的理解。如果节省的时间和精力以不可预见的后果为代价,很快就会适得其反。这并不是说,在存在更简单方法和强大工具的情况下,要把事情搞得比必要的更难。但轻率地跳过这些曲线,就失去了真正理解系统行为方式、漏洞所在以及决策如何在系统中产生连锁反应的机会。让复杂性消失的诱惑是诱人的,但复杂性不会简单地随着点击按钮而消失。它只是移出了视线,留下了只有在出问题时才会显现的隐藏风险。真正的效率来自于平衡使用现代工具与为理解、判断和技艺付出的应有努力,从而使速度和简单性不以弹性或责任为代价。以理解新技术能做什么和不能做什么的态度来接近它们。没有这种理解,团队就失去了安全地适应或演进系统的能力。变更可能会破坏系统中未被充分理解的部分。随着对工具、默认设置或自动化的依赖取代了有根据的直觉,判断力会受损。这反过来又降低了在不确定性下做出明智决策的能力。可解释性也随之下降,而弹性则与精通一同湮灭。效率本不该如此脆弱。实践中的技术技艺是什么样子技艺体现在团队、产品和领导层如何处理复杂性上。当团队承担起理解他们所依赖系统的责任,而不是假设供应商处理了所有复杂性时,他们就能领先于问题。以技艺构建的产品旨在持久、演进和适应。强调追溯原因、质疑假设和构建直观解决方案的培训,能确保学习是嵌入式和持久性的。简而言之,运用良好判断力和保持可解释性的能力,将是伟大产品与仅仅能运行的产品之间的区别。在复杂、互联的系统中,必须由人类的直觉和精通来引导技术,而不是相反。重要的是要记住,虽然你几乎可以外包任何东西,但辨别力仍然不在其列。


企业AI应用已进入一个更为务实的阶段。对于技术领导者而言,挑战不再是说服组织相信AI具有潜力,而是确保那些影响运营决策的系统能够被理解、被治理、被辩护。当人们愿意依赖AI时,它才在企业中赢得一席之地。这种依赖并非仅仅建立在性能统计数据之上。它取决于团队是否觉得,一旦自动化成为日常工作流程的一部分,他们仍能保持控制。在许多组织中,这种控制感仍然不确定。为何不透明性会拖慢采用速度如今,AI已嵌入到从服务请求路由到事件关联和容量规划的各个IT运营环节。这些环境中的决策相互关联,错误会迅速升级。当AI输出缺乏上下文时,团队往往会犹豫不决。自动化可能在技术上已部署,但其建议会被反复核对、延迟执行或被悄悄搁置。这种行为常被误读为对变革的抗拒。实际上,它反映了高风险运营环境中的职业责任感。 AI失败的公开案例加剧了这种谨慎。当自动化系统生成看似自信但最终被证明是错误的输出时,损害很少仅由雄心造成,其根源在于不透明性。如果无人能解释结论是如何得出的,那么即使系统通常准确,信任也会逐渐侵蚀。在IT团队内部,这种影响表现得很微妙。自动化以咨询模式而非执行模式运行。工程师仍需对结果负责,却又被期望去信任他们无法审查的推理过程。久而久之,这种不平衡会产生摩擦。AI虽然存在,但其价值受到限制。透明的AI流程更高的透明度和可解释性可以通过将问责制重新引入自动化决策来解决这个问题。可解释的AI并不意味着暴露每一个内部计算。它意味着提供与人类操作者相关的洞察:哪些数据影响了决策,哪些条件权重最大,以及置信度是如何评估的。这种上下文使团队能够判断输出是否符合运营现实。也称为白盒AI ,可解释AI创建了一种解释层,说明AI决策是如何做出的,而不是将其过程和逻辑隐藏在视野之外。这不仅意味着AI系统可以成为更负责任的框架的一部分,而且用户能够理解每个系统的工作原理。这也意味着能够识别AI模型的漏洞并防范偏见。至关重要的是,可解释性意味着当出现问题时,团队可以追溯推理路径,识别微弱信号,并完善流程。没有这种可见性,错误要么会重复发生,要么通过禁用自动化来完全避免。实践中的可解释性以事件管理为例。AI常用于将警报分组并建议可能的原因。在大型企业环境中,重大事件期间一个错误分类的依赖关系可能导致解决时间延迟数小时,使多个团队陷入并行调查,而面向客户的服务仍处于降级状态。当这些建议附有清晰的解释,说明涉及了哪些系统、如何访问依赖关系或参考了哪些过去的事件时,工程师可以快速判断该建议。如果结果证明是错误的,这些洞察可用于改进模型和流程。缺乏这种透明度,团队就会回归手动诊断,无论AI多么先进。这种反馈循环是持续采用的核心。可解释的系统与使用它们的人共同进化。相比之下,黑盒系统一旦信心下降,往往会停滞不前或被边缘化。问责与所有权可解释性也改变了问责的分配方式。在运营环境中,责任不会仅仅因为决策是自动化的而消失。仍然必须有人对结果负责。当AI能够解释自身时,问责制变得更清晰、更易于管理。决策可以被审查、论证和改进,而无需诉诸防御性的变通方法。这也有治理方面的好处,尽管在内部这很少是主要动机。现有的数据保护和问责框架已经要求组织在某些情况下解释自动化决策。随着针对AI的法规不断发展,缺乏透明度的系统可能会使组织面临不必要的风险。然而,可解释性的更大价值在于韧性而非合规。了解其系统的团队恢复得更快。他们更有效地解决事件,并减少在是否应该信任自动化这一问题上争论的时间。为卓越运营而设计AI工程师接受过质疑假设、检查依赖关系和测试结果的训练。当自动化支持而非绕过这些本能时,采用过程就变成了协作性的,成为流程的一部分,而非强加的结构。以这种方式构建系统必然存在成本。可解释的AI需要规范的数据实践、深思熟虑的设计选择,以及能够负责任地解读输出的熟练员工。它的扩展速度可能不如纯粹为速度或新颖性优化的不透明模型。然而,这种投资的回报是稳定性。优先考虑可解释性的组织,其停滞的计划更少,影子决策也更少。自动化成为运营中可信赖的一层,而非孤立运行的平行实验。价值实现时间得以改善,并非因为系统更快,而是因为团队愿意充分使用它们。负责任地扩展随着AI成为企业基础设施中的永久组成部分,成功将更少由雄心定义,而更多由可靠性定义。能够解释其决策的系统更容易被信任、更容易被改进,并且在结果受到质疑时更容易被支持。在运营环境中,只有当理解与自动化同步发展时,智能才能有效扩展。


过去几年,我们见证了智能体AI系统展示出令人印象深刻的演示。它们编写的代码能通过测试用例。它们搜索网络并回答复杂问题。它们以惊人的准确性操作软件界面。每一次会议演示、每一次新闻发布、每一次基准测试报告都强调着智能体AI的崛起。但在这类令人印象深刻的演示之下,隐藏着一个问题。当这些相同的系统从受控环境转移到现实世界部署时,它们常常以基准测试从未预测到的方式失败。在100个精选示例上完美运行的代码生成器,在遇到从未见过的边缘情况时开始产生错误。在实验室中达到85%准确率的网络搜索代理,随着用户行为的变化,检索到的结果越来越不相关。在测试中能完美协调十个API调用的规划系统,在遇到意外的API响应格式时就会崩溃。这些系统失败并非因为缺乏智能,而是因为缺乏适应性。问题在于AI智能体如何学习和调整。虽然尖端系统建立在庞大的基础模型之上,但仅凭原始智能是不够的。要执行专门任务,智能体必须具备适应能力。当前的智能体AI系统由于设计和训练上的结构性限制,无法做到这一点。在本文中,我们将探讨这些限制及其持续存在的原因。演示中的能力幻觉现代AI中最危险的故障模式是能力幻觉。简短的演示常常掩盖了真正的复杂性。它们在干净的数据集、可预测的API和狭窄的任务范围内运行。生产环境则恰恰相反。数据库不完整,模式在无通知的情况下更改,服务超时,权限冲突,用户提出的问题违反了系统的基本假设。这正是生产复杂性显著增加之处。在演示中出现一次的单个边缘情况,在部署中可能每天出现数千次。微小的概率性错误会累积。一个“基本正确”的智能体在真实操作中会迅速变得不可靠。问题的核心在于对冻结的基础模型的依赖。这些模型擅长模式补全,但智能体行为是顺序性和有状态的。每个动作都依赖于前一个动作的结果。在这种设定下,统计不确定性会迅速复合。任务早期的一个小错误可能会在后期级联成循环、死胡同或破坏性操作。这就是为什么在评估中显得能力出众的智能体,一旦部署后性能往往会迅速下降。问题不在于缺少某个功能。而在于通用模型被要求表现得像领域专家,却不被允许从其环境中学习。从通用智能到情境能力基础模型本质上是通才。它们编码了广泛的知识和灵活的推理模式。然而,生产环境中的智能体必须是情境化的。它们需要理解特定组织及其工具的具体规则、约束和故障模式。没有这一点,它们就像读遍了所有手册却从未上过一天班的人。弥合这一差距需要重新思考适应性本身。当前的方法大致分为两个有缺陷的阵营:重新训练核心AI智能体本身,或者调整其使用的外部工具。每种方法在解决一个问题的同时,都会产生其他问题。这导致我们得到的系统要么过于僵化,要么成本过高,要么过于不稳定,无法满足生产环境对一致性和成本的要求。单体智能体陷阱第一种方法,智能体适应,试图让核心LLM更聪明地使用工具。它本质上是教授AI使用工具所需的特定技能。研究人员进一步将其分为两类。一些方法利用来自工具的直接反馈(如代码编译器的成功或搜索引擎的结果)来训练智能体。另一些则根据最终输出的正确性(如答案的对错)来训练它。像DeepSeek-R1和Search-R1这样的系统表明,智能体可以学习复杂、多步骤的工具使用策略。然而,这种能力伴随着巨大的成本。训练拥有数十亿参数的模型在计算上是极其昂贵的。更重要的是,它创造了一种僵化、脆弱的智能。通过将智能体的知识和工具使用规则结合在一起,这种方法使得更新缓慢、风险高,不适合快速变化的业务需求。让智能体适应新任务或新工具,可能会引发“灾难性遗忘”,即失去先前掌握的技能。这就像每次想添加一个新部件时,都需要重建整个工厂装配线。脆弱的工具箱问题认识到这些限制后,第二种主要方法——工具适应——将核心智能体保持冻结状态,转而优化其生态系统中的工具。这更具模块化和成本效益。一些工具是通用训练的,如标准搜索检索器,然后被接入系统。另一些则专门针对冻结的智能体进行调整,从其输出中学习,成为更好的助手。这种范式在效率方面前景广阔。一项关于名为s3系统的里程碑式研究展示了这种方法的潜力。它训练了一个小型、专门的“搜索器”工具来支持一个冻结的LLM,实现了与像Search-R1这样完全重新训练的智能体相当的性能,但使用的训练数据却少了70倍。其理念是:为什么要重新教一位天才物理学家如何使用图书馆目录?不如直接训练一个更了解物理学家需求的图书管理员。然而,工具箱模型也有其自身的局限性。整个系统的能力最终受限于冻结LLM固有的推理能力。你可以给外科医生一把更锋利的手术刀,但无法让一个非外科医生进行心脏手术。此外,协调日益增长的适应性工具套件成为一个复杂的集成挑战。工具A可能针对某个指标进行了优化,但这违反了工具B的输入要求。系统的性能随后依赖于相互关联组件之间脆弱的平衡。协同适应挑战这让我们触及了当前智能体AI范式中适应性缺陷的核心。我们要么适应智能体,要么适应工具,但无法以同步、稳定的方式同时适应两者。生产环境不是静态的。新数据、新用户需求和新工具不断涌现。一个无法平稳、安全地同时进化其“大脑”和“双手”的AI系统,最终必然会崩溃。研究人员指出,这种协同适应的需求是下一个前沿领域。然而,这是一个复杂的挑战。如果智能体和它的工具同时学习,失败的责任归咎于谁?如何防止不稳定的反馈循环,即智能体和工具相互追逐变化,却未能提高整体性能?早期的尝试,例如将智能体-工具关系视为一个协作多智能体系统,揭示了其中的困难。如果没有稳健的信用分配和稳定性解决方案,即使是我们最先进的智能体AI,也仍然只是一组令人印象深刻但互不关联的能力。内存作为一等系统适应性缺陷最明显的迹象之一是静态内存。许多已部署的智能体不会随着时间的推移而改进。它们重复同样的错误,因为它们无法内化经验。每次交互都被当作是第一次。生产环境需要适应性内存。智能体需要情景记忆来处理长视野任务,需要策略性记忆来完善计划,需要操作性记忆以避免重复失败。没有这些,智能体会显得脆弱且不可信。内存应被视为一个可调组件,而非被动日志。能够回顾经验、从错误中学习并调整行为的系统要稳定得多。适应性系统带来的新风险适应性本身也带来了新的风险。智能体可能学会优化指标而非目标,这种现象被称为寄生性适应。它们可能在表面上看起来成功,却损害了根本目标。在多智能体系统中,被攻破的工具可以通过微妙的提示注入或误导性数据来操纵智能体。为了缓解这些风险,智能体需要强大的验证机制。行动必须是可测试、可逆和可审计的。智能体与工具之间的安全层可以确保错误不会无声地传播。核心要点要让智能体AI在现实世界中发挥作用,它不能仅仅是智能的;它必须能够适应。如今大多数智能体失败,是因为它们在时间上是“冻结”的,而现实世界是复杂且不断变化的。如果一个AI无法更新其内存并从错误中改进,它最终会崩溃。可靠性并非来自完美的演示;它来自于适应的能力。


牛津大学领导的一项新研究得出结论,女性使用生成式AI的程度远低于男性——并非因为缺乏技能,而是因为她们更担心AI对就业、隐私、心理健康和社会本身的危害。 作为未经授权的主要目标,女性在过去七年中一直与围绕生成式AI这一争议分支的深度伪造内容密切相关,并在近期取得了一些显著胜利。然而,牛津大学领导的一项新研究认为,这种对女性AI关切的描述过于狭隘。研究发现,女性使用各类生成式AI的程度都远低于男性——并非由于获取渠道或技能差距,而是因为她们更可能认为AI对心理健康、就业、隐私和环境有害。该论文指出:‘我们使用[2023–2024年]英国全国代表性调查数据表明,女性采用生成式AI的频率远低于男性,因为她们对其社会风险的感知不同。‘我们编制的综合指数涵盖了关于心理健康、隐私、气候影响和劳动力市场扰动的担忧,该指数解释了9-18%的采用率差异,并且是所有年龄段女性中最强的预测因素之一——对于年轻女性而言,其预测力超过了数字素养和教育水平。’根据研究人员的说法,最大的差距出现在那些数字素养高、对AI社会风险表示强烈担忧的年轻用户中,个人使用方面的性别差异超过45个百分点:通过在连续调查轮次中匹配相似的受访者,构建合成双胞胎面板,该研究发现,当年轻女性对AI的社会影响变得更加乐观时,她们使用生成式AI的比例从13%上升到33%,显著缩小了差距。在那些担忧气候危害的人群中,生成式AI使用的性别差距扩大到9.3个百分点;在那些担忧心理健康危害的人群中,差距则扩大到16.8个百分点,这并非由于男性使用增加,而是由于女性使用率显著下降。因此,作者们发现了一种与性别相关的明显文化效应*:‘平均而言,女性表现出更多的社会同情心、传统的道德关切和对[公平]的追求。同时,研究发现道德和社会关切在技术接受度中扮演着角色。‘关于教育领域生成式AI的新兴研究表明,女性更可能认为在课程作业或作业中使用AI是不道德的,等同于作弊、助长剽窃或传播错误信息。‘对社会福祉的更大关切可能部分解释了女性对生成式AI的较低采用率。’他们认为,研究中观察到的女性的这种看法是合理的:‘[女性]对环境、社会和伦理影响的高度敏感性并非错位:生成式AI系统目前确实具有显著的能源需求、不均衡的劳动实践,以及有据可查的偏见和错误信息风险。‘这表明,缩小性别差距不仅关乎改变观念,也关乎改进底层技术本身。因此,激励低碳模型开发、加强对偏见和健康危害的保障措施、提高供应链和训练数据实践透明度的政策,将能解决这些合理的关切——同时确保女性的风险意识成为技术改进的杠杆,而非采用的障碍。’他们进一步指出,虽然该研究清楚地表明…他指出了采用差距,其研究结果在英国以外地区可能更高(新研究的所在地是英国)。这篇新论文题为《女性担忧,男性采用:性别化认知如何塑造生成式AI的使用》,由牛津互联网研究所、比利时新经济思维研究所和柏林洪堡互联网与社会研究所的研究人员共同完成。数据与方法最近的一项新研究趋势表明,尽管能力和访问权限没有差异,但女性使用各类生成式AI的频率低于男性——这一不足据估计是近期性别工资差距的一个促成因素,这与先前关于女性互联网使用率较低与较低薪资相关的趋势一致:在这项新研究中,作者利用英国政府《公众对数据和AI的态度:追踪调查》倡议中提供的逐年研究信息,分析了AI相关风险的认知如何影响不同性别的采用模式,并将风险敏感性分离出来,作为女性使用率降低的一个关键因素。当风险担忧与其他特质结合时,生成式AI的性别差距会变得更大。如下图所示,最大的差距(5.3个百分点)出现在那些拥有高数字技能、并将AI视为心理健康风险的女性中:心理健康担忧往往会放大大多数群体中的性别差距,这种效应在年轻和数字素养更高的用户中最为强烈,而隐私担忧也会扩大差距,在某些工作环境中甚至将差距推高至22.6个百分点。即使在那些对AI气候影响表示担忧的年长受访者中,差距仍然高达17.9个百分点,这表明对危害的认知对女性影响更重——包括在整体AI使用率相对较低的群体中也是如此。风险认知为了确定风险认知对采用的影响程度,研究人员基于对AI在心理健康、气候、隐私和就业方面影响的担忧,构建了一个综合指数。然后,他们使用按年龄和性别划分的随机森林模型,将该指数与教育、职业和数字素养一起进行测试,发现在所有人生阶段中,AI相关的风险认知始终能预测生成式AI的使用——其排名常常高于技能或教育,尤其对女性而言:随机森林模型(按年龄和性别分层)显示,与男性相比,AI相关风险感知是女性使用生成式AI更强的预测因素,在所有女性年龄组中均位列前两大特征,其影响力超过了数字素养和教育。对于男性,数字素养占主导地位,而风险感知排名较低且作用不那么一致。模型表明,社会关切对女性AI采用的影响远强于传统技能或人口因素。请参阅源PDF以获得更好的可读性和整体分辨率。[/caption]在所有年龄组中,对AI社会风险的关切预测女性使用生成式AI的程度均强于男性。对于35岁以下的女性,风险感知是影响使用行为的第二大因素,而男性中则排名第六;在中老年群体中,风险感知对女性排名第一,对男性排名第二。在所有模型中,风险感知占预测重要性的9%至18%,超过了教育和数字技能指标。根据论文,这些结果表明,女性对生成式AI的采用率较低,较少源于对个人风险的担忧,更多是出于更广泛的伦理和社会关切。在这种情况下,犹豫似乎是由对AI可能对他人或社会(而非自身)造成伤害的更强烈意识所驱动。合成双胞胎为了测试改变对这些主题的态度是否能改变行为,研究人员采用了合成双胞胎设计,将两轮调查中相似的受访者进行配对。将较早一轮的每个人与较晚一轮中年龄、性别、教育和职业相同的受访者进行匹配。然后,团队比较了那些数字技能有所提高或对AI社会影响变得更加乐观的受访者在生成式AI使用上的变化,从而能够分离出更高的数字素养或减少的担忧是否真的能提高采用率,尤其是在年轻人中:提升数字素养提高了两性对生成式AI的使用,但也扩大了性别差距,男性受益更多。在全部样本中,女性的使用率从9%上升到29%,而男性则从11%上升到36%。在年轻人中,数字素养的提升使男性的使用率从19%大幅上升至43%,而女性的使用率从17%上升到29%,增幅不大且无统计学意义。相比之下,对AI社会影响的更大乐观情绪产生了更均衡的变化,女性从13%上升到33%,男性从21%上升到35%。在全部样本中,女性从8%上升到20%,男性从12%上升到25%。因此,论文指出,虽然数字技能提升总体上提高了采用率,但也倾向于扩大性别差距——而重塑对AI更广泛影响的看法,似乎在提高女性使用率方面更为有效,且不会不成比例地提升男性的采用率。结论这些发现的意义似乎在论文展开过程中出现了分歧;如前文所引,作者起初对女性更广泛的全球关切和伦理立场表示赞许。接近尾声时,出现了一种更为勉强和务实的观点——也许是出于当前的时代精神——作者们担心女性是否会因其道德警惕和疑虑而”落后”:‘[我们的]研究结果指向更广泛的制度和劳动力市场动态。如果男性在规范、期望和能力仍在形成的时期以不成比例的高速度采用AI,这些早期优势可能会随着时间的推移而复合,影响生产力、技能发展和职业进展。’ * 我将作者文内引注转换为超链接。首次发布于周四,