访谈

斯特林·威尔逊,Object First 的现场首席技术官 – 采访系列

mm

斯特林·威尔逊,Object First 的现场首席技术官,是一位具有独特视角的技术战略家,他曾在公共和私营部门担任基础设施工程师。凭借在数据安全/管理和存储公司的技术和领导角色经验,他为保护和最大化数据价值带来了端到端的视角。通过与更广泛的 IT 社区的互动,斯特林致力于通过安全设计架构、思想领导和行业内的实用教育来提高数据恢复力采用的水平。

Object First 是一家开发专为 Veeam 而设计的备份存储设备的公司,其旗舰产品称为 Ootbi (“开箱即用不可变性)。这些设备被设计为防范勒索软件攻击,具有内置的不可变存储,防止备份被修改或删除。它们还被设计为简单和快速,部署时间可以短至 15 分钟,同时为备份和恢复操作提供高性能。

您如何首次参与管理基础设施或备份系统以保护关键数据环境?您的视角如何随着 AI 的兴起而演变?

我首先作为华盛顿特区的微软基础设施顾问参与了管理基础设施和备份系统的工作,在那里我构建和维护了从域控制器和 Exchange 服务器到文件服务器和存储在它们上的数据的一切。那个阶段的事情相对简单,磁带备份和异地副本是标准做法。

我的视角在我担任社会保障局虚拟化架构师期间发生了转变,我们在那里看到了备份的第一次重大演变。随着环境变得越来越虚拟化,数据本身成为架构的核心,基本上,环境就是数据,反之亦然,导致数据集的爆发式增长,并改变了我们访问源数据以进行备份的方式。云采用延续了这些做法,但直到今天的威胁者和 AI 的快速增长,新的挑战才真正出现。

威胁者现在直接针对备份以消除恢复选项。同时,AI 被用于利用数据以获得经济利益和加强数据恢复力以应对攻击。AI 还引入了新的优先事项,用于保护整个数据管道,从原始来源和特征存储到训练基础设施、模型工件和注册表,导致我们的行业重新思考传统的数据隔离,以确保每个 AI 生命周期步骤都具有恢复力。

在您的看法中,什么定义了一个现代的、完全成熟的灾难恢复计划——不仅仅是在理论上,而是在实际的日常运营中?

一个现代的、完全成熟的灾难恢复计划应该包含六个关键组件。它们包括让合适的人参与,匹配风险和措施,优先考虑资产,定义时间表,配置备份和执行测试和优化。这些六个因素确保灾难恢复计划在危机发生时按预期工作。

计划的第一个组件是确保合适的人有合适的角色。每个成员都应该在恢复过程中有明确的责任。还应该在所有团队成员(包括供应商和客户)之间建立清晰的沟通渠道。下一个组件是风险和后果的完整清单。这个资产应该概述组织可能遭受的事件,并为每个事件准备一个一步一步的恢复协议,定义角色、行动和工具。

优先考虑哪些资产对于业务连续性至关重要,以及按重要性对它们进行排名。每个资产都应该有一个明确的恢复协议,每个团队成员都应该了解他们的恢复流程。当考虑业务连续性策略时,考虑公司可以合理处理的停机时间和数据丢失量至关重要。始终参考恢复点目标和恢复时间目标将帮助领导者保持与目标的一致性。

有效灾难恢复计划的最后两个组件是配置备份和执行测试优化。一旦团队了解时间表并按计划进行恢复,就是配置备份的时候了。这包括选择备份模式、位置和频率,定义恢复速度,并指定负责的人员。最后,定期进行测试将确保公司在灾难发生时做好准备。

随着 AI 生成数据的增加,您是否看到公司在确定备份什么和多久备份一次方面的优先顺序发生了变化?

随着更多公司采用 AI 并管理 AI 生成的数据,这些“王冠上的宝石”需要额外的保护,并将开始被优先于其他数据。传统上,新的工作负载将是备份的次要考虑,但 AI 将新的数据带到了备份对话的前沿。令人惊讶的是,存在一个 AI 数据备份差距。许多组织没有足够地保护他们的 AI 生成的数据。 65% 的组织只备份了他们的 AI 生成数据的总量的 ~ 50%。

在未来,我们可能会看到更多的 AI 数据被备份。随着更多的企业开始意识到 AI 在其运营中的重要性,他们将开始开发大量的数据作为知识产权,并开始了解它所持有的重大价值。安全团队也将意识到未保护此类数据所带来的重大安全风险。丢失此类数据不仅从安全方面来说是毁灭性的,还会放弃竞争优势和业务连续性。

您在组织当前的备份策略中看到的最常见的差距是什么,特别是在处理像洪水或硬件故障这样的意外中断时?

实现数据恢复力的一种最有效的策略是在中断期间消除单点故障并确保备份保持不可变和可恢复,无论灾难如何。使用推荐的行业解决方案,使用不可变备份可以实现综合保护策略,使用简单易部署的解决方案。不可变备份是不可改变和抗修改的。这些备份提供了数据的干净和安全的副本。在其最简单的定义中,不可变性确保数据一旦记录就不能被修改或删除,提供了保护关键数据的安全手段。即使生产和数据备份系统或访问控制被损害,数据仍然安全。这只能通过使用“安全设计”的备份存储系统来实现,具有对破坏性操作的零访问权限,这些零访问权限必须可以通过第三方测试来验证。为了确保在所有场景(包括洪水和硬件故障)中保持不可变数据的可恢复性,3-2-1 备份策略是基本的,确保您在不同的安全系统上拥有数据的副本,具有本地不可变存储作为恢复的最快手段。

对于大量投资于 AI 基础设施的公司,决定在本地、混合和云优先备份解决方案之间进行选择时,应该考虑哪些因素?

随着 AI 日益成为许多公司基础设施和运营的骨干,需要考虑的是选择合适的存储系统来安全地存储 AI 工具和应用程序生成的数据。区分本地和云优先备份解决方案可能很棘手,但混合方法是支持 AI 基础设施的最佳方式。混合解决方案提供了云的可扩展性和本地提供的控制力。混合模型还允许工作负载在组织需求演变时进行调整。这对于 AI 基础设施尤为重要,因为 AI 工作负载可能会越来越多地需要支持。混合存储还结合了本地和云备份选项,以提供额外的保护层。通常包括一个物理备份设备,位于本地,备份数据到云。混合数据还可以满足合规性要求,允许将敏感数据保留在本地以实现最快的访问和恢复,同时仍可以将数据卸载到云以实现额外的保护和冗余。

地理冗余在今天的备份和灾难恢复规划中有多重要,特别是考虑到极端天气事件的日益增长的风险?

地理冗余是指在两个独立的地理位置复制数据。数据存储在一个主要位置,然后复制到一个次要区域,以防主要区域发生灾难性故障,例如自然灾害或数据泄露。然后触发故障转移到次要位置,以确保业务连续性。数据从次要位置无缝地提供给用户,停机时间很短。

地理冗余允许数据和关键应用程序即使发生灾难也保持活动和可恢复状态。云存储也可以满足冗余要求,并可以在多个位置存储数据;然而,云存储可能无法提供许多组织今天所需的快速恢复。通过利用本地不可变存储作为主要备份位置,并分层到云以进行二级复制,可以提供额外的冗余层,为 IT 团队提供了安心的保证,知道数据安全存储,并且组织可以快速切换到次要区域(如果必要)。对于无法承受长时间停机并且严重依赖数据可用性的组织,地理冗余是一个必不可少的选项。

您能否带我们了解一下如何使用不可变备份和对象存储来保护免受勒索软件或意外数据损坏的影响?

不可变备份是抵御勒索软件和一般灾难恢复的关键。它提供了最强大的防御线,提供了可靠的故障回复,在数据泄露事件中。不可变备份是攻击后的恢复的终极选择。不可变性意味着数据不能被加密或通过勒索软件修改,保持其原始状态。即使网络被损害,不可变备份也保持不变,提供了可靠的数据恢复。

不可变备份确保备份数据保持不变,从写入时起,防止未经授权的修改,维护数据完整性,并抵御勒索软件和加密攻击。实现这一点的最安全方法是使用 S3 版本控制与对象锁定相结合,在对象存储系统中创建时强制执行不可变性。这消除了篡改、恶意软件注入或删除的风险,即使在内部威胁或凭据泄露的情况下。相比之下,传统存储解决方案由于其核心架构缺乏本机不可变性而存在缺陷。

备份系统在响应网络安全事件时应该发挥什么作用?如果受影响的数据支持 AI 驱动的服务,响应是否有所不同?

在发生网络安全事件(例如勒索软件攻击)后,确保拥有强大有效的勒索软件策略至关重要,因为没有人能免受勒索软件攻击的影响。数据备份策略至关重要,有几种方法可以确保关键数据保持安全和可恢复。通过维护最新的数据副本或数据,勒索软件的影响可以大大减少。复制重要信息并将其存储在离线或异地,确保即使本地备份被损害,也可以恢复。其中最重要的步骤之一是通过隔离备份并在感染被根除之前限制对备份系统的访问来保护备份。

在恢复场景中,尤其是涉及模型训练和推理日志的 AI 工作负载时,需要优先考虑哪些数据?

考虑到 AI 工作负载的数据优先级时,第一步是考虑数据质量。即使大型语言模型是在大型数据集上训练的,如果数据质量不好,AI 输出也不会有效。有几个因素可以确定数据质量:准确性、一致性、完整性、相关性和可靠性。然而,这可能仍然为组织带来挑战,因为他们可能被迫在恢复场景中优先考虑哪些数据。

第二步是确定哪些质量数据应该在恢复中优先考虑,以满足恢复目标。这些目标应该强调将决定恢复成功的目标和指标。恢复点目标(RPO)是一个重要指标,因为它决定了组织可以容忍的最大数据丢失量。恢复时间目标(RTO)建立了组织可以容忍的最大恢复时间。这些目标还需要与业务优先级保持一致。一旦目标概述,质量数据就需要根据其依赖关系进行分类。要确定这一点,请考虑哪些数据将促进业务连续性。在采取所有这些步骤之后,应该有一个明确的质量、依赖数据集,它与恢复目标和业务连续性保持一致,应该在恢复场景中优先考虑。

您如何帮助组织平衡强大的备份和恢复系统的成本与为低概率但高影响的灾难做好准备的紧迫性?

成本效益分析可以帮助组织权衡各种备份和恢复策略的成本与数据丢失和停机的潜在成本。这种分析需要确定关键系统和数据,设置 RTO 和 RPO,并评估备份策略如何满足这些需求,通过比较成本和最小化中断带来的节省来衡量投资回报率(ROI)。一旦风险因素得到平衡,并且备份系统已被选中,批判性地运行此分析以确认组织的备份和灾难恢复需求没有发生变化至关重要。如果它们发生了变化,则重新评估备份策略以确保优先保护和安全关键数据至关重要。

如果您只能推荐大多数公司当前应该对其灾难恢复策略进行的一个改进,那么该改进是什么?为什么?

我推荐的改进是将备份软件与备份存储分离。太多公司同时运行这两者,创建了一个单一的爆炸半径——如果软件层被损害,存储也会随之下降。通过使用第三方测试和批准的解决方案隔离备份存储,您可以显著降低攻击面并遵循零信任原则。这种分离确保,即使攻击者获得生产或备份管理系统的控制权,您的实际备份数据仍然无法访问。这是一个简单的架构变化,但它可以带来巨大的不同——在灾难发生时,它可以带来快速、自信的恢复,而不是完全丢失数据。

感谢您接受这次精彩的采访,希望阅读本文的读者可以访问 Object First 以了解更多信息。

安托万是一位具有远见的领导者和Unite.AI的联合创始人,他对塑造和推广人工智能和机器人技术的未来充满热情。作为一位连续创业者,他相信人工智能将对社会产生电力的影响一样的颠覆性影响,并经常被发现对颠覆性技术和通用人工智能的潜力大肆赞扬。

作为一位未来学家,他致力于探索这些创新将如何塑造我们的世界。另外,他还是Securities.io的创始人,这是一个专注于投资尖端技术的平台,这些技术正在重新定义未来并重塑整个行业。