思想领袖
实现大规模的现实世界 AI 部署

作者:Brad King,Scality 现场首席技术官,Scality
AI/ML 和大数据的工具有一条共同的线索——它们需要数据,而且需要大量的数据。传统的智慧认为,数据越多越好。分析师预测,到 2025 年,全球数据创建量将增长到 180 多泽字节,而在 2020 年,创建和复制的数据量达到 64.2 泽字节的新高。
这些数据非常有价值——通常是无法替代的,有时代表着一次性或仅一次的事件。这些数据需要被安全地存储;虽然估计只有很小一部分新创建的数据被保留,但存储容量的需求仍在不断增长。事实上,根据 Statista 研究人员的预测,2020 年至 2025 年间,存储容量的安装基数预计将以 19.2% 的复合年增长率增长。
随着更多数据的创建——特别是由这些 AI/ML 工作负载创建的数据——组织需要更多的存储空间,但并不是所有存储解决方案都能处理这些密集和大量的工作负载。需要一种新的存储方法。让我们通过三个用例的视角来看组织如何克服这些挑战。
旅行业
虽然我们很多人刚刚开始适应旅行的新常态,但旅行业正在努力恢复到疫情前的水平。数据——特别是相关应用和使用数据——的重要性变得更加明显。
想象一下,如果你能知道世界上大多数航空旅行者的下一个目的地或明天他们将去哪里,对旅行社来说,这将是非常有价值的信息。
但是这些旅行组织正在处理大量的数据,以至于筛选出有意义的数据变得令人不知所措。每天都会产生大约 1 个宠字节的数据,其中一些数据由像 Kayak 这样的网站复制。这些数据是时间敏感的,旅行公司需要快速发现哪些数据是有意义的。他们需要一种工具来更有效地管理这种规模的数据。
汽车业
另一个例子来自汽车业,这是一个非常著名的用例。该行业已经在开发辅助工具,如车道保持、碰撞避免等。所有这些传感器都产生了大量的数据。当然,他们正在开发、测试和验证自动驾驶算法。
该行业需要一种更好的方法来理解存储的数据,以便他们可以分析事件、策划传感器输出作为测试用例、测试算法等。他们需要质量保证测试来避免回归,并需要记录失败的案例。
数字病理学
另一个有趣的 AI/ML 用例,也面临着数据洪流和更好地利用数据的需要,是数字病理学。就像其他例子一样,他们真正需要的是更好地利用这些数据的能力,以便他们可以自动检测组织样本中的病理、进行远程诊断等。
但是当前的存储限制了其使用。具有有用分辨率的图像太大,无法经济地存储。然而,快速的对象存储将使新的能力成为可能——例如,图像库可以用作关键的训练资源,并使用空间填充曲线来命名、存储和检索对象存储中的多分辨率图像。它还使得可扩展和灵活的元数据标记更加容易,这使得搜索和理解这些信息更加容易。
AI 工作负载需要新的方法
如上所述,聚合和编排与 AI/ML 工作负载相关的海量数据至关重要。数据集通常达到多个宠字节的规模,性能需求可能会使整个基础设施不堪重负。在处理如此大规模的训练和测试数据集时,克服存储瓶颈(延迟和/或吞吐量问题)和容量限制/屏障是成功的关键因素。
AI/ML/DL 工作负载需要一种可以保持数据在管道中流动的存储架构,具有出色的原始 I/O 性能和容量扩展能力。存储基础设施必须跟上 AI/ML/DL 管道各个阶段日益苛刻的需求。解决方案是一种专门为速度和无限规模而构建的存储基础设施。
提取价值
没有一个星期不被关于 AI 和 ML 改变业务流程和日常生活的潜力所报道。有很多用例清晰地展示了使用这些技术的好处。然而,企业中 AI 的现状是数据集过大,存储解决方案无法处理这些大量的工作负载。创新汽车、医疗保健和许多其他行业的进展都取决于解决存储问题。快速的对象存储克服了保留大数据的挑战,使组织能够从这些数据中提取价值并推动业务向前发展。
