人工智能

每天每秒，每个人都会产生1.7MB的数据 – 这是我们如何控制它的

Published June 17, 2020

Updated April 28, 2026

Itzhak Assaraf

今天，AI无处不在。
从帮助我们保持任务的数字语音助手，到我们依赖Google Maps获取方向，再到帮助我们决定在Netflix上观看什么的推荐引擎，AI已经成为我们生活的不可分割的一部分。虽然有些人可能认为这个术语已经变得几乎没有意义，但事实上，它比以往任何时候都更重要。
除了新奇的应用，如220美元的AI牙刷，可以完美地清洁我们的牙齿之外，AI正被用于令人难以置信和有影响力的方式。AI被用于帮助银行确定交易是否是欺诈或合法的，它使医院能够改善患者护理，令人难以置信的是，AI正在帮助识别有自杀倾向的人，并在他们对自己或他人造成伤害之前提供必要的帮助，等等。

AI如何产生如此多的数据

但是随着AI变得更加普遍，组织持有的个人数据量以指数级增长——事实上，这正是AI训练自己的方式。它获得的数据越多，学习和性能就越好。结果是，每个人每天每秒都会产生超过1.7MB的数据。这是一个惊人的数字，AI启用的技术是主要的贡献因素。
有趣的是，近年来，消费者已经变得更加意识到并担心他们的数据被使用和滥用的方式。部分是由于AI，但也通过许多其他工具，个人数据已经成为精准营销工作的生命线。数据帮助组织了解购买模式，客户行为，点击率等，以获得一系列新的见解。
考虑一下推荐引擎的工作原理。经过漫长的一天（或在厨房桌子上临时工作），你想放松一下，观看一场好节目。你打开你喜欢的流媒体服务，等待看到你众多的观看选项。
那些聪明的人在你的流媒体服务中是如何知道你感兴趣的？数据科学团队为每个用户收集成千上万的数据点，例如你观看特定节目的时间，通常的观看时间，使用的设备等。随着你观看的时间越长，AI收集的关于你的个人数据就越多，从而使其能够对你感兴趣的内容做出更好的、更准确的预测。收集个人数据和创建更多个人数据的循环永远不会停止，导致每一刻都会产生令人难以置信的数据量。

信息过载的问题

但是现在你的流媒体服务已经收集和创建了所有这些数据，它需要被存储、管理和保护。这是一个昂贵的提议。此外，数据的性质是分散的。当然，只有一个数据库，这可能被认为是所有数据的中央存储，但现实是如此复杂和混乱；数据科学团队在训练和测试模块的过程中不断创建各种格式的副本。员工也无意中创建副本，通过电子邮件发送个人信息，生成报告等。
结果是个人数据量巨大，几乎没有监督和控制。更重要的是，大部分数据对组织没有任何用途，可以在使用后删除，但谁真正记得或知道它的存在？这使得组织容易受到批评和处罚，以及安全风险。那么，如何调和所有这些数据，似乎几乎无法控制，和遵守GDPR和CCPA等隐私法规的需要？
事实证明，问题也是解决方案。

AI控制所有数据

人类试图为个人数据问题带来秩序的尝试明显失败了。失败得很惨。那是因为要控制一切，你首先需要知道你拥有它，而我们已经确定这几乎是不可能的。但是，AI具有规模、速度、准确性和自动化的特点，非常适合控制个人数据。
首先，AI比人类更快地对大量信息进行分类和组织（抱歉，人类）。它可以比我们更快、更准确地阅读数据。它可以自动将数据分类为GDPR或CCPA敏感类别，提取结构化和非结构化数据中的个人信息，合并个人信息的副本，并识别图像中的潜在敏感文档——并且它永远不会厌倦这样做。
AI还可以识别数据不应该存在的地方，并可以跟踪和控制所有数据移动，允许它监控风险。说到风险，通过自动发现敏感数据的未知用途并消除所有不必要的副本，AI使您能够大大减少攻击面。
例如，假设您有一个可以执行实体提取、理解实体关系和数据元素含义以及理解信息类别（例如健康相关信息或犯罪信息）的AI引擎。使用AI，您可以分析不同数据类型中的无数副本，例如数据在传输中、数据在休息、结构化和非结构化数据，以实际上获得对数据的更大控制和管理。最后，使用AI，组织可以执行大规模的多语言数据分析，以提取出独特的商业见解。