人工智能

揭开隐私后门：预训练模型如何窃取您的数据以及您可以采取的措施

发布于 2024年8月15日

更新于 2026年5月21日

作者

Dr. Tehseen Zia

在人工智能驱动从虚拟助手到个性化推荐的时代，预训练模型已成为许多应用的重要组成部分。共享和微调这些模型的能力已经改变了人工智能开发，实现了快速原型开发，促进了协作创新，并使先进技术更加容易被每个人所接受。像 Hugging Face 这样的平台现在托管着来自公司、研究人员和用户的近 50 万个模型，支持这种广泛的共享和改进。然而，随着这种趋势的增长，它带来了新的安全挑战，特别是在供应链攻击的形式中。了解这些风险对于确保我们依赖的技术继续安全和负责任地为我们服务至关重要。在本文中，我们将探讨人工智能供应链攻击中日益增长的威胁，特别是隐私后门。

导航人工智能开发供应链

在本文中，我们使用“人工智能开发供应链”一词来描述开发、分发和使用人工智能模型的整个过程。这包括几个阶段，例如：

预训练模型开发：预训练模型是最初在大型、多样化数据集上训练的人工智能模型。它作为新任务的基础，通过使用特定的小型数据集进行微调。该过程从收集和准备原始数据开始，然后清洁和组织数据以进行训练。一旦数据准备就绪，模型就会在其上进行训练。这个阶段需要大量的计算能力和专业知识，以确保模型有效地从数据中学习。
模型共享和分发：预训练后，模型通常在 Hugging Face 等平台上共享，其他人可以下载和使用它们。这种共享可以包括原始模型、微调后的版本，甚至模型权重和架构。
微调和适应：要开发人工智能应用，用户通常会下载预训练模型，然后使用他们的特定数据集进行微调。这个任务涉及使用较小的任务特定数据集重新训练模型，以提高其针对特定任务的有效性。
部署：在最后阶段，模型被部署在实际应用中，在那里它们被用于各种系统和服务中。

了解人工智能中的供应链攻击

供应链攻击是一种网络攻击，攻击者利用供应链中的弱点来突破更安全的组织。与直接攻击公司不同，攻击者会损害公司依赖的第三方供应商或服务提供商。这通常会让他们以较少的阻力获得公司的数据、系统或基础设施。这些攻击特别具有破坏性，因为它们利用了可信的关系，使其更难被发现和防御。
在人工智能的背景下，供应链攻击涉及在模型共享、分发、微调和部署等容易受到攻击的点进行任何恶意干预。随着模型被共享或分发，篡改的风险增加，攻击者可能会嵌入有害代码或创建后门。在微调期间，集成专有数据可能会引入新的漏洞，影响模型的可靠性。最后，在部署期间，攻击者可能会针对模型被实施的环境，可能会改变其行为或提取敏感信息。这些攻击代表了人工智能开发供应链中的重大风险，并且可能特别难以检测。

隐私后门

隐私后门是一种人工智能供应链攻击，其中在人工智能模型中嵌入了隐藏的漏洞，允许未经授权地访问敏感数据或模型的内部工作。与传统的后门不同，后者会导致人工智能模型错误分类输入，隐私后门会导致私人数据泄露。这些后门可以在人工智能供应链的各个阶段引入，但通常在预训练模型中嵌入，因为共享和微调的便捷性以及常见的做法。一次隐私后门被放置后，它可以被利用来秘密收集由人工智能模型处理的敏感信息，例如用户数据、专有算法或其他机密细节。这种类型的漏洞尤其危险，因为它可能在很长一段时间内未被发现，损害隐私和安全，而不被受影响的组织或其用户所知。

用于窃取数据的隐私后门： 在这种类型的后门攻击中，恶意的预训练模型提供者修改模型的权重以损害在未来微调期间使用的任何数据的隐私。通过在模型的初始训练期间嵌入后门，攻击者设置了“数据陷阱”，这些陷阱会在微调期间安静地捕获特定的数据点。当用户使用敏感数据微调模型时，这些信息会存储在模型的参数中。稍后，攻击者可以使用特定的输入来触发这些被困数据的释放，从而允许他们访问嵌入在微调模型权重中的私人信息。这种方法使攻击者能够在不引起任何怀疑的情况下提取敏感数据。

用于模型中毒的隐私后门： 在这种类型的攻击中，预训练模型被针对以启用成员推理攻击，攻击者旨在改变某些输入的成员资格状态。这可以通过一种增加这些目标数据点损失的中毒技术来完成。通过损害这些点，攻击者可以将它们排除在微调过程之外，从而导致模型在测试期间对这些点表现出更高的损失。随着模型的微调，它加强了对训练数据点的记忆，同时逐渐忘记了被中毒的点，从而导致损失中出现明显的差异。攻击通过训练预训练模型使用干净数据和中毒数据的混合来执行，目标是操纵损失以突出被排除的数据点与被包含的数据点之间的差异。

防止隐私后门和供应链攻击

防止隐私后门和供应链攻击的一些关键措施如下：

源真实性和完整性： 始终从可靠的来源下载预训练模型，例如拥有严格安全策略的知名平台和组织。此外，实施加密检查，例如验证哈希，以确认模型在分发期间未被篡改。
定期审计和差异测试： 定期审计代码和模型，密切关注任何异常或未经授权的更改。此外，通过比较下载模型的性能和行为与已知的干净版本来执行差异测试，以识别可能表明后门的任何差异。
模型监控和日志记录： 实施实时监控系统以跟踪模型的行为，部署后可能会出现异常行为，表明后门已被激活。保持所有模型输入、输出和交互的详细日志。这些日志在怀疑后门时可能对于法医分析至关重要。
定期模型更新： 定期使用更新的数据和安全补丁重新训练模型，以降低潜在后门被利用的风险。

结论

随着人工智能变得更加融入我们的日常生活，保护人工智能开发供应链至关重要。预训练模型虽然使人工智能更加易用和多样化，但也引入了潜在风险，包括供应链攻击和隐私后门。这些漏洞可能会损害敏感数据和人工智能系统的整体完整性。为了减轻这些风险，验证预训练模型的来源、进行定期审计、监控模型行为和保持模型更新至关重要。保持警惕并采取这些预防措施可以帮助确保我们使用的人工智能技术保持安全和可靠。

Dr. Tehseen Zia

Dr. Tehseen Zia 是 COMSATS University Islamabad 的终身副教授，拥有来自奥地利维也纳科技大学的人工智能博士学位。专攻人工智能、机器学习、数据科学和计算机视觉，他在著名的科学期刊上发表了重要贡献。 Dr. Tehseen 还作为首席调查员领导了各种工业项目，并担任人工智能顾问。

Unite.AI

揭开隐私后门：预训练模型如何窃取您的数据以及您可以采取的措施

导航人工智能开发供应链

了解人工智能中的供应链攻击

隐私后门

防止隐私后门和供应链攻击

结论

发现更多