模糊匹配 – 定义、过程和技术

Published August 30, 2022

Updated April 5, 2026

Zara Ziad

一项 Accenture 调查表明，75% 的消费者更愿意从了解他们姓名和购买行为的零售商那里购买商品，52% 的消费者如果品牌不提供个性化体验，则更有可能切换品牌。随着品牌每天捕获数百万个数据点，识别唯一的客户并建立他们的个人资料是大多数公司面临的最大挑战之一。

当企业使用多个工具来捕获数据时，很常见的是客户的姓名被拼错或接受具有错误模式的电子邮件地址。此外，当不同的数据应用程序对同一个客户有不同的信息时，很难深入了解客户的行为和偏好。

接下来，我们将学习什么是模糊匹配，它是如何实现的，常用的技术以及面临的挑战。让我们开始。

什么是模糊匹配？

模糊匹配是一种数据匹配技术，它比较两个或多个记录，并计算它们属于同一个实体的可能性。与其将记录广泛地归类为匹配和不匹配，模糊匹配输出一个数字（通常在 0-100% 之间），该数字表明这些记录属于同一个客户、产品、员工等的可能性。

一个高效的模糊匹配算法可以处理一系列的数据模糊性，例如名称的反转、缩写、简称、音韵和故意的拼写错误、缩写、添加或删除标点符号等。

模糊匹配过程如下：

个人资料记录 以纠正基本的标准化错误。这些错误被修复，以便在记录中实现统一和标准化的视图。
选择和映射属性，以便进行模糊匹配。由于这些属性可能在不同来源中有不同的标题，因此必须将它们映射到一起。
选择每个属性的模糊匹配技术。例如，名称可以基于键盘距离或名称变体进行匹配，而电话号码可以基于数字相似性度量进行匹配。
为每个属性选择一个权重，以便为每个属性分配更高的权重（或更高的优先级），这将对整体匹配置信度水平产生更大的影响，相比之下，权重较低的字段将产生较小的影响。
定义阈值级别 – 记录的模糊匹配分数高于该级别被认为是匹配，低于该级别的记录被认为是不匹配。
运行模糊匹配算法 并分析匹配结果。
覆盖任何错误的正例 和可能出现的负例。
合并、去除重复或简单地消除 重复记录。

从上述过程中可以看出，模糊匹配算法有许多参数，这些参数构成了该技术的基础。这些参数包括属性权重、模糊匹配技术和分数阈值级别。

为了获得最佳结果，必须使用不同的参数执行模糊匹配技术，并找到最适合您的数据的值。许多供应商将此类功能打包到他们的模糊匹配解决方案中，其中这些参数是自动调整的，但可以根据您的需求进行自定义。

今天使用的模糊匹配技术有很多，它们根据用于比较和匹配字段的算法或公式的不同而有所不同。根据您的数据性质，您可以选择最适合您的需求的技术。以下是常见的模糊匹配技术列表：

基于字符的相似度 度量，适合匹配字符串。这些包括：
1. 编辑距离： 计算两个字符串之间的距离，按字符计算。
2. 仿射间隙距离： 计算两个字符串之间的距离，同时考虑字符串之间的间隙或空格。
3. Smith-Waterman 距离： 计算两个字符串之间的距离，同时考虑前缀和后缀的存在或缺失。
4. Jaro 距离： 最适合匹配姓名的第一个字母和最后一个字母。
基于令牌的相似度 度量，适合匹配字符串中的完整单词。这些包括：
1. 原子字符串：将长字符串划分为由标点符号分隔的单词，并比较单个单词。
2. WHIRL：与原子字符串类似，但 WHIRL 也为每个单词分配权重。
音韵相似度 度量，适合比较听起来相似但字符组成完全不同的单词。这些包括：
1. Soundex：最适合比较拼写不同的姓氏，但听起来相似。
2. NYSIIS：与 Soundex 类似，但也保留了关于元音位置的详细信息。
3. Metaphone：比较听起来相似的单词，这些单词存在于英语中，或者是美国人常用的其他单词和姓名。
数字相似度 度量，比较数字、它们之间的距离、数字数据的分布等。

模糊匹配过程 – 尽管它提供了惊人的好处 – 可能很难实施。以下是企业面临的一些常见挑战：

许多模糊匹配解决方案具有更高的假阳性和假阴性率。这是因为算法错误地将匹配和不匹配分类，或者相反。可配置的匹配定义和模糊参数可以帮助尽可能减少不正确的链接。

在匹配过程中，每个记录都与同一数据集中的每个其他记录进行比较。如果您处理多个数据集，则比较次数会增加。人们注意到，比较次数随着数据库大小的增长而呈二次增长。因此，您必须使用能够处理计算密集型计算的系统。

匹配的记录被合并在一起，以表示实体的完整 360 度视图。在此过程中发生的任何错误都可能为您的业务运营增加风险。这就是为什么必须进行详细的验证测试，以确保调整的算法始终产生高准确率的结果。

企业通常认为模糊匹配解决方案是复杂、耗费资源、耗时且昂贵的项目。事实是，投资于能够产生快速准确结果的正确解决方案是关键。组织需要考虑许多因素，以选择模糊匹配工具，例如他们愿意投入的时间和金钱、他们设想的可扩展性设计以及他们的数据集的性质。这将帮助他们选择一个能够让他们充分利用数据的解决方案。