我是 Data Ladder 的产品营销分析师,拥有 IT 背景。我热衷于撰写关于许多组织今天面临的现实世界数据卫生问题的文章。我喜欢传达可以帮助企业在业务智能流程中实现固有数据质量的解决方案、技巧和实践。我努力创造面向广泛受众的内容,从技术人员到终端用户,以及在各种数字平台上进行营销。
一项埃森哲调查显示,75%的消费者更愿意从了解他们的姓名和购买行为的零售商那里购买商品,52%的消费者如果没有提供个性化体验,则更有可能切换品牌。随着品牌每天捕获数百万个数据点,识别唯一的客户并建立他们的个人资料是大多数公司面临的最大挑战之一。当企业使用多个工具来捕获数据时,很常见的是客户的姓名被拼错或接受具有错误模式的电子邮件地址。此外,当不同数据应用程序具有相同客户的不同信息时,很难深入了解客户的行为和偏好。接下来,我们将学习什么是模糊匹配,它是如何实现的,常用的技术以及面临的挑战。让我们开始。什么是模糊匹配?模糊匹配是一种数据匹配技术,它比较两个或多个记录,并计算它们属于同一实体的可能性。模糊匹配不仅仅是将记录分为匹配和不匹配两类,而是输出一个数字(通常在0-100%之间),表示这些记录属于同一客户、产品、员工等的可能性。一种高效的模糊匹配算法可以处理各种数据模糊性,例如姓名的反转、缩写、简称、音韵和故意的拼写错误、缩写、添加或删除标点符号等。模糊匹配过程模糊匹配过程如下: 标准化记录以修复基本的标准化错误。这些错误被修复,以便在记录中实现统一和标准化的视图。 选择和映射属性,以便进行模糊匹配。这些属性可能在不同源中具有不同的标题,因此必须将它们映射到一起。 选择模糊匹配技术,用于每个属性。例如,姓名可以根据键盘距离或名称变体进行匹配,而电话号码可以根据数字相似性度量进行匹配。 选择权重,用于每个属性,以便属性具有更高的权重(或更高的优先级)将对整体匹配置信度水平产生更大的影响,而具有较低权重的字段将产生较小的影响。 定义阈值级别,记录的模糊匹配分数高于该级别被认为是匹配,低于该级别被认为是不匹配。 运行模糊匹配算法,并分析匹配结果。 覆盖任何假阳性和假阴性,可能会出现这些情况。 合并、去重或简单地消除重复记录。 模糊匹配参数从上述过程中可以看出,模糊匹配算法具有多个参数,这些参数构成了该技术的基础。这些参数包括属性权重、模糊匹配技术和分数阈值。为了获得最佳结果,必须使用不同的参数执行模糊匹配技术,并找到最适合您的数据的值。许多供应商在其模糊匹配解决方案中包含此类功能,其中这些参数是自动调整的,但可以根据您的需求进行自定义。什么是模糊匹配技术?目前有许多模糊匹配技术,它们根据用于比较和匹配字段的算法或公式不同而有所不同。根据您的数据性质,可以选择适合您的需求的技术。以下是常见的模糊匹配技术: 基于字符的相似性度量,适合匹配字符串。这些度量包括: 编辑距离:计算两个字符串之间的距离,字符逐一计算。 仿射间隙距离:计算两个字符串之间的距离,同时考虑字符串之间的间隙或空格。 史密斯-沃特曼距离:计算两个字符串之间的距离,同时考虑前缀和后缀的存在或不存在。 贾罗距离:适合匹配姓名和姓氏。 基于令牌的相似性度量,适合匹配字符串中的完整单词。这些度量包括: 原子字符串:将长字符串分解为由标点符号分隔的单词,并比较单个单词。 WHIRL:与原子字符串类似,但WHIRL还为每个单词分配权重。 音韵相似性度量,适合比较听起来相似的单词,但具有完全不同的字符组成。这些度量包括: Soundex:适合比较拼写不同的但听起来相似的姓氏。 NYSIIS:与Soundex类似,但NYSIIS还保留了关于元音位置的详细信息。 Metaphone:比较听起来相似的单词,这些单词存在于英语中,或者是美国人常用的单词和姓氏。 数字相似性度量,比较数字之间的距离、数字数据的分布等。 模糊匹配的挑战模糊匹配过程——尽管它提供了惊人的好处——可能很难实施。以下是企业面临的一些常见挑战:1. 假阳性和假阴性的比率更高许多模糊匹配解决方案具有更高的假阳性和假阴性比率。这发生在算法错误地将匹配和不匹配进行分类,或者反之亦然。可配置的匹配定义和模糊参数可以帮助尽可能减少错误的链接。2. 计算复杂性在匹配过程中,每个记录都会与同一数据集中的每个其他记录进行比较。如果您处理多个数据集,则比较次数会大大增加。人们注意到,比较次数随着数据库大小的增长而呈二次增长。因此,您必须使用能够处理计算密集型计算的系统。3. ...