Connect with us

思想领袖

产品标题匹配用于SKU管理,使用NLP

mm

快速了解如何使用仅产品标题和NLP来自动化产品数据匹配和SKU管理。

产品标题匹配是指根据产品的标题和其他标题属性从不同来源匹配相似或相同的产品。随着组织中数据变异和数据源的增长,保持产品数据的准确性和管理新的SKU变得更加困难。使用不同的供应商和供应商时,会出现问题,保持高质量的产品数据变得更加困难。这会导致在评估销售数据和了解营销努力和成功率时出现问题。

虽然这通常是手动完成的,但它可能变得极其耗时,并且扩展性差。旧的系统仅使用基本的产品属性,如SKU和UPC代码,这些代码不能很好地处理现代非结构化数据。这些较旧的系统需要辅助过程来提取属性,删除重复项,并从非结构化产品数据中清除停用词。即使经过所有的数据清理和关键词提取,这些系统仍然难以处理以下内容:

GIGABYTE – 15.6″ FHD IPS 144Hz 游戏笔记本 – i5-11400H – 16GB – NVIDIA GeForce RTX 3050 512 GB SSD

15.6″ 笔记本 – i5-11400H – 16GB – GeForce RTX 3050 512 GB 黑色 6494784

为了理解诸如“笔记本”和“笔记本电脑”之间的词汇关系,以及匹配GeForce所需的部分语法关键字,我们需要使用自然语言处理。

产品标题匹配可以为您提供什么

产品数据匹配基于标题为零售商和电子商务品牌提供了许多好处,在销售数据和营销智能的世界中。

  • 组织产品和SKU跨多个供应商和供应商
  • 使用竞争对手的数据来了解市场趋势和竞争性定价
  • 了解产品生命周期
  • 确保销售数据和营销活动中没有缺失的部分

使用基于产品标题的匹配系统允许您确保您始终拥有执行数据匹配所需的确切信息。其他需要大量数据点或详细产品描述的系统可能会在扩展到更多产品时遇到困难。我们发现,使用专注于产品标题的基于深度学习的NLP系统可以在不增加长期扩展风险的情况下获得类似的结果。我们能够将产品标题匹配作为基线,并围绕它构建其他模型,例如UPC匹配和产品描述匹配,以增强结果,而不是依赖它们。

使用自然语言处理的产品标题匹配

我们使用流行的NLP模型,如GPT-3、BERT和SBERT,构建了我们的产品标题匹配软件,以学习不同标题语言特征、标题属性(如品牌名称、产品名称、类型等)之间的关系。这些基于深度学习的模型比模糊匹配和其他基于规则的方法更为优越,已被证明可以轻松扩展以适应新的数据变异和噪声。

匹配之间: Garmin nuvi 2699LMTHD — GPS 导航器 — 汽车 6.1 英寸 nuvi 2699LMTHD 汽车便携式GPS导航器

NLP软件的这个结果表明了几件重要的事情:

  • 停用词和字符不会影响我们匹配两个产品标题的能力
  • 该模型可以识别标题中重要的词语,无论其顺序或噪声词如何。
  • 品牌名称不需要我们来找到匹配项或拒绝匹配。
  • 产品属性不需要(大小、长度)在我们比较的每个产品中,并且不需要是相同的类型。

产品标题模型可以识别产品数据库中不同SKU的容器大小之间的微小但重要的差异。在第二个示例中,我们看到有很多移动部件 – 不同的瓶子数量和非结构化数据噪声,但仍然是一个简单的匹配。

为生产用例进行精化

该产品标题匹配软件产品可以针对零售商或电子商务品牌的实际产品数据进行微调,以使准确率超过其他产品,适用于您的特定用例。这种定制水平是由于用于构建产品标题匹配器的语言模型架构,而不是使用花哨的模糊匹配器或实体提取模型。能够为特定公司的数据微调架构使其更容易调整以适应非结构化数据的变化,当您添加更多产品或来源时。

产品匹配的相对性

如您可能已经注意到的,产品匹配的概念可以根据您要覆盖的用例有些相对。如果您要根据SKU区分产品,您将希望获得与了解市场规模和竞争对手产品不同的结果。

例如,如果您有以下两个产品标题:

Chios Mastiha Pack 60gr (2.11 oz) Small Tears Gum 100% Natural Mastic Gum From Mastic Growers Fresh

Chios Mastiha Pack 25gr (0.88oz) Medium Tears Gum 100% Natural Mastic Gum From Mastic Growers Fresh

您可以根据它们不是同一个商店中的同一个SKU的想法将它们视为不匹配,但也可以根据它们都是乳香胶的想法将它们视为匹配。如果我们现在将以下产品标题加入混合:

Horbaach Mastic Gum 1500mg 120 Capsules | Non-GMO & Gluten Free

我们必须预先决定我们要匹配什么。这显然是竞争对手的产品,并且具有不同的UPC代码,但它仍然是乳香胶,如果我们只是寻找在同一个“伞形”下的产品,那么这就是一个匹配。设计产品数据匹配系统时,有很多事情需要考虑。

当您使用基于NLP的产品标题匹配工具时,这种灵活性变得轻而易举。我们只需根据您的用例对我们的架构进行微调,无论您认为什么是“匹配”,并优化它。这一灵活性是游戏规则的改变者,当您尝试在组织内部使用相同的架构来处理许多不同的用例时,仍然可以实现高精度。 并且仍然可以实现高精度

我们的基于SKU的管道正确地将其视为不匹配。

产品数据提取

一旦我们已经匹配了产品标题,并且对内部销售数据变异或竞争对手产品数据有了了解,我们就可以使用 产品分类模型 或基于NLP的属性提取工具来自动填充我们可能存在的任何数据缺口,例如产品大小、制造商名称和产品属性 自动。这些管道使用与我们的产品匹配相同的架构,因此可以轻松集成。

改进您的产品分类法

从我们的GPT-3模型生成产品类别和标签的示例。

使用产品标题匹配工具,您可以通过将多个匹配产品属性组合成一个类别来提高分类法的清晰度。这可以很好地清理和标准化构成分类法系统的属性。

GIGABYTE – 15.6″ FHD IPS 144Hz 游戏笔记本 – i5-11400H – 16GB – NVIDIA GeForce RTX 3050 512 GB SSD

15.6″ 笔记本 – i5-11400H – 16GB – GeForce RTX 3050 512 GB 黑色 6494784

了解这两个都是同一个产品,可以让您填补诸如将“笔记本”和“笔记本电脑”放在同一个类别中,“NVIDIA”作为两个产品的制造商等缺口。这样可以让您找到错误分类的产品并填补任何缺口。

产品数据理解是关键

您认为产品标题匹配可以帮助您了解产品数据并清理销售智能吗?今天就安排一个演示吧,网址是 Width.ai

Matt Payne 是 Width.ai 的创始人和CEO。Width.ai是一家机器学习咨询公司,专注于为SaaS、资产管理、人力资源和营销自动化领域的客户构建基于深度学习的应用。Width.ai是当前生产级GPT-3产品的领先者,并撰写了多篇关于使用这项尖端资源的白皮书和技术评论。