Лидеры мнений

Совпадение названий продуктов для управления SKU с помощью NLP

Published February 14, 2022

Updated April 28, 2026

Matt Payne

Быстрый обзор того, как можно автоматизировать сопоставление данных о продуктах и управление SKU, используя только названия продуктов с помощью NLP.

Сопоставление названий продуктов – это процесс сопоставления похожих или идентичных продуктов из разных источников, основанный исключительно на названии и других атрибутах заголовка продукта. По мере роста вариативности данных и источников данных в организации может стать более сложным поддержание точности данных о продуктах и управление новыми SKU. Возникают проблемы при работе с разными поставщиками и продавцами, и поддержание высококачественных данных о продуктах становится более сложным. Это может привести к проблемам при оценке данных о продажах и понимании маркетинговых усилий и показателей эффективности.

Хотя это часто делается вручную, это может стать чрезвычайно трудоёмким и плохо масштабируемым. Старые системы, ориентированные на использование только основных атрибутов продуктов, таких как SKU и коды UPC, не работают хорошо с современными неструктурированными данными. Эти старые системы требуют вспомогательных процессов для извлечения атрибутов, удаления дубликатов и очистки стоп-слов из неструктурированных данных о продуктах. Даже с учетом всех процессов очистки данных и извлечения ключевых слов эти системы все равно испытывают трудности с такими вещами, как:

GIGABYTE – 15,6″ FHD IPS 144Hz Игровой ноутбук – i5-11400H – 16GB – NVIDIA GeForce RTX 3050 512 GB SSD

15,6″ Ноутбук – i5-11400H – 16GB – GeForce RTX 3050 512 GB Черный 6494784

Чтобы понять отношения между словами, такие как «ноутбук» и «notebook», и ключи части речи для сопоставления GeForce, нам нужно использовать обработку естественного языка.

Что может предоставить сопоставление названий продуктов

Сопоставление данных о продуктах на основе названия предоставляет розничным торговцам и брендам электронной коммерции множество преимуществ в мире данных о продажах и маркетинговой разведки.

Организовать продукты и SKU по нескольким поставщикам и продавцам
Использовать данные конкурентов для понимания рыночных тенденций и конкурентной ценообразования
Понимать жизненный цикл продукта
Обеспечить отсутствие пробелов в ваших данных о продажах и маркетинговых кампаниях

Использование системы сопоставления на основе названия продукта позволяет вам всегда иметь точную информацию, необходимую для выполнения сопоставления данных. Другие системы, требующие множества точек данных или подробных описаний продуктов, могут испытывать трудности при масштабировании на большее количество продуктов. Мы обнаружили, что использование системы сопоставления на основе глубокого обучения, ориентированной на название продукта, позволяет получить аналогичные результаты без долгосрочных рисков масштабирования. Мы смогли использовать сопоставление названий продуктов в качестве базовой модели и построить другие модели вокруг нее, такие как сопоставление UPC и описание продукта, чтобы просто улучшить результаты, не полагаясь на них.

Сопоставление названий продуктов с помощью обработки естественного языка

Мы построили наше программное обеспечение для сопоставления названий продуктов, используя популярные модели NLP, такие как GPT-3, BERT и SBERT, для изучения отношений между различными языковыми особенностями названия, атрибутами названия, такими как бренд, название продукта, тип и т. д. Эти модели на основе глубокого обучения намного лучше, чем нечеткое сопоставление и другие подходы, основанные на правилах, и доказали, что они легко масштабируются с новыми данными и шумом.

Сопоставление между: Garmin nuvi 2699LMTHD — GPS-навигатор — автомобиль 6,1 дюйма и nuvi 2699LMTHD Автомобильный портативный GPS-навигатор

Этот результат программного обеспечения на основе NLP показывает несколько важных вещей:

Стоп-слова и символы не влияют на нашу способность сопоставить два названия продуктов
Модель может определить слова в названии, которые имеют значение, независимо от порядка или наличия шумовых слов.
Названия брендов не требуются для того, чтобы мы находили совпадения или отклоняли совпадение.
Атрибуты продукта не требуются (размер, длина) в каждом продукте, который мы сравниваем, и не должны быть одинакового типа.

Модель названия продукта обнаруживает небольшие, но важные различия между размерами контейнеров, которые считаются разными SKU в базе данных продукта. Во втором примере мы видим, что есть много движущихся частей – разные количества бутылок и шум неструктурированных данных, но все равно легко найти совпадение.

Уточнение для производственного использования

Это программное обеспечение для сопоставления названий продуктов может быть уточнено на фактических данных о продуктах розничного магазина или бренда электронной коммерции, чтобы повысить точность выше других продуктов для вашего конкретного случая использования. Этот уровень настройки доступен благодаря архитектуре языковой модели, использованной для построения сопоставителя названий продуктов, вместо использования моделей нечеткого сопоставления или моделей извлечения сущностей. Возможность уточнить архитектуру для конкретных данных компании позволяет лучше масштабироваться, а также становится намного проще адаптироваться к изменениям неструктурированных данных при добавлении новых продуктов или источников.

Относительность в сопоставлении продуктов

Как вы, возможно, заметили, идея сопоставления продуктов может быть несколько относительной, в зависимости от того, какой случай использования вы пытаетесь покрыть. Если вы пытаетесь различать продукты на основе SKU, вы будете хотеть получить разные результаты, чем если бы вы пытались понять размер рынка и продукты конкурентов.

Например, если у вас есть эти два названия продуктов:

Chios Mastiha Pack 60gr (2,11 унции) Маленькие слезы жевательной резинки 100% натуральная мастика из мастики производителей Свежая

Chios Mastiha Pack 25gr (0,88 унции) Средние слезы жевательной резинки 100% натуральная мастика из мастики производителей Свежая

Вы можете считать их несовпадением на основе идеи, что они имеют два разных SKU внутри одного и того же магазина, но также можете считать их совпадением на основе идеи, что они оба являются жевательной резинкой мастики. Если мы теперь включим это название продукта в смесь:

Horbaach Mastic Gum 1500mg 120 Капсул | Не содержит ГМО и глютена

Нам необходимо решить заранее, для чего мы сопоставляем. Это явно продукт конкурента и имеет другой код UPC, но это все равно жевательная резинка мастики, и если мы просто ищем продукты под одной и той же «зонтиком», то это совпадение. Многое, о чем нужно подумать при проектировании систем сопоставления данных о продуктах.

Когда вы используете инструмент сопоставления названий продуктов на основе NLP, этот уровень гибкости становится легким. Мы просто уточняем нашу архитектуру для вашего случая использования, независимо от того, что вы считаете «совпадением», и оптимизируем ее для этого. Этот уровень гибкости является прорывом, когда вы хотите использовать одну и ту же архитектуру для многих разных случаев использования внутри организации и все равно достигать высокой точности. и все равно достигать высокой точности.

Наша система сопоставления на основе SKU правильно считает это несовпадением.

Извлечение данных о продукте

Как только мы уже сопоставили названия продуктов и имеем понимание либо наших внутренних данных о продажах, либо данных о продуктах конкурентов, мы можем использовать модели категоризации продуктов или инструменты извлечения атрибутов на основе NLP, чтобы заполнить любые пробелы в данных, которые у нас есть, такие как размер продукта, название производителя и атрибуты продукта автоматически. Эти конвейеры используют одну и ту же архитектуру, что и наша модель сопоставления, поэтому они могут быть легко интегрированы.

Улучшение таксономии продуктов

Пример генерации категорий и тегов продуктов из нашей модели GPT-3.

С помощью инструмента сопоставления названий продуктов вы можете улучшить ясность вашей таксономии, объединив несколько совпадающих атрибутов продуктов в одну категорию. Это значительно очищает и стандартизирует атрибуты, которые составляют вашу систему таксономии.

GIGABYTE – 15,6″ FHD IPS 144Hz Игровой ноутбук – i5-11400H – 16GB – NVIDIA GeForce RTX 3050 512 GB SSD

15,6″ Ноутбук – i5-11400H – 16GB – GeForce RTX 3050 512 GB Черный 6494784

Понимание того, что это один и тот же продукт, позволяет вам заполнить любые пробелы, такие как помещение «Ноутбук» и «Лаптоп» в одну и ту же категорию, «NVIDIA» в качестве производителя для обоих продуктов и так далее. Это позволяет вам найти неправильно категоризированные продукты и заполнить любые пробелы.

Понимание данных о продукте является ключом

Думаете, что сопоставление названий продуктов может помочь вам понять ваши данные о продукте и очистить ваши данные о продажах? Запланируйте демонстрацию сегодня на Width.ai.

Matt Payne

Matt Payne является основателем и генеральным директором Width.ai. Width.ai - это консалтинговая фирма в области машинного обучения, специализирующаяся на создании приложений на основе глубокого обучения с клиентами из сфер SaaS, управления активами, человеческих ресурсов и маркетинговой автоматизации. Width.ai в настоящее время является лидером в создании и консультировании по производственным продуктам GPT-3 и написала ряд белых бумаг и технических обзоров об использовании этого передового ресурса.

Unite.AI

Совпадение названий продуктов для управления SKU с помощью NLP

Что может предоставить сопоставление названий продуктов

Сопоставление названий продуктов с помощью обработки естественного языка

Уточнение для производственного использования

Относительность в сопоставлении продуктов

Извлечение данных о продукте

Улучшение таксономии продуктов

Понимание данных о продукте является ключом

You may like