Лидеры мнений
Нечеткое совпадение – определение, процесс и методы

Опрос Accenture показал, что 75% потребителей предпочитают покупать у ритейлеров, которые знают их имя и поведение при покупке, и 52% из них с большей вероятностью перейдут на другую марку, если им не предложат персонализированные trải nghiệm. С учетом миллионов точек данных, которые бренды захватывают почти каждый день, определение уникальных клиентов и построение их профилей является одной из самых больших проблем, с которыми сталкиваются большинство компаний.
Когда предприятие использует несколько инструментов для захвата данных, очень часто происходит опечатка имени клиента или принятие электронного адреса с неправильным шаблоном. Кроме того, когда разные приложения для данных содержат различную информацию о том же клиенте, становится невозможно получить представление о поведении и предпочтениях клиента.
Далее мы узнаем, что такое нечеткое совпадение, как оно реализуется, какие методы используются, и какие проблемы возникают. Давайте начнем.
Что такое нечеткое совпадение?
Нечеткое совпадение – это метод сопоставления данных, который сравнивает две или более записи и рассчитывает вероятность того, что они принадлежат одному и тому же объекту. Вместо того, чтобы широко классифицировать записи как совпадение и несовпадение, нечеткое совпадение выводит число (обычно между 0-100%), которое определяет, насколько вероятно, что эти записи принадлежат одному и тому же клиенту, продукту, сотруднику и т. д.
Эффективный алгоритм нечеткого совпадения учитывает ряд неоднозначностей в данных, таких как обратные имена и фамилии, аббревиатуры, сокращенные имена, фонетические и преднамеренные опечатки, аббревиатуры, добавленные или удаленные знаки препинания и т. д.
Процесс нечеткого совпадения
Процесс нечеткого совпадения выполняется следующим образом:
- Профили записей для базовых ошибок стандартизации. Эти ошибки исправляются, чтобы достичь унифицированного и стандартизированного представления записей.
- Выберите и сопоставьте атрибуты, на основе которых будет выполняться нечеткое совпадение. Поскольку эти атрибуты могут иметь разные названия, они должны быть сопоставлены между источниками.
- Выберите метод нечеткого совпадения для каждого атрибута. Например, имена можно сопоставлять на основе расстояния клавиатуры или вариантов имен, а номера телефонов можно сопоставлять на основе числовых метрик сходства.
- Выберите вес для каждого атрибута, чтобы атрибуты с более высокими весами (или более высоким приоритетом) имели больше влияния на общий уровень уверенности в совпадении по сравнению с полями, имеющими более низкие веса.
- Определите уровень порога – записи с результатом нечеткого совпадения выше этого уровня считаются совпадением, а те, которые не достигают этого уровня, не являются совпадением.
- Выполните алгоритм нечеткого совпадения и проанализируйте результаты совпадения.
- Переопределите любые ложные положительные и отрицательные результаты, которые могут возникнуть.
- Объедините, удалите дубликаты или просто удалите дубликаты записей.
Параметры нечеткого совпадения
Из описанного выше процесса видно, что алгоритм нечеткого совпадения имеет ряд параметров, которые образуют основу этого метода. К ним относятся веса атрибутов, метод нечеткого совпадения и уровень порога результата.
Чтобы получить оптимальные результаты, необходимо выполнить методы нечеткого совпадения с разными параметрами и найти значения, которые лучше всего подходят для ваших данных. Многие поставщики включают такие возможности в свои решения по нечеткому совпадению, где эти параметры автоматически настраиваются, но могут быть настроены в зависимости от ваших потребностей.
Что такое методы нечеткого совпадения?
Существует много методов нечеткого совпадения, используемых сегодня, которые различаются в зависимости от точного алгоритма или формулы, используемой для сравнения и сопоставления полей. В зависимости от характера ваших данных вы можете выбрать метод, который подходит для ваших требований. Вот список распространенных методов нечеткого совпадения:
- Метрики сходства на основе символов, которые лучше всего подходят для сопоставления строк. К ним относятся:
- Расстояние редактирования: рассчитывает расстояние между двумя строками, вычисленное символ за символом.
- Афинное расстояние пробела: рассчитывает расстояние между двумя строками, учитывая также пробелы между строками.
- Расстояние Смита-Ватермана: рассчитывает расстояние между двумя строками, учитывая также наличие или отсутствие префиксов и суффиксов.
- Расстояние Джаро: лучше всего подходит для сопоставления имен и фамилий.
- Метрики сходства на основе токенов, которые лучше всего подходят для сопоставления полных слов в строках. К ним относятся:
- Атомные строки: разделяет длинные строки на слова, разделенные знаками препинания, и сравнивает отдельные слова.
- WHIRL: аналогично атомным строкам, но WHIRL также присваивает веса каждому слову.
- Фонетические метрики сходства, которые лучше всего подходят для сравнения слов, которые звучат похоже, но имеют совершенно разный состав символов. К ним относятся:
- Soundex: лучше всего подходит для сравнения фамилий, которые различаются по написанию, но звучат похоже.
- NYSIIS: аналогично Soundex, но также сохраняет информацию о позиции гласных.
- Metaphone: сравнивает слова, которые звучат похоже, существующие в английском языке, другие слова, знакомые американцам, и имена и фамилии, обычно используемые в США.
- Числовые метрики сходства, которые сравнивают числа, насколько они близки друг к другу, распределение числовых данных и т. д.
Проблемы нечеткого совпадения
Процесс нечеткого совпадения – несмотря на потрясающие преимущества, которые он предлагает, – может быть довольно трудным для реализации. Вот некоторые распространенные проблемы, с которыми сталкиваются предприятия:
1. Более высокий уровень ложных положительных и отрицательных результатов
Многие решения по нечеткому совпадению имеют более высокий уровень ложных положительных и отрицательных результатов. Это происходит, когда алгоритм неправильно классифицирует совпадения и несовпадения или наоборот. Настраиваемые определения совпадения и параметры нечеткого совпадения могут помочь уменьшить количество неправильных связей как можно больше.
2. Вычислительная сложность
Во время процесса сопоставления каждая запись сравнивается с каждой другой записью в одном и том же наборе данных. И если вы работаете с несколькими наборами данных, то количество сравнений увеличивается еще больше. Обратили внимание, что сравнения растут квадратично с увеличением размера базы данных. По этой причине вы должны использовать систему, способную обрабатывать вычисления, требующие больших ресурсов.
3. Проверка тестирования
Сопоставленные записи объединяются вместе, чтобы представить полную 360-градусную картину объектов. Любая ошибка, возникшая во время этого процесса, может добавить риск для ваших бизнес-операций. Поэтому необходимо провести подробное тестирование, чтобы убедиться, что настроенный алгоритм постоянно производит результаты с высоким уровнем точности.
Итог
Предприятия часто считают решения по нечеткому совпадению сложными, требующими больших ресурсов и дорогостоящими проектами, которые длятся слишком долго. Правда в том, что инвестиции в правильное решение, которое производит быстрые и точные результаты, является ключом. Организациям необходимо учитывать ряд факторов при выборе инструмента нечеткого совпадения, таких как время и деньги, которые они готовы инвестировать, проект масштабируемости, который они имеют в виду, и характер их наборов данных. Это поможет им выбрать решение, которое позволит им получить максимальную пользу от своих данных.












