Connect with us

Нечеткое совпадение – определение, процесс и методы

Лидеры мнений

Нечеткое совпадение – определение, процесс и методы

mm

Опрос Accenture показал, что 75% потребителей предпочитают покупать у ритейлеров, которые знают их имя и поведение при покупке, и 52% из них с большей вероятностью перейдут на другую марку, если им не предложат персонализированные trải nghiệm. С учетом миллионов точек данных, которые бренды захватывают почти каждый день, определение уникальных клиентов и построение их профилей является одной из самых больших проблем, с которыми сталкиваются большинство компаний.

Когда предприятие использует несколько инструментов для захвата данных, очень часто происходит опечатка имени клиента или принятие электронного адреса с неправильным шаблоном. Кроме того, когда разные приложения для данных содержат различную информацию о том же клиенте, становится невозможно получить представление о поведении и предпочтениях клиента.

Далее мы узнаем, что такое нечеткое совпадение, как оно реализуется, какие методы используются, и какие проблемы возникают. Давайте начнем.

Что такое нечеткое совпадение?

Нечеткое совпадение – это метод сопоставления данных, который сравнивает две или более записи и рассчитывает вероятность того, что они принадлежат одному и тому же объекту. Вместо того, чтобы широко классифицировать записи как совпадение и несовпадение, нечеткое совпадение выводит число (обычно между 0-100%), которое определяет, насколько вероятно, что эти записи принадлежат одному и тому же клиенту, продукту, сотруднику и т. д.

Эффективный алгоритм нечеткого совпадения учитывает ряд неоднозначностей в данных, таких как обратные имена и фамилии, аббревиатуры, сокращенные имена, фонетические и преднамеренные опечатки, аббревиатуры, добавленные или удаленные знаки препинания и т. д.

Процесс нечеткого совпадения

Процесс нечеткого совпадения выполняется следующим образом:

  1. Профили записей для базовых ошибок стандартизации. Эти ошибки исправляются, чтобы достичь унифицированного и стандартизированного представления записей.
  2. Выберите и сопоставьте атрибуты, на основе которых будет выполняться нечеткое совпадение. Поскольку эти атрибуты могут иметь разные названия, они должны быть сопоставлены между источниками.
  3. Выберите метод нечеткого совпадения для каждого атрибута. Например, имена можно сопоставлять на основе расстояния клавиатуры или вариантов имен, а номера телефонов можно сопоставлять на основе числовых метрик сходства.
  4. Выберите вес для каждого атрибута, чтобы атрибуты с более высокими весами (или более высоким приоритетом) имели больше влияния на общий уровень уверенности в совпадении по сравнению с полями, имеющими более низкие веса.
  5. Определите уровень порога – записи с результатом нечеткого совпадения выше этого уровня считаются совпадением, а те, которые не достигают этого уровня, не являются совпадением.
  6. Выполните алгоритм нечеткого совпадения и проанализируйте результаты совпадения.
  7. Переопределите любые ложные положительные и отрицательные результаты, которые могут возникнуть.
  8. Объедините, удалите дубликаты или просто удалите дубликаты записей.

Параметры нечеткого совпадения

Из описанного выше процесса видно, что алгоритм нечеткого совпадения имеет ряд параметров, которые образуют основу этого метода. К ним относятся веса атрибутов, метод нечеткого совпадения и уровень порога результата.

Чтобы получить оптимальные результаты, необходимо выполнить методы нечеткого совпадения с разными параметрами и найти значения, которые лучше всего подходят для ваших данных. Многие поставщики включают такие возможности в свои решения по нечеткому совпадению, где эти параметры автоматически настраиваются, но могут быть настроены в зависимости от ваших потребностей.

Что такое методы нечеткого совпадения?

Существует много методов нечеткого совпадения, используемых сегодня, которые различаются в зависимости от точного алгоритма или формулы, используемой для сравнения и сопоставления полей. В зависимости от характера ваших данных вы можете выбрать метод, который подходит для ваших требований. Вот список распространенных методов нечеткого совпадения:

  1. Метрики сходства на основе символов, которые лучше всего подходят для сопоставления строк. К ним относятся:
    1. Расстояние редактирования: рассчитывает расстояние между двумя строками, вычисленное символ за символом.
    2. Афинное расстояние пробела: рассчитывает расстояние между двумя строками, учитывая также пробелы между строками.
    3. Расстояние Смита-Ватермана: рассчитывает расстояние между двумя строками, учитывая также наличие или отсутствие префиксов и суффиксов.
    4. Расстояние Джаро: лучше всего подходит для сопоставления имен и фамилий.
  2. Метрики сходства на основе токенов, которые лучше всего подходят для сопоставления полных слов в строках. К ним относятся:
    1. Атомные строки: разделяет длинные строки на слова, разделенные знаками препинания, и сравнивает отдельные слова.
    2. WHIRL: аналогично атомным строкам, но WHIRL также присваивает веса каждому слову.
  3. Фонетические метрики сходства, которые лучше всего подходят для сравнения слов, которые звучат похоже, но имеют совершенно разный состав символов. К ним относятся:
    1. Soundex: лучше всего подходит для сравнения фамилий, которые различаются по написанию, но звучат похоже.
    2. NYSIIS: аналогично Soundex, но также сохраняет информацию о позиции гласных.
    3. Metaphone: сравнивает слова, которые звучат похоже, существующие в английском языке, другие слова, знакомые американцам, и имена и фамилии, обычно используемые в США.
  4. Числовые метрики сходства, которые сравнивают числа, насколько они близки друг к другу, распределение числовых данных и т. д.

Проблемы нечеткого совпадения

Процесс нечеткого совпадения – несмотря на потрясающие преимущества, которые он предлагает, – может быть довольно трудным для реализации. Вот некоторые распространенные проблемы, с которыми сталкиваются предприятия:

1.     Более высокий уровень ложных положительных и отрицательных результатов

Многие решения по нечеткому совпадению имеют более высокий уровень ложных положительных и отрицательных результатов. Это происходит, когда алгоритм неправильно классифицирует совпадения и несовпадения или наоборот. Настраиваемые определения совпадения и параметры нечеткого совпадения могут помочь уменьшить количество неправильных связей как можно больше.

2.     Вычислительная сложность

Во время процесса сопоставления каждая запись сравнивается с каждой другой записью в одном и том же наборе данных. И если вы работаете с несколькими наборами данных, то количество сравнений увеличивается еще больше. Обратили внимание, что сравнения растут квадратично с увеличением размера базы данных. По этой причине вы должны использовать систему, способную обрабатывать вычисления, требующие больших ресурсов.

3.     Проверка тестирования

Сопоставленные записи объединяются вместе, чтобы представить полную 360-градусную картину объектов. Любая ошибка, возникшая во время этого процесса, может добавить риск для ваших бизнес-операций. Поэтому необходимо провести подробное тестирование, чтобы убедиться, что настроенный алгоритм постоянно производит результаты с высоким уровнем точности.

Итог

Предприятия часто считают решения по нечеткому совпадению сложными, требующими больших ресурсов и дорогостоящими проектами, которые длятся слишком долго. Правда в том, что инвестиции в правильное решение, которое производит быстрые и точные результаты, является ключом. Организациям необходимо учитывать ряд факторов при выборе инструмента нечеткого совпадения, таких как время и деньги, которые они готовы инвестировать, проект масштабируемости, который они имеют в виду, и характер их наборов данных. Это поможет им выбрать решение, которое позволит им получить максимальную пользу от своих данных.

Я являюсь аналитиком по маркетингу продукта в Data Ladder с опытом работы в области информационных технологий. Я с увлечением пишу о реальных проблемах, связанных с гигиеной данных, с которыми сталкиваются многие организации сегодня. Мне нравится общаться решения, советы и практики, которые могут помочь бизнесу достичь внутреннего качества данных в процессах бизнес-интеллекта. Я стремлюсь создавать контент, ориентированный на широкий круг аудитории, от технического персонала до конечных пользователей, а также продвигать его на различных цифровых платформах.