talón Coincidencia aproximada: definición, proceso y técnicas - Unite.AI
Contáctanos

Líderes del pensamiento

Fuzzy Matching – Definición, Proceso y Técnicas

mm

Publicado

 on

An encuesta de accenture mostró que el 75 % de los consumidores prefieren comprar a minoristas que conocen su nombre y comportamiento de compra, y el 52 % de ellos es más probable que cambie de marca si no ofrecen experiencias personalizadas. Dado que las marcas capturan millones de puntos de datos casi todos los días, identificar clientes únicos y crear sus perfiles es uno de los mayores desafíos que enfrentan la mayoría de las empresas.

Cuando una empresa utiliza múltiples herramientas para capturar datos, es muy común escribir mal el nombre de un cliente o aceptar una dirección de correo electrónico con un patrón incorrecto. Además, cuando las aplicaciones de datos dispares tienen información variable sobre el mismo cliente, es imposible obtener información sobre el comportamiento y las preferencias de su cliente.

A continuación, aprenderemos qué es la coincidencia aproximada, cómo se implementa, las técnicas comunes que se utilizan y los desafíos que enfrenta. Empecemos.

¿Qué es la coincidencia aproximada?

Coincidencia difusa es una técnica de coincidencia de datos que compara dos o más registros y calcula la probabilidad de que pertenezcan a la misma entidad. En lugar de categorizar ampliamente los registros como coincidentes y no coincidentes, la coincidencia aproximada genera un número (generalmente entre 0 y 100%) que identifica la probabilidad de que estos registros pertenezcan al mismo cliente, producto, empleado, etc.

Un algoritmo de coincidencia aproximada eficiente se ocupa de una variedad de ambigüedades de datos, como inversiones de nombre/apellido, acrónimos, nombres abreviados, errores fonéticos y ortográficos deliberados, abreviaturas, puntuaciones añadidas/eliminadas, etc.

Proceso de coincidencia aproximada

El proceso de coincidencia aproximada se lleva a cabo de la siguiente manera:

  1. Registros de perfil para errores básicos de estandarización. Estos errores se corrigen para que se logre una vista uniforme y estandarizada en todos los registros.
  2. Seleccionar y mapear atributos en función de la cual se llevará a cabo la coincidencia aproximada. Dado que estos atributos pueden tener títulos diferentes, deben mapearse en todas las fuentes.
  3. Elija una técnica de coincidencia aproximada para cada atributo. Por ejemplo, los nombres se pueden comparar según la distancia del teclado o las variantes del nombre, mientras que los números de teléfono se pueden comparar según las métricas de similitud numérica.
  4. Seleccione un peso para cada atributo, de modo que los atributos a los que se asignan pesos más altos (o mayor prioridad) tendrán un mayor impacto en el nivel de confianza de coincidencia general en comparación con los campos que tienen pesos más bajos.
  5. Definir el nivel de umbral – Los registros con una puntuación de coincidencia parcial superior al nivel se consideran una coincidencia y los que no lo alcanzan no coinciden.
  6. Ejecutar algoritmos de coincidencia aproximada y analizar los resultados del partido.
  7. Anular cualquier falso positivo y aspectos negativos que puedan surgir.
  8. ir, deduplicar o simplemente eliminar los registros duplicados.

Parámetros de coincidencia aproximada

A partir del proceso definido anteriormente, puede ver que un algoritmo de coincidencia aproximada tiene una serie de parámetros que forman la base de esta técnica. Estos incluyen las ponderaciones de los atributos, la técnica de coincidencia aproximada y el nivel de umbral de puntuación.

Para obtener resultados óptimos, debe ejecutar técnicas de coincidencia aproximada con diferentes parámetros y encontrar los valores que mejor se adapten a sus datos. Muchos proveedores empaquetan tales capacidades dentro de su solución de coincidencia aproximada donde estos parámetros se ajustan automáticamente pero se pueden personalizar según sus necesidades.

¿Qué son las técnicas de coincidencia aproximada?

Hay muchas técnicas de coincidencia aproximada que se utilizan hoy en día que difieren según el algoritmo exacto de la fórmula utilizada para comparar y hacer coincidir los campos. Dependiendo de la naturaleza de sus datos, puede elegir la técnica adecuada para sus requisitos. Aquí hay una lista de técnicas comunes de coincidencia aproximada:

  1. Similitud basada en caracteres métricas que son mejores para hacer coincidir cadenas. Éstas incluyen:
    1. Editar distancia: Calcula la distancia entre dos cadenas, calculada carácter por carácter.
    2. Distancia de brecha afín: Calcula la distancia entre dos cadenas teniendo en cuenta también la brecha o los espacios entre las cadenas.
    3. Distancia Smith-Waterman: Calcula la distancia entre dos cadenas considerando también la presencia o ausencia de prefijos y sufijos.
    4. Jaró distancia: Es mejor hacer coincidir el nombre y el apellido.
  2. Similitud basada en tokens métricas que son mejores para hacer coincidir palabras completas en cadenas. Éstas incluyen:
    1. Cadenas atómicas: divide cadenas largas en palabras delimitadas por puntuaciones y compara palabras individuales.
    2. WHIRL: similar a las cadenas atómicas, pero WHIRL también asigna pesos a cada palabra.
  3. Métricas de similitud fonética que son mejores para comparar palabras que suenan similares pero tienen una composición de caracteres totalmente diferente. Éstas incluyen:
    1. Soundex: Lo mejor es comparar apellidos que son diferentes en ortografía pero suenan similares.
    2. NYSIIS: similar a Soundex, pero también conserva detalles sobre la posición de las vocales.
    3. Metáfono: compara palabras que suenan similares que existen en el idioma inglés, otras palabras familiares para los estadounidenses y los nombres y apellidos que se usan comúnmente en los EE. UU.
  4. Métricas de similitud numérica que comparan números, la distancia entre ellos, la distribución de datos numéricos, etc.

Desafíos de la coincidencia aproximada

El proceso de coincidencia aproximada, a pesar de la beneficios asombrosos ofrece, puede ser bastante difícil de implementar. Aquí hay algunos desafíos comunes que enfrentan las empresas:

1.     Mayor tasa de falsos positivos y negativos

Muchas soluciones de coincidencia aproximada tienen una mayor tasa de falsos positivos y negativos. Esto sucede cuando el algoritmo clasifica incorrectamente las coincidencias y las no coincidencias o viceversa. Las definiciones de coincidencia configurables y los parámetros difusos pueden ayudar a reducir los enlaces incorrectos tanto como sea posible.

2.     Complejidad computacional

Durante el proceso de coincidencia, cada registro se compara con todos los demás registros del mismo conjunto de datos. Y si se trata de varios conjuntos de datos, la cantidad de comparaciones aumenta aún más. Se observa que las comparaciones crecen cuadráticamente a medida que crece el tamaño de la base de datos. Por esta razón, debe usar un sistema que sea capaz de manejar cálculos que consumen muchos recursos.

3.     Validación de pruebas

Los registros coincidentes se fusionan para representar una vista completa de 360 ​​de las entidades. Cualquier error en el que se incurra durante este proceso puede agregar riesgo a sus operaciones comerciales. Esta es la razón por la cual se deben realizar pruebas de validación detalladas para garantizar que el algoritmo ajustado produzca resultados consistentemente con un alto índice de precisión.

Envolver

Las empresas a menudo piensan que las soluciones de coincidencia aproximada son proyectos complejos, que consumen muchos recursos y que consumen mucho dinero y que duran demasiado tiempo. La verdad es que invertir en la solución correcta que produzca resultados rápidos y precisos es la clave. Las organizaciones deben considerar una serie de factores al optar por una herramienta de coincidencia aproximada, como el tiempo y el dinero que están dispuestos a invertir, el diseño de escalabilidad que tienen en mente y la naturaleza de sus conjuntos de datos. Esto les ayudará a seleccionar una solución que les permita aprovechar al máximo sus datos.

Soy analista de marketing de productos en Escalera de datos con experiencia en TI. Escribo apasionadamente sobre los problemas de higiene de datos del mundo real que enfrentan muchas organizaciones en la actualidad. Me gusta comunicar soluciones, consejos y prácticas que pueden ayudar a las empresas a lograr una calidad de datos inherente en sus procesos de inteligencia empresarial. Me esfuerzo por crear contenido dirigido a una amplia gama de audiencias, que van desde el personal técnico hasta el usuario final, además de comercializarlo en varias plataformas digitales.