mozzicone Corrispondenza fuzzy: definizione, processo e tecniche - Unite.AI
Seguici sui social

Leader del pensiero

Corrispondenza fuzzy: definizione, processo e tecniche

mm

Pubblicato il

 on

An accenture sondaggio ha mostrato che il 75% dei consumatori preferisce acquistare da rivenditori che ne conoscono il nome e il comportamento di acquisto, e il 52% di loro è più propenso a cambiare marchio se non offre esperienze personalizzate. Con milioni di punti dati acquisiti dai brand quasi ogni giorno, l'identificazione di clienti unici e la creazione dei loro profili è una delle maggiori sfide affrontate dalla maggior parte delle aziende.

Quando un'azienda utilizza più strumenti per l'acquisizione dei dati, è molto comune scrivere in modo errato il nome di un cliente o accettare un indirizzo e-mail con uno schema errato. Inoltre, quando diverse applicazioni di dati hanno informazioni diverse sullo stesso cliente, diventa impossibile ottenere informazioni dettagliate sul comportamento e sulle preferenze del cliente.

Successivamente, impareremo cos'è la corrispondenza fuzzy, come viene implementata, le tecniche comuni utilizzate e le sfide affrontate. Iniziamo.

Cos'è la corrispondenza fuzzy?

Corrispondenza sfocata è una tecnica di corrispondenza dei dati che confronta due o più record e calcola la probabilità che appartengano alla stessa entità. Piuttosto che classificare ampiamente i record come corrispondenza e non corrispondenza, la corrispondenza fuzzy produce un numero (di solito compreso tra 0 e 100%) che identifica la probabilità che questi record appartengano allo stesso cliente, prodotto, dipendente, ecc.

Un efficiente algoritmo di corrispondenza fuzzy si occupa di una serie di ambiguità dei dati, come inversioni di nome/cognome, acronimi, nomi abbreviati, errori ortografici fonetici e deliberati, abbreviazioni, punteggiatura aggiunta/rimossa, ecc.

Processo di corrispondenza fuzzy

Il processo di corrispondenza fuzzy viene eseguito come segue:

  1. Record di profilo per gli errori di standardizzazione di base. Questi errori vengono corretti in modo da ottenere una visualizzazione uniforme e standardizzata tra i record.
  2. Seleziona e mappa gli attributi in base al quale avrà luogo la corrispondenza fuzzy. Poiché questi attributi possono essere intitolati in modo diverso, devono essere mappati tra le fonti.
  3. Scegli una tecnica di corrispondenza fuzzy per ogni attributo. Ad esempio, i nomi possono essere abbinati in base alla distanza della tastiera o alle varianti del nome, mentre i numeri di telefono possono essere abbinati in base a metriche di somiglianza numerica.
  4. Seleziona un peso per ciascun attributo, in modo tale che gli attributi a cui sono assegnati pesi più elevati (o priorità più elevata) avranno un impatto maggiore sul livello di confidenza di corrispondenza complessivo rispetto ai campi con pesi inferiori.
  5. Definire il livello di soglia – i record con un punteggio di corrispondenza fuzzy superiore al livello sono considerati una corrispondenza e quelli che non sono all'altezza sono una non corrispondenza.
  6. Eseguire algoritmi di corrispondenza fuzzy e analizzare i risultati della partita.
  7. Ignora eventuali falsi positivi e gli aspetti negativi che potrebbero emergere.
  8. Unire, deduplicare o semplicemente eliminare i record duplicati.

Parametri di corrispondenza fuzzy

Dal processo definito sopra, puoi vedere che un algoritmo di corrispondenza fuzzy ha un numero di parametri che costituiscono la base di questa tecnica. Questi includono i pesi degli attributi, la tecnica di corrispondenza fuzzy e il livello di soglia del punteggio.

Per ottenere risultati ottimali, è necessario eseguire tecniche di corrispondenza fuzzy con parametri variabili e trovare i valori che meglio si adattano ai dati. Molti fornitori impacchettano tali funzionalità all'interno della loro soluzione di corrispondenza fuzzy in cui questi parametri vengono regolati automaticamente ma possono essere personalizzati in base alle tue esigenze.

Cosa sono le tecniche di corrispondenza fuzzy?

Esistono molte tecniche di corrispondenza fuzzy utilizzate oggi che differiscono in base all'esatto algoritmo della formula utilizzata per confrontare e abbinare i campi. A seconda della natura dei tuoi dati, puoi scegliere la tecnica adatta alle tue esigenze. Di seguito è riportato un elenco di tecniche di corrispondenza fuzzy comuni:

  1. Somiglianza basata sul carattere metriche che meglio corrispondono alle stringhe. Questi includono:
    1. Modifica distanza: Calcola la distanza tra due stringhe, calcolata carattere per carattere.
    2. Distanza gap affine: Calcola la distanza tra due stringhe considerando anche il gap o gli spazi tra le stringhe.
    3. Distanza Smith-Waterman: Calcola la distanza tra due stringhe considerando anche la presenza o meno di prefissi e suffissi.
    4. Distanza Giaro: Meglio abbinare il nome e il cognome.
  2. Somiglianza basata su token metriche che meglio corrispondono a parole complete nelle stringhe. Questi includono:
    1. Stringhe atomiche: divide le stringhe lunghe in parole delimitate da punteggiatura e confronta le singole parole.
    2. WHIRL: Simile alle stringhe atomiche ma WHIRL assegna anche pesi a ciascuna parola.
  3. Metriche di somiglianza fonetica che sono i migliori per confrontare parole che suonano simili ma hanno una composizione caratteriale totalmente diversa. Questi includono:
    1. Soundex: meglio confrontare i cognomi che sono diversi nell'ortografia ma suonano simili.
    2. NYSIIS: Simile a Soundex, ma conserva anche i dettagli sulla posizione delle vocali.
    3. Metafono: confronta parole dal suono simile che esistono in lingua inglese, altre parole familiari agli americani e nomi e cognomi comunemente usati negli Stati Uniti.
  4. Metriche di somiglianza numerica che confrontano i numeri, la loro distanza l'uno dall'altro, la distribuzione dei dati numerici, ecc.

Sfide della corrispondenza fuzzy

Il processo di corrispondenza fuzzy - nonostante il benefici sorprendenti offre – può essere piuttosto difficile da implementare. Ecco alcune sfide comuni affrontate dalle aziende:

1.     Più alto tasso di falsi positivi e negativi

Molte soluzioni di corrispondenza fuzzy hanno un tasso più elevato di falsi positivi e negativi. Ciò accade quando l'algoritmo classifica in modo errato corrispondenze e non corrispondenze o viceversa. Definizioni di corrispondenza configurabili e parametri fuzzy possono aiutare a ridurre il più possibile i collegamenti errati.

2.     Complessità computazionale

Durante il processo di corrispondenza, ogni record viene confrontato con ogni altro record nello stesso set di dati. E se hai a che fare con più set di dati, il numero di confronti aumenta di più. Si nota che i confronti crescono in modo quadratico con l'aumentare delle dimensioni del database. Per questo motivo, è necessario utilizzare un sistema in grado di gestire calcoli ad alta intensità di risorse.

3.     Test di convalida

I record corrispondenti vengono uniti insieme per rappresentare una vista completa a 360 gradi delle entità. Qualsiasi errore verificatosi durante questo processo può aggiungere rischi alle operazioni aziendali. Questo è il motivo per cui è necessario condurre test di convalida dettagliati per garantire che l'algoritmo ottimizzato produca costantemente risultati con un tasso di precisione elevato.

Avvolgere

Le aziende spesso pensano alle soluzioni di corrispondenza fuzzy come a progetti complessi, ad alta intensità di risorse e drenanti che durano troppo a lungo. La verità è che investire nella soluzione giusta che produca risultati rapidi e accurati è la chiave. Le organizzazioni devono considerare una serie di fattori mentre si opta per uno strumento di corrispondenza fuzzy, come il tempo e il denaro che sono disposti a investire, il progetto di scalabilità che hanno in mente e la natura dei loro set di dati. Questo li aiuterà a selezionare una soluzione che consenta loro di ottenere il massimo dai loro dati.

Sono un analista di marketing del prodotto presso Scala dati con un background in IT. Scrivo con passione sui problemi di igiene dei dati del mondo reale affrontati da molte organizzazioni oggi. Mi piace comunicare soluzioni, suggerimenti e pratiche che possono aiutare le aziende a raggiungere la qualità dei dati intrinseca nei loro processi di business intelligence. Mi sforzo di creare contenuti rivolti a un'ampia gamma di pubblico, che va dal personale tecnico all'utente finale, oltre a commercializzarli su varie piattaforme digitali.