Suivez nous sur

Qu'est-ce que la recherche de similaritĂ© vectorielle et en quoi est-elle utile ?

AI 101

Qu'est-ce que la recherche de similaritĂ© vectorielle et en quoi est-elle utile ?

mm
vecteur-similitude-recherche

La recherche de donnĂ©es moderne est un domaine complexe. La recherche de similaritĂ© vectorielle, ou VSS, reprĂ©sente les donnĂ©es avec une profondeur contextuelle et renvoie des informations plus pertinentes aux consommateurs en rĂ©ponse Ă  une requĂȘte de recherche. Prenons un exemple simple. 

Les requĂȘtes de recherche telles que « science des donnĂ©es Â» et « science-fiction Â» font rĂ©fĂ©rence Ă  diffĂ©rents types de contenu, mĂȘme si les deux ont un mot commun (« science Â»). Une technique de recherche traditionnelle correspondrait Ă  des expressions courantes pour renvoyer des rĂ©sultats pertinents, ce qui serait inexact dans ce cas. La recherche de similaritĂ© de vecteurs tiendrait compte de l'intention de recherche rĂ©elle et de la signification de ces requĂȘtes de recherche pour renvoyer une rĂ©ponse plus prĂ©cise.

Cet article abordera divers aspects de la recherche de similarité vectorielle, tels que ses composants, ses défis, ses avantages et ses cas d'utilisation. Commençons.

Qu'est-ce que la recherche de similaritĂ© vectorielle (VSS) ?

La recherche de similarité vectorielle recherche et récupÚre des informations contextuellement similaires à partir de grandes collections de données structurées ou non structurées en les transformant en représentations numériques appelées vecteurs ou intégrations.

VSS peut gĂ©rer une variĂ©tĂ© de formats de donnĂ©es, y compris numĂ©riques, catĂ©goriques, textuels, image et vidĂ©o. Il convertit chaque objet d'un corpus de donnĂ©es en une reprĂ©sentation vectorielle de grande dimension correspondant Ă  son format pertinent (discutĂ© dans la section suivante). 

Le plus souvent, VSS localise des objets comparables, tels que des phrases ou des paragraphes similaires, ou trouve des images associées dans de vastes systÚmes de récupération d'images. Les grandes entreprises de consommation comme Amazon, eBay et Spotify utilisent cette technologie pour améliorer les résultats de recherche pour des millions d'utilisateurs, c'est-à-dire pour proposer un contenu pertinent que les utilisateurs voudraient trÚs probablement acheter, regarder ou écouter.

Trois composants principaux de la recherche de similarité vectorielle

Avant de comprendre comment fonctionne la recherche de similaritĂ© vectorielle, examinons ses principaux composants. Il existe principalement trois composants essentiels pour la mise en Ɠuvre d'une mĂ©thodologie VSS efficace :

  1. Embeddings vectoriels : les embeddings reprĂ©sentent diffĂ©rents types de donnĂ©es dans un format mathĂ©matique, c'est-Ă -dire un tableau ordonnĂ© ou un ensemble de nombres. Ils identifient des modĂšles dans les donnĂ©es Ă  l'aide de calculs mathĂ©matiques.
  2. Mesures de distance ou de similaritĂ© : il s'agit de fonctions mathĂ©matiques qui calculent Ă  quel point deux vecteurs sont similaires ou Ă©troitement liĂ©s.
  3. Algorithmes de recherche : les algorithmes aident Ă  trouver des vecteurs similaires Ă  une requĂȘte de recherche donnĂ©e. Par exemple, Les voisins les plus proches ou l'algorithme KNN est frĂ©quemment utilisĂ© dans les systĂšmes de recherche compatibles VSS pour dĂ©terminer les vecteurs K dans un ensemble de donnĂ©es qui sont les plus similaires Ă  une requĂȘte d'entrĂ©e donnĂ©e.

Voyons maintenant comment ces composants fonctionnent dans un systĂšme de recherche.

Comment fonctionne la recherche de similaritĂ© vectorielle ?

La premiĂšre Ă©tape de la mise en Ɠuvre de la recherche de similaritĂ© vectorielle consiste Ă  reprĂ©senter ou Ă  dĂ©crire des objets dans le corpus de donnĂ©es sous forme de vecteurs incorporĂ©s. Il utilise diffĂ©rentes mĂ©thodes d'incorporation de vecteurs, telles que Gant, Mot2vecbauen BERT, pour mapper des objets sur l'espace vectoriel. 

Pour chaque format de donnĂ©es, comme le texte, l'audio et la vidĂ©o, VSS construit diffĂ©rents modĂšles d'intĂ©gration, mais le rĂ©sultat final de ce processus est une reprĂ©sentation de tableau numĂ©rique. 

L'Ă©tape suivante consiste Ă  crĂ©er un index qui peut organiser des objets similaires ensemble Ă  l'aide de ces reprĂ©sentations numĂ©riques. Un algorithme comme KNN sert de base Ă  la mise en Ɠuvre de la similaritĂ© de recherche. Cependant, pour indexer des termes similaires, les systĂšmes de recherche utilisent des approches modernes, telles que Hachage sensible Ă  la localitĂ© (LSH) et Voisin le plus proche approximatif (ANNOY)

En outre, les algorithmes VSS calculent une mesure de similaritĂ© ou de distance, telle que la distance euclidienne, la similaritĂ© cosinus ou la similaritĂ© Jaccard, pour comparer toutes les reprĂ©sentations vectorielles dans la collecte de donnĂ©es et renvoyer un contenu similaire en rĂ©ponse Ă  une requĂȘte de l'utilisateur.

Principaux défis et avantages de la recherche de similarité vectorielle

Globalement, l'objectif est de trouver des caractéristiques communes entre les objets de données. Cependant, ce processus présente plusieurs défis potentiels.

Principaux dĂ©fis de la mise en Ɠuvre du VSS

  • DiffĂ©rentes techniques d'intĂ©gration de vecteurs et mesures de similaritĂ© prĂ©sentent des rĂ©sultats diffĂ©rents. Choisir les configurations appropriĂ©es pour les systĂšmes de recherche de similaritĂ© est le principal dĂ©fi.
  • Pour les grands ensembles de donnĂ©es, VSS est coĂ»teux en calcul et nĂ©cessite des GPU hautes performances pour crĂ©er des index Ă  grande Ă©chelle.
  • Les vecteurs comportant trop de dimensions peuvent ne pas reprĂ©senter fidĂšlement la structure et les connexions authentiques des donnĂ©es. Par consĂ©quent, le processus d'intĂ©gration vectorielle doit ĂȘtre sans perte, ce qui constitue un dĂ©fi.

Actuellement, la technologie VSS fait l'objet d'un développement et d'une amélioration continus. Cependant, il peut toujours offrir de nombreux avantages pour l'expérience de recherche d'une entreprise ou d'un produit.

Avantages du SSV

  • VSS permet aux systĂšmes de recherche de localiser des objets similaires incroyablement rapidement sur des types de donnĂ©es variĂ©s.
  • VSS assure une gestion efficace de la mĂ©moire car il convertit tous les objets de donnĂ©es en incorporations numĂ©riques que les machines peuvent facilement traiter.
  • VSS peut classer des objets sur de nouvelles requĂȘtes de recherche que le systĂšme n'a peut-ĂȘtre pas rencontrĂ©es de la part des consommateurs.
  • VSS est une excellente mĂ©thode pour traiter des donnĂ©es mĂ©diocres et incomplĂštes, car elle peut trouver des objets contextuellement similaires mĂȘme s'ils ne correspondent pas parfaitement.
  • Plus important encore, il peut dĂ©tecter et regrouper des objets associĂ©s Ă  grande Ă©chelle (volumes de donnĂ©es variables).

Principaux cas d'utilisation commerciale de la recherche de similarité vectorielle

Dans les affaires commerciales, la technologie VSS peut rĂ©volutionner un large Ă©ventail d'industries et d'applications. Certains de ces cas d'utilisation incluent :

  • RĂ©ponse aux questions : la recherche de similaritĂ© vectorielle peut localiser des questions connexes dans des forums de questions-rĂ©ponses qui sont presque identiques, permettant des rĂ©ponses plus prĂ©cises et pertinentes pour les utilisateurs finaux.
  • Recherche Web sĂ©mantique : la recherche de similaritĂ© vectorielle peut localiser des documents ou des pages Web connexes en fonction de la "proximitĂ©" de leurs reprĂ©sentations vectorielles. Il vise Ă  accroĂźtre la pertinence des rĂ©sultats de recherche sur le Web.
  • Recommandations de produits : la recherche de similaritĂ© vectorielle peut faire des recommandations de produits personnalisĂ©es en fonction de l'historique de navigation ou de recherche du consommateur.
  • Meilleure prestation des soins de santĂ© : les chercheurs et les praticiens de la santĂ© utilisent la recherche de similaritĂ© vectorielle pour optimiser les essais cliniques en analysant les reprĂ©sentations vectorielles de la recherche mĂ©dicale pertinente.

Aujourd'hui, il n'est plus viable de gĂ©rer, d'analyser et de rechercher des donnĂ©es Ă  l'aide de techniques conventionnelles basĂ©es sur SQL. Les internautes posent des requĂȘtes complexes sur le Web – apparemment simples pour les humains mais incroyablement complexes Ă  interprĂ©ter pour les machines (moteurs de recherche). C'est un dĂ©fi de longue date pour les machines de dĂ©chiffrer diffĂ©rentes formes de donnĂ©es dans un format comprĂ©hensible par la machine. 

La recherche par similarité vectorielle permet aux systÚmes de recherche de mieux comprendre le contexte des informations commerciales.

Vous voulez lire du contenu plus perspicace liĂ© Ă  l'IA ? Visite unir.ai.

Haziqa est un Data Scientist avec une vaste expérience dans la rédaction de contenu technique pour les entreprises d'IA et de SaaS.