AI 101

Qu'est-ce que la recherche de similarité vectorielle et en quoi est-elle utile ?

Le kit de préparation mis à jour on 30 janvier 2023

La recherche de données moderne est un domaine complexe. La recherche de similarité vectorielle, ou VSS, représente les données avec une profondeur contextuelle et renvoie des informations plus pertinentes aux consommateurs en réponse à une requête de recherche. Prenons un exemple simple.

Les requêtes de recherche telles que « science des données » et « science-fiction » font référence à différents types de contenu, même si les deux ont un mot commun (« science »). Une technique de recherche traditionnelle correspondrait à des expressions courantes pour renvoyer des résultats pertinents, ce qui serait inexact dans ce cas. La recherche de similarité de vecteurs tiendrait compte de l'intention de recherche réelle et de la signification de ces requêtes de recherche pour renvoyer une réponse plus précise.

Cet article abordera divers aspects de la recherche de similarité vectorielle, tels que ses composants, ses défis, ses avantages et ses cas d'utilisation. Commençons.

Qu'est-ce que la recherche de similarité vectorielle (VSS) ?

La recherche de similarité vectorielle recherche et récupère des informations contextuellement similaires à partir de grandes collections de données structurées ou non structurées en les transformant en représentations numériques appelées vecteurs ou intégrations.

VSS peut gérer une variété de formats de données, y compris numériques, catégoriques, textuels, image et vidéo. Il convertit chaque objet d'un corpus de données en une représentation vectorielle de grande dimension correspondant à son format pertinent (discuté dans la section suivante).

Le plus souvent, VSS localise des objets comparables, tels que des phrases ou des paragraphes similaires, ou trouve des images associées dans de vastes systèmes de récupération d'images. Les grandes entreprises de consommation comme Amazon, eBay et Spotify utilisent cette technologie pour améliorer les résultats de recherche pour des millions d'utilisateurs, c'est-à-dire pour proposer un contenu pertinent que les utilisateurs voudraient très probablement acheter, regarder ou écouter.

Trois composants principaux de la recherche de similarité vectorielle

Avant de comprendre comment fonctionne la recherche de similarité vectorielle, examinons ses principaux composants. Il existe principalement trois composants essentiels pour la mise en œuvre d'une méthodologie VSS efficace :

Embeddings vectoriels : les embeddings représentent différents types de données dans un format mathématique, c'est-à-dire un tableau ordonné ou un ensemble de nombres. Ils identifient des modèles dans les données à l'aide de calculs mathématiques.
Mesures de distance ou de similarité : il s'agit de fonctions mathématiques qui calculent à quel point deux vecteurs sont similaires ou étroitement liés.
Algorithmes de recherche : les algorithmes aident à trouver des vecteurs similaires à une requête de recherche donnée. Par exemple, Les voisins les plus proches ou l'algorithme KNN est fréquemment utilisé dans les systèmes de recherche compatibles VSS pour déterminer les vecteurs K dans un ensemble de données qui sont les plus similaires à une requête d'entrée donnée.

Voyons maintenant comment ces composants fonctionnent dans un système de recherche.

Comment fonctionne la recherche de similarité vectorielle ?

La première étape de la mise en œuvre de la recherche de similarité vectorielle consiste à représenter ou à décrire des objets dans le corpus de données sous forme de vecteurs incorporés. Il utilise différentes méthodes d'incorporation de vecteurs, telles que Gant, Mot2vecet BERT, pour mapper des objets sur l'espace vectoriel.

Pour chaque format de données, comme le texte, l'audio et la vidéo, VSS construit différents modèles d'intégration, mais le résultat final de ce processus est une représentation de tableau numérique.

L'étape suivante consiste à créer un index qui peut organiser des objets similaires ensemble à l'aide de ces représentations numériques. Un algorithme comme KNN sert de base à la mise en œuvre de la similarité de recherche. Cependant, pour indexer des termes similaires, les systèmes de recherche utilisent des approches modernes, telles que Hachage sensible à la localité (LSH) ainsi que le Voisin le plus proche approximatif (ANNOY).

En outre, les algorithmes VSS calculent une mesure de similarité ou de distance, telle que la distance euclidienne, la similarité cosinus ou la similarité Jaccard, pour comparer toutes les représentations vectorielles dans la collecte de données et renvoyer un contenu similaire en réponse à une requête de l'utilisateur.

Principaux défis et avantages de la recherche de similarité vectorielle

Globalement, l'objectif est de trouver des caractéristiques communes entre les objets de données. Cependant, ce processus présente plusieurs défis potentiels.

Principaux défis de la mise en œuvre du VSS

Différentes techniques d'intégration de vecteurs et mesures de similarité présentent des résultats différents. Choisir les configurations appropriées pour les systèmes de recherche de similarité est le principal défi.
Pour les grands ensembles de données, VSS est coûteux en calcul et nécessite des GPU hautes performances pour créer des index à grande échelle.
Les vecteurs avec trop de dimensions peuvent ne pas représenter avec précision la structure et les connexions authentiques des données. Par conséquent, le processus d'incorporation de vecteurs doit être sans perte, ce qui est un défi.

Actuellement, la technologie VSS fait l'objet d'un développement et d'une amélioration continus. Cependant, il peut toujours offrir de nombreux avantages pour l'expérience de recherche d'une entreprise ou d'un produit.

Avantages du SSV

VSS permet aux systèmes de recherche de localiser des objets similaires incroyablement rapidement sur des types de données variés.
VSS assure une gestion efficace de la mémoire car il convertit tous les objets de données en incorporations numériques que les machines peuvent facilement traiter.
VSS peut classer des objets sur de nouvelles requêtes de recherche que le système n'a peut-être pas rencontrées de la part des consommateurs.
VSS est une excellente méthode pour traiter les données médiocres et incomplètes, car il peut trouver des objets contextuellement similaires même s'ils ne correspondent pas parfaitement.
Plus important encore, il peut détecter et regrouper des objets associés à grande échelle (volumes de données variables).

Principaux cas d'utilisation commerciale de la recherche de similarité vectorielle

Dans les affaires commerciales, la technologie VSS peut révolutionner un large éventail d'industries et d'applications. Certains de ces cas d'utilisation incluent :

Réponse aux questions : la recherche de similarité vectorielle peut localiser des questions connexes dans des forums de questions-réponses qui sont presque identiques, permettant des réponses plus précises et pertinentes pour les utilisateurs finaux.
Recherche Web sémantique : la recherche de similarité vectorielle peut localiser des documents ou des pages Web connexes en fonction de la "proximité" de leurs représentations vectorielles. Il vise à accroître la pertinence des résultats de recherche sur le Web.
Recommandations de produits : la recherche de similarité vectorielle peut faire des recommandations de produits personnalisées en fonction de l'historique de navigation ou de recherche du consommateur.
Meilleure prestation des soins de santé : les chercheurs et les praticiens de la santé utilisent la recherche de similarité vectorielle pour optimiser les essais cliniques en analysant les représentations vectorielles de la recherche médicale pertinente.

Aujourd'hui, il n'est plus viable de gérer, d'analyser et de rechercher des données à l'aide de techniques conventionnelles basées sur SQL. Les internautes posent des requêtes complexes sur le Web – apparemment simples pour les humains mais incroyablement complexes à interpréter pour les machines (moteurs de recherche). C'est un défi de longue date pour les machines de déchiffrer différentes formes de données dans un format compréhensible par la machine.

La recherche par similarité vectorielle permet aux systèmes de recherche de mieux comprendre le contexte des informations commerciales.

Vous voulez lire du contenu plus perspicace lié à l'IA ? Visite unir.ai.