AI 101
Qu'est-ce que la recherche de similarité vectorielle et en quoi est-elle utile ?

La recherche de donnĂ©es moderne est un domaine complexe. La recherche de similaritĂ© vectorielle, ou VSS, reprĂ©sente les donnĂ©es avec une profondeur contextuelle et renvoie des informations plus pertinentes aux consommateurs en rĂ©ponse Ă une requĂȘte de recherche. Prenons un exemple simple.
Les requĂȘtes de recherche telles que « science des donnĂ©es » et « science-fiction » font rĂ©fĂ©rence Ă diffĂ©rents types de contenu, mĂȘme si les deux ont un mot commun (« science »). Une technique de recherche traditionnelle correspondrait Ă des expressions courantes pour renvoyer des rĂ©sultats pertinents, ce qui serait inexact dans ce cas. La recherche de similaritĂ© de vecteurs tiendrait compte de l'intention de recherche rĂ©elle et de la signification de ces requĂȘtes de recherche pour renvoyer une rĂ©ponse plus prĂ©cise.
Cet article abordera divers aspects de la recherche de similarité vectorielle, tels que ses composants, ses défis, ses avantages et ses cas d'utilisation. Commençons.
Qu'est-ce que la recherche de similarité vectorielle (VSS) ?
La recherche de similarité vectorielle recherche et récupÚre des informations contextuellement similaires à partir de grandes collections de données structurées ou non structurées en les transformant en représentations numériques appelées vecteurs ou intégrations.
VSS peut gérer une variété de formats de données, y compris numériques, catégoriques, textuels, image et vidéo. Il convertit chaque objet d'un corpus de données en une représentation vectorielle de grande dimension correspondant à son format pertinent (discuté dans la section suivante).
Le plus souvent, VSS localise des objets comparables, tels que des phrases ou des paragraphes similaires, ou trouve des images associées dans de vastes systÚmes de récupération d'images. Les grandes entreprises de consommation comme Amazon, eBay et Spotify utilisent cette technologie pour améliorer les résultats de recherche pour des millions d'utilisateurs, c'est-à -dire pour proposer un contenu pertinent que les utilisateurs voudraient trÚs probablement acheter, regarder ou écouter.
Trois composants principaux de la recherche de similarité vectorielle
Avant de comprendre comment fonctionne la recherche de similaritĂ© vectorielle, examinons ses principaux composants. Il existe principalement trois composants essentiels pour la mise en Ćuvre d'une mĂ©thodologie VSS efficace :
- Embeddings vectoriels : les embeddings représentent différents types de données dans un format mathématique, c'est-à -dire un tableau ordonné ou un ensemble de nombres. Ils identifient des modÚles dans les données à l'aide de calculs mathématiques.
- Mesures de distance ou de similarité : il s'agit de fonctions mathématiques qui calculent à quel point deux vecteurs sont similaires ou étroitement liés.
- Algorithmes de recherche : les algorithmes aident Ă trouver des vecteurs similaires Ă une requĂȘte de recherche donnĂ©e. Par exemple, Les voisins les plus proches ou l'algorithme KNN est frĂ©quemment utilisĂ© dans les systĂšmes de recherche compatibles VSS pour dĂ©terminer les vecteurs K dans un ensemble de donnĂ©es qui sont les plus similaires Ă une requĂȘte d'entrĂ©e donnĂ©e.
Voyons maintenant comment ces composants fonctionnent dans un systĂšme de recherche.
Comment fonctionne la recherche de similarité vectorielle ?
La premiĂšre Ă©tape de la mise en Ćuvre de la recherche de similaritĂ© vectorielle consiste Ă reprĂ©senter ou Ă dĂ©crire des objets dans le corpus de donnĂ©es sous forme de vecteurs incorporĂ©s. Il utilise diffĂ©rentes mĂ©thodes d'incorporation de vecteurs, telles que Gant, Mot2vecbauen BERT, pour mapper des objets sur l'espace vectoriel.
Pour chaque format de données, comme le texte, l'audio et la vidéo, VSS construit différents modÚles d'intégration, mais le résultat final de ce processus est une représentation de tableau numérique.
L'Ă©tape suivante consiste Ă crĂ©er un index qui peut organiser des objets similaires ensemble Ă l'aide de ces reprĂ©sentations numĂ©riques. Un algorithme comme KNN sert de base Ă la mise en Ćuvre de la similaritĂ© de recherche. Cependant, pour indexer des termes similaires, les systĂšmes de recherche utilisent des approches modernes, telles que Hachage sensible Ă la localitĂ© (LSH) et Voisin le plus proche approximatif (ANNOY).
En outre, les algorithmes VSS calculent une mesure de similaritĂ© ou de distance, telle que la distance euclidienne, la similaritĂ© cosinus ou la similaritĂ© Jaccard, pour comparer toutes les reprĂ©sentations vectorielles dans la collecte de donnĂ©es et renvoyer un contenu similaire en rĂ©ponse Ă une requĂȘte de l'utilisateur.
Principaux défis et avantages de la recherche de similarité vectorielle
Globalement, l'objectif est de trouver des caractéristiques communes entre les objets de données. Cependant, ce processus présente plusieurs défis potentiels.
Principaux dĂ©fis de la mise en Ćuvre du VSS
- Différentes techniques d'intégration de vecteurs et mesures de similarité présentent des résultats différents. Choisir les configurations appropriées pour les systÚmes de recherche de similarité est le principal défi.
- Pour les grands ensembles de données, VSS est coûteux en calcul et nécessite des GPU hautes performances pour créer des index à grande échelle.
- Les vecteurs comportant trop de dimensions peuvent ne pas reprĂ©senter fidĂšlement la structure et les connexions authentiques des donnĂ©es. Par consĂ©quent, le processus d'intĂ©gration vectorielle doit ĂȘtre sans perte, ce qui constitue un dĂ©fi.
Actuellement, la technologie VSS fait l'objet d'un développement et d'une amélioration continus. Cependant, il peut toujours offrir de nombreux avantages pour l'expérience de recherche d'une entreprise ou d'un produit.
Avantages du SSV
- VSS permet aux systÚmes de recherche de localiser des objets similaires incroyablement rapidement sur des types de données variés.
- VSS assure une gestion efficace de la mémoire car il convertit tous les objets de données en incorporations numériques que les machines peuvent facilement traiter.
- VSS peut classer des objets sur de nouvelles requĂȘtes de recherche que le systĂšme n'a peut-ĂȘtre pas rencontrĂ©es de la part des consommateurs.
- VSS est une excellente mĂ©thode pour traiter des donnĂ©es mĂ©diocres et incomplĂštes, car elle peut trouver des objets contextuellement similaires mĂȘme s'ils ne correspondent pas parfaitement.
- Plus important encore, il peut détecter et regrouper des objets associés à grande échelle (volumes de données variables).
Principaux cas d'utilisation commerciale de la recherche de similarité vectorielle
Dans les affaires commerciales, la technologie VSS peut révolutionner un large éventail d'industries et d'applications. Certains de ces cas d'utilisation incluent :
- Réponse aux questions : la recherche de similarité vectorielle peut localiser des questions connexes dans des forums de questions-réponses qui sont presque identiques, permettant des réponses plus précises et pertinentes pour les utilisateurs finaux.
- Recherche Web sémantique : la recherche de similarité vectorielle peut localiser des documents ou des pages Web connexes en fonction de la "proximité" de leurs représentations vectorielles. Il vise à accroßtre la pertinence des résultats de recherche sur le Web.
- Recommandations de produits : la recherche de similarité vectorielle peut faire des recommandations de produits personnalisées en fonction de l'historique de navigation ou de recherche du consommateur.
- Meilleure prestation des soins de santé : les chercheurs et les praticiens de la santé utilisent la recherche de similarité vectorielle pour optimiser les essais cliniques en analysant les représentations vectorielles de la recherche médicale pertinente.
Aujourd'hui, il n'est plus viable de gĂ©rer, d'analyser et de rechercher des donnĂ©es Ă l'aide de techniques conventionnelles basĂ©es sur SQL. Les internautes posent des requĂȘtes complexes sur le Web â apparemment simples pour les humains mais incroyablement complexes Ă interprĂ©ter pour les machines (moteurs de recherche). C'est un dĂ©fi de longue date pour les machines de dĂ©chiffrer diffĂ©rentes formes de donnĂ©es dans un format comprĂ©hensible par la machine.
La recherche par similarité vectorielle permet aux systÚmes de recherche de mieux comprendre le contexte des informations commerciales.
Vous voulez lire du contenu plus perspicace lié à l'IA ? Visite unir.ai.












