Intelligence Artificielle

Comparaison des techniques de quantification pour la recherche de vecteurs évolutive

Publié 6 février 2024

Haziqa Sajid

Imaginez rechercher des éléments similaires en vous basant sur des informations plus approfondies plutôt que sur de simples mots-clés. C'est à cela que servent les bases de données vectorielles et les recherches de similarité. Bases de données vectorielles activer la recherche de similarité vectorielle. Il utilise la distance entre les vecteurs pour trouver des points de données dans les requêtes de recherche.

Cependant, la recherche de similarité dans des données de grande dimension peut être lente et gourmande en ressources. Entrez dans les techniques de quantification ! Ils jouent un rôle important dans l’optimisation du stockage des données et dans l’accélération de la récupération des données dans les bases de données vectorielles.

Cet article explore diverses techniques de quantification, leurs types et des cas d'utilisation réels.

Qu'est-ce que la quantification et comment fonctionne-t-elle ?

La quantification est le processus de conversion de données continues en points de données discrets. Surtout lorsqu'il s'agit de paramètres à l'échelle d'un milliard, la quantification est essentielle pour la gestion et le traitement. Dans les bases de données vectorielles, la quantification transforme les données de grande dimension en espace compressé tout en préservant les caractéristiques importantes et les distances vectorielles.

La quantification réduit considérablement les goulots d'étranglement de la mémoire et améliore l'efficacité du stockage.

Le processus de quantification comprend trois processus clés :

1. Compression de vecteurs de grande dimension

En quantification, nous utilisons des techniques telles que la génération de livres de codes, l'ingénierie des fonctionnalités et l'encodage. Ces techniques compressent les intégrations vectorielles de haute dimension dans un sous-espace de basse dimension. En d’autres termes, le vecteur est divisé en plusieurs sous-vecteurs. Les intégrations vectorielles sont des représentations numériques d'audio, d'images, de vidéos, de texte ou de données de signal, permettant un traitement plus facile.

2. Mappage avec des valeurs discrètes

Cette étape consiste à mapper les sous-vecteurs de faible dimension à des valeurs discrètes. Le mappage réduit encore le nombre de bits de chaque sous-vecteur.

3. Stockage vectoriel compressé

Enfin, les valeurs discrètes mappées des sous-vecteurs sont placées dans la base de données du vecteur d'origine. Les données compressées représentant les mêmes informations en moins de bits optimisent leur stockage.

Avantages de la quantification pour les bases de données vectorielles

La quantification offre de nombreux avantages, se traduisant par un calcul amélioré et une empreinte mémoire réduite.

1. Recherche de vecteurs évolutive et efficace

La quantification optimise la recherche de vecteurs en réduisant le coût de calcul de comparaison. Par conséquent, la recherche vectorielle nécessite moins de ressources, ce qui améliore son efficacité globale.

2. Optimisation de la mémoire

Les vecteurs quantifiés vous permettent de stocker plus de données dans le même espace. De plus, l’indexation et la recherche des données sont également optimisées.

3. La vitesse

Un stockage et une récupération efficaces s'accompagnent d'un calcul plus rapide. Les dimensions réduites permettent un traitement plus rapide, notamment la manipulation des données, les requêtes et les prédictions.

Certaines bases de données vectorielles populaires comme Quadrant, Pinecone et Milvus proposent diverses techniques de quantification avec différents cas d’utilisation.

Cas d'usage

La capacité de la quantification à réduire la taille des données tout en préservant les informations importantes en fait un atout utile.

Plongeons plus en profondeur dans quelques-unes de ses applications.

1. Traitement d'image et vidéo

Les images et les données vidéo ont une gamme de paramètres plus large, ce qui augmente considérablement la complexité de calcul et l'empreinte mémoire. Quantification compresse les données sans perdre de détails importants, permettant un stockage et un traitement efficaces. Cela accélère la recherche d'images et de vidéos.

2. Compression du modèle d'apprentissage automatique

Former des modèles d’IA sur de grands ensembles de données est une tâche intensive. La quantification aide en réduisant taille et complexité du modèle sans compromettre son efficacité.

3. Traitement du signal

Les données de signal représentent des points de données continus comme le GPS ou les images de surveillance. La quantification mappe les données en valeurs discrètes, permettant un stockage et une analyse plus rapides. De plus, un stockage et une analyse efficaces accélèrent les opérations de recherche, permettant une comparaison plus rapide des signaux.

Différentes techniques de quantification

Même si la quantification permet une gestion transparente de paramètres à l’échelle d’un milliard, elle risque de perdre des informations de manière irréversible. Cependant, trouver le juste équilibre entre une perte d’informations acceptable et une compression améliore l’efficacité.

Chaque technique de quantification présente des avantages et des inconvénients. Avant de choisir, vous devez comprendre les exigences de compression, ainsi que les points forts et les limites de chaque technique.

1. Quantification binaire

La quantification binaire est une méthode qui convertit toutes les représentations vectorielles en 0 ou 1. Si une valeur est supérieure à 0, elle est mappée à 1, sinon elle est marquée comme 0. Par conséquent, elle convertit les données de grande dimension en données de dimension nettement inférieure permettant recherche de similarité plus rapide.

Laits en poudre

La formule est :

Formule de quantification binaire. Image de l'auteur.

Voici un exemple du fonctionnement de la quantification binaire sur un vecteur.

Illustration du QB

Représentation graphique de la quantification binaire. Image de l'auteur.

Points forts

Recherche la plus rapide, surpassant les techniques de quantification scalaire et de produit.
Réduit l'empreinte mémoire d'un facteur 32.

Limites

Taux de perte d’informations plus élevé.
Les composantes vectorielles nécessitent une moyenne approximativement égale à zéro.
Mauvaises performances sur les données de faible dimension en raison d'une perte d'informations plus élevée.
Une nouvelle notation est requise pour obtenir les meilleurs résultats.

Bases de données vectorielles comme Quadrant et Tisser proposer une quantification binaire.

2. Quantification scalaire

La quantification scalaire convertit les nombres à virgule flottante ou décimaux en nombres entiers. Cela commence par identifier une valeur minimale et maximale pour chaque dimension. La gamme identifiée est ensuite divisée en plusieurs bacs. Enfin, chaque valeur de chaque dimension est affectée à un bac.

Le niveau de précision ou de détail des vecteurs quantifiés dépend du nombre de cases. Plus de casiers entraînent une plus grande précision en capturant des détails plus fins. Par conséquent, la précision de la recherche vectorielle dépend également du nombre de groupes.

Laits en poudre

La formule est la suivante:

Formule de quantification scalaire. Image de l'auteur.

Voici un exemple du fonctionnement de la quantification scalaire sur un vecteur.

Illustration de la QS

Représentation graphique de la quantification scalaire. Image de l'auteur.

Points forts

Important Mémoire optimisation.
Petite perte d'informations.
Processus partiellement réversible.
Compression rapide.
Recherche évolutive efficace grâce à une faible perte d'informations.

Limites

Une légère diminution de la qualité de la recherche.
Les vecteurs de faible dimension sont plus susceptibles de perdre des informations car chaque point de données contient des informations importantes.

Bases de données vectorielles telles que Quadrant et Milvus offrir une quantification scalaire.

3. Quantification du produit

La quantification du produit divise les vecteurs en sous-vecteurs. Pour chaque section, les points centraux, ou centroïdes, sont calculés à l'aide de algorithmes de clustering. Leurs centroïdes les plus proches représentent alors chaque sous-vecteur.

La recherche de similarité dans la quantification de produits fonctionne en divisant le vecteur de recherche en le même nombre de sous-vecteurs. Ensuite, une liste de résultats similaires est créée par ordre croissant de distance entre le centroïde de chaque sous-vecteur et chaque sous-vecteur de requête. Étant donné que le processus de recherche vectorielle compare la distance entre les sous-vecteurs de requête et les centroïdes du vecteur quantifié, les résultats de la recherche sont moins précis. Cependant, la quantification des produits accélère le processus de recherche de similarité et une plus grande précision peut être obtenue en augmentant le nombre de sous-vecteurs.

Laits en poudre

La recherche de centroïdes est un processus itératif. Il utilise le recalcul de la distance euclidienne entre chaque point de données et son centre de gravité jusqu'à convergence. La formule de la distance euclidienne dans un espace à n dimensions est :

Formule de quantification du produit. Image de l'auteur.

Voici un exemple du fonctionnement de la quantification de produit sur un vecteur.

Illustration PQ

Représentation graphique de la quantification du produit. Image de l'auteur.

Points forts

Taux de compression le plus élevé.
Meilleure efficacité de stockage que les autres techniques.

Limites

Ne convient pas aux vecteurs de faible dimension.
Compression gourmande en ressources.

Bases de données vectorielles comme Quadrant et Weaviate proposent une quantification de produits.

Choisir la bonne méthode de quantification

Chaque méthode de quantification a ses avantages et ses inconvénients. Le choix de la bonne méthode dépend de facteurs qui incluent, sans s'y limiter :

Dimension des données
Compromis compression-précision
Exigences d'efficacité
Contraintes de ressources.

Considérez le tableau de comparaison ci-dessous pour mieux comprendre quelle technique de quantification convient à votre cas d'utilisation. Ce graphique met en évidence les facteurs de précision, de vitesse et de compression pour chaque méthode de quantification.

Image de Qdrant

De l’optimisation du stockage à une recherche plus rapide, la quantification atténue les défis liés au stockage de paramètres à l’échelle d’un milliard. Cependant, comprendre au préalable les exigences et les compromis est crucial pour une mise en œuvre réussie.

Pour plus d’informations sur les dernières tendances et technologies, visitez Unir l'IA.

Rubriques connexes:quantification techniques de quantification recherche de vecteurs évolutive optimisation du stockage base de données vectorielle

Haziqa Sajid

Haziqa est un Data Scientist avec une vaste expérience dans la rédaction de contenu technique pour les entreprises d'IA et de SaaS.

Unite.AI

Comparaison des techniques de quantification pour la recherche de vecteurs évolutive

Qu'est-ce que la quantification et comment fonctionne-t-elle ?

1. Compression de vecteurs de grande dimension

2. Mappage avec des valeurs discrètes

3. Stockage vectoriel compressé

Avantages de la quantification pour les bases de données vectorielles

1. Recherche de vecteurs évolutive et efficace

2. Optimisation de la mémoire

3. La vitesse

Cas d'usage

1. Traitement d'image et vidéo

2. Compression du modèle d'apprentissage automatique

3. Traitement du signal

Différentes techniques de quantification

1. Quantification binaire

Laits en poudre

Points forts

Limites

2. Quantification scalaire

Laits en poudre

Points forts

Limites

3. Quantification du produit

Laits en poudre

Points forts

Limites

Choisir la bonne méthode de quantification

Tu peux aimer