Intelligence Artificielle
Qu’est-ce que la multilocation dans les bases de données vectorielles ?

Lorsque vous téléchargez et gérez des données sur GitHub, inaccessibles à d'autres utilisateurs, sauf si vous les rendez publiques, vous partagez une infrastructure physique avec d'autres utilisateurs. En effet, GitHub utilise la multilocation comme alternative économique et plus simple à gérer à l'attribution d'une base de données distincte à chaque utilisateur.
Cependant, partager la même infrastructure devient un risque de sécurité lorsque tous les utilisateurs peuvent consulter les données des autres. La multilocation résout ce problème en partitionnant logiquement les données utilisateur tout en leur permettant de s'exécuter sur les mêmes ressources.
Cet article explore la multilocation dans les bases de données vectorielles, ses avantages, ses limites et ses cas d'utilisation réels.
Comment fonctionne la multilocation dans les bases de données vectorielles ?
La multilocation est une approche dans laquelle plusieurs locataires, c'est-à -dire des utilisateurs, partagent la même base de données mais stockent leurs données dans un environnement isolé.
Un environnement isolé est créé à l'aide d'informations d'identification uniques pour chaque locataire afin de sécuriser ses données. Ainsi, chaque locataire peut stocker, gérer et modifier ses données dans son environnement isolé. Cependant, l'entreprise a accès à la gestion et au contrôle des ressources et des limitations des locataires.
Exemple d’illustration d’une collection à deux locataires avec accès isolé à la même base de données. Source des images : Quadrant
Utilisation des bases de données vectorielles indexage comme technique de recherche qui organise les vecteurs en fonction de la similarité. La stratégie d'indexation a un impact sur le partitionnement des données du locataire. Actuellement, deux stratégies d'indexation sont utilisées dans les bases de données vectorielles multi-locataires.
Discutons des deux stratégies d'indexation dans les bases de données vectorielles mutualisées :
- Indexation partagée : tous les locataires partagent le même index avec des informations d'identification uniques partitionnant les données. Cette méthode est économe en mémoire. Cependant, cela nécessite des mécanismes robustes de sécurité et de contrôle d’accès pour protéger les données des locataires.
- Indexation par locataire : chaque locataire dispose d'un index distinct dans l'indexation par locataire. Cela permet un contrôle d’accès complet et des performances de recherche améliorées. Cependant, cette méthode est gourmande en ressources.
Certains vbases de données sectorielles comme Quadrant et Milvus offrir une architecture mutualisée pour permettre une personnalisation et une évolutivité supplémentaires pour les utilisateurs avec les deux stratégies d'indexation.
Avantages de la multilocation dans les bases de données vectorielles
La mutualisation des bases de données vectorielles offre de nombreux avantages aux entreprises qui ont besoin d'instances de bases de données isolées pour plusieurs utilisateurs. Certains des avantages comprennent :
1. Réduction des coûts
Utiliser moins de ressources pour plus d’utilisateurs entraîne une réduction des coûts d’infrastructure.
2. Évolutivité
La multilocation permet le partage de ressources en fonction des besoins. Cela signifie que les locataires ayant davantage de besoins en stockage obtiennent plus de ressources et vice versa.
3. Personnalisation
Un environnement distinct permet aux locataires de le configurer en fonction de leurs besoins, notamment le schéma de base de données, les plugins, les métriques et les tableaux de bord. Les configurations sont privées pour les locataires, et ceux-ci peuvent les modifier à mesure que leurs besoins évoluent.
4. Gérabilité
Une base de données unique pour tous les locataires permet gestion centralisée des ressources, la configuration et la surveillance au lieu de surveiller tous les locataires séparément. Même si une entreprise peut gérer tous les locataires en un seul endroit, les locataires ont le contrôle de la gestion de leurs données au sein de leurs environnements isolés.
Limites de la multilocation dans les bases de données vectorielles
Comme toute autre approche architecturale, la multilocation présente certaines limites. Il est important de prendre en compte ces limites pour prendre une décision éclairée. Les limitations les plus courantes incluent :
1. Complexités supplémentaires
La gestion de plusieurs locataires sur une seule ressource nécessite une configuration supplémentaire. Cela inclut l’intégration des locataires, le contrôle d’accès, l’authentification des utilisateurs et l’autorisation. Le manque de connaissances et de soutien pourrait entraîner des résultats indésirables comme un partage accidentel de données ou une surcharge de ressources.
Pour résoudre ce problème, une planification minutieuse et la prise en charge de la base de données garantissent un environnement utilisateur sécurisé.
2. Problèmes de sécurité
Un accès malveillant, une mauvaise configuration accidentelle ou des vulnérabilités dans l'infrastructure sous-jacente peuvent conduire au partage de données entre les locataires. En guise de garde-fous, la mise en œuvre d’une conception soignée, la réalisation d’audits réguliers et l’intégration de mesures de sécurité multicouches peuvent renforcer la sécurité globale.
3. Goulots d’étranglement en matière de performances
Une utilisation accrue des ressources par un locataire peut ralentir les performances des autres. Indexation partagée affecte spécifiquement les performances de recherche en raison des vérifications des autorisations d’exécution pour correspondre à la liste d’accès. La gestion et le contrôle des ressources, les mises à jour régulières et la formation des locataires sont importants pour atténuer les problèmes de performances.
4. Panne du système
La maintenance planifiée, les pannes matérielles et les bugs logiciels affectent tous les locataires lorsqu'ils partagent une infrastructure similaire. Cela entraîne des pertes de données, de réputation et financières. Une évaluation régulière des risques, une assurance qualité de l'infrastructure et une sauvegarde rapide peuvent minimiser l'impact négatif des pannes du système.
Cas d'utilisation de la multilocation
La multitanence est utile dans diverses applications, des systèmes de recommandation de commerce électronique à la formation de grands modèles d'apprentissage automatique (ML) dans les entreprises. Voici quelques-uns des cas d’utilisation les plus courants :
1. Systèmes de recommandation
Imaginez une plateforme de commerce électronique sur laquelle les utilisateurs peuvent s'inscrire et enregistrer leurs préférences d'achat. Une configuration mutualisée permettra des recommandations de produits personnalisées à chaque utilisateur.
Sur la plateforme e-commerce, tous les locataires peuvent définir leurs critères, ainsi le système de recommandation envoie des recommandations de produits personnalisées aux utilisateurs finaux.
2. Applications de l'entreprise
Les grandes applications logicielles destinées à plusieurs employés et clients utilisent la même base de données pour tous les utilisateurs. Tous les utilisateurs peuvent télécharger et gérer leurs données tout en les protégeant des autres. Par exemple, Dropbox et HubSpot permettent à tous les utilisateurs de partager les mêmes ressources tout en protégeant leurs données les uns des autres.
3. Détection des anomalies et des fraudes
La multilocation permet le développement de solutions robustes systèmes de détection de fraude tout en préservant la sécurité des données individuelles. Les entreprises entraînent des modèles de détection de fraude sur leurs données anonymisées et envoient uniquement le modèle formé via la base de données centralisée. Cela leur permet de sécuriser leurs données tout en contribuant au développement de systèmes de détection des fraudes.
Par exemple, utilisation de systèmes de détection de fraude par carte de crédit ML pour une confidentialité et une efficacité améliorées.
Quand utiliser et quand ne pas utiliser la multilocation
Plusieurs facteurs contribuent à la décision de passer à la multilocation, notamment les performances des locataires, les exigences d'isolation et les problèmes de sécurité. Discutons en détail ci-dessous de quand et quand ne pas utiliser la multilocation.
Quand utiliser la multilocation
Les indicateurs suivants font de la multilocation un bon choix :
- Plusieurs locataires ont besoin d’environnements distincts.
- Les locataires peuvent accepter des compromis en matière de performances.
- La réduction des coûts est votre priorité.
- La gestion centralisée des locataires améliore vos opérations.
Quand ne pas utiliser la multilocation
Les limites de la multilocation l’empêchent de s’adapter à toutes les situations. Une base de données vectorielles mutualisée ne vous convient pas si vous avez les exigences suivantes :
- Les locataires possèdent des données hautement sensibles avec des exigences de sécurité strictes.
- Un nombre limité de locataires avec une croissance lente.
- Les locataires nécessitent des environnements dédiés et ne peuvent tolérer une dégradation des performances.
- Expertise multi-tenant limitée et capacité à gérer une complexité croissante.
La multilocation introduit une évolutivité et une facilité de gestion supplémentaires pour les bases de données vectorielles. Si elle est configurée correctement, la multilocation permet à une organisation d'économiser des coûts et des ressources importants.
Intéressé par plus de contenu lié à l’IA ? Rester en contact avec unir.ai.