Intelligence artificielle
Une attaque d’empoisonnement contre le splatting gaussien 3D

Une nouvelle collaboration de recherche entre Singapour et la Chine a proposé une méthode pour attaquer la méthode de synthèse populaire splatting gaussien 3D (3DGS).

La nouvelle méthode d’attaque utilise des données source créées pour surcharger la mémoire GPU disponible du système cible, et pour rendre la formation si longue qu’elle peut potentiellement incapaciter le serveur cible, équivalent à une attaque de refus de service (DOS). Source: https://arxiv.org/pdf/2410.08190
L’attaque utilise des images de formation créées de telle complexité qu’elles sont susceptibles de submerger un service en ligne qui permet aux utilisateurs de créer des représentations 3DGS.
Cette approche est facilitée par la nature adaptive du 3DGS, qui est conçue pour ajouter autant de détails représentationnels que les images source requièrent pour un rendu réaliste. La méthode exploite à la fois la complexité des images créées (textures) et la forme (géométrie).

Le système d’attaque ‘poison-splat’ est aidé par un modèle proxy qui estime et itère le potentiel des images source pour ajouter de la complexité et des instances de Gaussian Splat à un modèle, jusqu’à ce que le système hôte soit submergé.
Le document affirme que les plateformes en ligne – telles que LumaAI, KIRI, Spline et Polycam – offrent de plus en plus souvent des services 3DGS, et que la nouvelle méthode d’attaque – intitulée Poison-Splat – est potentiellement capable de pousser l’algorithme 3DGS vers ‘sa pire complexité de calcul‘ sur ces domaines, et même de faciliter une attaque de refus de service (DOS).
Selon les chercheurs, le 3DGS pourrait être radicalement plus vulnérable que d’autres services de formation de réseaux de neurones en ligne. Les procédures de formation de réseaux de neurones conventionnelles fixent les paramètres au début, et opèrent ensuite dans des niveaux de consommation de ressources et de puissance relativement constants. Sans l’élasticité que Gaussian Splat nécessite pour attribuer des instances de splat, ces services sont difficiles à cibler de la même manière.
De plus, les auteurs notent que les fournisseurs de services ne peuvent pas se défendre contre une telle attaque en limitant la complexité ou la densité du modèle, car cela entraverait l’efficacité du service dans des conditions normales.

À partir du nouveau travail, nous voyons qu’un système hôte qui limite le nombre de Gaussian Splats attribués ne peut pas fonctionner normalement, puisque l’élasticité de ces paramètres est une fonctionnalité fondamentale du 3DGS.
Le document indique :
‘[3DGS] les modèles formés sous ces contraintes défensives performe beaucoup plus mal par rapport à ceux avec une formation non contrainte, en particulier en termes de reconstruction de détails. Cette baisse de qualité se produit parce que 3DGS ne peut pas automatiquement distinguer les détails nécessaires des textures empoisonnées.
‘Naivement limiter le nombre de Gaussiens entraînera directement l’échec du modèle pour reconstruire la scène 3D avec précision, ce qui viole l’objectif principal du fournisseur de services. Cette étude démontre que des stratégies défensives plus sophistiquées sont nécessaires pour à la fois protéger le système et maintenir la qualité des reconstructions 3D sous notre attaque.’
Lors des tests, l’attaque s’est avérée efficace à la fois dans un scénario white-box (où l’attaquant a connaissance des ressources de la victime) et dans une approche black box (où l’attaquant n’a pas connaissance de ces informations).
Les auteurs estiment que leur travail représente la première méthode d’attaque contre le 3DGS, et mettent en garde que le secteur de la recherche sur la sécurité des synthèses neuronales n’est pas préparé à ce type d’approche.
Le nouveau document est intitulé Poison-splat: Computation Cost Attack on 3D Gaussian Splatting, et provient de cinq auteurs de l’Université nationale de Singapour et de Skywork AI à Pékin.
Méthode
Les auteurs ont analysé dans quelle mesure le nombre de Gaussian Splats (essentiellement, des pixels ellipsoïdaux tridimensionnels) attribués à un modèle sous un pipeline 3DGS affecte les coûts de calcul de la formation et du rendu du modèle.

L’étude des auteurs révèle une corrélation claire entre le nombre de Gaussiens attribués et les coûts de temps de formation, ainsi que l’utilisation de la mémoire GPU.
La figure la plus à droite dans l’image ci-dessus indique la relation claire entre la netteté de l’image et le nombre de Gaussiens attribués. Plus l’image est nette, plus de détails sont nécessaires pour rendre le modèle 3DGS.
Le document indique* :
‘[Nous] constatons que 3DGS tend à attribuer plus de Gaussiens aux objets avec des structures plus complexes et des textures non lisses, comme quantifié par le score de variation totale – une métrique évaluant la netteté de l’image. Intuitivement, plus la surface des objets 3D est non lisse, plus le modèle a besoin de Gaussiens pour récupérer tous les détails à partir de leurs projections d’images 2D.
‘Par conséquent, la non-lissité peut être un bon descripteur de complexité de [Gaussiens]’
Cependant, rendre les images plus nettes de manière naive tendra à affecter l’intégrité sémantique du modèle 3DGS à un point tel qu’une attaque sera évidente aux premiers stades.
Empoisonner les données de manière efficace nécessite une approche plus sophistiquée. Les auteurs ont adopté une modèle proxy méthode, dans laquelle les images d’attaque sont optimisées dans un modèle 3DGS hors ligne développé et contrôlé par les attaquants.

À gauche, nous voyons un graphique représentant le coût global de temps de calcul et d’occupation de la mémoire GPU sur le jeu de données MIP-NeRF360 ‘room’, démontrant les performances natives, la perturbation naive et les données proxy.
Les auteurs indiquent :
‘Il est évident que le modèle proxy peut être guidé à partir de la non-lissité des images 2D pour développer des formes 3D très complexes.
‘Par conséquent, les données empoisonnées produites à partir de la projection de ce modèle proxy surdensifié peuvent produire plus de données empoisonnées, induisant plus de Gaussiens pour s’adapter à ces données empoisonnées.’
Le système d’attaque est contraint par une collaboration Google/Facebook de 2013 avec diverses universités, de sorte que les perturbations restent dans les limites conçues pour permettre au système de causer des dommages sans affecter la reproduction d’une image 3DGS, ce qui serait un signal précoce d’une incursion.
Données et tests
Les chercheurs ont testé poison-splat contre trois jeux de données : NeRF-Synthetic ; Mip-NeRF360 ; et Tanks-and-Temples.
Ils ont utilisé la mise en œuvre officielle de 3DGS en tant qu’environnement victime. Pour une approche black box, ils ont utilisé le cadre Scaffold-GS.
Les tests ont été effectués sur une carte graphique NVIDIA A800-SXM4-80G.
Pour les métriques, le nombre de Gaussian splats produits était l’indicateur principal, puisque l’intention est de créer des images source conçues pour maximiser et dépasser la déduction rationnelle des données source. La vitesse de rendu du système cible a également été prise en compte.
Les résultats des tests initiaux sont présentés ci-dessous :

Résultats complets des attaques de test sur les trois jeux de données. Les auteurs observent qu’ils ont mis en évidence des attaques qui consomment avec succès plus de 24 Go de mémoire. Veuillez vous référer au document source pour une meilleure résolution.
Sur ces résultats, les auteurs commentent :
‘[Notre] attaque Poison-splat démontre la capacité à créer une charge de calcul énorme sur plusieurs jeux de données. Même avec des perturbations contraintes dans une petite plage dans [une attaque contrainte], la mémoire GPU de pointe peut être augmentée à plus de deux fois, ce qui rend l’occupation globale de la mémoire GPU supérieure à 24 Go.
‘Dans le monde réel, cela peut signifier que notre attaque peut nécessiter plus de ressources allouables que les stations GPU courantes peuvent fournir, par exemple RTX 3090, RTX 4090 et A5000. De plus [l’]attaque non seulement augmente considérablement l’utilisation de la mémoire, mais ralentit également considérablement la vitesse de formation.
‘Cette propriété renforcerait encore l’attaque, puisque l’occupation écrasante de la mémoire GPU durerait plus longtemps que la formation normale peut prendre, ce qui rendrait la perte globale de puissance de calcul plus élevée.’

La progression du modèle proxy dans les scénarios d’attaque contrainte et non contrainte.
Les tests contre Scaffold-GS (le modèle black box) sont présentés ci-dessous. Les auteurs indiquent que ces résultats montrent que poison-splat se généralise bien à une architecture différente (c’est-à-dire à la mise en œuvre de référence).

Résultats des tests d’attaque black box sur les jeux de données NeRF-Synthetic et MIP-NeRF360.
Les auteurs notent qu’il y a eu très peu d’études axées sur ce type d’attaques ciblant les ressources aux processus d’inférence.
L’attaque au temps d’inférence a été étudiée plus en détail dans des travaux ultérieurs tels que Energy-Latency Attacks on Neural Networks qui a pu identifier des exemples de données qui déclenchent des activations de neurones excessives, conduisant à une consommation débilitante d’énergie et à une latence médiocre.
Les attaques au temps d’inférence ont été étudiées plus en détail dans des travaux tels que Slowdown attacks on adaptive multi-exit neural network inference, Towards Efficiency Backdoor Injection, et, pour les modèles de langage et les modèles de vision-langage (VLM), dans NICGSlowDown, et Verbose Images.
Conclusion
L’attaque Poison-splat développée par les chercheurs exploite une vulnérabilité fondamentale dans le splatting gaussien – le fait qu’il attribue la complexité et la densité des Gaussiens en fonction du matériel qu’il est censé former.
Le document de 2024 F-3DGS: Factorized Coordinates and Representations for 3D Gaussian Splatting a déjà observé que l’attribution arbitraire de splats par le splatting gaussien est une méthode inefficace, qui produit souvent des instances redondantes :
‘[Cette] inefficacité provient de l’incapacité inhérente de 3DGS à utiliser des modèles structurels ou des redondances. Nous avons observé que 3DGS produit un nombre excessivement élevé de Gaussiens, même pour représenter des structures géométriques simples, telles que des surfaces plates.
‘De plus, les Gaussiens voisins présentent parfois des attributs similaires, suggérant le potentiel d’améliorer l’efficacité en supprimant les représentations redondantes.’
Puisque la limitation de la génération de Gaussiens compromet la qualité de la reproduction dans les scénarios non d’attaque, les nombreux fournisseurs de services en ligne qui offrent des services 3DGS à partir de données téléchargées par les utilisateurs peuvent devoir étudier les caractéristiques des images source pour déterminer les signatures qui indiquent une intention malveillante.’
Dans tous les cas, les auteurs de la nouvelle étude concluent que des méthodes de défense plus sophistiquées seront nécessaires pour les services en ligne face à ce type d’attaque qu’ils ont formulée.
* Ma conversion des citations en ligne des auteurs en hyperliens
Publié pour la première fois vendredi 11 octobre 2024












