Intelligence artificielle

Dévaloriser les actions avec des retweets conçus de manière contradictoire

Le kit de préparation mis à jour on 9 décembre 2022

Une collaboration de recherche conjointe entre des universités américaines et IBM a formulé une attaque contradictoire de preuve de concept qui est théoriquement capable de provoquer des pertes boursières, simplement en changeant un mot dans un retweet d'un message Twitter.

Dans une expérience, les chercheurs ont pu entraver le modèle de prédiction Stocknet avec deux méthodes : une attaque par manipulation et une attaque par concaténation. Source : https://arxiv.org/pdf/2205.01094.pdf

La surface d'attaque d'une attaque contradictoire contre les systèmes de prévision des stocks automatisés et d'apprentissage automatique est qu'un nombre croissant d'entre eux s'appuient sur les médias sociaux organiques comme prédicteurs de performance ; et que la manipulation de ces données "dans la nature" est un processus qui peut, potentiellement, être formulé de manière fiable.

Outre Twitter, les systèmes de cette nature ingèrent des données de Reddit, StockTwits et Yahoo News, entre autres. La différence entre Twitter et les autres sources est que les retweets sont modifiables, même si les tweets originaux ne le sont pas. D'un autre côté, il n'est possible que de faire des publications supplémentaires (c'est-à-dire des commentaires ou des articles connexes) sur Reddit, ou de commenter et d'évaluer - des actions qui sont à juste titre traitées comme partisanes et intéressées par les routines et pratiques d'assainissement des données du stock basé sur ML. systèmes de prédiction.

Dans une expérience, sur le Stocknet prédiction modèle, les chercheurs ont pu provoquer des baisses notables de la prévision de la valeur des actions par deux méthodes, dont la plus efficace, l'attaque par manipulation (c'est-à-dire les retweets édités), a pu provoquer les baisses les plus sévères.

Cela a été effectué, selon les chercheurs, en simulant une seule substitution dans un retweet d'une source financière Twitter « respectée » :

Les mots comptent. Ici, la différence entre « rempli » et « exercé » (pas un mot ouvertement malveillant ou trompeur, mais à peu près classé comme synonyme) a théoriquement coûté à un investisseur des milliers de dollars en dévaluation des actions.

Le papier déclare:

"Nos résultats montrent que la méthode d'attaque proposée peut atteindre des taux de réussite constants et entraîner des pertes monétaires importantes dans la simulation de trading en concaténant simplement un tweet perturbé mais sémantiquement similaire."

Les chercheurs concluent :

«Ce travail démontre que notre méthode d'attaque contradictoire trompe systématiquement divers modèles de prévisions financières, même avec des contraintes physiques selon lesquelles le tweet brut ne peut pas être modifié. En ajoutant un retweet avec un seul mot remplacé, l'attaque peut entraîner une perte supplémentaire de 32 % pour notre portefeuille d'investissement simulé.

"En étudiant la vulnérabilité du modèle financier, notre objectif est de sensibiliser la communauté financière aux risques du modèle d'IA, afin qu'à l'avenir nous puissions développer une architecture d'IA human-in-the-loop plus robuste."

La papier est intitulé Un mot vaut mille dollars : une attaque contradictoire sur les tweets trompe les prévisions boursières, et provient de six chercheurs, originaires de l'Université de l'Illinois à Urbana-Champaign, de l'Université d'État de New York à Buffalo et de l'Université d'État du Michigan, dont trois sont affiliés à IBM.

Mots malheureux

L'article examine si le domaine bien étudié des attaques contradictoires contre les modèles d'apprentissage en profondeur basés sur du texte est applicable aux modèles de prédiction des marchés boursiers, dont les prouesses de prévision dépendent de certains facteurs très «humains» qui ne peuvent être que grossièrement déduits des sources des médias sociaux.

Comme le notent les chercheurs, le potentiel de manipulation des médias sociaux pour affecter les cours des actions a été bien démontré, mais pas encore par les méthodes proposées dans le travail ; en 2013 un tweet malveillant revendiqué par les Syriens sur le compte Twitter piraté de l'Associated Press a effacé 136 milliards de dollars de valeur boursière dans environ trois minutes.

La méthode proposée dans le nouveau travail implémente une attaque par concaténation, qui laisse le tweet original intact, tout en le citant incorrectement :

À partir du matériel supplémentaire de l'article, des exemples de retweets contenant des synonymes substitués qui modifient l'intention et la signification du message d'origine, sans le déformer réellement de manière à ce que les humains ou de simples filtres puissent attraper - mais qui peuvent exploiter les algorithmes dans les systèmes de prévision boursière.

Les chercheurs ont abordé la création de retweets contradictoires comme optimisation combinatoire problème - l'élaboration d'exemples contradictoires capables de tromper un modèle de victime, même avec un vocabulaire très limité.

Substitution de mots à l'aide de sémèmes – l'« unité sémantique minimale des langues humaines ». Source : https://aclanthology.org/2020.acl-main.540.pdf

Le journal constate :

« Dans le cas de Twitter, les adversaires peuvent publier des tweets malveillants conçus pour manipuler des modèles en aval qui les prennent en entrée.

"Nous proposons d'attaquer en publiant des tweets contradictoires sémantiquement similaires sous forme de retweets sur Twitter, afin qu'ils puissent être identifiés comme des informations pertinentes et collectés comme entrée de modèle."

Pour chaque tweet dans un pool spécialement sélectionné, les chercheurs ont résolu le problème de sélection de mots sous les contraintes des budgets de mots et de tweets, qui imposent de sévères restrictions en termes de divergence sémantique par rapport au mot d'origine, et la substitution d'un mot "malveillant/bénin". .

Les tweets contradictoires sont formulés sur la base de tweets pertinents susceptibles d'être autorisés dans les systèmes de prévision des stocks en aval. Le tweet doit également passer sans entrave par le système de modération de contenu de Twitter et ne doit pas sembler contrefactuel à l'observateur humain occasionnel.

Following travail prioritaire (de la Michigan State University, en collaboration avec CSAIL, MIT et le MIT-IBM Watson AI Lab), les mots sélectionnés dans le tweet cible sont remplacés par des synonymes d'un pool limité de possibilités de synonymes, qui doivent tous être sémantiquement très proches de l'original mot, tout en conservant son "influence corruptrice", basée sur le comportement déduit des systèmes de prévision des marchés boursiers.

Les algorithmes utilisés dans les expériences suivantes étaient le solveur Joint Optimization (JO) et le solveur Alternating Greedy Optimization (AGO).

Ensembles de données et expériences

Cette approche a été testée sur un ensemble de données de prédiction d'actions comprenant 10,824 88 exemples de tweets pertinents et d'informations sur les performances du marché pour XNUMX actions entre 2014-2016.

Trois modèles « victimes » ont été choisis : Stocknet; FinGRU (un dérivé de GRU); et FinLSTM (un dérivé de LSTM).

Les mesures d'évaluation se composaient du taux de réussite des attaques (ASR) et d'une baisse du modèle de la victime. Score F1 après l'attaque adverse. Les chercheurs ont simulé une Achat-Conservation-Vente à long terme stratégie pour les tests. Profit and Loss (PnL) a également été calculé dans les simulations.

Résultats des expériences. Voir également le premier graphique en haut de cet article.

Sous JO et AGO, l'ASR augmente de 10 % et le score F1 du modèle diminue de 0.1 en moyenne, par rapport à une attaque aléatoire. Les chercheurs notent :

"Une telle baisse de performance est considérée comme significative dans le contexte de la prévision des actions étant donné que la précision de pointe de la prédiction du rendement interjournalier n'est que d'environ 60 %.»

Dans la tranche Profits et pertes de l'attaque (virtuelle) contre Stocknet, les résultats des retweets contradictoires ont également été remarquables :

« Pour chaque simulation, l'investisseur dispose de 10 100 $ (3.2 %) à investir ; les résultats montrent que la méthode d'attaque proposée avec un retweet avec un seul remplacement de mot peut entraîner pour l'investisseur une perte supplémentaire de 75 43 $ (2 % à XNUMX %) pour son portefeuille après environ XNUMX ans. »

Première publication le 4 mai 2022.

Des chercheurs démontrent l'informatique "nanomagnétique" de l'IA

Ne manquez pas

Une nouvelle méthode détecte les deep fakes avec une précision de 99 %

Martin Anderson

Écrivain sur l'apprentissage automatique, l'intelligence artificielle et le big data.
Site personnel : martinanderson.ai
Contact : [email protected]
Twitter : @manders_ai