Kunstig intelligens

Devaluering av aksjer med motstridende retweets

oppdatert on Desember 9, 2022

Et felles forskningssamarbeid mellom amerikanske universiteter og IBM har formulert et proof-of-concept motstandsangrep som teoretisk sett er i stand til å forårsake aksjemarkedstap, ganske enkelt ved å endre ett ord i en retweet av et Twitter-innlegg.

I ett eksperiment var forskerne i stand til å hinke Stocknet-prediksjonsmodellen med to metoder: et manipulasjonsangrep og et sammenkoblingsangrep. Kilde: https://arxiv.org/pdf/2205.01094.pdf

Angrepsoverflaten for et motstridende angrep på automatiserte og maskinlæringsbaserte aksjeprediksjonssystemer er at en voksende nummer av dem er avhengige av organiske sosiale medier som prediktorer for ytelse; og at manipulering av disse "i-vilte" dataene er en prosess som potensielt kan formuleres pålitelig.

Foruten Twitter inntar systemer av denne arten data fra blant annet Reddit, StockTwits og Yahoo News. Forskjellen mellom Twitter og de andre kildene er at retweets er redigerbare, selv om de originale tweetene ikke er det. På den annen side er det bare mulig å lage flere (dvs. kommentarer eller relaterte) innlegg på Reddit, eller å kommentere og rangere – handlinger som med rette blir behandlet som partipolitiske og selvtjenende av datasaneringsrutinene og praksisene til ML-baserte aksjer. prediksjonssystemer.

I ett eksperiment, på Stocknet prediksjon modell, var forskerne i stand til å forårsake bemerkelsesverdige fall i aksjeverdiprediksjon ved to metoder, hvorav den mest effektive, manipulasjonsangrep (dvs. redigerte retweets), var i stand til å forårsake de mest alvorlige fallene.

Dette ble utført, ifølge forskerne, ved å simulere en enkelt erstatning i en retweet fra en "respektert" finansiell Twitter-kilde:

Ord betyr noe. Her har forskjellen mellom "fylt" og "utøvd" (ikke et åpenlyst ondsinnet eller misvisende ord, men omtrent kategorisert som et synonym) teoretisk kostet en investor tusenvis i aksjedevaluering.

Papiret sier:

"Våre resultater viser at den foreslåtte angrepsmetoden kan oppnå konsistente suksessrater og forårsake betydelige pengetap i handelssimulering ved ganske enkelt å sette sammen en forstyrret, men semantisk lik tweet."

Forskerne konkluderer med:

«Dette arbeidet viser at vår motstandsangrepsmetode konsekvent lurer ulike økonomiske prognosemodeller selv med fysiske begrensninger som gjør at den rå tweeten ikke kan endres. Ved å legge til en retweet med bare ett ord erstattet, kan angrepet forårsake 32 % ekstra tap for vår simulerte investeringsportefølje.

"Ved å studere sårbarheten til den økonomiske modellen, er målet vårt å øke finansmiljøets bevissthet om risikoene til AI-modellen, slik at vi i fremtiden kan utvikle en mer robust human-in-the-loop AI-arkitektur."

De papir har tittelen Et ord er verdt tusen dollar: Motstandsangrep på tweets Fools Stock Prediction, og kommer fra seks forskere, forskjellig fra University of Illinois Urbana-Champaign, State University of New York i Buffalo og Michigan State University, med tre av forskerne tilknyttet IBM.

Uheldige ord

Artikkelen undersøker om det godt studerte feltet med motstridende angrep på tekstbaserte dyplæringsmodeller er anvendelige på aksjemarkedsprediksjonsmodeller, hvis prognoseevne avhenger av noen veldig 'menneskelige' faktorer som bare grovt kan utledes fra sosiale medier.

Som forskerne bemerker, har potensialet for manipulasjon av sosiale medier for å påvirke aksjekursene blitt godt demonstrert, men ennå ikke med metodene som er foreslått i arbeidet; i 2013 a ondsinnet syrisk tweet på den hackede Twitter-kontoen til Associated Press tørket 136 milliarder dollar i aksjemarkedsverdi på rundt tre minutter.

Metoden som er foreslått i det nye arbeidet implementerer et sammenkoblingsangrep, som lar den originale tweeten være urørt, mens den feilsiterer den:

Fra tilleggsmaterialet til avisen, eksempler på re-tweets som inneholder substituerte synonymer som endrer intensjonen og betydningen av den opprinnelige meldingen, uten faktisk å forvrenge den på en slik måte at mennesker eller enkle filtre kan fange opp – men som kan utnytte algoritmene i prediksjonssystemer for aksjemarkedet.

Forskerne har nærmet seg opprettelsen av motstridende retweets som kombinatorisk optimalisering problem – utforming av motstridende eksempler som er i stand til å lure en offermodell, selv med et svært begrenset ordforråd.

Orderstatning ved bruk av sememer – "minste semantiske enhet for menneskelige språk". Kilde: https://aclanthology.org/2020.acl-main.540.pdf

Orderstatning ved hjelp av sememes – «minste semantiske enhet av menneskelige språk». Kilde: https://aclanthology.org/2020.acl-main.540.pdf

Avisen observerer:

«Når det gjelder Twitter, kan motstandere legge ut ondsinnede tweets som er laget for å manipulere nedstrømsmodeller som tar dem som input.

"Vi foreslår å angripe ved å legge ut semantisk lignende motstridende tweets som retweets på Twitter, slik at de kan identifiseres som relevant informasjon og samles inn som modellinndata."

For hver tweet i et spesielt utvalgt basseng løste forskerne ordvalgproblemet under begrensningene til ord- og tweetbudsjetter, som setter strenge begrensninger når det gjelder semantisk avvik fra det opprinnelige ordet, og erstatning av et "ondsinnet/godartet" ord .

De motstridende tweets er formulert basert på relevante tweets som sannsynligvis vil bli tillatt i nedstrøms aksjeprediksjonssystemer. Tweeten må også passere uhindret gjennom Twitters innholdsmodereringssystem, og må ikke fremstå som kontrafaktisk for den tilfeldige menneskelige observatøren.

Følgende tidligere arbeid (fra Michigan State University, sammen med CSAIL, MIT og MIT-IBM Watson AI Lab), er utvalgte ord i måltweet erstattet med synonymer fra et begrenset utvalg av synonymmuligheter, som alle må være semantisk veldig nær originalen ord, samtidig som den opprettholder sin 'korrumperende innflytelse', basert på utledet atferd fra aksjemarkedsprediksjonssystemer.

Algoritmene som ble brukt i de påfølgende eksperimentene var Joint Optimization (JO)-løseren og Alternating Greedy Optimization (AGO)-løseren.

Datasett og eksperimenter

Denne tilnærmingen ble prøvd ut på et aksjeprediksjonsdatasett bestående av 10,824 88 eksempler på relevante tweets og informasjon om markedsytelse på tvers av XNUMX aksjer mellom 2014-2016.

Tre "offer"-modeller ble valgt: Stocknet; FinGRU (et derivat av GRU); og FinLSTM (et derivat av LSTM).

Evalueringsberegninger besto av Attack Success Rate (ASR), og et fall i offermodellens F1-poengsum etter motstandsangrepet. Forskerne simulerte en Bare lenge kjøp-hold-selg strategi for testene. Fortjeneste og tap (PnL) ble også beregnet i simuleringene.

Resultater av forsøkene. Se også første graf øverst i denne artikkelen.

Under JO og AGO stiger ASR med 10 %, og modellens F1-score synker med 0.1 i gjennomsnitt, sammenlignet med et tilfeldig angrep. Forskerne bemerker:

«Et slikt resultatfall anses som betydelig i sammenheng med aksjeprediksjon, gitt at den toppmoderne prediksjonsnøyaktigheten av avkastningen mellom dager bare er rundt 60 %.'

I Profit-and-Loss-transjen av det (virtuelle) angrepet på Stocknet, var resultatene av motstridende retweets også bemerkelsesverdige:

«For hver simulering har investoren $10K (100%) å investere; resultatene viser at den foreslåtte angrepsmetoden med en retweet med bare ett enkelt orderstatning kan føre til at investoren har et ytterligere tap på $3.2K (75%-43%) for sin portefølje etter ca. 2 år.'

Først publisert 4. mai 2022.