Cybersikkerhet
Optisk Adversarial Attack Kan Endre Meningen av Veiskilt

Forskere i USA har utviklet en adversarial attack mot evnen til maskinlæringsystemer til å korrekt tolke hva de ser – inkludert kritiske elementer som veiskilt – ved å skine mønsterlys på virkelige objekter. I ett eksperiment lyktes tilnærmingen i å forandre meningen av et ‘STOPP’ veiskilt til et ’30mph’ hastighetsbegrensningsskilt.

Perturbasjoner på et skilt, skapt ved å skine craftet lys på det, forvrenger hvordan det tolkes i et maskinlæringsystem. Kilde: https://arxiv.org/pdf/2108.06247.pdf
Forskningen forskningen har tittelen Optisk Adversarial Attack, og kommer fra Purdue University i Indiana.
En Optisk Adversarial Attack (OPAD), som foreslås i papiret, bruker strukturert belysning til å endre utseendet på målobjekter, og krever bare en vanlig projektor, en kamera og en datamaskin. Forskerne kunne suksessfullt utføre både white-box og black box-angrep med denne teknikken.

OPAD-innstillingen, og de minimale forvrengningene som er tilstrekkelige til å forårsake en misklassifisering.
Innstillingen for OPAD består av en ViewSonic 3600 Lumens SVGA-projektor, en Canon T6i-kamera og en bærbar datamaskin.
Black Box og Targeted Angrep
White box-angrep er usannsynlige scenarier der en angriper kan ha direkte tilgang til en treningsmodellprosess eller til styringen av inndata. Black box-angrep, på den andre siden, er vanligvis formulert ved å slutte hvordan en maskinlæringsmodell er sammensatt, eller hvordan den oppfører seg, ved å lage “skygge”-modeller, og utvikle adversarial angrep som er designet til å virke på den opprinnelige modellen.
I det siste tilfelle er ingen spesiell tilgang nødvendig, selv om slike angrep er sterkt hjulpet av den ubegrensede tilgangen til åpne kildekodelibriser og databaser i nåværende akademisk og kommersiell forskning.
Alle OPAD-angrepene som er beskrevet i den nye artikkelen er “targeted” angrep, som spesifikt søker å endre hvordan bestemte objekter tolkes. Selv om systemet også har vist seg å være i stand til å oppnå generaliserte, abstrakte angrep, hevder forskerne at en virkelig angriper ville ha et mer spesifikt destabiliserende mål.
OPAD-angrepet er bare en virkelig versjon av det ofte forskede prinsippet om å injisere støy i bilder som skal brukes i datavisjonssystemer. Verdien av tilnærmingen er at man kan enkelt “prosjektere” forvrengningene på målobjektet for å utløse misklassifiseringen, mens det er mye vanskeligere å sikre at “Trojan horse”-bilder havner i treningsprosessen.
I tilfelle hvor OPAD kunne påføre den hashet mening av “hastighet 30”-bildet i en datasett på et “STOPP”-skilt, ble baseline-bildet oppnådd ved å belyse objektet jevnt med en intensitet på 140/255. Deretter ble projektor-kompensert belysning brukt som et prosjekt gradient descent-angrep.

Eksempler på OPAD-mis klassifiseringsangrep.
Forskerne observerer at den største utfordringen i prosjektet har vært å kalibrere og sette opp projektor-mekanismen så den oppnår en ren “forføring”, siden vinkler, optikk og flere andre faktorer er en utfordring for å utnytte.
I tillegg er tilnærmingen bare sannsynlig å virke om natten. Om den åpenbare belysningen ville avsløre “haket” er også en faktor; hvis et objekt som et skilt allerede er belyst, må projektor kompensere for den belysningen, og mengden reflektert forvrengning må også være motstandsdyktig mot lykter. Det ser ut til å være et system som ville fungere best i urbane miljøer, hvor miljøbelysningen er sannsynligvis mer stabil.
Forskningen bygger effektivt en ML-orientert iterasjon av Columbia Universitys 2004-forskning i å endre utseendet på objekter ved å projisere andre bilder på dem – et optisk eksperiment som mangler den ondsinnede potensialet til OPAD.
I testing kunne OPAD narre en klassifiseringsmodell i 31 av 64 angrep – en suksessrate på 48%. Forskerne merker at suksessraten avhenger sterkt av typen objekt som angripes. Mønster- eller kurvede overflater (som henholdsvis en teddybjørn og en kopp) kan ikke gi nok direkte refleksivitet til å utføre angrepet. På den andre siden er bevisst refleksive flate overflater som veiskilt ideelle miljøer for en OPAD-forvrengning.
Åpne Kildeangrepsflater
Alle angrepene ble utført mot en spesifikk sett med databaser: den tyske trafikkskiltgjenkjenning-databasen (GTSRB, kalt GTSRB-CNN i den nye artikkelen), som ble brukt til å trene modellen for en tilsvarende angrepsScenario i 2018; ImageNet VGG16-datasettet; og ImageNet Resnet-50-settet.
Så, er disse angrepene “bare teoretiske”, siden de er rettet mot åpne kilde-datasett, og ikke mot de proprietære, lukkede systemene i autonome kjøretøy? De ville være, hvis de største forskningsarmene ikke avhenger av den åpne kilde-økosystemet, inkludert algoritmer og datasett, og i stedet arbeider i hemmelighet for å produsere lukkede datasett og uklare gjenkjenning-algoritmer.
Men generelt er det ikke hvordan det fungerer. Landmark-datasett blir benchmarkene mot hvilke all fremgang (og anerkjennelse) måles, mens åpne kilde-bilde-gjenkjenningssystemer som YOLO-serien går foran, gjennom globalt samarbeid, alle internt utviklede, lukkede systemer som er ment å operere på lignende prinsipper.
Den Åpne Kilde-Eksponeringen
Selv der data i et datavisjon-rammeverk til slutt vil bli erstattet med helt lukkede data, er vektene til de “tømte” modellene fortsatt ofte kalibrert i de tidlige utviklingsstadiene av åpne kilde-data som aldri vil bli helt forkastet – hvilket betyr at de resulterende systemene potensielt kan være mål for åpne kilde-metoder.
I tillegg gjør det åpne kilde-tilnærmingen til datavisjonssystemer av denne typen det mulig for private selskaper å nyte seg, gratis, av grenede innovasjoner fra andre globale forskningsprosjekter, og legge til en finansiell incentiv for å holde arkitekturen tilgjengelig. Deretter kan de prøve å lukke systemet bare ved kommersialiseringen, på et tidspunkt hvor en hel rekke åpne kilde-metrikker allerede er dypt innlejret i det.













