Cybersikkerhed

Optisk Adversarial Angreb Kan Ændre Betydningen Af Vejskilte

Published August 16, 2021

Updated April 28, 2026

Martin Anderson

Forskere i USA har udviklet et adversarial angreb mod evnen af machine learning-systemer til korrekt at fortolke, hvad de ser – herunder mission-kritiske elementer som vejskilte – ved at lyse mønsterlys på virkelige verdensobjekter. I et eksperiment lykkedes det at forvandle betydningen af et ‘STOP’-skilt til et ’30mph’-hastighedsskilt.

Perturbationer på et skilt, skabt ved at lyse craftet lys på det, forvrænger, hvordan det fortolkes i et machine learning-system. Kilde: https://arxiv.org/pdf/2108.06247.pdf

Forskningen forskningsrapporten hedder Optisk Adversarial Angreb og kommer fra Purdue University i Indiana.

Et Optisk Adversarial Angreb (OPAD), som foreslås i artiklen, bruger struktureret belysning til at ændre udseendet af målobjekter og kræver kun en almindelig projector, en kamera og en computer. Forskerne kunne med held udføre både white-box og black box-angreb med denne teknik.

OPAD-sætup og de minimale forvrængninger, der er tilstrækkelige til at forårsage en misclassification.

Sætup for OPAD består af en ViewSonic 3600 Lumens SVGA projector, en Canon T6i kamera og en laptop-computer.

Sort Boks og Targeted Angreb

Hvide boks-angreb er usandsynlige scenarier, hvor en angriber måske har direkte adgang til en træningsmodel-procedure eller til styringen af inputdata. Sort boks-angreb, på den anden side, er typisk formuleret ved at slutte, hvordan en machine learning-model er sammensat, eller i hvert fald hvordan den opfører sig, ved at skabe ‘skygge’-modeller og udvikle adversarial angreb, der er designet til at virke på den originale model.

Her ser vi mængden af visuel forvrængning, der er nødvendig for at narre klassificatoren.

I det sidste tilfælde er der ikke brug for særlig adgang, selvom sådanne angreb er stærkt hjulpet af det åbne kildekode-computer vision-biblioteker og -databaser i nuværende akademisk og kommerciel forskning.

Alle OPAD-angrebene i den nye artikel er ‘targeted’ angreb, der specifikt søger at ændre, hvordan bestemte objekter fortolkes. Selvom systemet også er blevet demonstreret i stand til at opnå generaliserede, abstrakte angreb, mener forskerne, at en virkelig angriber ville have et mere specifikt disruptivt formål.

OPAD-angrebet er blot en virkelig version af det ofte forskede princip om at injicere støj i billeder, der skal bruges i computer vision-systemer. Værdien af denne tilgang er, at man kan blot ‘projicere’ forvrængningerne på målobjektet for at udløse misclassification, hvorimod det er sværere at sikre, at ‘Trojan horse’-billeder kommer ind i træningsprocessen.

I tilfældet, hvor OPAD kunne påføre den hashede betydning af ‘hastighed 30’-billedet i en dataset på et ‘STOP’-skilt, blev baseline-billedet erhvervet ved at lyse objektet jævnt med en 140/255-intensitet. Derefter blev projector-kompenseret belysning anvendt som et projiceret gradient descent angreb.

Eksempler på OPAD misclassification angreb.

Forskerne observerer, at det primære udfordring i projektet har været at kalibrere og sætte projektormekanismen op, så den opnår en ren ‘forvrængning’, da vinkler, optik og flere andre faktorer er en udfordring for at udnytte.

Derudover er tilgangen kun sandsynlig at virke om natten. Om den åbenlyse belysning ville afsløre ‘hacket’ er også en faktor; hvis et objekt som et skilt allerede er belyst, skal projektoren kompensere for denne belysning, og mængden af reflekteret forvrængning skal også være resistent overfor forlygter. Det ser ud til at være et system, der ville fungere bedst i urbane miljøer, hvor miljøbelysningen sandsynligvis er mere stabil.

Forskningen bygger effektivt en ML-orienteret iteration af Columbia University’s 2004 forskning i at ændre udseendet af objekter ved at projicere andre billeder på dem – et optisk eksperiment, der mangler den ondsindede potentiale af OPAD.

Ved test, kunne OPAD narre en klassificator i 31 af 64 angreb – en succesrate på 48%. Forskerne bemærker, at succesraten afhænger stærkt af typen af objekt, der angribes. Mønstrerede eller kurvede overflader (som henholdsvis en teddybjørn og en kopp) kan ikke give nok direkte refleksion til at udføre angrebet. På den anden side er intentionelt reflekterende flade overflader som vejskilte ideelle miljøer for en OPAD-forvrængning.

Åbne Kildekode Angrebsflader

Alle angrebene blev udført mod en bestemt samling af databaser: den tyske trafikskiltegenkendelsesdatabase (GTSRB, kaldet GTSRB-CNN i den nye artikel), som blev brugt til at træne modellen for et lignende angrebsscenario i 2018; ImageNet VGG16-datasettet; og ImageNet Resnet-50-sættet.

Så, er disse angreb ‘kun teoretiske’, da de er rettet mod åbne kildekode-databaser og ikke mod de proprietære, lukkede systemer i autonome køretøjer? De ville være, hvis de største forskningsarme ikke afhængigt af den åbne kildekode-økosystem, herunder algoritmer og databaser, og i stedet arbejdede i hemmelighed for at producere lukkede datasæt og uigennemsigtige genkendelsesalgoritmer.

Men generelt, fungerer det ikke sådan. Landmark-datasæt bliver de benchmarks, mod hvilke alle fremskridt (og anseelse/acclaim) bliver målt, mens åbne kildekode-billedgenkendelsessystemer som YOLO-serien skyder forbi, gennem fælles globalt samarbejde, enhver internt udviklet, lukket system, der er designet til at fungere på lignende principper.

FOSS Udsættelsen

Selv hvor data i et computer vision-rammeværk til sidst vil blive erstattet med helt lukkede data, er vægten af de ‘tømte’ modeller stadig ofte kalibreret i de tidlige udviklingsfaser af FOSS-data, der aldrig helt vil blive forkastet – hvilket betyder, at de resulterende systemer potentielt kan blive mål for FOSS-metoder.

Derudover giver det åbne kildekode-tilgang til CV-systemer af denne art mulighed for private virksomheder at udnytte, gratis, branchede innovationer fra andre globale forskningsprojekter, og tilføje en finansielle incitament til at holde arkitekturen tilgængelig. Derefter kan de forsøge at lukke systemet kun på commercialiseringspunktet, hvorefter en hel række af inferable FOSS-metrikker er dybt integreret i det.