Artificiell intelligens

Hobbla datauppsättningar med datorseende mot obehörig användning

Uppdaterad on December 9, 2022

Forskare från Kina har utvecklat en metod för att upphovsrättsskydda bilddatauppsättningar som används för datorseendeträning, genom att effektivt "vattenmärka" bilderna i datan och sedan dekryptera de "rena" bilderna via en molnbaserad plattform endast för behöriga användare.

Tester på systemet visar att träning av en maskininlärningsmodell på de upphovsrättsskyddade bilderna orsakar en katastrofal nedgång i modellens noggrannhet. Genom att testa systemet på två populära bilduppsättningar med öppen källkod fann forskarna att det var möjligt att sänka noggrannheten från 86.21 % och 74.00 % för de rena datamängderna ner till 38.23 % och 16.20 % när man försökte träna modeller på icke-dekrypterad data.

Från papperet – exempel på rena, skyddade (dvs störda) och återställda bilder. Källa: https://arxiv.org/pdf/2109.07921.pdf

Från papperet – exempel, från vänster till höger, på rena, skyddade (dvs. störda) och återställda bilder. Källa: https://arxiv.org/pdf/2109.07921.pdf

Detta möjliggör potentiellt bred allmän spridning av högkvalitativa, dyra datauppsättningar och (förmodligen), till och med semi-förlamad "demo"-träning av datamängderna för att demonstrera ungefärlig funktionalitet.

Molnbaserad datauppsättningsautentisering

Smakämnen papper kommer från forskare vid två avdelningar vid Nanjing University of Aeronautics and Astronautics, och föreställer sig rutinmässig användning av en Dataset Management Cloud Platform (DMCP), ett ramverk för fjärrautentisering som skulle ge samma typ av telemetribaserad validering före lansering som har blivit vanliga i betungande lokala installationer som Adobe Creative Suite.

Flödet och ramverket för den föreslagna metoden.

Den skyddade bilden genereras genom har rymdstörningar, en kontradiktorisk attackmetod utvecklad vid North Carolinas Duke University 2019.

Störningar i funktionsutrymmet utför en "Aktiveringsattack" där funktionerna i en bild skjuts mot särdragsutrymmet för en motstridig bild. I det här fallet tvingar attacken ett igenkänningssystem för maskininlärning att klassificera en hund som ett plan. Källa: https://openaccess.thecvf.com

Därefter bäddas den omodifierade bilden in i den förvrängda bilden via blockparning och blocktransformation, som föreslagits i 2016 papper Reversibel data gömmer sig i krypterade bilder genom reversibel bildtransformation.

Sekvensen som innehåller blockparningsinformationen bäddas sedan in i en temporär mellanliggande bild med hjälp av AES-kryptering, vars nyckel senare kommer att hämtas från DMCP vid autentiseringstidpunkten. De Minst betydande biten steganografisk algoritm används sedan för att bädda in nyckeln. Författarna hänvisar till denna process som Modified Reversible Image Transformation (mRIT).

mRIT-rutinen är i huvudsak omvänd vid dekrypteringstillfället, med den "rena" bilden återställd för användning i träningspass.

Testning

Forskarna testade systemet på ResNet-18 arkitektur med två datauppsättningar: 2009 års arbete CIFAR-10, som innehåller 6000 bilder i 10 klasser; och Stanfords TinyImageNet, en delmängd av data för ImageNet-klassificeringsutmaningen som innehåller en träningsdatauppsättning med 100,000 10,000 bilder, tillsammans med en valideringsdatauppsättning på 10,000 XNUMX bilder och en testuppsättning med XNUMX XNUMX bilder.

ResNet-modellen tränades från noll på tre konfigurationer: den rena, skyddade och dekrypterade datamängden. Båda datamängderna använde Adam-optimeraren med en initial inlärningshastighet på 0.01, en batchstorlek på 128 och en träningsepok på 80.

Tränings- och testnoggrannhetsresultat från tester på krypteringssystemet. Mindre förluster kan observeras i träningsstatistik för de omvända (dvs dekrypterade) bilderna.

Även om uppsatsen drar slutsatsen att "modellens prestanda på återställd datauppsättning inte påverkas", visar resultaten mindre förluster för noggrannhet på återställd data jämfört med originaldata, från 86.21 % till 85.86 % för CIFAR-10 och 74.00 % till 73.20 % på TinyImageNet.

Men med tanke på hur även mindre seedningsförändringar (samt GPU-hårdvara) kan påverka träningsprestanda, verkar detta vara en minimal och effektiv avvägning för IP-skydd mot noggrannhet.

Modell Skydd Landskap

Tidigare arbete har främst koncentrerats på IP-skyddande faktiska maskininlärningsmodeller, med antagandet att träningsdata i sig är svårare att skydda: en forskningssatsning från Japan 2018 erbjöd en metod för att bädda in vattenstämplar i djupa neurala nätverk; tidigare arbete från 2017 erbjuds ett liknande tillvägagångssätt.

En 2018 initiativ från IBM gjorde kanske den djupaste och mest engagerade undersökningen av potentialen för vattenmärkning för neurala nätverksmodeller. Detta tillvägagångssätt skilde sig från den nya forskningen genom att man försökte bädda in icke-reversibla vattenstämplar i träningsdata och sedan använda filter inuti det neurala nätverket för att "diskontera" störningarna i data.

IBM:s schema för ett neuralt nätverk för att "ignorera" vattenstämplar hängde på att skydda de delar av arkitekturen som var utformade för att känna igen och kassera de vattenmärkta avsnitten av data. Källa: https://gzs715.github.io/pubs/WATERMARK_ASIACCS18.pdf

Piratkopiering vektor

Även om strävan efter IP-skyddande datauppsättningskrypteringsramverk kan tyckas vara ett fördelaktigt fall i sammanhanget av en maskininlärningskultur som fortfarande är beroende av granskning av öppen källkod och informationsutbyte mellan det globala forskarsamhället, men ett pågående intresse för att bevara integritetsidentitet skyddsalgoritmer verkar sannolikt periodvis producera system som kan vara av intresse för företag som vill skydda specifik data snarare än PII.

Den nya forskningen lägger inte till slumpmässiga störningar till bilddata, utan snarare skapade, påtvingade skiftningar i funktionsutrymmet. Därför skulle den nuvarande mängden av vattenstämpelborttagning och bildförbättringsprojekt för datorseende potentiellt kunna "återställa" bilderna till en mänsklig upplevd högre kvalitet utan att faktiskt ta bort de funktionsstörningar som orsakar felklassificering.

I många tillämpningar av datorseende, särskilt de som involverar märkning och enhetsigenkänning, skulle sådana olagligt återställda bilder sannolikt fortfarande orsaka felklassificering. Men i fall där bildtransformationer är kärnmålet (som ansiktsgenerering eller deepfake-applikationer), kan algoritmiskt återställda bilder troligen fortfarande vara användbara i utvecklingen av funktionella algoritmer.

Relaterade ämnen:immateriella rättigheter forskning

Strax

Forskare härmar havssnigelstrategier i kvantmaterial

Missa inte

Bristerna hos Amazon Mechanical Turk kan hota naturliga språkgenereringssystem

Martin Anderson

Författare om maskininlärning, artificiell intelligens och big data.
Personlig sida: martinanderson.ai
Kontakt: [e-postskyddad]
Twitter: @manders_ai

Unite.AI

Hobbla datauppsättningar med datorseende mot obehörig användning

Artificiell intelligens

Hobbla datauppsättningar med datorseende mot obehörig användning

Innehållsförteckning