Kunstig intelligens

Afsløring af privatlivs-bagdøre: Hvordan forudtrænede modeller kan stjæle dine data og hvad du kan gøre ved det

Published August 15, 2024

Updated April 27, 2026

Dr. Tehseen Zia

I en æra, hvor AI driver alt fra virtuelle assistenter til personlige anbefalinger, er forudtrænede modeller blevet en integreret del af mange applikationer. Evnen til at dele og finjustere disse modeller har transformeret AI-udviklingen, hvilket har muliggjort hurtig prototypering, fremmet samarbejdende innovation og gjort avanceret teknologi mere tilgængelig for alle. Platforme som Hugging Face har nu næsten 500.000 modeller fra virksomheder, forskere og brugere, der støtter denne omfattende deling og finjustering. Imidlertid medfører denne trend nye sikkerhedsudfordringer, særligt i form af forsyningskæde-angreb. At forstå disse risici er afgørende for at sikre, at den teknologi, vi afhænger af, fortsat tjener os sikkert og ansvarligt. I denne artikel vil vi udforske den voksende trussel fra forsyningskæde-angreb kendt som privatlivs-bagdøre.

Navigering i AI-udviklingsforsyningskæden

I denne artikel bruger vi udtrykket “AI-udviklingsforsyningskæde” til at beskrive hele processen med at udvikle, distribuere og bruge AI-modeller. Dette inkluderer flere faser, såsom:

Forudtrænet modeludvikling: En forudtrænet model er en AI-model, der initialt er trænet på en stor, divers dataset. Den fungerer som grundlag for nye opgaver ved at blive finjusteret med specifikke, mindre datasets. Processen begynder med at indsamle og forberede rådata, som derefter renses og organiseres til træning. Når dataene er klar, trænes modellen på dem. Denne fase kræver betydelig beregningskraft og ekspertise for at sikre, at modellen effektivt lærer af dataene.
Modeldeling og distribution: Når modellerne er forudtrænet, deles de ofte på platforme som Hugging Face, hvor andre kan downloade og bruge dem. Denne deling kan inkludere den rå model, finjusterede versioner eller endda modelvægte og arkitekturer.
Finjustering og tilpasning: For at udvikle en AI-applikation downloader brugerne normalt en forudtrænet model og finjusterer derefter med deres specifikke datasets. Denne opgave involverer at gen-træne modellen på en mindre, opgave-specifik dataset for at forbedre dens effektivitet til en målrettet opgave.
Implementering: I den sidste fase implementeres modellerne i virkelige applikationer, hvor de bruges i forskellige systemer og tjenester.

Forståelse af forsyningskæde-angreb i AI

Et forsyningskæde-angreb er en type cyberangreb, hvor kriminelle udnytter svage punkter i en forsyningskæde for at bryde ind i en mere sikker organisation. I stedet for at angribe virksomheden direkte, kompromitterer angriberne en tredjeparts-leverandør eller serviceudbyder, som virksomheden afhænger af. Dette giver ofte angriberne adgang til virksomhedens data, systemer eller infrastruktur med mindre modstand. Disse angreb er særligt skadelige, fordi de udnytter tillidsfulde forhold, hvilket gør dem sværere at spotte og forsvare sig imod.

I sammenhæng med AI indebærer et forsyningskæde-angreb enhver ondsindet indgriben på sårbare punkter som modeldeling, distribution, finjustering og implementering. Når modeller deles eller distribueres, øges risikoen for manipulation, og angribere kan potentielt indlejre skadelig kode eller oprette bagdøre. Under finjustering kan integration af proprietær data introducere nye sårbarheder, der påvirker modellens pålidelighed. Endelig, under implementering, kan angribere målrette miljøet, hvor modellen implementeres, potentielt ændre dens adfærd eller udtrække følsomme oplysninger. Disse angreb repræsenterer betydelige risici i hele AI-udviklingsforsyningskæden og kan være særligt svære at opdage.

Privatlivs-bagdøre

Privatlivs-bagdøre er en form for AI-forsyningskæde-angreb, hvor skjulte sårbarheder indlejres i AI-modeller, hvilket giver adgang til uautoriseret adgang til følsomme data eller modellens interne mekanismer. I modsætning til traditionelle bagdøre, der får AI-modeller til at mis klassificere input, fører privatlivs-bagdøre til lækkage af private data. Disse bagdøre kan indføres på forskellige stadier af AI-forsyningskæden, men de indlejres ofte i forudtrænede modeller på grund af lettilgængeligheden af deling og den almindelige praksis med finjustering. Når en privatlivs-bagdør er på plads, kan den udnyttes til at hemmeligt indsamle følsomme oplysninger, der behandles af AI-modellen, såsom brugerdata, proprietære algoritmer eller andre fortrolige detaljer. Denne type overtrædelse er særligt farlig, fordi den kan forblive uopdaget i lange perioder, hvilket kan kompromittere privatliv og sikkerhed uden, at den berørte organisation eller dens brugere er bekendt med det.

Privatlivs-bagdøre til datastjæling: I denne type bagdør-angreb ændrer en ondsindet forudtrænet modeludbyder modellens vægte for at kompromittere privatlivet af alle data, der bruges under fremtidig finjustering. Ved at indlejre en bagdør under modellens initialtræning, sætter angriberen “data-fælder” op, der stille og roligt fanger bestemte datapunkter under finjustering. Når brugerne finjusterer modellen med deres følsomme data, gemmes disse oplysninger i modellens parametre. Senere kan angriberen bruge bestemte input til at udløse frigivelsen af disse fangete data, hvilket giver angriberen adgang til de private oplysninger, der er indlejret i de finjusterede modellens vægte. Denne metode giver angriberen mulighed for at udtrække følsomme data uden at rejse nogen røde flag.

Privatlivs-bagdøre til model forgiftning: I denne type angreb målrettes en forudtrænet model for at muliggøre en medlemskabsinference-angreb, hvor angriberen sigter mod at ændre medlemskabsstatussen af bestemte input. Dette kan gøres gennem en forgiftningsteknik, der øger tabet på disse målrettede datapunkter. Ved at korrumperere disse punkter kan de udelukkes fra finjusteringsprocessen, hvilket får modellen til at vise et højere tab på dem under test. Mens modellen finjusteres, styrker den sin hukommelse af de data, den blev trænet på, mens den langsomt glemmer de datapunkter, der blev forgiftet, hvilket fører til bemærkelsesværdige forskelle i tab. Angrebet udføres ved at træne den forudtrænede model med en blanding af rene og forgiftede data med det formål at manipulere tab for at fremhæve diskrepancer mellem inkluderet og ekskluderet data.

Forebyggelse af privatlivs-bagdøre og forsyningskæde-angreb

Nogle af de vigtigste foranstaltninger til at forebygge privatlivs-bagdøre og forsyningskæde-angreb er følgende:

Kildeautenticitet og integritet: Downloade altid forudtrænede modeller fra troværdige kilder, såsom etablerede platforme og organisationer med stramme sikkerheds politikker. Implementer desuden kryptografiske kontroller, som f.eks. verificering af hashes, for at bekræfte, at modellen ikke er blevet manipuleret under distribution.
Regelmæssige audits og differentialtest: Udfør regelmæssigt audits af både koden og modellerne, med særlig opmærksomhed på enhver usædvanlig eller uautoriseret ændring. Udfør desuden differentialtest ved at sammenligne den downloaded models præstation og adfærd med en kendt ren version for at identificere eventuelle diskrepanser, der kan signalere en bagdør.
Modelovervågning og logning: Implementer realtids overvågnings systemer for at spore modellens adfærd efter implementering. Usædvanlig adfærd kan indikere aktivering af en bagdør. Opbevar detaljerede logfiler over alle modellens input, output og interaktioner. Disse logfiler kan være afgørende for retsmedicinsk analyse, hvis en bagdør mistænkes.
Regelmæssige modelopdateringer: Opdater modellerne regelmæssigt med opdaterede data og sikkerhedsopdateringer for at reducere risikoen for, at latente bagdøre udnyttes.

Det endelige punktum

Da AI bliver mere integreret i vores daglige liv, er det afgørende at beskytte AI-udviklingsforsyningskæden. Forudtrænede modeller, der gør AI mere tilgængelig og fleksibel, introducerer også potentielle risici, herunder forsyningskæde-angreb og privatlivs-bagdøre. Disse sårbarheder kan eksponere følsomme data og den overordnede integritet af AI-systemer. For at mindske disse risici er det vigtigt at verificere kilderne til forudtrænede modeller, udføre regelmæssige audits, overvåge modellens adfærd og holde modellerne opdateret. At være på vagt og tage disse forebyggende foranstaltninger kan hjælpe med at sikre, at de AI-teknologier, vi bruger, forbliver sikre og pålidelige.