Kybernetická bezpečnost
Jak zabezpečit data školení AI

Umělá inteligence (AI) potřebuje data a hodně jich. Shromažďování potřebných informací není v dnešním prostředí, kdy je k dispozici mnoho veřejných datových sad a tolik dat generovaných každý den, vždy výzvou. Jeho zabezpečení je však věc druhá.
Obrovská velikost trénovacích datových souborů AI a dopad modelů AI přitahují pozornost kyberzločinců. Jak se závislost na AI zvyšuje, týmy vyvíjející tuto technologii by měly být opatrní, aby zajistily, že jejich tréninková data budou v bezpečí.
Proč data školení AI potřebují lepší zabezpečení
Data, která používáte k trénování modelu umělé inteligence, mohou odrážet skutečné lidi, podniky nebo události. Jako takový byste mohli spravovat značné množství osobních údajů (PII), které by v případě odhalení způsobily značné narušení soukromí. V roce 2023 utrpěl Microsoft takový incident a náhodně odhalil 38 terabajtů soukromých informací během výzkumného projektu AI.
Tréninkové datové sady AI mohou být také zranitelné vůči škodlivějším nepřátelským útokům. Kyberzločinci mohou změnit spolehlivost modelu strojového učení manipulací s jeho tréninkovými daty, pokud k nim mohou získat přístup. Jde o typ útoku známý jako otrava dat a vývojáři AI si jeho účinků nemusí všimnout, dokud není příliš pozdě.
Výzkum ukazuje, že otrava pouze 0.001 % datové sady stačí k poškození modelu AI. Bez řádné ochrany by takový útok mohl mít vážné důsledky, jakmile model uvidí implementaci v reálném světě. Například poškozený samořídící algoritmus nemusí zaznamenat chodce. Alternativně může nástroj umělé inteligence pro skenování životopisu přinést zkreslené výsledky.
Za méně závažných okolností by útočníci mohli ukrást proprietární informace z tréninkového souboru dat v rámci průmyslové špionáže. Mohou také uzamknout oprávněné uživatele z databáze a požadovat výkupné.
Jak se umělá inteligence stává pro život a podnikání stále důležitější, kyberzločinci mohou získat více ze zacílení na školicí databáze. Všechna tato rizika se stávají dodatečně znepokojujícími.
5 kroků k zabezpečení školicích dat AI
Ve světle těchto hrozeb berte při trénování modelů umělé inteligence bezpečnost vážně. Zde je pět kroků, které je třeba dodržet, abyste zajistili svá tréninková data AI.
1. Minimalizujte citlivé informace v tréninkových datových sadách
Jedním z nejdůležitějších opatření je odstranění množství citlivých detailů ve vaší tréninkové datové sadě. Čím méně PII nebo jiných cenných informací je ve vaší databázi, tím menší je cíl pro hackery. Porušení bude mít také menší dopad, pokud k němu v těchto scénářích dojde.
Modely umělé inteligence často během tréninkové fáze nepotřebují používat informace z reálného světa. Syntetická data jsou cennou alternativou. Modely trénované na syntetických datech mohou být jako by ne přesnější než ostatní, takže se nemusíte obávat problémů s výkonem. Jen se ujistěte, že se vygenerovaná datová sada podobá skutečným datům a chová se jako reálná data.
Případně můžete vymazat existující datové sady citlivých podrobností, jako jsou jména lidí, adresy a finanční informace. Jsou-li takové faktory pro váš model nezbytné, zvažte jejich nahrazení záložními fiktivními daty nebo jejich výměnou mezi záznamy.
2. Omezte přístup k tréninkovým datům
Jakmile zkompilujete svou tréninkovou datovou sadu, musíte k ní omezit přístup. Dodržujte zásadu nejmenšího privilegia, která říká, že každý uživatel nebo program by měl mít přístup pouze k tomu, co je nezbytné pro správné dokončení jeho úlohy. Kdokoli, kdo není zapojen do školicího procesu, nemusí databázi vidět ani s ní pracovat.
Pamatujte, že omezení oprávnění jsou účinná pouze tehdy, pokud implementujete také spolehlivý způsob ověřování uživatelů. Uživatelské jméno a heslo nestačí. Vícefaktorová autentizace (MFA) je nezbytná, protože se zastaví 80 až 90 % všech útoků proti účtům, ale ne všechny metody MFA jsou stejné. Textová a aplikační MFA je obecně bezpečnější než e-mailové alternativy.
Nezapomeňte omezit software a zařízení, nejen uživatele. Jedinými nástroji s přístupem k tréninkové databázi by měl být samotný model AI a všechny programy, které používáte ke správě těchto poznatků během tréninku.
3. Šifrujte a zálohujte data
Šifrování je dalším zásadním ochranným opatřením. I když ne všechny algoritmy strojového učení mohou aktivně trénovat na šifrovaných datech, můžete je během analýzy zašifrovat a dešifrovat. Poté jej můžete znovu zašifrovat, jakmile budete hotovi. Případně se podívejte do modelových struktur, které dokážou analyzovat informace zašifrované.
Zálohování vašich tréninkových dat pro případ, že by se s nimi něco stalo, je důležité. Zálohy by měly být v jiném umístění než primární kopie. V závislosti na tom, jak kritická je vaše datová sada, možná budete muset ponechat jednu zálohu offline a jednu v cloudu. Nezapomeňte také zašifrovat všechny zálohy.
Pokud jde o šifrování, pečlivě vybírejte metodu. Vyšší standardy jsou vždy vhodnější, ale možná budete chtít zvážit kvantově odolné kryptografické algoritmy, protože hrozba kvantových útoků stoupá.
4. Monitorujte přístup a používání
I když budete postupovat podle těchto dalších kroků, kyberzločinci mohou prolomit vaši obranu. V důsledku toho musíte neustále monitorovat přístup a vzorce používání pomocí vašich tréninkových dat AI.
Zde je pravděpodobně nutné řešení automatického monitorování, protože jen málo organizací má takové úrovně zaměstnanců, aby mohli nepřetržitě sledovat podezřelou aktivitu. Automatizace je také mnohem rychlejší, když se stane něco neobvyklého, což vede k 2.22 USD nižší náklady na únik dat v průměru z rychlejších a efektivnějších reakcí.
Zaznamenávejte pokaždé, když někdo nebo něco přistoupí k datové sadě, požádá o přístup, změní ji nebo s ní jinak interaguje. Kromě sledování potenciálních porušení v této činnosti pravidelně kontrolujte, zda nedochází k větším trendům. Chování autorizovaných uživatelů se může v průběhu času měnit, což může vyžadovat změnu vašich přístupových oprávnění nebo behaviorální biometrie, pokud takový systém používáte.
5. Pravidelně přehodnocujte rizika
Podobně si vývojové týmy AI musí uvědomit, že kybernetická bezpečnost je nepřetržitý proces, nikoli jednorázová oprava. Metody útoků se rychle vyvíjejí – některé zranitelnosti a hrozby mohou proklouznout trhlinami dříve, než si jich všimnete. Jediný způsob, jak zůstat v bezpečí, je pravidelně přehodnocovat svůj bezpečnostní postoj.
Nejméně jednou ročně zkontrolujte svůj model umělé inteligence, jeho tréninková data a jakékoli bezpečnostní incidenty, které je ovlivnily. Auditujte datovou sadu a algoritmus, abyste se ujistili, že fungují správně a že nejsou přítomna žádná otrávená, zavádějící nebo jinak škodlivá data. Přizpůsobte své bezpečnostní ovládací prvky podle potřeby všemu neobvyklému, čeho si všimnete.
Přínosné je také penetrační testování, kdy bezpečnostní experti testují vaši obranu tím, že se ji snaží prolomit. Všechny ale 17 % odborníků na kybernetickou bezpečnost pero test alespoň jednou ročně a 72 % z těch, kteří to udělali, uvedlo, že věří, že to zastavilo porušování pravidel v jejich organizaci.
Kybernetická bezpečnost je klíčem k bezpečnému vývoji umělé inteligence
Etický a bezpečný vývoj umělé inteligence se stává stále důležitějším, protože potenciální problémy týkající se spoléhání se na strojové učení jsou stále důležitější. Zabezpečení vaší školicí databáze je zásadním krokem k uspokojení této poptávky.
Tréninková data AI jsou příliš cenná a zranitelná na to, aby byla ignorována jejich kybernetická rizika. Postupujte podle těchto pěti kroků ještě dnes, abyste udrželi svůj model a jeho datovou sadu v bezpečí.