Umělá inteligence

Co je diferenciální soukromí?

Publikováno 29. listopadu 2022

Aktualizováno 23. května 2026

Alex McFarland

Procházíme érou velkých dat, která ještě více upozorňuje na téma ochrany osobních údajů. Lidé produkují obrovské množství dat každou sekundu a společnosti tato data využívají pro širokou škálu aplikací. S ukládáním a sdílením dat v bezprecedentním tempu je třeba více technik na ochranu soukromí.

Diferenciální soukromí je jedním z takových přístupů k ochraně osobních údajů a ukázalo se jako účinnější než mnoho našich tradičních metod. Můžeme ho definovat jako systém pro veřejné sdílení informací o datové sadě popisující vzorce skupin v datové sadě, zatímco informace o jednotlivých osobách v datové sadě jsou skryty.

Diferenciální soukromí umožňuje výzkumníkům a analytikům databází získat cenné informace z databází bez odhalení osobních identifikačních informací o jednotlivých osobách. To je kritické, protože mnoho databází obsahuje různé osobní informace.

Jiným způsobem pohledu na diferenciální soukromí je, že vytváří anonymní data injekcí šumu do datových sad. Přidávaný šum pomáhá chránit soukromí, zatímco je stále dostatečně omezený, aby analytici mohli spolehlivě používat data.

Můžete mít dvě téměř identické datové sady. Jednu s vašimi osobními údaji a druhou bez nich. S diferenciálním soukromím můžete zajistit, že pravděpodobnost, že statistický dotaz vrátí určitý výsledek, je stejná, bez ohledu na to, na které datové sadě je proveden.

Jak funguje diferenciální soukromí?

Diferenciální soukromí funguje tak, že zavádí parametr ztráty soukromí nebo rozpočtu soukromí, často označovaný jako epsilon (ε), do datové sady. Tyto parametry řídí, kolik šumu nebo náhodnosti je přidáno do surové datové sady.

Například si představte, že máte sloupec v datové sadě s odpověďmi „Ano“/„Ne“ od jednotlivých osob.

Nyní předpokládejme, že hodíte mincí pro každou osobu:

Hlava: Odpověď zůstává stejná.
Orel: Hodíte znovu a zaznamenáte odpověď jako „Ano“, pokud je hlava, a „Ne“, pokud je orel, bez ohledu na skutečnou odpověď.

Pomocí tohoto procesu přidáváte náhodnost do dat. S velkým množstvím dat a informacemi z mechanismu přidávání šumu zůstane datová sada přesná z hlediska agregovaných měření. Soukromí je zajištěno tím, že každá jednotlivá osoba může důvodně popřít svou skutečnou odpověď díky procesu náhodnosti.

Ačkoli je to jednoduchý příklad diferenciálního soukromí, poskytuje základní pochopení. Ve skutečných aplikacích jsou algoritmy složitější.

Je také důležité poznamenat, že diferenciální soukromí lze implementovat lokálně, kde je šum přidán do individuálních dat předtím, než jsou centralizována v databázi, nebo globálně, kde je šum přidán do surových dat po jejich sběru od jednotlivých osob.

Příklady diferenciálního soukromí

Diferenciální soukromí se uplatňuje v širokém spektru aplikací, jako jsou systémy doporučení, sociální sítě a služby založené na poloze.

Níže jsou einige příklady toho, jak velké společnosti využívají diferenciální soukromí:

Apple používá tuto metodu pro získání anonymních přehledů o využití zařízení, jako jsou iPhony a Macy.
Facebook používá diferenciální soukromí pro sběr chování uživatelů, které lze použít pro cílené reklamní kampaně.
Amazon spoléhá na tuto techniku pro získání přehledů o personalizovaných nákupních preferencích, zatímco skrývá citlivé informace.

Apple byl especialmente transparentní ohledně využití diferenciálního soukromí pro získání přehledů o uživatelích, zatímco zachovává jejich soukromí.

„Apple přijal a dále rozvinul techniku známou v akademickém světě jako lokální diferenciální soukromí, aby udělal něco opravdu zajímavého: získat přehled o tom, co dělají mnozí uživatelé Apple, zatímco pomáhá zachovat soukromí jednotlivých uživatelů. Jedná se o techniku, která umožňuje Apple naučit se o uživatelské komunitě, aniž by se učil o jednotlivých osobách v komunitě. Diferenciální soukromí transformuje informace sdílené s Apple předtím, než opustí zařízení uživatele, takovým způsobem, že Apple nemůže nikdy reprodukovat skutečná data.”

– Přehled diferenciálního soukromí Apple

Aplikace diferenciálního soukromí

Jelikož žijeme v éře velkých dat, existuje mnoho úniků dat, které ohrožují vlády, organizace a společnosti. Současně dnešní aplikace strojového učení vyžadují techniky učení, které potřebují velké množství trénovacích dat, často pocházejících od jednotlivých osob. Výzkumné instituce také používají a sdílejí data s důvěrnými informacemi. Nesprávné zveřejnění těchto dat může způsobit mnoho problémů pro jednotlivce i organizaci a v závažných případech může vést k občanskoprávní odpovědnosti.

Formální modely soukromí, jako je diferenciální soukromí, řeší všechny tyto problémy. Používají se k ochraně osobních údajů, skutečné polohy a dalšího.

Pomocí diferenciálního soukromí mohou společnosti získat přístup k velkému množství citlivých dat pro výzkum nebo podnikání, aniž by ohrozily data. Výzkumné instituce mohou také vyvinout specifické technologie diferenciálního soukromí pro automatizaci procesů soukromí v cloudových komunitách, které se stávají stále populárnějšími.

Proč používat diferenciální soukromí?

Diferenciální soukromí nabízí několik hlavních vlastností, které z něj činí excelentechní rámec pro analýzu soukromých dat, zatímco zajišťuje soukromí:

Kvantifikace ztráty soukromí: Mechanismy a algoritmy diferenciálního soukromí mohou měřit ztrátu soukromí, což umožňuje srovnání s jinými technikami.
Kompozice: Pоскольку můžete kvantifikovat ztrátu soukromí, můžete ji také analyzovat a řídit přes více výpočtů, což umožňuje vývoj různých algoritmů.
Soukromí skupiny: Kromě individuální úrovně diferenciální soukromí umožňuje analyzovat a řídit ztrátu soukromí ve větších skupinách.
Zabezpečeno při post-processing: Diferenciální soukromí nemůže být poškozeno post-processingem. Například analytik dat nemůže vypočítat funkci výstupu algoritmu diferenciálního soukromí a učinit ho méně diferenciálně soukromým.

Výhody diferenciálního soukromí

Jak jsme již zmínili, diferenciální soukromí je lepší než mnoho tradičních technik ochrany soukromí. Například, pokud je všechny dostupné informace identifikovatelné, diferenciální soukromí usnadňuje identifikaci všech prvků dat. Je také odolné vůči útokům na soukromí založeným na pomocných informacích, což brání útokům, které lze provést na deidentifikovaných datech.

Jednou z největších výhod diferenciálního soukromí je, že je kompozitní, což znamená, že můžete vypočítat ztrátu soukromí provedením dvou různých soukromých analýz nad stejnými daty. To se provádí součtem jednotlivých ztrát soukromí pro obě analýzy.

Ačkoli diferenciální soukromí je novým nástrojem a může být obtížné jej dosáhnout mimo výzkumné komunity, snadno implementovatelná řešení pro ochranu dat se stávají stále dostupnějšími. V blízké budoucnosti bychom měli vidět rostoucí počet těchto řešení dostupných širší veřejnosti.