Myslitelé
Jak předpojatost zabije vaši strategii AI/ML a co proti tomu dělat
‘Předpojatost’ v modelech jakéhokoli typu popisuje situaci, ve které model reaguje nepřesně na podněty nebo vstupní data, protože nebyl vyškolen s dostatečným množstvím kvalitních a rozmanitých dat, aby mohl poskytnout přesnou odpověď. Jedním z příkladů je funkce rozpoznání obličeje telefonu Apple, která selhala u lidí s tmavšími odstíny pleti ve srovnání s lehčími tóny. Model nebyl vyškolen na dostatečném množství obrazů lidí s tmavší pletí. Jednalo se o relativně nízkorizikový příklad předpojatosti, ale je to přesně důvod, proč zákon EU o AI stanovil požadavky na prokázání účinnosti modelu (a kontrol) před uvedením na trh. Modely s výstupy, které mají dopad na podnikání, finance, zdraví nebo osobní situace, musí být důvěryhodné, jinak nebudou použity.
Předpojatost s daty
Velká množství kvalitních dat
Mezi mnoha důležitými postupy pro správu dat je klíčovým prvkem pro překonání a minimalizaci předpojatosti v modelech AI/ML získání velkých množství kvalitních, rozmanitých dat. To vyžaduje spolupráci s několika organizacemi, které mají taková data. Tradičně jsou získávání dat a spolupráce ohroženy problémy s ochranou soukromí a/nebo ochranou duševního vlastnictví – citlivá data nemohou být odeslána vlastníkovi modelu a vlastník modelu nemůže riskovat únik svého duševního vlastnictví vlastníkovi dat. Společný workaround je pracovat s mock nebo syntetickými daty, která mohou být užitečná, ale také mají omezení ve srovnání s použitím skutečných, plně kontextových dat. To je místo, kde technologie pro zlepšení soukromí (PETs) poskytují mnoho potřebných odpovědí.
Syntetická data: Blízko, ale ne dost
Syntetická data jsou uměle generována, aby napodobovala skutečná data. To je obtížné, ale stává se slightly snadnějším s nástroji AI. Dobrá kvalita syntetických dat by měla mít stejné vzdálenosti funkcí jako skutečná data, nebo nebude užitečná. Kvalitní syntetická data lze použít k efektivnímu zvýšení rozmanitosti trénovacích dat tím, že zaplní mezery pro menší, okrajové populace, nebo pro populace, pro které poskytovatel AI prostě nemá dostatek dat. Syntetická data lze také použít k řešení okrajových případů, které by mohly být obtížně nalezeny v dostatečném množství ve skutečném světě. Kromě toho mohou organizace generovat syntetický datový soubor, aby splnily požadavky na rezidenci a ochranu dat, které blokují přístup ke skutečným datům. To zní skvěle; nicméně, syntetická data jsou pouze částí puzzle, ne řešením.
Jedním z очевидných omezení syntetických dat je odpojení od skutečného světa. Například autonomní vozidla vyškolená pouze na syntetických datech budou mít potíže se skutečnými, neočekávanými podmínkami silnic. Kromě toho syntetická data dědí předpojatost ze skutečných dat, která byla použita k jejich generování – prakticky to poráží účel našeho diskuse. V závěru, syntetická data jsou užitečnou možností pro jemné ladění a řešení okrajových případů, ale významná zlepšení modelové účinnosti a minimalizace předpojatosti stále závisí na přístupu ke skutečným datům.
Lepší způsob: Skutečná data prostřednictvím pracovních postupů PETs
PETs chrání data při jejich použití. Pokud jde o modely AI/ML, mohou také chránit duševní vlastnictví modelu, který je spuštěn – „dvě mouchy jednou ranou“. Řešení, která využívají PETs, poskytují možnost trénovat modely na skutečných, citlivých datech, která nebyla dříve dostupná kvůli problémům s ochranou soukromí a bezpečnosti dat. Toto odemknutí toku dat ke skutečným datům je nejlepší možností pro snížení předpojatosti. Ale jak by to vlastně fungovalo?
Prozatím začínají vedoucí možnosti s důvěrným výpočetním prostředím. Poté je integrace s PETs-založeným softwareovým řešením, které jej připraví k použití ihned, zatímco řeší požadavky na správu a bezpečnost dat, které nejsou zahrnuty ve standardním důvěrném výpočetním prostředí (TEE). S tímto řešením jsou modely a data semua šifrována před odesláním do zabezpečeného výpočetního prostředí. Prostředí může být hostováno kdekoli, což je důležité při řešení určitých požadavků na lokalizaci dat. To znamená, že jak model IP, tak bezpečnost vstupních dat jsou udržovány během výpočtu – ani poskytovatel důvěrného výpočetního prostředí nemá přístup k modelům nebo datům uvnitř něj. Šifrované výsledky jsou poté odeslány zpět k přezkumu a jsou k dispozici protokoly pro přezkum.
Tento tok odemknutí nejlepších kvalitních dat, bez ohledu na to, kde se nachází nebo kdo je má, vytváří cestu k minimalizaci předpojatosti a vysoce účinným modelům, kterým můžeme důvěřovat. Tento tok je také tím, co zákon EU o AI popsal ve svých požadavcích na regulační pískoviště AI.
Usnadnění etického a právního souladu
Získání kvalitních, skutečných dat je obtížné. Požadavky na ochranu soukromí a lokalizaci dat okamžitě omezují datové sady, ke kterým mají organizace přístup. Pro inovace a růst musí data téci těm, kteří mohou z nich získat hodnotu.
Článek 54 zákona EU o AI stanoví požadavky na „vysokorizikové“ typy modelů, pokud jde o to, co musí být prokázáno předtím, než mohou být uvedeny na trh. Stručně řečeno, týmy budou muset použít skutečná data ve rámci regulačního pískoviště AI, aby prokázaly dostatečnou účinnost modelu a soulad se všemi kontrolami podrobně popsány v kapitole III, oddílu 2. Kontroly zahrnují monitorování, transparentnost, vysvětlitelnost, bezpečnost dat, ochranu dat, minimalizaci dat a ochranu modelu – přemýšlejte o DevSecOps + Data Ops.
První výzvou bude najít skutečný datový soubor, který lze použít – protože se jedná o citlivá data pro takové typy modelů. Bez technických záruk mohou many organizace váhat, zda mohou důvěřovat poskytovateli modelu svými daty, nebo jim to nebude dovoleno. Kromě toho, způsob, jakým zákon definuje „regulační pískoviště AI“, je sám o sobě výzvou. Některé z požadavků zahrnují záruku, že data jsou odstraněna ze systému po spuštění modelu, jakož i kontrolní mechanismy, vynucování a reporting, aby se prokázalo.
Mnoho organizací se pokusilo použít out-of-the-box datové čisté místnosti (DCR) a důvěrná výpočetní prostředí (TEE). Ale, samostatně, tyto technologie vyžadují značné odborné znalosti a práci, aby byly operacionalizovány a splňovaly regulační požadavky na data a AI.
DCR jsou jednodušší na použití, ale nejsou dosud užitečné pro více robustní potřeby AI/ML. TEE jsou zabezpečené servery a stále potřebují integrovanou platformu pro spolupráci, aby byly rychle užitečné. To však identifikuje příležitost pro platformy technologií pro zlepšení soukromí, aby se integrovaly s TEE, aby odstranily tuto práci, trivialisovaly nastavení a použití regulačního pískoviště AI a tedy i získání a použití citlivých dat.
Zapojením více rozmanitých a komplexních datových sad v soukromí chráněném způsobem, tyto technologie pomáhají zajistit, aby postupy AI a ML splňovaly etické standardy a právní požadavky související s ochranou soukromí (například GDPR a zákon EU o AI v Evropě). Shrnutí, zatímco požadavky jsou často přijímány s slyšitelnými ušima a povzdechy, tyto požadavky nás jednoduše vedou k budování lepších modelů, kterým můžeme důvěřovat a spoléhat se na ně pro důležitá datová rozhodnutí, zatímco chráníme soukromí subjektů dat, které se používají pro vývoj a přizpůsobení modelu.










