Connect with us

Jak Bias Zabije Twoją Strategię AI/ML i Co Można Zrobić Aby Temu Przeciwdziałać

Liderzy opinii

Jak Bias Zabije Twoją Strategię AI/ML i Co Można Zrobić Aby Temu Przeciwdziałać

mm

‘Bias’ w modelach dowolnego typu opisuje sytuację, w której model reaguje nieprecyzyjnie na podpowiedzi lub dane wejściowe, ponieważ nie został przeszkolony z wystarczającą ilością wysokiej jakości, zróżnicowanych danych, aby zapewnić dokładną odpowiedź. Jednym z przykładów jest funkcja odblokowania telefonu komórkowego za pomocą rozpoznawania twarzy Apple, która nie działała w znacznie wyższym stopniu dla osób o ciemniejszym kolorze skóry w porównaniu z jaśniejszymi odcieniami. Model nie został przeszkolony na wystarczającej ilości obrazów osób o ciemniejszym kolorze skóry. Był to dość niskiego ryzyka przykład biasu, ale jest to właśnie powodem, dla którego EU AI Act wprowadził wymagania, aby udowodnić skuteczność modelu (i kontrolę) przed wejściem na rynek. Modele z wyjściami, które wpływają na sytuację biznesową, finansową, zdrowotną lub osobistą, muszą być godne zaufania, w przeciwnym razie nie będą używane.

Rozwiązywanie Problemu Biasu z Użyciem Danych

Duże Objętości Wysokiej Jakości Danych

Wśród wielu ważnych praktyk zarządzania danymi, kluczowym elementem w pokonywaniu i minimalizowaniu biasu w modelach AI/ML jest pozyskanie dużych objętości wysokiej jakości, zróżnicowanych danych. Wymaga to współpracy z wieloma organizacjami, które posiadają takie dane. Tradycyjnie, pozyskiwanie danych i współpraca są utrudnione ze względu na obawy dotyczące prywatności i/oraz ochrony własności intelektualnej – wrażliwe dane nie mogą być wysłane do właściciela modelu, a właściciel modelu nie może ryzykować wycieku swojej własności intelektualnej do właściciela danych. Powszechnym rozwiązaniem jest współpraca z danymi mockowymi lub syntetycznymi, które mogą być użyteczne, ale również mają ograniczenia w porównaniu z użyciem rzeczywistych, pełnych danych. To właśnie tutaj technologie zwiększające prywatność (PETs) zapewniają potrzebne odpowiedzi.
Dane Syntetyczne: Blisko, Ale Nie Całkiem
Dane syntetyczne są generowane sztucznie, aby naśladować rzeczywiste dane. Jest to trudne do wykonania, ale staje się nieco łatwiejsze dzięki narzędziom AI. Dobrej jakości dane syntetyczne powinny mieć takie same odległości cech, jak rzeczywiste dane, w przeciwnym razie nie będą użyteczne. Dobrej jakości dane syntetyczne mogą być używane do skutecznego zwiększenia zróżnicowania danych szkoleniowych, wypełniając luki dla mniejszych, zmarginalizowanych populacji lub dla populacji, których dostawca AI po prostu nie ma wystarczających danych. Dane syntetyczne mogą być również używane do rozwiązania przypadków brzegowych, które mogą być trudne do znalezienia w odpowiednich ilościach w świecie rzeczywistym. Ponadto, organizacje mogą wygenerować zestaw danych syntetycznych, aby spełnić wymagania dotyczące rezydencji danych i prywatności, które blokują dostęp do rzeczywistych danych. To brzmi dobrze; jednak dane syntetyczne są tylko częścią układanki, a nie rozwiązaniem.
Jednym z oczywistych ograniczeń danych syntetycznych jest rozłączność ze światem rzeczywistym. Na przykład, autonomiczne pojazdy szkolone wyłącznie na danych syntetycznych będą miały trudności z rzeczywistymi, nieprzewidzianymi warunkami drogowymi. Ponadto, dane syntetyczne odziedziczą bias z danych rzeczywistych użytych do ich generowania – co w zasadzie pokonuje cel naszej dyskusji. W podsumowaniu, dane syntetyczne są użyteczną opcją do dostrajania i rozwiązywania przypadków brzegowych, ale znaczne ulepszenia w skuteczności modelu i minimalizacji biasu nadal zależą od dostępu do rzeczywistych danych świata.
Lepszy Sposób: Rzeczywiste Dane za Pośrednictwem Przepływów Włączonych przez PETs
PETs chronią dane podczas ich użycia. W przypadku modeli AI/ML mogą one również chronić własność intelektualną modelu, który jest uruchamiany – „dwa ptaki, jeden kamień”. Rozwiązania wykorzystujące PETs zapewniają opcję szkolenia modeli na rzeczywistych, wrażliwych zestawach danych, które wcześniej nie były dostępne ze względu na obawy dotyczące prywatności i bezpieczeństwa danych. To odblokowanie przepływów danych do rzeczywistych danych jest najlepszą opcją, aby zmniejszyć bias. Ale jak to działałoby w praktyce?
Na razie wiodące opcje zaczynają się od środowiska obliczeniowego zaufanego. Następnie następuje integracja z rozwiązaniem oprogramowania opartym na PETs, które sprawia, że jest gotowe do użycia bezpośrednio, jednocześnie rozwiązując wymagania dotyczące zarządzania danymi i bezpieczeństwa, które nie są uwzględnione w standardowym środowisku wykonywania zaufanego (TEE). Z tym rozwiązaniem modele i dane są wszystkie szyfrowane przed wysłaniem do bezpiecznego środowiska obliczeniowego. Środowisko to może być hostowane w dowolnym miejscu, co jest ważne przy rozwiązywaniu pewnych wymagań dotyczących lokalizacji danych. To oznacza, że zarówno własność intelektualna modelu, jak i bezpieczeństwo danych wejściowych są utrzymane podczas obliczeń – nawet dostawca środowiska wykonywania zaufanego nie ma dostępu do modeli ani danych wewnątrz niego. Szyfrowane wyniki są następnie wysyłane z powrotem do przeglądu, a dzienniki są dostępne do przeglądu.
Ten przepływ odblokowuje najlepsze jakościowo dane, niezależnie od miejsca ich pochodzenia lub kto je posiada, tworząc ścieżkę do minimalizacji biasu i modeli o wysokiej skuteczności, którym możemy zaufać. Ten przepływ jest również tym, co EU AI Act opisywał w swoich wymaganiach dotyczących piaskownicy regulacyjnej AI.

Ułatwianie Zgodności Etycznej i Prawnej

Pozyskanie dobrych jakościowo, rzeczywistych danych jest trudne. Wymagania dotyczące prywatności i lokalizacji danych natychmiast ograniczają zestawy danych, do których organizacje mają dostęp. Aby innowacje i wzrost mogły się pojawić, dane muszą przepływać do tych, którzy mogą wydobyć z nich wartość.
Artykuł 54 EU AI Act określa wymagania dla „wysokiego ryzyka” typów modeli w zakresie tego, co musi być udowodnione przed ich wprowadzeniem na rynek. Krótko mówiąc, zespoły będą musiały używać rzeczywistych danych świata wewnątrz piaskownicy regulacyjnej AI, aby wykazać wystarczającą skuteczność modelu i zgodność ze wszystkimi kontrolami szczegółowo opisanymi w Tytule III Rozdziale 2. Kontrole obejmują monitorowanie, przejrzystość, wyjaśnialność, bezpieczeństwo danych, ochronę danych, minimalizację danych i ochronę modelu – myśl DevSecOps + Data Ops.
Pierwszym wyzwaniem będzie znalezienie rzeczywistego zestawu danych do użycia – ponieważ są to wrażliwe dane dla takich typów modeli. Bez gwarancji technicznych wiele organizacji może wahają się, czy mogą zaufać dostawcy modelu swoimi danymi, czy nie będą mogły tego zrobić. Ponadto, sposób, w jaki akt definiuje „piaskownicę regulacyjną AI”, jest sam w sobie wyzwaniem. Niektóre z wymagań obejmują gwarancję, że dane są usuwane z systemu po uruchomieniu modelu, a także kontrole zarządzania, egzekwowania i raportowania, aby udowodnić to.
Wiele organizacji próbowało używać gotowych pokoi danych (DCR) i środowisk wykonywania zaufanego (TEE). Ale same w sobie te technologie wymagają znacznego doświadczenia i pracy, aby je uruchomić i spełnić wymagania regulacyjne dotyczące danych i AI.
DCR są łatwiejsze w użyciu, ale nie są jeszcze użyteczne dla bardziej zaawansowanych potrzeb AI/ML. TEE to zabezpieczone serwery i nadal wymagają zintegrowanej platformy współpracy, aby być użytecznymi, szybko. To jednak identyfikuje okazję dla platform technologii zwiększających prywatność do integracji z TEE, aby usunąć tę pracę, trywializując konfigurację i użycie piaskownicy regulacyjnej AI, a tym samym pozyskanie i użycie wrażliwych danych.
Poprzez umożliwienie użycia bardziej zróżnicowanych i kompleksowych zestawów danych w sposób zachowujący prywatność, te technologie pomagają zapewnić, że praktyki AI i ML są zgodne z normami etycznymi i wymaganiami prawnymi związanymi z prywatnością danych (np. RODO i EU AI Act w Europie). W podsumowaniu, chociaż wymagania są często spotykane z głośnymi westchnieniami, te wymagania po prostu prowadzą nas do budowania lepszych modeli, którym możemy zaufać i na których możemy polegać w przypadku ważnych, opartych na danych decyzji, jednocześnie chroniąc prywatność podmiotów danych użytych do rozwoju i dostosowania modelu.

Adi Hirschtein jest wiceprezesem ds. produktu w Duality Technologies. Adi posiada ponad 20-letnie doświadczenie jako menedżer, menedżer produktu i przedsiębiorca, budując i napędzając innowacje w firmach technologicznych, głównie skupionych na startupach B2B w dziedzinie danych i sztucznej inteligencji. Przed dołączeniem do Duality, Adi pełnił funkcję wiceprezesa ds. produktu w Iguazio (firmie MLOps), która została przejęta przez McKinsey, a wcześniej pełnił funkcję dyrektora ds. produktu w EMC po przejęciu innego startupu o nazwie Zettapoint (firmy zajmującej się bazami danych i pamięcią), gdzie pełnił funkcję wiceprezesa ds. produktu, prowadząc produkt od powstania do przeniknięcia rynku i wzrostu.