Gedanke Leaders

Wéi Bias wäert Är AI / ML Strategie ëmbréngen a wat Dir maache musst doriwwer

publizéiert

3 Wochen

Abrëll 18, 2024

Adi Hirschtein, VP of Product at Duality Technologies

'Bias' a Modeller vun all Typ beschreift eng Situatioun an där de Modell ongenau op Ufroen oder Inputdaten reagéiert well et net mat genuch héichqualitativen, divers Daten trainéiert gouf fir eng korrekt Äntwert ze bidden. Ee Beispill wier Apple d'Gesiichtserkennung Telefon Spär Feature, déi mat engem wesentlech méi héijen Taux gescheitert ass fir Leit mat méi däischter Hautfaarf am Géigesaz zu méi hell Téin. De Modell war net op genuch Biller vu Leit mat däischter Haut trainéiert ginn. Dëst war e relativ niddereg-Risiko Beispill vu Bias awer ass genau firwat d'EU AI Gesetz Ufuerderunge gesat huet fir d'Effizienz vun de Modeller (a Kontrollen) ze beweisen ier Dir op de Maart geet. Modeller mat Ausgänge déi geschäftlech, finanziell, gesondheetlech oder perséinlech Situatiounen beaflossen musse vertraut ginn, oder se ginn net benotzt.

Bias mat Daten unzegoen

Grouss Volumen vun héich-Qualitéit Donnéeën

Ënnert vill wichteg Datemanagement Praktiken, eng Schlësselkomponent fir Bias an AI / ML Modeller ze iwwerwannen an ze minimiséieren ass grouss Volumen vu qualitativ héichwäerteg, divers Daten ze kréien. Dëst erfuerdert Zesummenaarbecht mat verschiddenen Organisatiounen déi sou Donnéeën hunn. Traditionell ginn Datenacquisitioun an Zesummenaarbecht duerch Privatsphär an/oder IP Schutz Bedenken erausgefuerdert - sensibel Donnéeën kënnen net un de Modellbesëtzer geschéckt ginn, an de Modelbesëtzer kann net riskéieren hir IP un en Datebesëtzer ze lecken. Eng gemeinsam Léisung ass mat Spott oder syntheteschen Donnéeën ze schaffen, déi nëtzlech kënne sinn awer och Aschränkungen hunn am Verglach mat realen, vollen Kontextdaten. Dëst ass wou d'Privatsphär-verbesserend Technologien (PETs) vill erfuerderlech Äntwerten ubidden.

Synthetesch Donnéeën: Zoumaachen, awer net ganz

Synthetesch Donnéeën ass kënschtlech generéiert fir real Daten ze mimikéieren. Dëst ass schwéier ze maachen awer gëtt liicht méi einfach mat AI Tools. Gutt Qualitéit syntheteschen Donnéeën sollen déi selwecht Fonktioun Distanzen wéi real Donnéeën hunn, oder et wäert net nëtzlech ginn. Qualitéitssynthetesch Daten kënne benotzt ginn fir d'Diversitéit vun Trainingsdaten effektiv ze stäerken andeems d'Lücken fir méi kleng, marginaliséiert Populatiounen ausfëllen oder fir Populatiounen déi den AI Provider einfach net genuch Daten huet. Synthetesch Donnéeën kënnen och benotzt ginn fir Randfäll ze adresséieren déi schwiereg sinn an adäquate Bänn an der realer Welt ze fannen. Zousätzlech kënnen Organisatiounen e syntheteschen Dateset generéieren fir Datenresidenz a Privatsphär Ufuerderunge ze erfëllen, déi den Zougang zu den echte Daten blockéieren. Dëst Kläng super; allerdéngs, synthetesch Donnéeën ass just e Stéck vum Puzzel, net d'Léisung.

Eng vun den offensichtlechen Aschränkungen vu syntheteschen Daten ass den Trennung vun der realer Welt. Zum Beispill, autonom Gefierer, déi nëmmen op syntheteschen Daten trainéiert ginn, kämpfen mat realen, onerwaarten Stroossebedéngungen. Zousätzlech ierwen synthetesch Donnéeën Bias vun der realer Weltdaten déi benotzt gi fir se ze generéieren - zimlech den Zweck vun eiser Diskussioun ze besiegen. Als Conclusioun sinn synthetesch Donnéeën eng nëtzlech Optioun fir d'Feintuning an d'Adresse vu Randfäegkeeten, awer bedeitend Verbesserunge vun der Modelleffizienz an der Miniméierung vu Bias vertrauen ëmmer nach op Zougang zu real Weltdaten.

E bessere Wee: Real Daten iwwer PET-aktivéiert Workflows

PETs schützen d'Date wärend der Benotzung. Wann et ëm AI / ML Modeller kënnt, kënne se och d'IP vum lafende Modell schützen - "zwee Villercher, ee Steen." Léisunge mat PETs bidden d'Méiglechkeet Modeller op realen, sensiblen Datesätz ze trainéieren, déi net virdru zougänglech waren wéinst Dateschutz a Sécherheetsbedenken. Dës Spär vun Datefloss op real Daten ass déi bescht Optioun fir Bias ze reduzéieren. Awer wéi géif et eigentlech funktionnéieren?

Fir de Moment fänken déi féierend Optiounen mat engem vertraulechen Informatikëmfeld un. Dann, eng Integratioun mat enger PETs-baséiert Software Léisung, déi et fäerdeg mécht aus der Këscht ze benotzen, wärend d'Dategouvernance a Sécherheetsfuerderunge adresséieren, déi net an engem Standard vertraut Ausféierungsëmfeld (TEE) abegraff sinn. Mat dëser Léisung sinn d'Modeller an d'Donnéeën all verschlësselt ier se an e geséchert Rechenëmfeld geschéckt ginn. D'Ëmfeld kann iwwerall gehost ginn, wat wichteg ass wann Dir bestëmmte Datelokaliséierungsfuerderunge adresséiert. Dëst bedeit datt souwuel de Modell IP wéi och d'Sécherheet vun den Inputdaten wärend der Berechnung erhale bleiwen - net emol de Fournisseur vum zouverléissege Ausféierungsëmfeld huet Zougang zu de Modeller oder Daten dobannen. Déi verschlësselte Resultater ginn dann fir Iwwerpréiwung zréck geschéckt a Logbicher si fir Iwwerpréiwung verfügbar.

Dëse Floss späert déi bescht Qualitéitsdaten op, egal wou et ass oder wien se huet, e Wee fir Bias-Miniméierung an Héicheffizienzmodeller ze kreéieren déi mir kënne vertrauen. Dëse Flow ass och wat d'EU AI Act an hiren Ufuerderunge fir eng AI reglementaresch Sandkëscht beschreift.

Erliichtert ethesch a legal Konformitéit

Gutt Qualitéit ze kréien, richteg Daten ass schwéier. Dateschutz a Lokaliséierungsfuerderunge limitéieren direkt d'Datesätz op déi Organisatiounen Zougang kënnen. Fir Innovatioun a Wuesstem ze geschéien, mussen d'Donnéeën un déi fléissen, déi de Wäert dovunner extrahéieren kënnen.

Art 54 vum EU AI Gesetz stellt Ufuerderunge fir "Héich-Risiko" Modellarten a punkto wat muss bewisen ginn ier se op de Maart bruecht kënne ginn. Kuerz gesot, d'Equipe musse real Weltdaten bannent engem benotzen AI Regulatiouns Sandbox fir genuch Modelleffizienz a Konformitéit mat all de Kontrollen ze weisen, déi am Titel III Kapitel 2 detailléiert sinn. D'Kontrollen enthalen Iwwerwaachung, Transparenz, Erklärbarkeet, Datesécherheet, Dateschutz, Dateminimiséierung a Modellschutz - denken DevSecOps + Data Ops.

Déi éischt Erausfuerderung ass e real-Welt Dateset ze fannen fir ze benotzen - well dëst ass inherent sensibel Donnéeën fir sou Modelltypen. Ouni technesch Garantien, kënnen vill Organisatiounen zécken, dem Modellprovider mat hiren Donnéeën ze trauen oder net erlaabt ze maachen. Zousätzlech ass d'Art a Weis wéi den Akt eng "AI Regulatory Sandbox" definéiert ass eng Erausfuerderung an a vu sech selwer. E puer vun den Ufuerderunge enthalen eng Garantie datt d'Donnéeën aus dem System geläscht ginn nodeems de Modell ausgeführt gouf, souwéi d'Regierungskontrollen, Duerchféierung a Berichterstattung fir et ze beweisen.

Vill Organisatiounen hu probéiert Out-of-the-Box Data Clean Rooms (DCRs) a vertraut Ausféierungsëmfeld (TEEs) ze benotzen. Awer op hir eegen erfuerderen dës Technologien bedeitend Expertise an Aarbecht fir d'Daten an d'AI reglementaresch Ufuerderungen ze operationaliséieren an z'erreechen.
DCRs si méi einfach ze benotzen, awer nach net nëtzlech fir méi robust AI / ML Bedierfnesser. TEEs si geséchert Serveren a brauche nach ëmmer eng integréiert Zesummenaarbecht Plattform fir nëtzlech ze sinn, séier. Dëst identifizéiert awer eng Geleeënheet fir d'Privatsphär verbesseren Technologie Plattformen fir mat TEEs z'integréieren fir dës Aarbecht ze läschen, de Setup an d'Benotzung vun enger AI reglementarescher Sandkëscht ze trivialiséieren, an dofir d'Acquisitioun an d'Benotzung vu sensiblen Donnéeën.

Andeems Dir d'Benotzung vu méi divers an ëmfaassend Datesätz op eng Privatsphär erhalener Manéier erlaabt, hëllefen dës Technologien ze garantéieren datt AI a ML Praktiken mat etheschen Standarden a gesetzleche Viraussetzungen am Zesummenhang mat Dateschutz respektéieren (zB GDPR an EU AI Act an Europa). Zesummegefaasst, wärend d'Ufuerderunge dacks mat hørbare Gréiss a Séilen erfëllt sinn, guidéieren dës Ufuerderunge eis einfach fir besser Modeller ze bauen, op déi mir kënne vertrauen an op déi wichteg date-driven Entscheedungsprozesser vertrauen, wärend d'Privatsphär vun den Datesubjekte schützen, déi fir Modellentwécklung benotzt ginn. an Personnalisatioun.

Verknäppt Themen:AI Viraussetzung geduecht Leader

No weider

Transformativ Potenzial vun engem Gesondheetsspezifesche Grondmodell

Hu keng Miss

Firwat förderen AI-powered Google Sichen Malware?

Adi Hirschtein, VP of Product at Duality Technologies

Adi Hirschtein is the VP of product at Dualitéit Technologies. Adi bréngt méi wéi 20 Joer Erfarung als Exekutiv, Produktmanager an Entrepreneur déi Innovatioun an Technologiefirmen opbaut an dréit haaptsächlech op B2B Startups am Beräich vun Daten an AI fokusséiert. Virun der Dualitéit huet den Adi als VP vum Produkt fir Iguazio (MLOps Firma) gedéngt, déi vum McKinsey opkaf gouf a virdru war hien als Direkter vum Produkt bei EMC no enger Acquisitioun vun engem anere Startup mam Numm Zettapoint (Datebase a Späicherfirma) wou hien gedéngt huet. als VP vum Produkt deen d'Produkt vum Ufank bis zum Maartpenetratioun a Wuesstum féiert.

Unite.AI

Wéi Bias wäert Är AI / ML Strategie ëmbréngen a wat Dir maache musst doriwwer

Gedanke Leaders

Wéi Bias wäert Är AI / ML Strategie ëmbréngen a wat Dir maache musst doriwwer

Inhaltsverzeechnes

Bias mat Daten unzegoen

Grouss Volumen vun héich-Qualitéit Donnéeën

Erliichtert ethesch a legal Konformitéit

leschte Posts

Unite.AI

Wéi Bias wäert Är AI / ML Strategie ëmbréngen a wat Dir maache musst doriwwer

Inhaltsverzeechnes

Bias mat Daten unzegoen

Grouss Volumen vun héich-Qualitéit Donnéeën

Erliichtert ethesch a legal Konformitéit

Dir kënnt gär

leschte Posts