cung Si paragjykimi do të vrasë strategjinë tuaj të AI/ML dhe çfarë të bëni për të - Unite.AI
Lidhu me ne

Udhëheqësit e mendimit

Si do ta vrasë paragjykimi strategjinë tuaj të AI/ML dhe çfarë të bëni për të

mm

Publikuar

 on

'Paragjykimi' në modelet e çdo lloji përshkruan një situatë në të cilën modeli përgjigjet në mënyrë të pasaktë ndaj kërkesave ose të dhënave hyrëse, sepse nuk është trajnuar me të dhëna të mjaftueshme me cilësi të lartë dhe të larmishme për të dhënë një përgjigje të saktë. Një shembull do të ishte Funksioni i zhbllokimit të telefonit me njohjen e fytyrës së Apple, i cili dështoi në një shkallë dukshëm më të lartë për njerëzit me lëkurë më të errët në krahasim me tonet më të lehta. Modelja nuk ishte trajnuar mjaftueshëm për imazhet e njerëzve me lëkurë të errët. Ky ishte një shembull i njëanshmërisë me rrezik relativisht të ulët, por është pikërisht arsyeja pse Akti i AI-së së BE-së ka paraqitur kërkesa për të provuar efikasitetin (dhe kontrollet) e modelit përpara se të dalë në treg. Modelet me rezultate që ndikojnë në situata biznesi, financiare, shëndetësore ose personale duhet t'u besohen, ose nuk do të përdoren.

Trajtimi i paragjykimeve me të dhëna

Vëllime të mëdha të të dhënave me cilësi të lartë

Among many important data management practices, a key component to overcoming and minimizing bias in AI/ML models is to acquire large volumes of high-quality, diverse data. This requires collaboration with multiple organizations that have such data. Traditionally, data acquisition and collaborations are challenged by privacy and/or IP protection concerns–sensitive data can't be sent to the model owner, and the model owner can’t risk leaking their IP to a data owner. A common workaround is to work with mock or synthetic data, which can be useful but also have limitations compared to using real, full-context data. This is where privacy-enhancing technologies (PETs) provide much-needed answers.

Të dhënat sintetike: Mbylle, por jo mjaft

Të dhëna sintetike është krijuar artificialisht për të imituar të dhëna reale. Kjo është e vështirë për t'u bërë, por bëhet pak më e lehtë me mjetet e AI. Të dhënat sintetike me cilësi të mirë duhet të kenë të njëjtat distanca të veçorive si të dhënat reale, ose nuk do të jenë të dobishme. Të dhënat sintetike cilësore mund të përdoren për të rritur në mënyrë efektive diversitetin e të dhënave të trajnimit duke plotësuar boshllëqet për popullatat më të vogla, të margjinalizuara ose për popullatat që ofruesi i AI thjesht nuk ka të dhëna të mjaftueshme. Të dhënat sintetike mund të përdoren gjithashtu për të adresuar rastet e skajshme që mund të jenë të vështira për t'u gjetur në vëllime adekuate në botën reale. Për më tepër, organizatat mund të gjenerojnë një grup të dhënash sintetike për të përmbushur kërkesat e rezidencës së të dhënave dhe privatësisë që bllokojnë aksesin në të dhënat reale. Kjo tingëllon mirë; megjithatë, të dhënat sintetike janë vetëm një pjesë e enigmës, jo zgjidhja.

Një nga kufizimet e dukshme të të dhënave sintetike është shkëputja nga bota reale. Për shembull, automjetet autonome të trajnuara vetëm me të dhëna sintetike do të përballen me kushte reale, të paparashikuara rrugore. Për më tepër, të dhënat sintetike trashëgojnë paragjykim nga të dhënat e botës reale të përdorura për t'i gjeneruar ato – duke mposhtur goxha qëllimin e diskutimit tonë. Si përfundim, të dhënat sintetike janë një opsion i dobishëm për akordimin e saktë dhe adresimin e rasteve të skajshme, por përmirësime të rëndësishme në efikasitetin e modelit dhe minimizimin e paragjykimeve ende mbështeten në aksesin në të dhënat e botës reale.

Një mënyrë më e mirë: Të dhëna reale nëpërmjet flukseve të punës të aktivizuara nga PET

PET mbrojnë të dhënat gjatë përdorimit. Kur bëhet fjalë për modelet AI/ML, ato gjithashtu mund të mbrojnë IP-në e modelit që po ekzekutohet – “dy zogj, një gur”. Zgjidhjet që përdorin PET ofrojnë mundësinë për të trajnuar modele në grupe të dhënash reale, të ndjeshme që nuk ishin më parë të aksesueshme për shkak të shqetësimeve të privatësisë dhe sigurisë së të dhënave. Ky zhbllokim i rrjedhave të të dhënave drejt të dhënave reale është alternativa më e mirë për të reduktuar paragjykimet. Por si do të funksiononte në të vërtetë?

Tani për tani, opsionet kryesore fillojnë me një mjedis kompjuterik konfidencial. Më pas, një integrim me një zgjidhje softuerike të bazuar në PET që e bën atë gati për t'u përdorur jashtë kutisë, ndërkohë që adreson kërkesat e qeverisjes së të dhënave dhe sigurisë që nuk përfshihen në një mjedis standard ekzekutimi të besuar (TEE). Me këtë zgjidhje, modelet dhe të dhënat janë të gjitha të koduara përpara se të dërgohen në një mjedis të sigurt kompjuterik. Mjedisi mund të strehohet kudo, gjë që është e rëndësishme kur adresohen disa kërkesa për lokalizimin e të dhënave. Kjo do të thotë që si IP-ja e modelit ashtu edhe siguria e të dhënave hyrëse ruhen gjatë llogaritjes – madje as ofruesi i mjedisit të besuar të ekzekutimit nuk ka akses në modelet ose të dhënat brenda tij. Rezultatet e koduara më pas dërgohen për shqyrtim dhe regjistrat janë të disponueshëm për shqyrtim.

Ky fluks zhbllokon të dhënat e cilësisë më të mirë pavarësisht se ku janë ose kush i ka, duke krijuar një rrugë drejt minimizimit të paragjykimeve dhe modeleve me efikasitet të lartë që mund t'u besojmë. Kjo rrjedhë është gjithashtu ajo që Akti i AI-së i BE-së po përshkruante në kërkesat e tyre për një kuti rëre rregullatore të AI.

Lehtësimi i Pajtueshmërisë Etike dhe Ligjore

Marrja e të dhënave reale me cilësi të mirë është e vështirë. Kërkesat për privatësinë dhe lokalizimin e të dhënave kufizojnë menjëherë grupet e të dhënave që organizatat mund t'i qasen. Që të ndodhë inovacioni dhe rritja, të dhënat duhet të rrjedhin tek ata që mund të nxjerrin vlerën prej tyre.

Neni 54 i Aktit të BE-së për AI parashikon kërkesat për llojet e modeleve me "rrezik të lartë" në kuptimin e asaj që duhet të provohet përpara se të mund të hidhen në treg. Me pak fjalë, ekipet do të duhet të përdorin të dhënat e botës reale brenda një Sandbox Rregullator i AI për të treguar efikasitet të mjaftueshëm të modelit dhe përputhshmëri me të gjitha kontrollet e detajuara në Titullin III Kapitulli 2. Kontrollet përfshijnë monitorimin, transparencën, shpjegueshmërinë, sigurinë e të dhënave, mbrojtjen e të dhënave, minimizimin e të dhënave dhe mbrojtjen e modelit – mendoni DevSecOps + Data Ops.

Sfida e parë do të jetë gjetja e një grupi të dhënash të botës reale për t'u përdorur – pasi këto janë të dhëna në thelb të ndjeshme për lloje të tilla modelesh. Pa garanci teknike, shumë organizata mund të hezitojnë t'i besojnë ofruesit të modelit të dhënat e tyre ose nuk do të lejohen ta bëjnë këtë. Për më tepër, mënyra se si akti përcakton një "Sandbox Rregullator të UA" është një sfidë në vetvete. Disa nga kërkesat përfshijnë një garanci që të dhënat të hiqen nga sistemi pasi modeli të jetë ekzekutuar, si dhe kontrollet e qeverisjes, zbatimi dhe raportimi për ta vërtetuar atë.

Shumë organizata kanë provuar të përdorin dhoma të pastra të të dhënave jashtë kutisë (DCR) dhe mjedise të besuara të ekzekutimit (TEE). Por, më vete, këto teknologji kërkojnë ekspertizë dhe punë të konsiderueshme për të funksionalizuar dhe përmbushur kërkesat rregullatore të të dhënave dhe AI.
DCR-të janë më të thjeshta për t'u përdorur, por ende jo të dobishme për nevoja më të forta AI/ML. TEE-të janë serverë të sigurt dhe ende kanë nevojë për një platformë të integruar bashkëpunimi për të qenë të dobishëm, shpejt. Megjithatë, kjo identifikon një mundësi për platformat e teknologjisë që përmirësojnë privatësinë për t'u integruar me TEE-të për të hequr atë punë, duke banalizuar konfigurimin dhe përdorimin e një sandboxi rregullator të AI, dhe për rrjedhojë, marrjen dhe përdorimin e të dhënave të ndjeshme.

Duke mundësuar përdorimin e grupeve të të dhënave më të larmishme dhe gjithëpërfshirëse në një mënyrë të ruajtjes së privatësisë, këto teknologji ndihmojnë në sigurimin që praktikat e AI dhe ML të jenë në përputhje me standardet etike dhe kërkesat ligjore në lidhje me privatësinë e të dhënave (p.sh. GDPR dhe Akti i AI i BE-së në Evropë). Si përmbledhje, ndërsa kërkesat shpesh plotësohen me zhurmë dhe psherëtima të dëgjueshme, këto kërkesa thjesht po na udhëzojnë drejt ndërtimit të modeleve më të mira të cilave mund t'u besojmë dhe të mbështetemi për vendimmarrje të rëndësishme të bazuara nga të dhënat, duke mbrojtur privatësinë e subjekteve të të dhënave të përdorura për zhvillimin e modelit. dhe personalizimi.

Adi Hirschtein është VP i produktit në Teknologjitë e dualitetit. Adi sjell më shumë se 20 vjet përvojë si ekzekutiv, menaxher produkti dhe sipërmarrës që ndërton dhe nxit inovacion në kompanitë e teknologjisë të fokusuara kryesisht në startup-et B2B në fushën e të dhënave dhe AI. Përpara Duality, Adi shërbeu si VP i produktit për Iguazio (kompania MLOps) e cila u ble nga McKinsey dhe para kësaj ai shërbeu si Drejtor i produktit në EMC pas blerjes së një startup tjetër të quajtur Zettapoint (kompania e bazës së të dhënave dhe ruajtjes) ku ai shërbeu si VP i produktit që udhëheq produktin që nga fillimi deri në depërtimin dhe rritjen e tregut.