քոթուկ Ինչպես կողմնակալությունը կսպանի ձեր AI/ML ռազմավարությունը և ինչ անել դրա մասին - Unite.AI
Միացեք մեզ

Մտքի առաջնորդներ

Ինչպես կողմնակալությունը կսպանի ձեր AI/ML ռազմավարությունը և ինչ անել դրա հետ կապված

mm

Հրատարակված է

 on

Ցանկացած տիպի մոդելներում «կողմնակալությունը» նկարագրում է մի իրավիճակ, երբ մոդելը սխալ է արձագանքում հուշումներին կամ մուտքագրված տվյալներին, քանի որ այն չի վերապատրաստվել բավականաչափ բարձրորակ, բազմազան տվյալների հետ՝ ճշգրիտ պատասխան տալու համար: Օրինակներից մեկը կլինի Apple-ի դեմքի ճանաչման հեռախոսի ապակողպման գործառույթը, որը զգալիորեն ավելի մեծ արագությամբ ձախողվեց ավելի մուգ մաշկ ունեցող մարդկանց համար, ի տարբերություն ավելի բաց երանգների: Մոդելը բավականաչափ մարզված չէր ավելի մուգ մաշկ ունեցող մարդկանց պատկերների վրա: Սա կողմնակալության համեմատաբար ցածր ռիսկային օրինակ էր, բայց հենց այն է, որ ԵՄ AI ակտը պահանջներ է առաջադրել՝ ապացուցելու մոդելի արդյունավետությունը (և վերահսկողությունը) նախքան շուկա դուրս գալը: Գործարար, ֆինանսական, առողջական կամ անձնական իրավիճակների վրա ազդող արդյունքներով մոդելներին պետք է վստահել, հակառակ դեպքում դրանք չեն օգտագործվի:

Տվյալների հետ կողմնակալության հաղթահարում

Բարձրորակ տվյալների մեծ ծավալներ

Տվյալների կառավարման շատ կարևոր պրակտիկաների թվում ա AI/ML մոդելներում կողմնակալության հաղթահարման և նվազագույնի հասցնելու հիմնական բաղադրիչը բարձրորակ, բազմազան տվյալների մեծ ծավալների ձեռքբերումն է:. Սա պահանջում է համագործակցություն բազմաթիվ կազմակերպությունների հետ, որոնք ունեն նման տվյալներ: Ավանդաբար, տվյալների հավաքագրումը և համագործակցությունը վիճարկվում են գաղտնիության և/կամ IP-ի պաշտպանության հետ կապված մտահոգությունների պատճառով. զգայուն տվյալները չեն կարող ուղարկվել մոդելի սեփականատիրոջը, և մոդելի սեփականատերը չի կարող վտանգի ենթարկել իր IP-ն տվյալների սեփականատիրոջը: Տարածված լուծումը կեղծ կամ սինթետիկ տվյալների հետ աշխատելն է, որոնք կարող են օգտակար լինել, բայց նաև սահմանափակումներ ունենալ՝ համեմատած իրական, ամբողջական համատեքստի տվյալների օգտագործման հետ: Այստեղ է, որ գաղտնիության բարձրացման տեխնոլոգիաները (PETs) տալիս են շատ անհրաժեշտ պատասխաններ:

Սինթետիկ տվյալներ. Փակ, բայց ոչ լրիվ

Սինթետիկ տվյալներ արհեստականորեն ստեղծվում է իրական տվյալների նմանակման համար: Դա դժվար է անել, բայց մի փոքր ավելի հեշտ է դառնում AI գործիքներով: Լավ որակի սինթետիկ տվյալները պետք է ունենան նույն առանձնահատկությունների հեռավորությունները, ինչ իրական տվյալները, այլապես դրանք օգտակար չեն լինի: Որակյալ սինթետիկ տվյալները կարող են օգտագործվել արդյունավետ կերպով խթանելու ուսուցման տվյալների բազմազանությունը՝ լրացնելով ավելի փոքր, մարգինալացված բնակչության կամ այն ​​բնակչության համար, որոնց AI մատակարարը պարզապես չունի բավարար տվյալներ: Սինթետիկ տվյալները կարող են օգտագործվել նաև եզրային դեպքերը լուծելու համար, որոնք կարող են դժվար լինել գտնել համապատասխան ծավալներով իրական աշխարհում: Բացի այդ, կազմակերպությունները կարող են ստեղծել սինթետիկ տվյալների հավաքածու՝ բավարարելու տվյալների բնակության և գաղտնիության պահանջները, որոնք արգելափակում են իրական տվյալների հասանելիությունը: Սա հիանալի է հնչում; սակայն, սինթետիկ տվյալները պարզապես հանելուկի մի մասն են, այլ ոչ թե լուծումը:

Սինթետիկ տվյալների ակնհայտ սահմանափակումներից մեկը իրական աշխարհից անջատումն է: Օրինակ՝ բացառապես սինթետիկ տվյալների վրա պատրաստված ինքնավար մեքենաները կպայքարեն իրական, չնախատեսված ճանապարհային պայմանների դեմ: Բացի այդ, սինթետիկ տվյալները ժառանգում են կողմնակալություն իրական աշխարհի տվյալներից, որոնք օգտագործվում են դրանք ստեղծելու համար, ինչը բավականին տապալում է մեր քննարկման նպատակը: Եզրափակելով, սինթետիկ տվյալները օգտակար տարբերակ են կարգավորելու և ծայրամասային դեպքերը հասցեագրելու համար, սակայն մոդելի արդյունավետության և կողմնակալության նվազագույնի հասցնելու զգալի բարելավումները դեռևս կախված են իրական աշխարհի տվյալների հասանելիությունից:

Ավելի լավ միջոց. իրական տվյալներ PETs-ով միացված աշխատանքային հոսքերի միջոցով

PET-ները պաշտպանում են տվյալները օգտագործման ընթացքում: Երբ խոսքը վերաբերում է AI/ML մոդելներին, նրանք կարող են նաև պաշտպանել գործարկվող մոդելի IP-ն՝ «երկու թռչուն, մեկ քար»: PET-ներ օգտագործող լուծումները հնարավորություն են տալիս մոդելներ վարժեցնել իրական, զգայուն տվյալների հավաքածուների վրա, որոնք նախկինում հասանելի չեն եղել տվյալների գաղտնիության և անվտանգության նկատառումներից ելնելով: Տվյալների հոսքերի այս ապակողպումը դեպի իրական տվյալները լավագույն տարբերակն է՝ նվազեցնելու կողմնակալությունը: Բայց ինչպե՞ս դա իրականում կաշխատի:

Առայժմ առաջատար տարբերակները սկսվում են գաղտնի հաշվողական միջավայրից: Այնուհետև՝ PETs-ի վրա հիմնված ծրագրային լուծման հետ ինտեգրում, որը պատրաստ է դարձնում այն ​​օգտագործել առանց տուփի, միաժամանակ հաշվի առնելով տվյալների կառավարման և անվտանգության պահանջները, որոնք ներառված չեն ստանդարտ վստահելի կատարման միջավայրում (TEE): Այս լուծումով մոդելներն ու տվյալները բոլորը կոդավորված են՝ նախքան ապահով հաշվողական միջավայր ուղարկելը: Շրջակա միջավայրը կարող է տեղակայվել ցանկացած վայրում, ինչը կարևոր է տվյալների տեղայնացման որոշակի պահանջներին անդրադառնալիս: Սա նշանակում է, որ և՛ մոդելի IP-ն, և՛ մուտքային տվյալների անվտանգությունը պահպանվում են հաշվարկների ընթացքում,– նույնիսկ վստահելի կատարման միջավայրի մատակարարը հասանելիություն չունի դրա ներսում գտնվող մոդելներին կամ տվյալներին: Այնուհետև կոդավորված արդյունքները հետ են ուղարկվում վերանայման և գրանցամատյանները հասանելի են վերանայման համար:

Այս հոսքը բացում է լավագույն որակի տվյալները՝ անկախ նրանից, թե որտեղ են դրանք կամ ով ունի դրանք՝ ստեղծելով ուղի դեպի կողմնակալության նվազագույնի հասցնելու և բարձր արդյունավետության մոդելներ, որոնց մենք կարող ենք վստահել: Այս հոսքը նաև այն է, ինչ նկարագրում էր ԵՄ AI ակտը AI կարգավորիչ ավազատուփի իրենց պահանջներում:

Նպաստել էթիկական և իրավական համապատասխանությանը

Լավ որակի, իրական տվյալների ձեռքբերումը դժվար է: Տվյալների գաղտնիության և տեղայնացման պահանջները անմիջապես սահմանափակում են տվյալների հավաքածուները, որոնց հասանելի են կազմակերպությունները: Որպեսզի նորարարությունն ու աճը տեղի ունենան, տվյալները պետք է հոսեն նրանց, ովքեր կարող են դրանից արժեք հանել:

ԵՄ AI ակտի 54-րդ հոդվածը նախատեսում է պահանջներ «բարձր ռիսկային» մոդելների տեսակների համար այն առումով, թե ինչ պետք է ապացուցվի, նախքան դրանք շուկա հանելը: Մի խոսքով, թիմերը պետք է օգտագործեն իրական աշխարհի տվյալներ ներսում AI Կարգավորող Sandbox ցույց տալ մոդելի բավարար արդյունավետություն և համապատասխանություն բոլոր վերահսկիչներին, որոնք մանրամասն նկարագրված են Title III-ի 2-րդ գլխում: Վերահսկիչները ներառում են մոնիտորինգ, թափանցիկություն, բացատրելիություն, տվյալների անվտանգություն, տվյալների պաշտպանություն, տվյալների նվազեցում և մոդելի պաշտպանություն – մտածեք DevSecOps + Data Ops:

Առաջին մարտահրավերը կլինի օգտագործել իրական աշխարհի տվյալների հավաքածու գտնելը, քանի որ սա իր էությամբ զգայուն տվյալներ է նման մոդելների տեսակների համար: Առանց տեխնիկական երաշխիքների, շատ կազմակերպություններ կարող են վարանել վստահել մոդելի մատակարարին իրենց տվյալները կամ թույլ չեն տա դա անել: Բացի այդ, այն ձևը, որով ակտը սահմանում է «AI Կարգավորող Sandbox»-ը, ինքնին մարտահրավեր է: Որոշ պահանջներ ներառում են երաշխիք, որ տվյալները կհեռացվեն համակարգից մոդելի գործարկումից հետո, ինչպես նաև կառավարման հսկողություն, կիրարկում և հաշվետվություն՝ այն ապացուցելու համար:

Բազմաթիվ կազմակերպություններ փորձել են օգտագործել առանց տվյալների մաքրման սենյակներ (DCR) և վստահելի կատարման միջավայրեր (TEE): Սակայն, ինքնուրույն, այս տեխնոլոգիաները պահանջում են զգալի փորձ և աշխատանք՝ գործառնականացնելու և բավարարելու տվյալների և AI կարգավորիչ պահանջները:
DCR-ներն ավելի պարզ են օգտագործման մեջ, բայց դեռևս օգտակար չեն AI/ML-ի ավելի կայուն կարիքների համար: TEE-ները ապահով սերվերներ են և դեռևս կարիք ունեն ինտեգրված համագործակցության հարթակի՝ արագ և օգտակար լինելու համար: Այնուամենայնիվ, սա բացահայտում է գաղտնիության բարելավման տեխնոլոգիական հարթակների հնարավորությունը՝ ինտեգրվելու TEE-ների հետ՝ հեռացնելու այդ աշխատանքը՝ չնչինացնելով AI-ի կարգավորիչ ավազատուփի կարգավորումն ու օգտագործումը, և հետևաբար՝ զգայուն տվյալների ձեռքբերումն ու օգտագործումը:

Հնարավորություն տալով օգտագործել ավելի բազմազան և համապարփակ տվյալների հավաքածուներ գաղտնիության պահպանման եղանակով, այս տեխնոլոգիաները օգնում են ապահովել, որ AI և ML պրակտիկաները համապատասխանում են տվյալների գաղտնիության հետ կապված էթիկական չափանիշներին և իրավական պահանջներին (օրինակ՝ GDPR և EU AI Act Եվրոպայում): Ամփոփելով, թեև պահանջները հաճախ բավարարվում են լսելի հառաչանքներով և հառաչանքներով, այս պահանջները պարզապես առաջնորդում են մեզ ավելի լավ մոդելներ կառուցելու, որոնց մենք կարող ենք վստահել և հիմնվել տվյալների վրա հիմնված կարևոր որոշումներ կայացնելու համար՝ միաժամանակ պաշտպանելով մոդելի մշակման համար օգտագործվող տվյալների սուբյեկտների գաղտնիությունը: և հարմարեցում:

Ադի Հիրշտեյնը արտադրանքի փոխնախագահն է Երկակի տեխնոլոգիաներ. Adi-ն ավելի քան 20 տարվա փորձ է բերում որպես գործադիր, արտադրանքի մենեջեր և ձեռնարկատեր, որը կառուցում և նորարարություն է վարում տեխնոլոգիական ընկերություններում, որոնք հիմնականում կենտրոնացած են տվյալների և AI-ի ոլորտում B2B ստարտափների վրա: Նախքան Duality-ը, Ադին ծառայում էր որպես Iguazio (MLOps ընկերություն) ապրանքի փոխտնօրեն, որը ձեռք էր բերվել McKinsey-ի կողմից, իսկ մինչ այդ նա ծառայում էր որպես արտադրանքի տնօրեն EMC-ում Zettapoint (Տվյալների բազա և պահեստավորման ընկերություն) մեկ այլ ստարտափի ձեռքբերումից հետո, որտեղ նա ծառայում էր: որպես ապրանքի VP, որը առաջնորդում է արտադրանքը սկզբից մինչև շուկա ներթափանցում և աճ: