стуб Како ће пристрасност уништити вашу АИ/МЛ стратегију и шта да урадите у вези са тим - Уните.АИ
Повежите се са нама

Вође мисли

Како ће пристрасност уништити вашу АИ/МЛ стратегију и шта да радите у вези са тим

mm

објављен

 on

„Пристрасност“ у моделима било ког типа описује ситуацију у којој модел нетачно реагује на упите или улазне податке јер није обучен са довољно висококвалитетних, разноврсних података да пружи тачан одговор. Један пример би био Аппле-ова функција откључавања телефона за препознавање лица, која није успела са знатно већом стопом за људе са тамнијом кожом у односу на светлије тонове. Манекенка није била обучена за довољно слика тамнопутих људи. Ово је био релативно нискоризичан пример пристрасности, али је управо то разлог зашто је Закон о вештачкој интелигенцији ЕУ поставио захтеве да се докаже ефикасност модела (и контроле) пре изласка на тржиште. Моделима са резултатима који утичу на пословну, финансијску, здравствену или личну ситуацију се мора веровати, иначе се неће користити.

Борба против пристрасности помоћу података

Велике количине података високог квалитета

Међу многим важним праксама управљања подацима, а кључна компонента за превазилажење и минимизирање пристрасности у АИ/МЛ моделима је стицање великих количина висококвалитетних, разноврсних података. Ово захтева сарадњу са више организација које имају такве податке. Традиционално, аквизиција података и сарадња су доведени у питање због приватности и/или заштите ИП-а – осетљиви подаци се не могу послати власнику модела, а власник модела не може да ризикује да процури свој ИП власнику података. Уобичајено решење је рад са лажним или синтетичким подацима, који могу бити корисни, али такође имају ограничења у поређењу са коришћењем стварних података у пуном контексту. Ово је место где технологије за побољшање приватности (ПЕТ) пружају преко потребне одговоре.

Синтетички подаци: Близу, али не сасвим

Синтетички подаци је вештачки генерисан да опонаша стварне податке. Ово је тешко урадити, али постаје мало лакше са АИ алатима. Синтетички подаци доброг квалитета треба да имају исте удаљености карактеристика као стварни подаци, иначе неће бити корисни. Квалитетни синтетички подаци могу се користити за ефикасно повећање разноликости података о обуци попуњавањем празнина за мање, маргинализоване популације или за популације за које добављач вештачке интелигенције једноставно нема довољно података. Синтетички подаци се такође могу користити за решавање рубних случајева које би могло бити тешко пронаћи у адекватним количинама у стварном свету. Поред тога, организације могу да генеришу синтетички скуп података како би задовољиле захтеве резидентности података и приватности који блокирају приступ стварним подацима. Ово звучи сјајно; међутим, синтетички подаци су само део слагалице, а не решење.

Једно од очигледних ограничења синтетичких података је одвајање од стварног света. На пример, аутономна возила обучена искључиво на синтетичким подацима ће се борити са стварним, непредвиђеним условима на путу. Поред тога, синтетички подаци наслеђују пристрасност података из стварног света који се користе за њихово генерисање – што је прилично поразно у сврху наше расправе. У закључку, синтетички подаци су корисна опција за фино подешавање и решавање рубних случајева, али значајна побољшања у ефикасности модела и минимизирању пристрасности и даље се ослањају на приступ подацима из стварног света.

Бољи начин: стварни подаци путем токова рада са омогућеним ПЕТ-овима

ПЕТ-ови штите податке док су у употреби. Када су у питању АИ/МЛ модели, они такође могу заштитити ИП модела који се покреће – „две мухе, један камен“. Решења која користе ПЕТ-ове пружају опцију за обуку модела на стварним, осетљивим скуповима података који раније нису били доступни због забринутости за приватност података и безбедност. Ово откључавање токова података до стварних података је најбоља опција за смањење пристрасности. Али како би то заправо функционисало?

За сада, водеће опције почињу са поверљивим рачунарским окружењем. Затим, интеграција са софтверским решењем заснованим на ПЕТс-у које га чини спремним за коришћење без употребе, а истовремено се бави захтевима управљања подацима и безбедности који нису укључени у стандардно окружење поузданог извршавања (ТЕЕ). Са овим решењем, сви модели и подаци су шифровани пре него што се пошаљу у безбедно рачунарско окружење. Окружење се може хостовати било где, што је важно када се решавају одређени захтеви за локализацију података. То значи да се и ИП модела и безбедност улазних података одржавају током израчунавања – чак ни добављач поузданог окружења за извршавање нема приступ моделима или подацима унутар њега. Шифровани резултати се затим шаљу назад на преглед и евиденције су доступне за преглед.

Овај ток откључава податке најбољег квалитета без обзира где се налазе или ко их има, стварајући пут ка минимизацији пристрасности и високоефикасним моделима којима можемо да верујемо. Овај ток је такође оно што је закон ЕУ о вештачкој интелигенцији описивао у својим захтевима за регулаторно окружење вештачке интелигенције.

Омогућавање етичке и правне усклађености

Добијање квалитетних, стварних података је тешко. Захтеви за приватност података и локализацију одмах ограничавају скупове података којима организације могу да приступе. Да би дошло до иновације и раста, подаци морају да дођу до оних који могу да извуку вредност из њих.

Члан 54 ЕУ закона о вештачкој интелигенцији предвиђа захтеве за типове модела „високог ризика“ у смислу онога што се мора доказати пре него што се могу пласирати на тржиште. Укратко, тимови ће морати да користе податке из стварног света унутар једног АИ Регулатори Сандбок да покаже довољну ефикасност модела и усклађеност са свим контролама детаљно описаним у Наслову ИИИ, Поглавље 2. Контроле укључују праћење, транспарентност, објашњивост, сигурност података, заштиту података, минимизирање података и заштиту модела – помислите на ДевСецОпс + Дата Опс.

Први изазов ће бити проналажење скупа података из стварног света који ће се користити – пошто су ово инхерентно осетљиви подаци за такве типове модела. Без техничких гаранција, многе организације могу оклевати да верују добављачу модела са својим подацима или им то неће бити дозвољено. Поред тога, начин на који закон дефинише „регулаторни сандбок АИ“ је сам по себи изазов. Неки од захтева укључују гаранцију да ће подаци бити уклоњени из система након што је модел покренут, као и контроле управљања, спровођење и извештавање како би се то доказало.

Многе организације су покушале да користе чисте собе (ДЦР) и поуздана окружења за извршавање (ТЕЕ). Али, саме по себи, ове технологије захтевају значајну стручност и рад на операционализацији и испуњавању регулаторних захтева за податке и вештачку интелигенцију.
ДЦР-ови су једноставнији за употребу, али још увек нису корисни за робусније потребе АИ/МЛ. ТЕЕ-ови су безбедни сервери и још увек им је потребна интегрисана платформа за сарадњу да би били корисни, брзо. Ово, међутим, идентификује прилику да се технолошке платформе за побољшање приватности интегришу са ТЕЕ-овима како би се уклонио тај посао, тривијализирајући подешавање и коришћење АИ регулаторног сандбок-а, а самим тим и аквизицију и коришћење осетљивих података.

Омогућавањем коришћења разноврснијих и свеобухватнијих скупова података на начин који чува приватност, ове технологије помажу да се осигура да су АИ и МЛ праксе у складу са етичким стандардима и законским захтевима који се односе на приватност података (нпр. ГДПР и ЕУ закон о вештачкој интелигенцији у Европи). Укратко, иако се захтеви често испуњавају звучним гунђањем и уздасима, ови захтеви нас једноставно воде ка изградњи бољих модела у које можемо веровати и на које можемо да се ослонимо за доношење важних одлука заснованих на подацима, истовремено штитећи приватност субјеката података који се користе за развој модела. и прилагођавање.

Ади Хирсцхтеин је потпредседник производа у Дуалити Тецхнологиес. Ади доноси више од 20 година искуства као извршни директор, менаџер производа и предузетник који гради и покреће иновације у технолошким компанијама првенствено фокусираним на Б2Б стартапове у области података и вештачке интелигенције. Прије Дуалити-а, Ади је био потпредсједник производа за Игуазио (МЛОпс компанија) коју је купио МцКинсеи, а прије тога је био директор производа у ЕМЦ-у након аквизиције другог стартупа под називом Зеттапоинт (компанија за базе података и складиштење) гдје је служио као потпредседник производа који води производ од почетка до продора на тржиште и раста.