tynkä Kuinka ennakkoluulottomuus tappaa AI/ML-strategiasi ja mitä tehdä sille - Unite.AI
Liity verkostomme!

Ajatusten johtajat

Kuinka puolueettomuus tappaa AI/ML-strategiasi ja mitä tehdä sille

mm

Julkaistu

 on

"Bias" minkä tahansa tyyppisissä malleissa kuvaa tilannetta, jossa malli vastaa epätarkasti kehotteisiin tai syötetietoihin, koska sitä ei ole koulutettu tarpeeksi korkealaatuisella, monipuolisella tiedolla antamaan tarkka vastaus. Yksi esimerkki olisi Applen kasvojentunnistuksen puhelimen lukituksen avausominaisuus, joka epäonnistui huomattavasti useammin ihmisillä, joilla oli tummempi iho verrattuna vaaleampiin sävyihin. Mallia ei ollut koulutettu ottamaan tarpeeksi kuvia tummaihoisista ihmisistä. Tämä oli suhteellisen vähäriskinen esimerkki puolueellisuudesta, mutta juuri siksi EU:n tekoälylaki on asettanut vaatimuksia mallin tehokkuuden (ja kontrollien) osoittamiseksi ennen markkinoille tuloa. Malleihin, joiden tuotokset vaikuttavat liiketoimintaan, talouteen, terveyteen tai henkilökohtaisiin tilanteisiin, on luotettava, tai niitä ei käytetä.

Harhaanjohtaminen tietojen avulla

Suuret määrät korkealaatuista dataa

Monien tärkeiden tiedonhallintakäytäntöjen joukossa a avaintekijä AI/ML-mallien harhan voittamiseksi ja minimoimiseksi on hankkia suuria määriä korkealaatuista, monipuolista dataa. Tämä edellyttää yhteistyötä useiden organisaatioiden kanssa, joilla on tällaisia ​​tietoja. Perinteisesti tietosuoja- ja/tai IP-suojaongelmat haastavat tiedonkeruun ja yhteistyön – arkaluontoista dataa ei voida lähettää mallin omistajalle, eikä mallin omistaja voi vaarantaa IP-osoitteensa vuotamisen datan omistajalle. Yleinen kiertotapa on työskennellä vale- tai synteettisten tietojen kanssa, jotka voivat olla hyödyllisiä, mutta niillä on myös rajoituksia verrattuna todellisen, koko kontekstin datan käyttöön. Tässä yksityisyyttä lisäävät tekniikat (PET) tarjoavat kipeästi kaivattuja vastauksia.

Synteettiset tiedot: Sulje, mutta ei aivan

Synteettiset tiedot on keinotekoisesti luotu jäljittelemään todellista dataa. Tämä on vaikea tehdä, mutta siitä tulee hieman helpompaa tekoälytyökalujen avulla. Hyvälaatuisella synteettisellä tiedolla tulee olla samat etäisyydet kuin todellisella tiedolla, muuten siitä ei ole hyötyä. Laadukasta synteettistä dataa voidaan käyttää tehokkaasti lisäämään koulutusdatan monimuotoisuutta täyttämällä aukkoja pienempiä, syrjäytyneitä väestöryhmiä varten tai populaatioita varten, joista tekoälyn tarjoajalla ei yksinkertaisesti ole tarpeeksi tietoa. Synteettistä dataa voidaan käyttää myös sellaisten reunatapausten käsittelemiseen, joita voi olla vaikea löytää riittävässä määrin todellisessa maailmassa. Lisäksi organisaatiot voivat luoda synteettisen tietojoukon täyttääkseen datan asuinpaikka- ja yksityisyysvaatimukset, jotka estävät pääsyn todellisiin tietoihin. Tämä kuulostaa hyvältä; synteettinen data on kuitenkin vain pala palapeliä, ei ratkaisu.

Yksi synteettisen tiedon ilmeisistä rajoituksista on yhteyden katkeaminen todellisesta maailmasta. Esimerkiksi yksinomaan synteettiselle datalle koulutetut autonomiset ajoneuvot kamppailevat todellisten, odottamattomien tieolosuhteiden kanssa. Lisäksi synteettinen data perii puolueellisuuden sen tuottamiseen käytetystä todellisesta tiedosta, mikä tekee keskustelumme tarkoituksen melkoisen tyhjäksi. Yhteenvetona voidaan todeta, että synteettinen data on hyödyllinen vaihtoehto hienosäätöön ja reunatapausten käsittelemiseen, mutta merkittävät parannukset mallin tehokkuuteen ja harhan minimointiin edellyttävät edelleen todellisen maailman tietojen käyttöä.

Parempi tapa: Todellinen data PET-yhteensopivien työnkulkujen kautta

PET:t suojaavat tietoja käytön aikana. Mitä tulee AI/ML-malleihin, ne voivat myös suojata ajettavan mallin IP-osoitetta – ”kaksi kärpästä, yksi kivi”. PET:itä hyödyntävät ratkaisut tarjoavat mahdollisuuden kouluttaa malleja todellisille, arkaluontoisille tietojoukoille, jotka eivät aiemmin olleet käytettävissä tietosuoja- ja turvallisuussyistä. Tämä tietovirtojen vapauttaminen todellisiin tietoihin on paras tapa vähentää harhaa. Mutta miten se käytännössä toimisi?

Toistaiseksi johtavat vaihtoehdot alkavat luottamuksellisesta laskentaympäristöstä. Sitten integrointi PET-pohjaiseen ohjelmistoratkaisuun, joka tekee siitä käyttövalmis heti alusta alkaen ja vastaa tietoturva- ja tietoturvavaatimuksiin, jotka eivät sisälly standardiin luotettuun suoritusympäristöön (TEE). Tämän ratkaisun avulla mallit ja tiedot salataan ennen kuin ne lähetetään suojattuun laskentaympäristöön. Ympäristöä voidaan isännöidä missä tahansa, mikä on tärkeää tiettyjen tietojen lokalisointivaatimusten osalta. Tämä tarkoittaa, että sekä mallin IP-osoite että syöttötietojen suojaus säilyvät laskennan aikana – edes luotettavan suoritusympäristön tarjoajalla ei ole pääsyä sen sisällä oleviin malleihin tai tietoihin. Salatut tulokset lähetetään sitten takaisin tarkistettavaksi ja lokit ovat saatavilla tarkastettavaksi.

Tämä kulku avaa laadukkaimmat tiedot riippumatta siitä, missä se on tai kenellä se on, luoden polun harhan minimoimiseen ja tehokkaisiin malleihin, joihin voimme luottaa. Tämä virtaus on myös se, mitä EU:n tekoälylaki kuvasi heidän vaatimuksissaan tekoälyn sääntelyä koskevalle hiekkalaatikolle.

Eettisten ja lakien noudattamisen helpottaminen

Hyvän laadun, todellisen tiedon hankkiminen on vaikeaa. Tietosuoja- ja lokalisointivaatimukset rajoittavat välittömästi tietojoukkoja, joihin organisaatiot voivat päästä. Innovaatiota ja kasvua varten dataa on siirrettävä niille, jotka voivat saada siitä arvon.

EU:n tekoälylain 54 artikla sisältää vaatimuksia "korkean riskin" mallityypeille sen suhteen, mitä on todistettava ennen kuin ne voidaan viedä markkinoille. Lyhyesti sanottuna, tiimien on käytettävä todellisen maailman tietoja Tekoälyn sääntelevä hiekkalaatikko osoittaakseen mallin riittävän tehokkuuden ja kaikkien osastossa III luvussa 2 kuvattujen valvontatoimien noudattamisen. Ohjauksiin kuuluvat valvonta, läpinäkyvyys, selitettävyys, tietoturva, tietosuoja, tietojen minimointi ja mallin suojaus – ajattele DevSecOps + Data Ops -toimintoja.

Ensimmäinen haaste on löytää käytettävä reaalimaailman tietojoukko, koska tämä on luonnostaan ​​arkaluontoista dataa tällaisille mallityypeille. Ilman teknisiä takeita monet organisaatiot saattavat epäröidä luottaakseen tietonsa mallintoimittajaan tai eivät saa tehdä niin. Lisäksi tapa, jolla laissa määritellään "AI Regulatory Sandbox", on haaste sinänsä. Jotkin vaatimukset sisältävät takuun siitä, että tiedot poistetaan järjestelmästä mallin ajon jälkeen, sekä hallinnon valvonnan, täytäntöönpanon ja raportoinnin sen todistamiseksi.

Monet organisaatiot ovat yrittäneet käyttää valmiita datan puhtaita huoneita (DCR) ja luotettuja suoritusympäristöjä (TEE). Mutta itsessään nämä tekniikat vaativat huomattavaa asiantuntemusta ja työtä, jotta ne voivat toimia ja täyttää data- ja tekoälyvaatimukset.
DCR:t ovat yksinkertaisempia käyttää, mutta eivät vielä hyödyllisiä vahvempiin AI/ML-tarpeisiin. TEE:t ovat suojattuja palvelimia ja tarvitsevat silti integroidun yhteistyöalustan ollakseen hyödyllisiä ja nopeasti. Tämä kuitenkin osoittaa yksityisyyttä lisääville teknologia-alustoille mahdollisuuden integroitua TEE:iin tämän työn poistamiseksi, mikä tekee tekoälyn sääntelyn mukaisen hiekkalaatikon asennuksen ja käytön vähäpätöisemmäksi ja siten arkaluonteisten tietojen hankinnan ja käytön.

Mahdollistamalla monipuolisempien ja kattavampien tietokokonaisuuksien käytön yksityisyyttä suojelevalla tavalla nämä tekniikat auttavat varmistamaan, että tekoäly- ja ML-käytännöt noudattavat tietosuojaan liittyviä eettisiä standardeja ja lakisääteisiä vaatimuksia (esim. GDPR ja EU:n tekoälylaki Euroopassa). Yhteenvetona voidaan todeta, että vaikka vaatimuksiin vastataan usein kuuluvalla murinalla ja huokauksilla, nämä vaatimukset yksinkertaisesti ohjaavat meitä rakentamaan parempia malleja, joihin voimme luottaa ja joihin voimme luottaa tärkeässä datalähtöisessä päätöksenteossa samalla kun suojellaan mallinkehitykseen käytettyjen rekisteröityjen yksityisyyttä. ja räätälöinti.

Adi Hirschtein on tuotteen varapääjohtaja Kaksinaisuusteknologiat. Adilla on yli 20 vuoden kokemus johtajana, tuotepäällikkönä ja yrittäjänä, joka rakentaa ja ajaa innovaatioita teknologiayrityksissä, jotka keskittyvät ensisijaisesti B2B-startupeihin datan ja tekoälyn alalla. Ennen Dualityä Adi toimi tuotejohtajana Iguaziossa (MLOps-yritys), jonka McKinsey osti, ja sitä ennen hän toimi tuotejohtajana EMC:ssä hankittuaan toisen startup-yrityksen nimeltä Zettapoint (tietokanta- ja tallennusyhtiö), jossa hän palveli. tuotejohtajana, joka johtaa tuotetta alusta alkaen markkinoille pääsyyn ja kasvuun.