Ajatusjohtajat
Onko selvä ratkaisu generatiivisen tekoälyn aiheuttamiin tietosuojariskeihin?
Generatiivisen tekoälyn aiheuttamat tietosuojariskit ovat hyvin todellisia. Teollisuuden valvontaan ja altistumiseen liittyvien riskien lisäksi generatiivinen tekoäly heikentää yksityisyyttä joukkoon, erottamatta, ja tarjoaa pahantahtoisille toimijoille, olivat he rikollisia, valtiontukea saavia tai hallituksen omistamia, välineet joilla kohdistaa yksilöitä ja ryhmiä.
Selvin ratkaisu tähän ongelmaan on, että kuluttajat ja käyttäjät yhdessä kääntävät selkänsä tekoälyhypelle, vaativat avoimuutta niiltä, jotka kehittävät tai toteuttavat niin sanottuja tekoälyominaisuuksia, ja tehokasta sääntelyä hallituksilta, jotka valvovat niiden toimintaa. Vaikka tämä on arvokasta tavoiteltavaa, se ei ole todennäköistä tapahtuvan lähipäivinä.
Mitä jää jäljelle, ovat kohtuulliset, vaikka välttämättä epätäydelliset, lähestymistavat generatiivisen tekoälyn tietosuojariskien lieventämiseksi. Pitkän aikavälin, varma ja tylsä ennuste on, että mitä enemmän julkinen tietää yleisesti tietosuojasta, sitä vähemmän generatiivisen tekoälyn joukkomassan omaksuminen aiheuttaa tietosuojariskejä.
Pääsevätkö kaikki oikein ymmärtämään generatiivisen tekoälyn käsitteen?
Tekoälyhype on niin yleinen, että kysely siitä, mitä ihmiset tarkoittavat generatiivisella tekoälyllä, on tuskin välttämätöntä. Tietenkään nämä “tekoäly” -ominaisuudet, toiminnallisuudet ja tuotteet eivät edusta todellista tekoälyä, mikä tahansa se olisi. Sen sijaan ne ovat pääasiassa konemäärittelyn (ML), syväoppimisen (DL) ja suurten kielen mallien (LLM) esimerkkejä.
Generatiivinen tekoäly, kuten nimestä voidaan päätellä, voi luoda uutta sisältöä – olipa se tekstiä (mukaan lukien ohjelmointikieli), ääntä (mukaan lukien musiikkia ja ihmismäistä ääntä) tai videoita (äänen, dialogin, leikkausten ja kameran muutosten kanssa). Kaikki tämä saavutetaan kouluttamalla LLM: ät tunnistamaan, vastaamaan ja uudelleen tuottamaan kuvioita ihmisten luomassa sisällössä.
Otamme esimerkiksi ChatGPT:n. Kuten useat LLM:t, se on koulutettu kolmessa laajassa vaiheessa:
- Esikoulutus: Tässä vaiheessa LLM: ään “syötetään” tekstiaineistoa internetistä, kirjoista, akateemisista lehdistä ja mistä tahansa muusta, joka sisältää mahdollisesti merkityksellistä tai hyödyllistä tekstiä.
- Valvottu ohjaus hienosäätö: Malleja koulutetaan vastaamaan ohjeisiin ymmärrettävämmällä tavalla käyttäen laadukkaita ohje-vastaus -paria, jotka on yleensä peräisin ihmisistä.
- Vahvistus oppiminen ihmisten palautteesta (RLHF): LLM: t kuten ChatGPT usein käyvät läpi tämän lisäkoulutuksen, jossa vuorovaikutus ihmisten kanssa käytetään mallin säätämiseen tyypillisten käyttötapausten mukaisesti.
Kaikki kolme koulutusvaihetta vaativat dataa, joko valtavia varastoja etukäteen kerättyä dataa (kuten niitä, joita käytetään esikoulutuksessa) tai dataa, joka kerätään ja prosessoidaan melkein reaaliajassa (kuten RLHF: ssä käytettävää). Se data kantaa suurimman osan generatiivisen tekoälyn aiheuttamista tietosuojariskeistä.
Mitkä ovat generatiivisen tekoälyn aiheuttamat tietosuojariskit?
Yksityisyys vaarantuu, kun yksilöön (tietosuojan kohteeseen) liittyvää henkilökohtaista tietoa julkaistaan muille yksilöille tai yrityksille ilman tietosuojan kohteen suostumusta. LLM: t ovat esikoulutettu ja hienosäätelty erittäin laajalla datan valikoimalla, joka voi ja usein sisältää henkilökohtaista dataa. Tämä data on tyypillisesti poimittu julkisesti saatavilla olevista lähteistä, mutta ei aina.
Vaikka data otetaan julkisesti saatavilla olevista lähteistä, sen aggregoiminen ja prosessointi LLM: n avulla ja sitten käytännössä tehdään hakukelpoiseksi LLM: n käyttöliittymän kautta voidaan väittää olevan yksityisyyden lisäriski.
Vahvistus oppi ihmisiltä saadusta palautteesta (RLHF) monimutkaistaa asioita. Tässä koulutusvaiheessa käytetään todellisia vuorovaikutuksia ihmisten kanssa korjaamaan ja hienosäätämään LLM: n vastauksia. Tämä tarkoittaa, että käyttäjän vuorovaikutus LLM: n kanssa voidaan tarkastella, jakaa ja levittää kenellä tahansa, jolla on pääsy koulutusdataan.
Useimmissa tapauksissa tämä ei ole tietosuojarikos, koska useimmat LLM-kehittäjät sisällyttävät tietosuojakäytäntöjä ja palveluehtoja, jotka edellyttävät käyttäjien suostumusta ennen kuin he vuorovaikuttavat LLM: n kanssa. Tietosuojariski piilee kuitenkin siinä, että monet käyttäjät eivät ole tietoisia siitä, että he ovat suostuneet tällaiseen datan keräämiseen ja käyttöön. Nämä käyttäjät ovat todennäköisesti paljastavat yksityisiä ja arkaluontoisia tietoja vuorovaikutuksissaan näiden järjestelmien kanssa, eivätkä he tajua, että nämä vuorovaikutukset eivät ole luottamuksellisia eivätkä yksityisiä.
Tällä tavoin päädyimme kolmeen tavanomaiseen tapaan, joilla generatiivinen tekoäly aiheuttaa tietosuojariskejä:
- Suuret varastot esikoulutusdataa, jotka sisältävät mahdollisesti henkilökohtaista tietoa, ovat alttiina vaarantumiselle ja vuodatukselle.
- Henkilökohtainen tieto, joka sisältyy esikoulutusdataan, voidaan vuotaa muiden saman LLM: n käyttäjien käyttöön sen vastauksien ja ohjeiden kautta.
- Henkilökohtainen ja luottamuksellinen tieto, joka annetaan LLM: n kanssa vuorovaikuttaessa, päätyy LLM: n työntekijöiden ja mahdollisesti kolmansien osapuolien alihankkijoiden haltuun, mistä se voidaan tarkastella tai vuotaa.
Nämä ovat kaikki riskejä käyttäjien yksityisyydelle, mutta henkilökohtaisten tunnistetietojen (PII) päätyminen väärään käsiin näyttää edelleen melko pieneltä. Se on ainakin kunnes tietojen välittäjät astuvat kuvaan. Nämä yritykset erikoistuvat henkilökohtaisten tunnistetietojen etsimiseen ja keräämiseen sekä niiden levittämiseen, ellei niitä suoraan lähettä.
Kun PII ja muut henkilökohtaiset tiedot ovat muuttuneet jonkinlaiseksi hyödykkeeksi ja tietojen välittäjätoimiala on kehittynyt hyödyntämään tätä, kaikki henkilökohtainen data, joka pääsee “siellä ulos”, on liian todennäköistä, että tietojen välittäjät poimivat ja levittävät sen laajasti.
Generatiivisen tekoälyn tietosuojariskit asiayhteydessä
Ennen kuin tarkastelemme generatiivisen tekoälyn aiheuttamia tietosuojariskejä tietyissä tuotteissa, palveluissa ja yritysten yhteistyössä, otetaan askel taaksepäin ja tarkastellaan laajemmin generatiivisen tekoälyn riskejä. Kirjoittaessaan IAPP: lle Moraes ja Previtali ottivat dataohjatun lähestymistavan Soloven vuoden 2006 “Tietosuojan taksonomia” -työn tarkentamiseksi, vähentäen 16 tietosuojariskiä 12 tekoälyyn liittyvään tietosuojariskiin.
Nämä ovat 12 tietosuojariskiä, jotka sisältyvät Moraesin ja Previtalin uudistettuun taksonomiaan:
- Valvonta: Tekoäly lisää valvontariskejä henkilökohtaisten tietojen keräämisen laajuuden ja yleisyyden kautta.
- Tunnistaminen: Tekoälytekniikat mahdollistavat automaattisen identiteetin linkittämisen eri tietolähteiden välillä, lisäten riskejä henkilökohtaisen identiteetin paljastumiseen liittyen.
- Aggregaatio: Tekoäly yhdistää erilaisia tietoja henkilöstä, jotta voidaan tehdä johtopäätöksiä, mikä luo riskejä yksityisyyden loukkaamiseen.
- Frenologia ja fysiognomia: Tekoäly johtaa henkilön luonteenpiirteitä tai sosiaalisia ominaisuuksia fyysisistä ominaisuuksista, uusi riskiluokka, jota ei ole Soloven taksonomiassa.
- Toissijainen käyttö: Tekoäly lisää henkilökohtaisten tietojen käyttöä muuhun tarkoitukseen kuin alkuperäiseen tarkoitukseen datan uudelleenohjauksen kautta.
- Sulkeutuminen: Tekoäly tekee käyttäjille epäselväksi, miten heidän tietojaan käytetään, mikä voi johtaa käyttäjien tietämättömyyteen ja heidän hallinnan puutteeseen tietojensa käytöstä.
- Tietoturva: Tekoälyn datavaatimukset ja tietojen varastointikäytännöt altistavat tietovuodoille ja virheelliselle käytölle.
- Paljastuminen: Tekoäly voi paljastaa arkaluontoista tietoa, kuten generatiivisen tekoälyn tekniikoiden kautta.
- Vääristyminen: Tekoälyn kyky luoda realistista, mutta väärää sisältöä lisää väärän ja harhan tietojen leviämistä.
- Paljastaminen: Tekoäly voi aiheuttaa datan jakamisen, kun se johtaa lisää arkaluontoista tietoa raakadatasta.
- Lisääntyvä saatavuus: Tekoäly tekee arkaluontoista tietoa helpommin saataville laajemmalle yleisölle kuin tarkoitettu.
- Hyökkäys: Tekoälytekniikat voivat loukata yksityisyyttä ja yksinäisyyttä, usein valvontatoimenpiteiden kautta.
Tämä on melko hälyttävää luettavaa. On tärkeää huomata, että tämä taksonomia, sen ansioista, ottaa huomioon generatiivisen tekoälyn taipumuksen hallusinoida – luoda ja esittää tosiasiallisesti virheellistä tietoa. Tämä ilmiö, vaikka se harvoin paljastaa todellista tietoa, on myös tietosuojariski. Väärän ja harhan tiedon leviäminen vaikuttaa kohteen yksityisyyteen tavoilla, jotka ovat häikäisevämpiä kuin tapauksessa, jossa on kyse oikeasta tiedosta.
Levitätään tietoa joistakin konkreettisista esimerkeistä siitä, miten nämä tietosuojariskit toteutuvat todellisissa tekoälytuotteissa.
Suorat vuorovaikutukset tekstipohjaisen generatiivisen tekoälyjärjestelmän kanssa
Yksinkertaisin tapaus on se, jossa käyttäjä vuorovaikuttaa suoraan generatiivisen tekoälyjärjestelmän kanssa, kuten ChatGPT, Midjourney tai Gemini. Käyttäjän vuorovaikutukset näiden tuotteiden kanssa tallennetaan, säilytetään ja käytetään RLHF: n (vahvistusoppi ihmisiltä saadusta palautteesta), valvotun ohjaus hienosäätön ja jopa muiden LLM: n esikoulutuksessa.
Monien näiden palvelujen tietosuojakäytäntöjen analyysi paljastaa myös muita tietojen jakamistoimia, jotka perustuvat erilaisiin tarkoituksiin, kuten markkinointiin ja tietojen välittämiseen. Tämä on toinen tietosuojariski, jota generatiivinen tekoäly edustaa: nämä järjestelmät voidaan luonnehtia valtaviksi tietojen imuriksi, jotka keräävät käyttäjien antamaa dataa sekä sitä, mitä heidän vuorovaikutuksensa näiden järjestelmien kanssa tuottavat.
Vuorovaikutukset upotettujen generatiivisten tekoälyjärjestelmien kanssa
Jotkut käyttäjät voivat vuorovaikuttaa generatiivisen tekoälyliittymien kanssa, jotka on upotettu mihin tahansa tuotteeseen, jota he ovat käyttämässä. Käyttäjä saattaa tietää, että hän on käyttämässä “tekoäly” -ominaisuutta, mutta hän on vähemmän tietoinen siitä, mitä se tarkoittaa tietosuojan kannalta. Se, mikä nousee esille upotetuissa järjestelmissä, on puute ymmärryksestä siitä, että henkilökohtainen data, jota jaetaan LLM: n kanssa, voi päätyä kehittäjien ja tietojen välittäjien haltuun.
Tässä on kaksi tasoa tietämättömyyttä: jotkut käyttäjät tietävät, että he ovat käyttämässä generatiivista tekoälytuotetta; ja jotkut uskovat, että he käyttävät tuotetta, johon generatiivinen tekoäly on upotettu tai jota se on käytetty. Kummassakin tapauksessa käyttäjä on todennäköisesti antanut (ja luultavasti antoi) teknisesti suostumuksensa ehtoihin ja ehdoihin, jotka liittyvät vuorovaikutukseen upotetun järjestelmän kanssa.
Muut yhteistyöt, jotka altistavat käyttäjiä generatiivisille tekoälyjärjestelmille
Jotkut yritykset upottavat tai ottavat generatiivisen tekoälyliittymän osaksi ohjelmistoaan tavoin, joka on vähemmän ilmeinen, jolloin käyttäjät vuorovaikuttavat – ja jakavat tietoja – kolmansien osapuolien kanssa tietämättä siitä. Onneksi “tekoäly” on muodostunut niin tehokkaaksi myyntipisteeksi, ettei yritys todennäköisesti pitäisi tällaista toteutusta salassa.
Toinen ilmiö tässä asiayhteydessä on kasvava takaisku, jonka yritykset ovat kokeneet yrittäessään jakaa käyttäjien tai asiakkaiden tietoja generatiivisen tekoälyyritysten, kuten OpenAI: n, kanssa. Tietojen poistopalvelu Optery esimerkiksi käänsi äskettäin päätöksensä lähettää käyttäjien tietoja OpenAI: lle opt-out -perusteella, mikä tarkoitti, että käyttäjät olivat mukana ohjelmassa oletusarvoisesti.
Ei vain asiakkaat ilmaisseet pettyneisyyttään, vaan yrityksen tietojen poistopalvelu poistettiin myös Privacy Guidesin suositeltujen tietojen poistopalvelujen luettelosta. Opteryn kunniaan on sanottava, että se käänsi nopeasti ja avoimesti päätöksensä, mutta yleinen takaisku on merkittävä: ihmiset alkavat ymmärtää riskejä, joita “tekoäly” -toteutukset sisältävät.
Opteryn tapaus on hyvä esimerkki tästä, koska sen käyttäjät ovat jollain tavoin edelläkävijöitä kasvavassa epäilyssä, joka kohdistuu tekoälytoteutuksiin. Ihmiset, jotka valitsevat tietojen poistopalvelun, ovat tyypillisesti niitä, jotka kiinnittävät huomiota muutoksiin palveluehtoihin ja tietosuojakäytäntöihin.
Todisteita kasvavasta takaiskusta generatiivisen tekoälyn tietojen käytölle
Tietosuojatietoiset kuluttajat eivät ole ainoat, jotka ovat nostaneet esiin huolenaiheita generatiivisista tekoälyjärjestelmistä ja niiden liittyvistä tietosuojariskeistä. Lainsäädännöllisellä tasolla EU: n Tekoälylain luokittelee riskejä niiden vakavuuden mukaan, ja tietosuojalla on yleensä nimenomaan tai epäsuorasti kriteeri, jolla määritetään vakavuus useimmissa tapauksissa. Laki käsittelee myös aiemmin käsiteltyjä informoidun suostumuksen kysymyksiä.
Yhdysvallat, joka on tunnetusti hitaasti omaksunut kattavaa, liittovaltion tietosuojalainsäädäntöä, on kuitenkin joitakin esteitä paikassa kiitos Toimeenpano 14110. Jälleen kerran tietosuojahuolenaiheet ovat eturintamassa määräyksen tarkoituksissa: “vastuuton käyttö [tekoälytekniikoista] voi pahentaa yhteiskunnallisia haittoja, kuten petoksia, syrjintää, puolueellisuutta ja virheellistä tietoa” – kaikki liittyvät henkilökohtaisten tietojen saatavuuteen ja leviämiseen.
Palattaessa kuluttajatasolle ei ole vain erityisen tietosuojatietoisia kuluttajia, jotka ovat reagoineet tietosuojaa loukkaaviin generatiivisiin tekoälytoteutuksiin. Microsoftin nyt maineikas “tekoälyvoittoinen” Recall -ominaisuus, joka on tarkoitettu Windows 11 -käyttöjärjestelmälle, on tässä suhteessa esimerkki. Kun tietosuojan ja turvallisuuden riskien laajuus paljastui, takaisku oli tarpeeksi voimakas saamaan teknologiajätin perääntymään. Valitettavasti Microsoft ei näyttäisi luopuvan ajatuksesta, mutta alkuperäinen julkisen reaktio on kuitenkin rohkaiseva.
Pysytellen Microsoftissa, sen Copilot-ohjelma on laajasti arvosteltu sekä tietosuojan että tietoturvaongelmien vuoksi. Koska Copilot on koulutettu GitHub -dataa (pääasiassa lähdekoodia), kiistaa syntyi myös ohjelmistokehittäjien ja kehittäjien ohjelmistolisenssisopimusten mahdollisista rikkomisista Microsoftin toiminnassa. Tässä tapauksessa tietosuojan ja immateriaalioikeuksien rajat alkavat hämärtää, antaen tietosuojalle rahallisen arvon – jotain, mitä ei voida helposti tehdä.
Ehkä suurin osoitus siitä, että tekoäly on muodostumassa punaiseksi lipuksi kuluttajien silmissä, on sen, että Apple sai laimean, ellei suoranaisen vastahakoisen, julkisen reaktion sen alkuperäisestä tekoälyjulkistuksesta, erityisesti tietojen jakamissopimuksista OpenAI: n kanssa.
Palapeliratkaisut
On askelia, joita lainsäätäjät, kehittäjät ja yritykset voivat ottaa generatiivisen tekoälyn aiheuttamien riskien lieventämiseksi. Nämä ovat erityisiä ratkaisuja tiettyihin ongelmakohtiin, eivätkä ne ole yksin riittäviä. Ne vaativat lainsäädännöllistä tukea, jotta ne voisivat tulla merkityksellisiksi, mikä tarkoittaa, että ne ovat taipuvaisia jäämään takapajulle, kun tämä dynaaminen ala jatkaa kehittymistään.
- Dataminimointi. Datamäärän minimointi on kohtuullinen tavoite, mutta se on suoraan vastakkainen generatiivisen tekoälyn kehittäjien toiveisiin koulutusdataa.
- Avoinheitto. Nykyisen konemäärittelyn tilan vuoksi tämä saattaa olla jopa teknisesti mahdotonta monissa tapauksissa. Näkemys siitä, mitä dataa käsitellään ja miten generatiivisen tekoälyn tuotoksissa, on yksi tapa varmistaa yksityisyys generatiivisessa tekoälyssä.
- Anonyymiys. Kaikki PII, jota ei voida poistaa koulutusdatasta (dataminimoinnin kautta), tulisi anonyymisoida. Ongelma on, että monet suositut anonyymiys- ja pseudonymisointitekniikat voidaan helposti voittaa.
- Käyttäjien suostumus. Käyttäjien vaatiminen antamaan suostumus heidän tietojensa keräämiseen ja jakamiseen on välttämätöntä, mutta se on liian avoin väärinkäytölle ja kuluttajien tietämättömyydelle, jotta se olisi tehokas. Tarvitaan informoitu suostumus, ja useimmat kuluttajat, joille on annettu asianmukainen tieto, eivät antaisi suostumusta tällaiseen tietojen jakamiseen, joten kannustimet ovat väärässä.
- Tietojen suojaaminen siirrossa ja levossa. Tietosuojan ja tietoturvan perusta, tietojen suojaaminen kryptografisin ja muiden keinoin, voidaan aina tehdä tehokkaammaksi. Generatiiviset tekoälyjärjestelmät kuitenkin vuotavat tietoja käyttöliittymien kautta, mikä tekee tästä vain osan ratkaisusta.
- Tekijänoikeuden ja immateriaalioikeuden noudattaminen tekoälyssä. Konemäärittely voi toimia “mustassa laatikossa”, mikä tekee vaikeaksi, ellei mahdottomaksi, jäljittää, mihin tekoälytuotokseen mihinkään tekijänoikeuden tai immateriaalioikeuden materiaalia päätyy.
- Tarkastukset. Toinen tärkeä varmistus, jota estää LLM: n ja sen tukemien generatiivisten tekoälytuotteiden suljettu luonne. Tämän sisäänrakennetun rajoituksen lisäksi on myös se, että useimmat generatiiviset tekoälytuotteet ovat suljettuja, mikä rajoittaa tarkastukset vain niihin, jotka kehittäjä tekee omalla tahdollaan.
Kaikki nämä lähestymistavat ongelmaan ovat päteviä ja tarpeen, mutta mikään niistä ei ole riittävä. Ne vaativat lainsäädännöllistä tukea, jotta ne voisivat tulla merkityksellisiksi, mikä tarkoittaa, että ne ovat taipuvaisia jäämään takapajulle, kun tämä dynaaminen ala jatkaa kehittymistään.
Selkeä ratkaisu
Ratkaisu generatiivisen tekoälyn aiheuttamiin tietosuojariskeihin ei ole vallankumouksellinen eikä jännittävä, mutta sen loogiseen johtopäätökseen vievänä se voi olla kumpaakin. Selkeä ratkaisu vaatii, että arkiset kuluttajat tulevat tietoisiksi siitä, miten arvokasta heidän data on yrityksille ja miten arvokasta yksityisyys on heille itselleen.
Kuluttajat ovat lähteitä ja moottoreita, jotka pyörittävät yksityistä tietoa, joka voimaa modernia valvontataloutta. Kun kriittinen määrä kuluttajia alkaa hillitä yksityisen datan virtausta julkiseen sfääriin ja alkaa vaatia vastuuta yrityksiltä, jotka käyttävät henkilökohtaista dataa, järjestelmä joutuu itse korjaamaan itsensä.
Rohkaiseva asia generatiivisessa tekoälyssä on, että se ei välttämättä vaadi henkilökohtaista tietoa missään vaiheessa. Esikoulutus- ja hienosäätödata ei tarvitse sisältää PII: ä tai muita henkilökohtaisia tietoja, ja käyttäjien ei tarvitse paljastaa samaa vuorovaikutuksissaan generatiivisen tekoälyjärjestelmien kanssa.
Poistaakseen henkilökohtaisen datan koulutusdatasta, ihmiset voivat mennä suoraan lähteeseen ja poistaa profiilinsa eri tietojen välittäjiltä (mukaan lukien henkilöhakusivustot), jotka keräävät julkisia tietoja ja saattavat ne kierrätysmarkkinoille. Henkilökohtaisten tietojen poistopalvelut automatisoivat prosessin, tehdessä siitä nopean ja helpon. Tietenkin henkilökohtaisten tietojen poistaminen näiden yritysten tietokannoista on monia muita hyötyjä ja ei mitään haittoja.
Ihmiset myös luovat henkilökohtaista dataa vuorovaikuttaessaan ohjelmistojen kanssa, mukaan lukien generatiivinen tekoäly. Estääkseen tämän datavirran, käyttäjien on oltava tietoisia siitä, että heidän vuorovaikutuksensa tallennetaan, tarkastellaan, analysoidaan ja jaetaan. Heidän valikoimansa välttääkseen tämän ovat rajoittaa sitä, mitä he paljastavat verkkoon, ja käyttää laitteistopohjaisia, avoimia LLM: ää, missä tahansa mahdollisessa.












