Etîk
Pratîkên AI-ê yên heyî Dikarin Nifşek Nû ya Trollên Mafên Mafên Mirovan Bikin

Hevkariya lêkolînê ya nû ya di navbera Huawei û akademiyê de destnîşan dike ku gelek lêkolînên heyî yên herî girîng ên di îstîxbarata sûnî û fêrbûna makîneyê de dibe ku di demek zû de ku ew ji hêla bazirganiyê ve girîng dibe, li ber dozgeriyê were rûxandin, ji ber ku danehevên ku serkeftinan mimkun dikin bi nederbasdar têne belav kirin. lîsansên ku rêzê li şertên orîjînal ên domên-rûyê giştî yên ku dane ji wan hatine girtin nagirin.
Di rastiyê de, ev du encamên gengaz ên hema hema neçar hene: ew algorîtmayên AI-ê yên pir serketî, bazirganî yên ku têne zanîn ku danehevên weha bikar anîne dê bibin hedefên pêşerojê yên patentên oportunîst ên ku dema ku daneyên wan hatin hilanîn mafên wan ên çapkirinê rêz nehat girtin; û ku rêxistin û kes dê karibin van heman qelsiyên qanûnî bikar bînin da ku li dijî bicihkirin an belavbûna teknolojiyên fêrbûna makîneyê yên ku ew nerazî dibînin protesto bikin.
Ew kaxez sernavkirî ye Ma ez dikarim vê daneya berdest a gelemperî bikar bînim da ku nermalava AI-ya bazirganî ava bikim? Bi îhtîmaleke mezin na, û hevkariyek di navbera Huawei Canada û Huawei China de ye, bi hev re digel Zanîngeha York li Keyaniya Yekbûyî û Zanîngeha Victoria li Kanada.
Pênc ji şeş (populer) Daneyên Çavkaniya Vekirî ku bi qanûnî nayên bikar anîn
Ji bo lêkolînê, nivîskaran ji beşên Huawei xwestin ku danehevên çavkaniya vekirî ya herî xwestî hilbijêrin ku ew dixwazin di projeyên bazirganî de îstismar bikin, û şeş daneyên herî daxwazkirî ji bersivan hilbijart: CIFAR-10 (binkomek ji 80 mîlyon wêneyên piçûk database, ji ber vekişandin ji bo 'gotinên biçûkxistinê' û 'wêneyên êrîşkar', her çend jêderkên wê zêde dibin); IMAGEnet; Cityscapes (ku bi taybetî materyalê orîjînal dihewîne); FFHQ; VGGFace2, û MSCOCO.
Ji bo analîzkirina ka daneyên hilbijartî ji bo karanîna qanûnî di projeyên bazirganî de maqûl in, nivîskaran xêzek nû pêş xistin da ku zincîra destûrnameyên ku ji bo her komekê pêkan bû bişopînin, her çend ew bi gelemperî neçar bûn ku serî li girtina arşîvên malperê bidin da ku lîsansên ji domên ku niha qediya ne bibînin, û di hin rewşan de neçar bûn ku rewşa lîsansê ji agahdariya berdest a herî nêzîk 'texmîn bikin'.

Mîmarî ji bo pergala peyda-derbasbûnê ya ku ji hêla nivîskaran ve hatî pêşve xistin. Çavkanî: https://arxiv.org/pdf/2111.02374.pdf
Nivîskaran dît ku lîsans ji bo pênc ji şeş danezan 'Rêzikên ku bi kêmî ve çarçoveyek karanîna bazirganî ve girêdayî ne hene':
'[Em] dibînin ku, ji bilî MS COCO, yek ji lîsansên lêkolînkirî destûr nade bijîjkan ku modelek AI-ê ya ku li ser daneyan an tewra jî hilberîna modela AI-ya perwerdekirî bazirganî bazirganî bikin. Encamek wusa di heman demê de bi bandor rê nade ku bijîjkan jî modelên pêş-perwerdekirî yên ku li ser van danezan hatine perwerde kirin bikar bînin. Daneyên berdest ên gelemperî û modelên AI-ê yên ku li ser wan berê hatine perwerde kirin ev in bi berfirehî bazirganî tê bikaranîn.' *
Nivîskar wekî din destnîşan dikin ku sê ji şeş daneyên lêkolînkirî dikarin di hilberên bazirganî de binpêkirina lîsansê di hilberên bazirganî de jî encam bidin, ji ber ku tenê MS-COCO vê destûrê dide. Lêbelê zêdekirina daneyan û jêr-kom û super-komên daneyên bandorker pratîkek hevpar e.
Di mijara CIFAR-10-ê de, berhevkarên orîjînal qet formek lîsansê ya konvansiyonel neafirandin, tenê hewce kir ku projeyên ku danehevê bikar tînin navgînek li kaxeza orîjînal a ku bi berdana danehevê re têkildar e, hebe, û astengiyek din ji sazkirinê re peyda dike. rewşa qanûnî ya daneyan.
Wekî din, tenê databasa CityScapes dihewîne materyalê ku bi taybetî ji hêla damezrênerên daneyê ve hatî hilberandin, li şûna ku ji çavkaniyên torê were 'rêvekirin' (xurandin), digel ku CIFAR-10 û ImageNet gelek çavkaniyan bikar tînin, ku her yek ji wan hewce dike ku were lêkolîn kirin. û ji bo ku her cûre mekanîzmayek mafnasiyê saz bike (an tewra jî behskirinek watedar) paşde hat şopandin.
Çı ré nine
Sê faktor hene ku pargîdaniyên AI-ê yên bazirganî dixuye ku pişta xwe bi wan ve girêdidin da ku wan ji dozgeriyê li ser hilberên ku naveroka parastî ya ji daneyên danûstendinê bi serbestî û bê destûr bikar anîne biparêzin, ji bo perwerdekirina algorîtmayên AI-yê bikar bînin. Yek ji van pir (an jî) parastina demdirêj a pêbawer nade:
1: Qanûnên Neteweyî yên Laissez Faire
Her çend hukûmetên li çaraliyê cîhanê neçar in ku qanûnên li dor berhevkirina daneyan rehet bikin di hewildanek ku paşde nekevin pêşbaziya berbi AI-ya performansa (ya ku xwe dispêre cildên zêde yên daneyên cîhana rastîn ên ku pêbendbûna birêkûpêk û lîsansa mafê kopîkirinê dê nerealîst be), tenê Dewletên Yekbûyî di vî warî de parêzbendiyek tam pêşkêşî dike Doktrîna Bikaranîna Adil - Siyaseta ku di sala 2015an de bi ya xelasî ya Nivîskarên Guild v. Google, Inc., ku piştrast kir ku dêwek lêgerînê dikare bi serbestî bêyî ku bi binpêkirinê were tawanbar kirin, materyalên xwedî mafparêz ji bo projeya xweya Google Books têxe nav xwe.
Ger polîtîkaya Doktrîna Bikaranîna Adil her dem biguhere (ango di bersivdana dozek din a girîng a ku rêxistin an pargîdaniyên têra xwe hêzdar e), ew ê wekî a priori dewlet di warê îstismarkirina databasên heyî yên binpêkirina mafan, parastina karanîna berê; lê na berdewam bikaranîn û pêşdebirina pergalên ku bêyî lihevhatin bi materyalên bi mafê kopîkirinê ve hatine çalak kirin.
Ev yek parastina heyî ya Doktrîna Bikaranîna Adil li ser bingehek pir demkî dihêle, û dibe ku di wê senaryoyê de, hewce bike ku algorîtmayên fêrbûna makîneyê yên damezrandî, bazirganî yên damezrandî yên bazirganî rawestînin di rewşên ku eslê wan ji hêla materyalê mafparêz ve hatî çalak kirin - tewra di rewşên ku modelên giran naha tenê bi naveroka destûrdayî re mijûl dibin, lê li ser naveroka kopîkirî ya neqanûnî hatine perwerde kirin (û bikêr hatine).
Li derveyî Dewletên Yekbûyî, wekî ku nivîskar di kaxeza nû de destnîşan dikin, siyaset bi gelemperî kêmtir nerm in. Keyaniya Yekbûyî û Kanada tenê ji bo mebestên ne-bazirganî bikar anîna daneya xwedan mafdar tazmînatê dide, dema ku Qanûna Nivîsar û Daneyên Daneyên Yekîtiya Ewropî (ya ku bi tevahî ji hêla pêşniyarên dawî ji bo rêziknameya fermî ya AI-ê) di heman demê de îstismarkirina bazirganî ya ji bo pergalên AI-yê yên ku bi daxwazên mafên xwerû yên daneyên orîjînal re tevnagerin jî derdixe holê.
Van aranjmanên paşîn tê vê wateyê ku rêxistinek dikare bi daneyên kesên din re tiştên mezin bi dest bixe, heya - lê ne di nav de - xala ku ji wê yekê drav bide qezenc kirin. Di wê qonaxê de, hilber an dê bi qanûnî eşkere bibe, an jî pêdivî ye ku aranjman bi rastî bi mîlyonan xwedan mafên çapkirinê re bêne çêkirin, ku gelek ji wan naha ji ber xwezaya guheztina înternetê nayên şopandin - perspektîfek ne mumkin û nederbasdar.
2: Caveat Emptor
Di rewşên ku rêxistinên binpêker hêvî dikin ku sûcdariyê paşde bixin, kaxeza nû di heman demê de dibîne ku gelek lîsansên ji bo danehevên çavkaniya vekirî ya herî populer xwe li hember her îdiayên binpêkirina mafnasiyê bixweber xera dikin:
'Mînakî, lîsansa ImageNet bi eşkere ji bijîjkan re hewce dike ku tîmê ImageNet li hember her îdîayên ku ji karanîna databasê derdikevin berdêl bidin. Danûstandinên FFHQ, VGGFace2 û MS COCO hewce ne ku danehev, ger were belavkirin an were guheztin, di bin heman lîsansê de were pêşkêş kirin.'
Bi bandor, ev yek wan kesên ku daneyên FOSS bikar tînin neçar dike ku sûcdariya ji bo karanîna materyalê bi mafên xweparastinê, li pêşberî dozek dawîn bigire (her çend ew ne hewce ye ku berhevkarên orîjînal di rewşek ku hewaya heyî ya 'lîmangeha ewledar' pêk tê de biparêze).
3: Tezmînata Bi Nerazîbûnê
Xwezaya hevkar a civata fêrbûna makîneyê karanîna okultîzma pargîdanî ji bo veşartina hebûna algorîtmayên ku ji berhevokên danûstendinên binpêkirina mafparêziyê sûd werdigirin zehf dijwar dike. Projeyên bazirganî yên demdirêj bi gelemperî li hawîrdorên vekirî yên FOSS-ê dest pê dikin ku karanîna daneyan mijarek qeydkirî ye, li GitHub û forumên din ên gihîştî yên gelemperî, an jî li cihê ku eslê projeyê di kaxezên pêş-çapkirî an peer-nirxandî de hatine weşandin.
Tewra ku ev ne wusa be jî, veguherîna modelê is her ku diçe jêhatî dibe eşkerekirina taybetmendiyên tîpîk ên daneyan (an jî heta bi eşkereyî derdixe hin materyalên çavkaniyê), an bi serê xwe delîl peyda dike, an jî têra gumana binpêkirinê heye ku bi fermana dadgehê gihîştina dîroka pêşkeftina algorîtmê, û hûrguliyên danehevên ku di wê pêşkeftinê de hatine bikar anîn.
Xelasî
Kaxez karanîna kaotîk û ad hoc a materyalên bi mafên xweparastinê yên ku bêyî destûr hatine wergirtin, û rêzek zincîreyên destûrnameyê nîşan dide ku, bi mentiqî heta çavkaniya orîjînal a daneyan bişopîne, dê hewceyê danûstandinan bi hezaran xwediyên mafên kopîkirinê yên ku xebata wan hatî pêşkêş kirin. di bin sîwana malperên bi cûrbecûr şertên lîsansê de, ku gelek karên bazirganî yên jêhatî asteng dikin.
Nivîskar
'Danûsteyên berdest ên gelemperî bi berfirehî têne bikar anîn da ku nermalava AI-ya bazirganî ava bikin. Meriv dikare wiya bike heke [û] tenê heke lîsansa ku bi databasa gelemperî ya berdest ve girêdayî ye mafê wiya peyda bike. Lêbelê, ne hêsan e ku meriv maf û berpirsiyariyên ku di lîsansê de bi daneyên danûstendinên gelemperî ve girêdayî têne peyda kirin verast bikin. Ji ber ku carinan lîsans ne diyar e an jî dibe ku nederbasdar be.'
Xebateke din a nû, bi navê Avakirina Daneyên Hiqûqî, ku di 2-yê Mijdarê de ji Navenda Hiqûqa Hesabkirinê ya li Zanîngeha Rêvebiriya Sîngapurê hate berdan, di heman demê de balê dikişîne ser hewcedariya zanyarên daneyê ku nas bikin ku serdema 'rojavaya çolê' ya berhevkirina daneya ad hoc ber bi nêzîkbûnê ve diçe, û pêşniyarên Huawei dişopîne. kaxez ji bo ku adet û metodolojiyên hişktir bipejirînin da ku pê ewle bibin ku karanîna danezan projeyek li ber encamên qanûnî dernakeve ji ber ku çand bi demê re diguhere, û ji ber ku çalakiya akademîk a gerdûnî ya heyî di sektora fêrbûna makîneyê de vegerek bazirganî li ser veberhênana salan digere. . Nivîskar dibîne *:
Di nav fikarên ku qanûnên heyî pêşkêş dikin de, di nav fikarên ku qanûnên heyî pêşkêş dikin de, navgîniya qanûnên ku bandorê li daneyên ML dike mezin dibe. nebes parastin. Pêşnûmeya AIA [Qanûna Îstixbarata Hunerî ya YE], ger û dema ku derbas bibe, dê AI û perestgeha rêveberiya daneyê bi girîngî biguhezîne; darazên din dikarin bi Qanûnên xwe bişopînin. '
* Veguheztina min a navgînên hundurîn berbi hîpergirêdan