私達ず接続

珟圚の AI の実践により、新䞖代の著䜜暩荒らしが可胜になる可胜性がある

倫理

珟圚の AI の実践により、新䞖代の著䜜暩荒らしが可胜になる可胜性がある

mm

ファヌりェむず孊術界ずの新たな共同研究は、ブレヌクスルヌを可胜にするデヌタセットが無効なデヌタセットで配垃されおいるため、人工知胜ず機械孊習における珟圚の最も重芁な研究の倚くが商業的に有名になるずすぐに蚎蚟にさらされる可胜性があるこずを瀺唆しおいる。デヌタの取埗元である公開ドメむンの元の条件を尊重しないラむセンス。

実際、これにはほが避けられない XNUMX ぀の結果が考えられたす。XNUMX ぀は、そのようなデヌタセットを䜿甚したこずで知られ、非垞に成功し商業化された AI アルゎリズムが、デヌタがスクレむピングされたずきに著䜜暩が尊重されなかった日和芋的な特蚱トロヌルの将来の暙的になるこずです。 そしお、組織や個人は、同様の法的脆匱性を利甚しお、奜たしくないず考える機械孊習テクノロゞヌの導入や普及に抗議できるようになるずいうこずです。

圓孊校区の 箙 ずいうタむトルです この公開されおいるデヌタセットを䜿甚しお商甚 AI ゜フトりェアを構築できたすか? おそらくそうではありたせんこれは、ファヌりェむ・カナダずファヌりェむ・チャむナ、英囜のペヌク倧孊およびカナダのビクトリア倧孊ずの共同研究によるものです。

(人気のある) オヌプン゜ヌス デヌタセット XNUMX ぀のうち XNUMX ぀が法的に䜿甚できない

この研究のために、著者らはファヌりェむの各郚門に、商業プロゞェクトで掻甚したい最も望たしいオヌプン゜ヌス デヌタセットを遞択するよう䟝頌し、その回答から最もリク゚ストの倚かった XNUMX ぀のデヌタセットを遞択したした。 CIFAR-10 (のサブセット 80 䞇枚の小さな画像 デヌタセット、以来 撀回 「軜蔑的な甚語」ず「攻撃的な画像」の堎合、その掟生語は急増しおいたす。 ImageNet; 街䞊み (オリゞナルの玠材のみが含たれたす); FF本瀟; VGGフェむス2, ムスコ.

遞択したデヌタセットが商業プロゞェクトでの合法的な䜿甚に適しおいるかどうかを分析するために、著者らは、各セットで可胜な限りラむセンスのチェヌンを遡る新しいパむプラむンを開発したした。有効期限が切れたドメむンからラむセンスを芋぀け、堎合によっおは、入手可胜な最も近い情報からラむセンスのステヌタスを「掚枬」する必芁がありたした。

著者らが開発した来歎远跡システムのアヌキテクチャ。 出兞: https://arxiv.org/pdf/2111.02374.pdf

著者らが開発した来歎远跡システムのアヌキテクチャ。 出兞https://arxiv.org/pdf/2111.02374.pdf

著者らは、XNUMX ぀のデヌタセットのうち XNUMX ぀のデヌタセットに察しおラむセンスが必芁であるこずを発芋したした。 「少なくずも XNUMX ぀の商甚利甚の状況に関連するリスクを含む」:

「MS COCO を陀いお、調査察象のラむセンスでは、デヌタに基づいおトレヌニングされた AI モデル、さらにはトレヌニングされた AI モデルの出力を商品化する暩利を実務者に認めおいないこずがわかりたした。」 このような結果により、専門家はこれらのデヌタセットでトレヌニングされた事前トレヌニング枈みモデルを䜿甚するこずさえ事実䞊劚げられたす。 公開されおいるデヌタセットず、それらで事前トレヌニングされた AI モデルは、 商業的に広く䜿甚されおいる。」 *

著者らはさらに、調査察象の XNUMX ぀のデヌタセットのうち XNUMX ぀では、デヌタセットが倉曎された堎合、商甚補品でラむセンス違反が発生する可胜性があるず指摘しおいたす。これは MS-COCO のみが蚱可しおいるためです。 しかし、デヌタの増匷や、圱響力のあるデヌタセットのサブセットやスヌパヌセットは䞀般的に行われおいたす。

CIFAR-10 の堎合、元のコンパむラヌは埓来の圢匏のラむセンスをたったく䜜成せず、デヌタセットを䜿甚するプロゞェクトにデヌタセットのリリヌスに䌎う元の論文ぞの匕甚を含めるこずだけを芁求し、確立ぞのさらなる障害ずなっおいたした。デヌタの法的ステヌタス。

さらに、CityScapes デヌタセットのみに、ネットワヌク ゜ヌスから「キュレヌション」(スクレむピング) されたものではなく、デヌタセットの䜜成者によっお独占的に生成された玠材が含たれおおり、CIFAR-10 ず ImageNet は耇数の゜ヌスを䜿甚しおおり、それぞれを調査する必芁がありたす。そしお、あらゆる皮類の著䜜暩メカニズム (たたは意味のある免責事項) を確立するために遡りたす。

远い぀められお

商甚 AI 䌁業が、AI アルゎリズムをトレヌニングするためにデヌタセットの著䜜暩で保護されたコンテンツを自由か぀蚱可なく䜿甚した補品に関する蚎蚟から身を守るために、頌りにしおいるず思われる芁玠が XNUMX ぀ありたす。 これらはどれも、長期にわたる信頌性の高い保護を提䟛したせん。

1: 自由攟任囜内法
䞖界䞭の政府は、高性胜 AI (定期的な著䜜暩順守ずラむセンス䟛䞎が非珟実的である倧量の実䞖界デヌタに䟝存する) ぞの競争に埌退しないようにするために、デヌタ スクレむピングに関する法埋の緩和を䜙儀なくされおいたすが、米囜は、この点に関しお、以䞋の芏定に基づいお本栌的な免陀を提䟛しおいる。 フェアナヌスの教矩 – 2015 幎に批准された政策 結論 Authors Guild 察 Google, Inc. の蚎蚟では、怜玢倧手が著䜜暩䟵害で告発されるこずなく、Google ブックス プロゞェクトの著䜜物を自由に取り蟌むこずができるず認められたした。

フェアナヌス原則のポリシヌが倉曎された堎合぀たり、十分に匷力な暩限を持぀組織たたは䌁業が関䞎する別の画期的な事件に応じお、おそらくそれは倉曎されたものずみなされるでしょう。 アプリオリ 珟圚の著䜜暩を䟵害しおいるデヌタベヌスの悪甚に関しお述べ、以前の䜿甚を保護する。 だがしかし 継続 同意なしに著䜜暩で保護された玠材によっお可胜になったシステムの䜿甚および開発。

これにより、フェアナヌス原則の珟圚の保護は非垞に暫定的なものずなり、そのシナリオでは、その起源が著䜜暩で保護された玠材によっお可胜になっおいる堎合、確立され商甚化された機械孊習アルゎリズムの動䜜を停止する必芁が生じる可胜性がありたす。モデルの 重み 珟圚は蚱可されたコンテンツのみを扱っおいたすが、違法にコピヌされたコンテンツに぀いお蚓緎を受けおいたしたそしお、違法コピヌされたコンテンツによっお利甚されおいたした。

著者らが新しい論文で指摘しおいるように、米囜倖では政策は䞀般にそれほど寛倧ではない。 英囜ずカナダは著䜜暩で保護されたデヌタの非営利目的での䜿甚のみを補償しおいるのに察し、EU のテキストおよびデヌタ マむニング法 (この法埋は完党には無効になっおいたせん) 最近の提案 より正匏な AI 芏制の堎合は、元のデヌタの著䜜暩芁件に準拠しおいない AI システムの商業利甚も陀倖したす。

これらの埌者の取り決めは、組織が他人のデヌタを利甚しお、そこからお金を皌ぐずいう点に至るたでただし、そこには含たれない、玠晎らしい成果を達成できるこずを意味したす。 その段階では、補品は法的に公開されるか、文字通り䜕癟䞇もの著䜜暩者ず協定を結ぶ必芁があるが、その倚くはむンタヌネットの性質の倉化により珟圚远跡䞍可胜であり、䞍可胜か぀費甚のかかる芋通しである。

2: 譊告゚ンプタヌ
䟵害組織が責任を先送りしたい堎合、最も人気のあるオヌプン゜ヌス デヌタセットの倚くのラむセンスが、著䜜暩䟵害の申し立おに察しお自動的に補償しおいるこずも新しい論文は指摘しおいたす。

「たずえば、ImageNet のラむセンスでは、デヌタセットの䜿甚から生じるあらゆる申し立おに察しお、ImageNet チヌムを補償するこずが実務者に明瀺的に求められおいたす。 FFHQ、VGGFace2、および MS COCO デヌタセットは、配垃たたは倉曎される堎合、同じラむセンスの䞋でデヌタセットを提瀺する必芁がありたす。

事実䞊、これにより、FOSS デヌタセットの䜿甚者は、最終的に蚎蚟に盎面した堎合に、著䜜暩で保護された玠材の䜿甚に察する責任を負うこずになりたす (ただし、珟圚の「安党な枯」の颚朮が含たれおいる堎合には、必ずしも元のコンパむラを保護するわけではありたせん)。

3: 曖昧さによる補償
機械孊習コミュニティの協調的な性質により、䌁業のオカルティズムを利甚しお、著䜜暩を䟵害するデヌタセットから利益を埗おいるアルゎリズムの存圚を隠すこずはかなり困難になりたす。 長期的な商甚プロゞェクトは、倚くの堎合、デヌタセットの䜿甚が蚘録事項ずなるオヌプンな FOSS 環境、GitHub やその他の公的にアクセス可胜なフォヌラム、たたはプロゞェクトの起源がプレプリントや査読論文で公開されおいる環境で始たりたす。

そうでない堎合でも、 モデルの反転 is たすたす有胜になる デヌタセットの兞型的な特城を明らかにするこずたたは 明瀺的に出力する ゜ヌス資料の䞀郚、それ自䜓の蚌拠を提䟛するか、アルゎリズム開発の履歎ずその開発で䜿甚されたデヌタセットの詳现ぞの裁刀所呜什によるアクセスを可胜にする十分な䟵害の疑いのいずれかを提䟛したす。

たずめ

この論文は、蚱可なく取埗した著䜜暩で保護された玠材の無秩序か぀堎圓たり的な䜿甚ず、デヌタの元の情報源にたで論理的に遡り、䜜品が提瀺された䜕千もの著䜜暩所有者ずの亀枉を必芁ずする䞀連のラむセンスチェヌンを描いおいたす。サむトの保護䞋にはさたざたなラむセンス条件があり、その倚くは二次的な商業䜜品を犁止しおいたす。

著者らは結論する

「公開されおいるデヌタセットは、商甚 AI ゜フトりェアの構築に広く䜿甚されおいたす。 そうするこずができるのは、公開されおいるデヌタセットに関連付けられたラむセンスがその暩利を提䟛しおいる堎合のみです。 ただし、公開されおいるデヌタセットに関連付けられたラむセンスに芏定されおいる暩利ず矩務を確認するのは簡単ではありたせん。 なぜなら、ラむセンスが䞍明確であるか、無効である可胜性があるからです。」

もう䞀぀の新䜜は、 法的デヌタセットの構築シンガポヌル管理倧孊の蚈算法センタヌから2月XNUMX日に発衚されたこの論文でも、アドホックなデヌタ収集の「未開の西」時代が終わりに近づいおいるこずをデヌタサむ゚ンティストが認識する必芁性が匷調されおおり、ファヌりェむの勧告を反映しおいる。時間の経過ずずもに文化が倉化し、機械孊習分野における珟圚の䞖界的な孊術掻動が長幎の投資に察する商業的利益を远求しおいるため、デヌタセットの䜿甚によっおプロゞェクトが法的圱響にさらされないようにするために、より厳栌な習慣ず方法論を採甚するよう論文で求められおいたす。 。 著者は次のように述べおいたす*。

「珟行法がもたらす懞念の䞭で、ML デヌタセットに圱響を䞎える法埋のコヌパスは今埌も増加する傟向にありたす」 䞍十分 保障措眮。 AIA草案 [EU 人工知胜法]が可決されれば、AI ずデヌタ ガバナンスの状況が倧きく倉わる可胜性があり、他の法域も同様に独自の法埋を制定する可胜性がありたす。 '

 

* むンラむン匕甚のハむパヌリンクぞの倉換

 

機械孊習のラむタヌ、人間の画像合成のドメむンスペシャリスト。Metaphysic.ai の元研究コンテンツ責任者。
個人サむト マヌティンアンダヌ゜ン.ai
お問合せ [メヌル保護]
Twitter: @manders_ai