Anderson 视角5 days ago
AI中的知识产权漂洗方法
如果未来因在训练AI中使用知识产权而面临法律清算,那么也存在几种方法来掩盖这种使用。 观点 当前,生成式AI的快速革命正在一个自十九世纪以来任何变革性技术发展所伴随的、法律上最不稳定的环境中展开。 直到3-4年前,机器学习研究界在开发新系统过程中,还享有一种默许的(通常是明确的)权限,可以不受限制地利用受知识产权保护的材料;由于这些系统在成熟度或商业可行性方面尚未成功,其结果在各个方面都是学术性的。 在那个时期,新一代基于扩散的大型语言模型(LLMs,如ChatGPT和Claude)和视觉语言模型(VLMs,如Sora)的突然成功表明,这些抽象且迄今为止“无害”的研究分支已经发展出商业可行性,并且在利用他人知识产权方面,已经超出了它们的“免费通行证”范围。 从现在开始,权利持有人将寻求在主要或部分基于其受版权保护或其他受保护数据训练的AI系统成果中分一杯羹,这导致了持续不断的法律案件雪崩,甚至需要付出一些努力才能跟上。 强制“免费午餐” 目前正在发生的针对AI服务基础设施的资金投入,被一些声音认为是一种努力,旨在将“存在版权风险”的AI如此深入地嵌入社会经济中,以至于它不仅变得“大到不能倒”,而且变得“强大到无法起诉”——或者至少强大到成功的诉讼可能会颠覆这场革命。 针对这种普遍情绪,美国总统正在将其观点 纳入政策,即“当你读过的或研究过的每一篇文章、每一本书或其他任何东西,你都要为之付费时,你不可能指望拥有一个成功的AI项目”。 真的吗?在西方工业时代,从未发生过任何类似或可比的事情,这代表着一场严重冲击美国传统诉讼和赔偿文化的运动;或许最接近的类似立场是药品专利在20年后强制到期(其本身就经常受到攻击),以及公共场所隐私期望的限制。 然而,时代在变;在无法保证当前这种针对知识产权保护的“征用权”趋势不会动摇或日后逆转的情况下,有几种次要方法正在成为AI系统开发以及处理为其提供动力的、备受争议的训练数据的标准做法。 代理数据集 其中一种方法与种子列表网站(并非总是成功)的辩护方式惊人地相似,即它们实际上并不托管任何有争议的材料——或者根本不托管任何材料。 除了避免存储和提供大量难以压缩的图像或视频数据外,此类集合还允许快速更新——例如应版权持有者要求移除材料——以及版本控制。 正如种子文件只是指向可以找到受知识产权保护材料的路径指示,许多极具影响力的数据集本身也只是现有数据的“指针”式列表;就策展者的责任而言,如果最终用户希望将这些列表用作自己数据集的下载列表,那是他们自己的事。 其中之一是Google Research的Conceptual 12M数据集,它为图像提供标题,但仅指向这些图像存在(或在策展时存在)的网络位置: 另一个突出的例子,并且现在有理由在AI历史上获得尊崇的,是LAION数据集,它促进了Stable Diffusion生成系统在2022年的出现——这是第一个向最终用户提供强大开源生成图像的此类框架,当时专有系统似乎正准备将此类服务确立为一个纯粹受保护的商业领域: 在许多情况下,这些“指针”集合中某些文件的高体积表明图像内容包含在可下载和托管的文件中;然而,不小的下载体积通常是由于大量的文本内容,有时还包括提取的嵌入或特征——这些是在训练过程中从源数据提取的、原本适用内容的衍生摘要或节点。 视频溢价 视频数据集为“代理数据集”或指针方法提供了更有力的理由,因为将大量有意义的、有用的视频聚合到一个单一可下载集合中所需的存储数据量是令人望而却步的,因此“分布式”方法是可取的。 然而,在这两种情况下——尤其是视频——可下载的源URL所代表的数据在用于训练过程之前需要大量的进一步处理。图像和视频都需要调整大小,或者做出裁剪决定,以创建能够适应可用GPU空间的样本。即使是严重下采样的视频通常也需要切割到非常短的时长,例如3-5秒。...