Adobe被控窃书养AI:作家集体诉讼揭训练数据版权黑箱

一本本实体书被扫描、解析、拆解成无数数据碎片,喂养着科技巨头们日益庞大的AI模型,而它们的作者对此一无所知。

当地时间12月17日,软件巨头Adobe在加利福尼亚联邦法院遭遇集体诉讼,被指控非法使用盗版书籍训练其人工智能模型。

俄勒冈州作家伊丽莎白·里昂代表受影响的作者群体提起诉讼,指控Adobe在开发其轻量级语言模型SlimLM时,使用了包含大量盗版书籍的非法数据集。


01 诉讼核心

这起诉讼的核心指控直指Adobe在训练AI模型时使用的数据集。诉状指出,Adobe使用的开源数据集SlimPajama-627B实际上是RedPajama数据集的衍生副本。

而RedPajama数据集因其包含的“Books3”数据库饱受争议,该数据库据称包含约19.1万本侵权书籍。

里昂表示,她撰写的多部非虚构写作指南在未经授权、未署名且未支付报酬的情况下被纳入训练数据,这直接违反了版权法。

02 Adobe的AI布局

此次被指控的SlimLM模型是Adobe AI战略的重要组成部分。该模型旨在优化移动设备上的文档辅助任务。

Adobe此前一直高调宣传其Firefly等AI工具建立在合法、受保护的内容基础之上,甚至曾承诺为企业客户提供“侵权包赔”服务,以展示其对版权合规的自信。

然而,此次针对SlimLM的指控揭示了其技术底层可能存在的合规隐患

03 争议数据集

“Books3”数据库已成为科技行业版权争议的中心焦点。这个包含大量书籍的数据集最初是为训练生成式人工智能系统而创建的。

RedPajama数据集及其衍生版本因包含这些涉嫌侵权的材料,已在多起针对科技公司的诉讼中被引用。今年9月,一起针对苹果的诉讼同样指控该公司使用受版权保护的材料训练其AI模型。

04 行业普遍困境

Adobe并非唯一面临此类指控的科技公司。此前,苹果、Salesforce和Anthropic等公司也因使用RedPajama或类似数据集卷入法律纠纷。

这些诉讼大多指控科技公司“未经同意、未获得署名或报酬”地复制受保护作品。

随着AI技术广泛应用,训练数据合规性的法律斗争正成为行业发展的关键转折点。

05 高额赔偿先例

此类诉讼往往以巨额赔偿告终。今年9月,Anthropic被曝同意向起诉其使用盗版作品训练Claude聊天机器人的多位作者支付15亿美元赔偿

这一数字为类似案件设立了赔偿基准,表明版权所有者对其作品在AI训练中的使用越来越重视,并愿意通过法律手段维护权益。

06 行业监管转折点

2025年被法律专家视为AI版权问题的分水岭。加州联邦法院的法官们已经开始就AI开发者使用受版权保护作品训练模型是否构成合理使用作出首批裁决。

随着监管环境趋严,Adobe的案例可能成为衡量“灵感编程”与AI内容生成合法性的又一关键判例。

这些判决将为内容创作者和科技公司之间持续激烈的斗争提供初步指导。


截至发稿时,Adobe尚未对这起诉讼作出官方回应。此前,当用户质疑其服务条款可能允许公司使用用户内容训练AI时,Adobe曾澄清不会用客户内容训练AI,只使用授权或公共领域内容。

但在2023年,该公司曾因在其库存照片服务中销售AI生成的“安塞尔·亚当斯风格”图像而遭到这位已故摄影师遗产管理方的公开谴责。

随着案件推进,法庭文件将逐渐揭示AdobeAI训练数据的确切来源,这起诉讼的结果可能重新定义科技公司使用受版权保护材料训练AI的合法边界。

关注 “悠AI” 更多干货技巧行业动态

© 版权声明
广告也精彩

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...