近期, 美国地区法院在一项判决中指出, 尽管 Anthropic 公司使用大量书籍来训练其 Claude 大型语言模型以及购买上述书籍副本以创建永久数字图书馆的行为可以构成合理使用, 但利用盗版图书来创建此类图书馆的行为却无法构成合理使用.
本案中的原告是多名图书作者, 他们对人工智能平台 Claude 的开发者 Anthropic 公司提起了集体诉讼. 原告认为, 为了打造内部的永久图书馆, 被告制作了他们的图书副本, 同时还进行了复制以训练自己的大型语言模型 Claude, 并因此侵犯了作者们的版权.
Anthropic 提出就合理使用这个问题进行简易判决, 并认为使用这些作者的书籍以及数百万本其他书籍的副本是合理的, 因为这些副本对于训练大型语言模型而言是合理且必要的.
简易判决的记录显示, 在训练 Claude 的过程中, Anthropic 使用了从它组建的中央图书馆中所挑选出的图书和其他文本. 为了组建该图书馆, Anthropic 最初从所谓的在线盗版图书馆中获取了部分书籍. 这包括下载 Books3 (一个包含超过 19. 6 万本书籍的在线图书馆, 而这些书籍是由受版权保护图书的未获得授权的副本汇集而成的) , 以及下载其他盗版图书馆中的已发行过且重新共享过的副本, 包括来自 LibGen 的至少 500 万册书籍. Anthropic 为其图书馆单独批量购买了二手实体书, 同时还将这些书籍从封面上剥离出来, 将其中的页面切割成合适的尺寸, 最后将图书扫描成数字形式并丢弃纸质原件.
通过这些在购买后进行扫描的盗版书籍, Anthropic 创建了一个通用的 "研究库" 或 "通用数据区" , 以作为存储 "海量" 信息的一种手段, 而且这些信息 "将用于研究" 或以其他方式训练其产品. 针对用于训练目的的书籍, Anthropic 对这些文件进行了复制, 清理以及 "标记化" (即将其分解为可管理的片段) 以进行培训, 每个大型语言模型都会保留其接受训练的作品的压缩副本. 一旦 Anthropic 决定不将其中某一本书用于训练, 或者永远不再使用的话, 该公司就会保留这本书作为其他或未来用途的 "硬资源" .
原告作者们没有指控 (同时也没有证据证明) 大型语言模型可以向 Claude 的用户输出相关作品的侵权副本.
针对哪种使用或者用途属于合理使用范畴这个问题, Anthropic 辩称, 该公司复制这些书籍的目的只有一个, 即训练大型语言模型. 然而, 原告作者认为至少有两种用途存在着争议: 首先, 使用这些书籍来构建 Anthropic 的中央图书馆; 其次, 利用这些书籍来训练使用了相关内容子集的特定大型语言模型. 法院同意了作者们的观点, 并认为这些应该看作单独的用途. 此外, 关于中央图书馆的组建问题, 法院考虑到了 "使用盗版" 与 "购买后扫描以供使用" 之间的差异.
在就合理使用进行分析时, 法院首先审查了使用的目的和性质, 包括 Anthropic 对受版权保护的作品的使用是否具有商业性质. 关于人工智能的训练, 法院表示, 使用受版权保护作品来训练大型语言模型以生成新文本的目的和特征属于典型的 "转换性" , 并且就像那些有志成为作家的读者来说, Anthropic 用图书作品训练出来的大型语言模型并不是为了抢先一步, 复制或取代这些作品, 而是为了换个角度来创造出不同的东西.
至于中央图书馆的组建, 法院将 Anthropic 购买的副本与其下载的盗版区分开来. 对于前者, 法院认为 Anthropic "公平公正" 地购买了这些书籍的印刷版, 并且每次购买都让 Anthropic 有权以其认为合适的方式处置该副本. 将书籍进行数字化只是一种 "纯粹的格式更改" , 因为将印刷书籍转换为数字文件以节省空间并实现可搜索性是转换性的.
然而, 法院在谈到盗版书籍时则划清了底线, 这些盗版书籍在没有付费的情况下就被下载并保存到了 Anthropic 的图书馆中, 无论它们是否用于培训其大型语言模型. 法院认为, 使用这些书籍建造图书馆并没有带来所谓的转换性. 根据法院的说法, 本案与 Perfect 10 起诉 Amazon. com 一案有所不同. 在该案中, 谷歌访问了具有全尺寸图像的网站, 制作了缩小尺寸的副本, 并将它们直接合并到其搜索引擎中, 由于上述图像立即被部署用于识别全尺寸图像及其来源的网站, 因此这属于转换性使用.
同样地, 法院认为, 世嘉娱乐有限公司 (Sega Enterprises Ltd. ) 起诉荣誉公司 (Accolade, Inc. ) 以及索尼计算机娱乐公司 (Sony Computer Entertainment, Inc. ) 起诉 Connectix 公司等涉及 "中间复制 (intermediate copying) " 的案件并不能支撑在本案中存在争议的用途, 因为这些案件中的被告均购买了游戏卡带的市售副本, 并制作了相应的副本, 而且 "仅仅是为了找到有关兼容性的功能要求" .
因此, 从第一个因素来看, 盗版来源的中央图书馆副本不属于合理使用的范畴.
法院接下来谈到了 "受版权保护的作品的性质" , 并认为第二个因素同样不利于所有副本的合理使用. 尽管作者的一些作品是非小说类的书籍, 但它们都包含表达性的元素, 并因这些表达元素而被选为潜在的, 有价值的训练工具.
然后, 法院评估了所使用的受版权保护作品的 "数量和实质性" , 以及该数量相对于复制目的而言是否是合理的. 至于那些用于训练特定大型语言模型的副本, 法院认为第三个因素是支持合理使用的, 因为 Anthropic 的复制行为对于实现转换性使用是合理且必要的. 正如法院所说, "所有人都同意 Anthropic 需要用数十亿的文字来训练特定的大型语言模型" . 此外, 法院还澄清道, 重要的不是制作副本时所使用到部分的数量和实质性, 而是向公众开放的那部分的数量和实质性, 而且在这里, 大型语言模型的输出成果与作者的作品之间也没有任何可追溯的联系.
法院还认为, 针对将购买的图书馆副本从印刷版转换为数字版的行为, 第三个因素是支持合理使用的, 因为这种复制的目的是将书籍保留在其图书馆中, 而且会更有利于存储和搜索. 实现这个目的需要进行复制, 并且被告在没有多余复制的情况下销毁了源副本. 然而, 关于盗版副本, 法院认为, 由于 Anthropic 缺乏任何持有这些副本的权利, 并且即使在决定不再制作这些副本以进行培训后仍保留着它们, 上述第三个因素对 Anthropic 的特殊使用来讲又是不利的.
最后一个用来判定合理使用的因素涉及此类使用对受版权保护作品的潜在市场或价值带来的影响. 法院指出, 当复制者提供的副本取代了版权所有者已经提供或随时可以提供的副本需求时, 这显然违反了合理使用的原则. 法院认为, 用于训练特定大型语言模型的副本不能而且也不应取代人们对作者原创作品副本的需求. 不过, 法院也没有被作者提出的 "市场稀释" 理论所说服, 即训练大型语言模型将导致与他们的书籍构成竞争关系的新作品呈现出爆炸式的增长. 法院认为, 这种担忧与抱怨 "训练学童写出好的书籍可能会导致竞争作品的爆炸式增长" 没有什么不同, 这不是与 "版权法" 有关的那种竞争或创造性的替代性作品" .
原告作者还认为, Anthropic 的训练用途已经或者即将取代 "一个用于许可作品 (仅限于训练大型语言模型目的) 的新兴市场" . 不过. 法院认为, 鉴于此类使用的转换性特点, 上述市场并不是那种版权法会赋予作者相关使用权利的市场. 因此, 法院得出的结论是, 第四个因素有利于被告合理使用训练副本.
至于那些用于建造中央图书馆的副本, 法院认为第四个因素对于被告已购买的数字化图书馆副本来讲是中立的, 并权衡了盗版图书馆副本的合理使用问题. 对于被告正常购买到的副本, 作者认为, 被告在格式上做出的更改可能会剥夺他们销售合法副本的机会, 因为 Anthropic 可以比传输额外的印刷副本更容易地传输这种未经授权的数字副本. 法院并没有被这一观点说服, 并指出相关记录难以证明被告一旦获得图书馆副本就会有任何重新发行的意图. 不过, 法院对盗版行为有着完全不同的看法. 法院认为, 这些副本 "显然已经取代了人们对作者作品的需求" .
在全面评估了上述各项有关合理使用的因素后, 法院最终认为, 使用书籍副本来训练特定的大型语言模型是合理的, 因为除了受版权保护作品的自身性质之外, 其他因素都有利于 Anthropic. 法院强调道: "这起争端中的技术是我们许多人一生中将看到的最具转换性的技术之一. 使用正规购买且转换为数字图书馆副本的图书副本也被证明是属于合理使用的范畴, 特别是在所购买的印刷件副本已被销毁, 其数字替代品没有重新发行的情况下. 法院就这些使用问题作出了有利于 Anthropic 的简易判决.
然而, 对于用于构建 Anthropic 中央图书馆的盗版副本, 每个因素都不支持合理使用. 因此, 法院拒绝就这一问题进行简易判决, 并将由此产生的损害赔偿问题留给后续的审判程序. (编译自 www. mondaq. com)
翻译: 刘鹏 校对: 吴娴

经贸热点维权