前言
美国首例认定非生成式AI训练材料构成版权侵权的Thomson Reuters v. ROSS Intelligence案裁决,再次将AI训练材料的版权问题置于公众视野之中。虽然AI生成作品的版权问题已经在业界得到了广泛的讨论,但该案中对非生成式AI训练材料版权侵权边界的界定再次引发了热议。随着Deepseek等推理模型的开源推广和本地化部署,企业如何在未来更安全、高效、经济且合规地训练专属的AI模型也成为企业日常经营活动中日益关心的法律问题。
在该美国案件中,原告Thomson Reuters公司是大型法律检索平台Westlaw的拥有者,被告Ross Intelligence开发了一个应用人工智能技术的法律检索引擎,与Westlaw构成市场竞争关系。原告指控被告未经授权,擅自使用基于其Westlaw平台形成的批量备忘录(Bulk Memos)内容来训练AI搜索引擎产品,此行为构成了对原告版权的侵犯。2025年2月11日,美国特拉华州地区法院的巡回法官比巴斯(Bibas)作出了简易判决(Summary Judgement),驳回了Ross Intelligence的包含合理使用在内的所有抗辩理由,认定被告构成直接版权侵权。
如果本案发生在中国,中国法院会如何裁判?未来对于此类问题立法者如何权衡?裁判者如何裁量?这恐怕是很多法律人或者关注AI发展的读者会好奇的问题。本文就试图从著作权法、现行商业秘密制度以及反不正当竞争法三个维度的法律规范探讨此类问题以及未来可能带来的影响。
一、著作权法合理使用制度的探讨
在面对将他人的作品作为AI的训练数据的合规性问题时,AI公司通常都会采用著作权法中的合理使用制度进行抗辩,正如Thomson Reuters v. ROSS Intelligence案中被告的抗辩。因此在判断该合理使用抗辩在中国的适用性问题时,我们需要先初步比较了解中美两国在合理使用制度上存在着的差异。
美国对合理使用条款的规定主要体现在其版权法(即《Copyright Law》)的第107条中[1],首先,合理使用是指在特定目的下,如批评、评论、新闻报道、教学(包括课堂教学中的多份复制件)、学术研究或研究等,对受版权保护的作品进行复制、录制或以该部分规定的其他方式使用,不构成版权侵权。这涵盖了从学术讨论到新闻报道等多种情境。其次,在判断某一特定情况下的使用是否构成合理使用时,需要考虑四个关键因素:1. 使用的目的和性质:这包括使用是具有商业性质,还是出于非营利教育目的。2. 受版权保护的作品的性质;3. 使用的部分在整部作品中所占的比例和实质性4. 使用对受版权保护作品潜在市场或价值的影响。最后,值得注意的是,即使作品尚未发表,这并不意味着它不能被视为合理使用。是否构成合理使用需要综合考虑上述所有因素。与之相比,中国的《著作权法》第24条规定合理使用应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益,并列举了12种适用情形加兜底条款,这些情形主要集中在学术研究、教育、新闻报导等特定领域。在《中华人民共和国著作权法实施条例》(下称《条例》)的第二十一条也规定了使用可以不经著作权人许可的已经发表的作品,不得影响该作品的正常使用,也不得不合理地损害著作权人的合法利益。可以看出,对于合理使用制度,中美两国在立法上分别采用了大陆法系的封闭主义和英美法系的开放主义。
在司法实践中,美国法院对颠覆性(transformative)使用等具有创新性和社会价值的利用行为持较为宽容的态度。法官在判断上文提到的四要素时,会基于裁判实践和通常做法所形成的经验性原则:使用的目的和性质,这包括使用是否具有商业性质,还是出于非营利教育目的,非营利教育目的的使用更有可能被视为合理使用;判断受版权保护的作品的性质,不同类型的作品(如小说、新闻文章、学术论文等)在判断合理使用时可能会有所不同,例如事实性作品可能比创造性作品更容易被合理使用;判断使用的部分在整部作品中所占的比例和实质性,即使用的部分越多,对原作品的替代性越强,构成合理使用的可能性就越小;判断使用对受版权保护作品潜在市场或价值的影响,即如果使用对原作品的市场价值造成了实质性损害,那么这种使用就不太可能被视为合理使用。与之相比,中国的著作权立法对于合理使用采用了大陆法系的封闭主义,因此中国法院对于认定合理使用是相对比较谨慎的,尽管为了适应中国社会数字化转型的迅速发展,中国法院在近期司法实践的认定中也体现出“半封闭半开放”的趋势,例如可能考虑利用行为的目的、被利用作品的性质、所利用部分对整体在数量上的比例和原告是否尽合理注意义务等与美国版权法的“四因素”相似的考虑因素。
在本文讨论的判决书中,美国法官综合考量后认定,因素(1)有利于原告Thomson Reuters,原因在于Ross的使用是商业化的且并非颠覆性的;因素(2)和(3)的判断有利于被告ROSS,因为虽然Westlaw 的资料具有版权有效性所需满足的最低原创性要求,但这些材料并不那么有创意。而且,虽然标题需要编辑的创造,但这种创造力比不上小说家或艺术作品(体现出的创造力);因素(4)有利于原告,原因在于被告开发的产品会与原告的Westlaw产品形成竞争,产生潜在的市场替代。在综合四要素的考量后,法官驳回了被告关于合理使用的抗辩。另外,美国的部分法律评论人和法学家也表达了不同的观点,主张本案应认定为颠覆性使用从而不构成侵权。
笔者认为,如果同样的情形发生在中国,按照2021年新著作权法修订前后的裁判标准,法院可能对合理使用的认定采取比美国更加谨慎的态度,即除了《著作权法》第二十四条所明确列举的情形,法院很难认定构成“合理使用”。
例如,在2021年著作权法修改之前,北京市西城区人民法院在地方参阅案件中的裁判中指出:这种使用并非单纯再现游戏中画面、图像本身的艺术价值或实现其功能、目的,而是通过增加新的内容,使这些影像具有了新的价值和功能,这种使用方式在形式上符合《著作权法》第二十二条第一款第(二)项所规定的为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品之合理使用情形。但是,《著作权法》第二十二条只是规定了可以适用合理使用的特殊情形,是否构成合理使用,应结合《中华人民共和国著作权法实施条例》第二十一条的规定进行判断,即还应当不影响作品的正常使用,不得不合理地损害著作权人的合法权益。涉案游戏攻略在市场上销售,势必会影响原告官方攻略的销售,对作品潜在市场和价值来说,无疑是不合理的损害,故未经计算机游戏软件著作权人许可,商业性利用游戏画面出版游戏攻略不属于合理使用,构成侵权。[2]
除此之外,2020年广州知识产权法院发布的地方典型案例中指出:关于阳光文化公司提出用户制作、上传涉案游戏画面视频构成合理使用的主张,著作权法第二十二条列举了十二种著作权限制的具体情形,阳光文化公司并未证明涉案行为属于上述情形。阳光文化公司虽然提出了一些学说观点,但并未提交涉案行为构成合理使用的事实和法律依据,故阳光文化公司认为涉案行为构成合理使用的主张没有依据,本院不予采纳。[3]
2021年新著作权法修订后,法院依然延续了以往的谨慎态度,比如“狂飙解说”案中,法院指出:部分影视解说类视频适当使用原电影、电视剧等视听作品素材,在原有作品的文学、艺术价值之外,产生了全新的价值、功能或性质,具备构成合理使用的可能性。但影视解说类视频引用原作品的范围需适当、不得影响作品的正常使用,也不得不合理地损害著作权人的合法权益。[4]
综上所述,在上述类似案件中,尽管中国法院承认侵权人的行为部分满足了合理使用的条件或者特征,但最终依然认为该类情形不属于合理使用。因此,我们认为本文讨论的案件中的AI训练数据的使用行为尽管部分具备合理使用的特征,但在中国的司法实践中有可能仍被认为不属于合理使用。
二、训练数据的商业秘密保护
首先需要说明的是,由于本文讨论的案件中的版权材料不具有秘密性和保密性,因此不会构成商业秘密的侵权。然而,我们认为,随着生成式AI和非生成式AI的发展,如果其训练数据满足商业秘密的秘密性和保密性的特征,则这些AI模型的训练数据的“价值性”将愈发凸显其重要性。
价值性,即具有商业价值,是指权利人请求保护的信息因不为公众所知悉而具有现实的或者潜在价值。《最高人民法院关于审理不正当竞争民事案件应用法律若干问题的解释》第十条规定:有关信息具有现实的或者潜在的商业价值,能为权利人带来竞争优势的,应当认定为反不正当竞争法第十条第三款规定的“能为权利人带来经济利益、具有实用性”。根据现行法律,生产经营活动中形成的阶段性成果符合前述规定的,也可以认定该成果具有商业价值。例如,权利人在研发过程中的实验失败数据可以降低竞争对手的开发成本。
现今,企业掌握了保密的海量生产经营数据,随着Deepseek所引领的开源AI模型时代的到来,企业依靠外部团队或者内部技术团队利用这些数据训练专有AI模型以提高效率成为企业获得竞争优势的重要方法。而在训练这些专有AI模型的过程中,提供生产经营数据的质量决定了专有AI模型的质量。而且,模型在实际生产经营中的应用也会产生新的数据。在此情形下,这些训练数据的价值性会更加凸显,因为竞争对手可能会利用这些数据来训练其专有的AI模型。因此,涉及企业生产经营的训练数据泄露带来的不利后果将进一步被放大,对企业在市场竞争中构成更大的威胁。
由此可知,对于企业而言,加强生产经营数据的商业秘密保护的保护范围与保护力度就变得尤为重要。我们也建议企业通过调整公司章程与制度,加强企业生产经营数据的控制和管理,使得这些可能成为AI模型训练数据的内容满足保密性与秘密性要求,从而帮助企业在AI时代的商业竞争中更好地取得优势。
三、反不正当竞争保护的兜底
AI的迅猛发展带来了诸如本文所讨论的案件中的AI训练数据的版权问题的一系列崭新的法律问题。当这类法律问题可以用著作权法解决的时候,中国法院通常会优先适用著作权法律规范,因为其适用与执行相对成熟。例如在(2023)湘0105民初1835号中,法院指出:《反不正当竞争法》第二条第一款“经营者在生产经营活动中,应当遵循自愿、平等、公平、诚信的原则,遵守法律和商业道德。”,主张光文化公司违反诚实信用原则和商业道德,抢占深圳腾讯《王者荣耀》游戏短视频市场,牟取不正当利益,构成不正当竞争,的确有违诚实信用原则和商业道德,属于不正当竞争,但是由于该院已认定上述行为构成对深圳腾讯信息网络传播权的侵害,深圳腾讯的相关权益可根据著作权法进行保护和救济,故对深圳腾讯以阳光文化公司构成不正当竞争为由,要求其就同一侵权行为重复承担责任,于法无据,该院不予支持。
然而,当相关的法律问题不能落入这类成熟的法律规范范畴的时候,法院往往会依据《反不正当竞争法》。在这种情况下,法院往往会对于被告主观恶意与商业上的意图进行认定。例如,在本文讨论的案件的相关事实中,被告ROSS Intelligence向原告Thomson Reuters寻求使用Westlaw的案件编辑内容和注释,包括案件摘要(Headnotes)和钥匙码系统(Key Number System)的许可,遭到拒绝后,转而向LegalEase购买了以Westlaw案件摘要为基础构建的“批量备忘录”,用于训练Ross Intelligence开发的AI法律搜索引擎,其商业目的明确,主观恶意十分明显。因此我们认为,在中国的司法实践中,原告很有可能基于《反不正当竞争法》获得法院的保护。
基于以上的分析,我们认为在目前对于AI模型相关的法律问题缺乏明确法律规范和指导标准的情况下,各国法院就AI模型的相关问题产生的判决与裁定,对于立法机关、法院、企业以及法律服务的从业者均有着广泛的借鉴意义,柳沈律师事务所也将持续关注AI模型相关的最新案件进展。
参考文献:
[1]Copyright Law of the United States and Related Laws Contained in Tıtle 17 of the United States Code
[2](2010)西民初字第18251号,案件宣判时规定合理使用条款为《著作权法》第22条,现为第24条
[3](2020)粤73民终574-589号案件宣判时规定合理使用条款为《著作权法》第22条,现为第24条
[4](2023)湘0105民初1835号