将受版权保护的作品用作训练数据是否构成侵权?
《Communications of the ACM》:Does Using In-Copyright Works as Training Data Infringe?
【字体:
大
中
小
】
时间:2025年11月07日
来源:Communications of the ACM
编辑推荐:
超过40起版权诉讼在美国法院针对生成式AI开发者,争议焦点为训练数据是否构成合理使用。Bartz案与Kadrey案首次由法官分析训练数据合理使用抗辩,虽部分采纳(认为AI训练具有转化性目的),但均强调需综合考量四因素。法官分歧点包括:1)使用盗版书籍是否影响合理使用判定;2)首创性“市场稀释”理论(认为AI生成作品泛滥会挤压人类创作者市场),Bartz案法官Alsup严斥该理论,而Kadrey案法官Chhabria虽认可其合理性,但认为需更多证据。两案均未完全支持合理使用抗辩,但分别以“合理商业目的”和“市场稀释不足证据”部分驳回起诉。
在当今人工智能技术迅速发展的背景下,生成式人工智能(GenAI)系统在训练过程中大量使用受版权保护的材料引发了广泛争议。美国法院已经受理了超过40起与版权相关的诉讼,这些案件涉及GenAI系统的开发者是否在使用受版权保护的材料作为训练数据时构成了侵权行为。目前,GenAI开发者的主要辩护理由是,其使用训练数据的行为属于“合理使用”(fair use)范畴。然而,这些案件的结果表明,法院对合理使用的认定存在分歧,且各因素之间的权衡至关重要。
合理使用原则是美国版权法中的一个重要例外,允许在某些情况下未经许可使用受版权保护的作品。这一原则的核心在于平衡版权持有人的权利与公众利益,确保创新和技术进步不会被过度限制。法院在评估是否构成合理使用时,通常会考虑四个主要因素:使用的目的与性质、受版权作品的性质、使用的数量与实质性部分,以及使用对原作品市场的影响。这四个因素并非孤立存在,而是相互影响、共同决定最终的判断。
在这些案件中,法院首先关注的是GenAI开发者使用受版权保护作品的目的是否具有“转化性”(transformative)。根据美国最高法院在1994年“Campbell v. Acuff-Rose”一案中的判决,法院倾向于认为具有转化性的使用更可能被认定为合理使用。在“Bartz v. Anthropic”和“Kadrey v. Meta”这两个具有代表性的案件中,两位法官都认可GenAI开发者使用书籍内容作为训练数据的行为具有高度的转化性。他们指出,书籍作者的主要目的是教育和娱乐,而GenAI开发者的目的是通过统计分析来训练模型,这种用途显然不同于原作品的创作目的。
然而,尽管转化性是一个重要的考量因素,法院仍然强调不能仅凭这一点就认定某项使用为合理使用。因此,其他三个因素也必须被综合评估。例如,使用目的是否具有商业性质,这通常会被视为对合理使用的不利因素。但在某些情况下,如果使用具有转化性,商业目的的影响可能会被弱化。此外,受版权作品的性质也是关键因素之一。一般来说,高度表达性的作品(如文学作品、艺术作品)享有更广泛的版权保护,而事实性或功能性作品(如技术手册、计算机程序)则受到相对较少的限制。在“Bartz”和“Kadrey”案件中,原告的书籍被认为是高度表达性的,这在一定程度上削弱了GenAI开发者的合理使用辩护。
另一个关键点是使用了多少内容以及是否复制了作品的实质性部分。通常情况下,复制大量内容会被视为对合理使用的不利因素。但在某些情况下,如果复制的内容是为了实现转化性目的,法院可能会考虑其合理性。例如,在“Bartz”和“Kadrey”案件中,两位法官都认为GenAI开发者复制整本书籍的行为是合理的,因为这些书籍的内容对于训练模型至关重要。然而,这一观点也存在争议,特别是在涉及盗版书籍的情况下。
在“Bartz”案件中,原告指出Anthropic使用了大量盗版书籍作为训练数据。对此,Judge Alsup持批评态度,认为即使这些盗版书籍被用于转化性用途,其本身的获取行为已经构成了侵权。他指出,盗版书籍的使用“本质上是非法的,即使这些书籍被立即用于训练模型并随后被丢弃”。这一观点强调了版权法对非法获取行为的严格态度,即使这些行为的最终用途是合法的,也不能掩盖其初始获取方式的不当。
相比之下,在“Kadrey”案件中,Judge Chhabria则认为盗版书籍的使用并不影响Meta的合理使用辩护。他指出,美国最高法院曾两次暗示,判断是否构成合理使用的关键在于使用行为本身是否客观上公平,而不是使用者是否出于善意或恶意。因此,Meta的律师认为,即使训练数据来源于盗版书籍,只要其使用行为符合合理使用的标准,就不应被认定为侵权。
法院在评估使用对市场的影响时,通常会考虑该使用是否会导致原作品的市场价值受到损害。在“Bartz”和“Kadrey”案件中,原告声称GenAI开发者的训练数据使用导致了他们失去潜在的许可收入。为了支持这一主张,原告的律师提交了经济专家的报告,指出存在新兴的训练数据许可市场。然而,GenAI开发者则反驳称,由于训练数据的需求量巨大,获得许可的成本和复杂性使得这一市场并不存在或不可行。
尽管如此,两位法官都对这一市场影响因素持保留态度。Judge Alsup认为,训练数据的使用本质上属于一种市场行为,但作者并不拥有控制这一市场的权利。他指出,法院有先例表明,对于具有转化性目的的使用,作者不应拥有对市场的影响权。Judge Chhabria则进一步指出,原告未能提供充分的证据证明GenAI输出会对版权市场造成实质性损害,因此这一因素并未对判决产生决定性影响。
在“市场稀释”(market dilution)理论方面,Judge Chhabria的判决尤为引人注目。这一理论认为,GenAI系统能够快速生成大量作品,从而导致版权市场被大量非原创内容所淹没,进而削弱人类作者的创作动力。Judge Chhabria虽然承认这一理论的创新性,但也指出,目前尚无相关版权法先例支持这一观点。他进一步认为,法院尚未遇到过类似GenAI的技术现象,因此无法提供明确的法律指导。
Judge Chhabria在判决中指出,市场稀释理论的核心在于“间接市场替代”(indirect market substitution),即GenAI生成的作品即使不直接复制原作品的内容,也会对原作品的市场造成影响。他特别提到,某些类型的书籍(如浪漫小说、园艺书籍和新闻文章)可能会受到更严重的影响,而知名作家的作品由于其品牌价值,可能不会受到同样程度的影响。然而,对于新兴作者来说,GenAI生成的作品可能会严重削弱他们的市场竞争力。
尽管Judge Chhabria对市场稀释理论持开放态度,但他也指出,这一理论目前缺乏坚实的法律基础。他强调,法院通常只在有充分证据支持的情况下才会认定某项使用对市场造成损害。因此,他认为,如果原告能够提供更有力的证据,未来类似案件可能会对这一理论作出不同的判断。
在“Bartz”案件中,Judge Alsup对市场稀释理论持否定态度,认为其过于牵强。他指出,法院通常不会基于推测性的证据来认定某项使用对市场造成损害,而是需要具体的事实支持。此外,他还认为,GenAI行业的持续发展依赖于合理的使用辩护,否则可能导致整个行业陷入停滞。
总体而言,“Bartz”和“Kadrey”案件的结果表明,美国法院对GenAI训练数据使用的合理使用辩护持谨慎态度。尽管两位法官都认可GenAI开发者的使用具有转化性,但他们在其他因素的评估上存在显著分歧。Judge Alsup的判决相对更加严格,而Judge Chhabria则表现出更大的宽容。
这些案件的结果对GenAI行业和版权持有人都具有重要意义。一方面,它们为GenAI开发者提供了某种法律上的保护,表明某些训练数据使用可能被认定为合理使用;另一方面,它们也提醒开发者必须更加谨慎地处理版权问题,特别是在使用盗版内容时。此外,这些判决还引发了对版权法未来发展的广泛讨论,特别是在面对新技术和新商业模式时,如何平衡创新与版权保护。
在这些案件中,法院还特别关注了GenAI系统对市场的影响。Judge Chhabria认为,如果版权持有人能够提供充分的证据证明GenAI输出会对市场造成实质性损害,那么这些输出可能会被认定为对市场的影响。然而,目前尚无确凿证据支持这一观点,因此法院倾向于认为,GenAI系统的使用不会对市场造成直接损害。
值得注意的是,法院在这些案件中并未直接涉及GenAI输出的版权问题,而是集中在训练数据的使用上。这一区别非常重要,因为GenAI输出本身可能构成侵权,而训练数据的使用则属于不同的法律问题。因此,这些案件的结果更多地影响了GenAI开发者的训练数据使用行为,而不是他们最终生成的内容。
此外,法院还考虑了GenAI系统对作者收入的影响。在“Bartz”和“Kadrey”案件中,原告声称GenAI系统的使用导致了他们失去潜在的许可收入。然而,法院并未采纳这一观点,认为训练数据的使用并不构成对市场的直接替代。这一判断表明,法院在评估市场影响时,更倾向于关注实际的市场行为,而不是潜在的收入损失。
在这些案件中,法院还强调了版权法的灵活性和适应性。Judge Chhabria指出,版权法应当能够适应新技术的发展,否则可能会阻碍创新。他认为,GenAI系统的使用应当被视为一种新的市场现象,而不是传统版权法所能完全涵盖的范畴。因此,法院在评估这些案件时,采取了更加开放和谨慎的态度。
最后,这些案件的结果表明,GenAI训练数据的使用仍处于法律不确定的阶段。法院在这些案件中并未作出统一的裁决,而是根据具体情况进行判断。因此,GenAI开发者和版权持有人都应当密切关注这些案件的后续发展,以及法院在类似案件中的判决倾向。
综上所述,“Bartz”和“Kadrey”案件为GenAI训练数据的使用提供了重要的法律参考,但也暴露了版权法在面对新技术时的局限性。这些案件的结果表明,法院在评估合理使用时,需要综合考虑多个因素,并且对新兴技术的使用持谨慎态度。因此,GenAI开发者和版权持有人都应当更加重视法律风险,并寻求更加合理的解决方案。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号