生成式AI时代的著作权之困

陈永伟2023-04-12 01:50

陈永伟/文

3月22日，美国《华尔街日报》刊发了一则新闻：拥有《纽约邮报》、《巴伦周刊》、《华尔街日报》等媒体的美国新闻集团正准备通过法律程序向Ope－nAI、微软，以及谷歌等应用内容训练AI的技术制造商寻求赔偿。这一则新闻又一次将生成式AI所引发的著作权难题摆到了人们的面前。

从去年下半年开始，包括ChatG－PT、Dall-E2、Midjourney在内的大型生成式AI模型如雨后春笋一样出现。利用这类AI，人们可以非常容易地通过简单的提示语（prompt）来生成各种文本、图片、音频、视频，甚至元宇宙中的各种三维模型。

生成式AI的崛起一方面极大地释放了人们的创造能力，让人们生产内容的成本大幅度降低了，但另一方面也引发了一系列的问题。在这些问题中，知识产权，尤其是著作权问题就是最为棘手的之一。

从总体上看，生成式AI涉及的著作权问题体现在两个方面：一个方面是，在训练的过程中，AI模型需要用到大量的数据，在此过程中就可能造成对一些著作权所有人权利的侵犯；另一个方面则是作为非人主体，AI是否可以享受传统上只有作为人才能享有的著作权。随着生成式AI的迅速发展和普及，这两个问题都已经不再是理论上的难题，而是紧迫需要解决的现实问题了。

AI学习过程中的著作权问题

虽然生成式AI的运作十分复杂，但从根本上看，它就是一个对于概率分布的再抽样问题：AI会首先通过对样本数据（数据可以是文本、图片、视频等多种类型）进行学习，然后得到一个概率分布。在得到了这个概率分布后，AI就可以基于这个分布进行再抽样，从而就可以得到不同于样本数据的新数据。根据训练算法的不同，这个得到的分布可能是和样本数据一致的，也可能是和样本数据不同的（举例来说，用 “生成式对抗网络”GenerativeAdversarialNets，得到的分布就可能和原分布不同。这也是为什么有的时候要求基于GAN的AI模型来画人，结果却会生成一个怪物形象的原因）。但无论是哪种方式，训练过程中的数据投入都是不可避免的。在这个过程中，就可能对著作权产生侵犯。

具体来说，这个侵犯会发生在数据获取和数据生成两个环节：

在对AI模型进行训练之前，首先需要从数据源获取数据，然后对数据进行一定的整理和标注。而在抓取或下载数据的过程中，可能并未得到著作权所有人的授权，这种行为就可能会涉及对著作权中“复制权”的侵犯。

在搜集到了数据之后，AI会对数据进行学习，从中提取关键信息，然后根据这些特征来生成新的数据。由于新生成的数据是根据训练数据中提取的某些参数得到的，所以它就必然和训练数据这个整体在某种程度上具有相似性。这在大多数时候并不会有问题，但在某些生成算法下，AI生成的数据可能会十分类似于某一个具体样本点。

例如，包括StableDiffusion、Mid－journey在内的很多图片生成模型都采用了扩散模型作为生成算法。这种生成模型会通过先对图片加入噪音，然后再用算法去除噪声（可以将这一过程直观地理解为在一个清晰的画面上逐步加入马赛克，然后再逐步去除马赛克）的方式来生成图片。因此在一些时候，生成的图片就可能和原图片具有很高的相似性。不久前，马里兰大学和纽约大学的研究团队进行了一项研究，对DALL-E2、StableDiffusion等模型生成的图片与训练数据中的图片进行了对比。结果发现，在生成图片中，有约1.88%的图片和训练集中的某个图片相似度超过了50%。显然，如果出现了这种情况，那么就会涉及对原图片著作权中“改编权”的侵犯。此外，如果将这些生成的图片在网上进行传播，还可能还会涉及侵犯著作权中“传播权”等的问题。

综合以上分析，我们可以看到，抓取网上的数据来训练AI确实存在着很多的潜在风险。尤其是批量抓取类似《纽约邮报》、《巴伦周刊》、《华尔街日报》等媒体的数据库使用，其构成著作权侵权的风险就非常大。

当然，尽管相关的风险非常大，但抓取数据训练AI是否构成了对著作权的侵犯还需要看这种行为究竟是不是对著作权的合理使用。在各国的法律中，都规定了人们在某些特定的情况下可以在没有征得权利人许可的情况下自由使用著作权，并且不用对其支付报酬。比如，出于个人的学习、研究、欣赏等需要，对他人已经发表的作品进行使用，一般会被视为合理使用；为了教学研究等目的，少量复制他人的著作，通常也不会被认为是著作权侵权行为。

既然如此，那么出于研究的需要，让AI来学习各种材料，是否也可以被认定为是一种对著作权的合理利用呢？关于这个问题，目前存在着截然对立的两种观点。

一种观点认为，既然个人学习是合理利用，那么机器学习本质上也是一种学习。我们不会认为个人读了某本书的章节，然后发表了某些和书上类似的观点就认为他是一个侵权者，那么又有什么理由认为AI做了类似的事情就是侵权呢？

另一种观点则与之截然相反。这种观点认为，合理使用的前提是使用的主体应该是人，AI连人都不是，因而它对数据的学习甚至连使用都无从谈起，又怎么能称得上是合理使用呢？与此同时，法律在判断是否是合理使用时，通常以使用规模仅是“少量”的为前提。而在现实中，出于训练AI的需要，技术制造商们恨不得将相关数据来个“连锅端”，这怎么也算不上是“少量”，因此也就自然难以被认定为是合理使用了。

以上这两种观点都有一定的道理。到目前为止，没有任何一方能够成功地说服对方。

AI数据生成后的著作权问题

在AI成功地生成了一个作品之后，相关的很多著作权问题也会出现。

1、AI生成物究竟是不是 “作品”？

在著作权法的语境下，所谓“作品”指的是在文学、艺术和科学领域内具有独创性，并能以一定形式表现的智力成果。这里有几个要点：第一，它必须是一个智力成果；第二，它必须是以一定的形式表达的；第三，它在形式上应该有一定的独创性。对于人工智能作品来说，上述的一、三两个要点似乎都存在着不小的争议。

先看第一点，即AI生成的作品是不是构成一个智力成果。

一些专家认为，答案是否定的。他们的理由很简单，人们在使用AI模型生成作品时，自己出的力是很少的。比如，我们让ChatGPT写一个命题作文，它二话不说就写出了一堆长篇大论，在这个过程中，人们唯一需要做的只是耐心等待而已。在这种情况下，怎么可以认为AI生成的作品是一种智力成果呢？

另一些专家则提出了与之完全相反的观点。这些专家认为，虽然在AI生成作品的过程中，人出的力是很少的，但是他们却在一些关键的环节进行了把控。比如，用ChatGPT生成文档时，提示语是非常重要的。善于用提示语的人甚至可以让AI直接生成一整篇优秀的论文，而不善于用提示语的人用同样的AI却只能生成出一堆废话。由此可见，人的因素在作品的生成过程中是相当重要的。这就好像在照相技术发明后，人们都可以用相机来拍照，但要拍出优秀的照片依然需要摄影师的精心构思和高超的拍摄技巧。既然我们认为摄影师用相机自动生成的作品是一个智力成果，那么又有什么理由认为用户通过提示语让AI生成的作品不是智力成果呢？即使我们不认可以上的推理，那么AI本身又是由什么创造的？是AI的设计者。因此，AI本身也是人类智力成果的体现。既然如此，那么作为衍生品，AI生成物自然也是智力的结晶，一种智力成果。

再看第三点，即AI作品是否具有独创性。这里，我们暂时排除前文当中指出的生成作品和训练集中某个特定作品非常类似的情况，仅把讨论局限在生成物只具有训练集的某些类特征，但并不与其中的任何一个雷同的情形。关于这种情况下的AI生成物是否可以被判定为具有独创性，也存在着十分对立的观点。

一些专家认为AI生成物并不具有独创性。因为所谓“独创性”，就必须有“独”和“创”两方面的特征。所谓“独”就是作者进行了独立的构思和创作；“创”则是指作品要具有创造性，能和其他作品具有显著的不同。在他们看来，对于“独”的要求，AI是无法满足的。因为从本质上讲，AI的作品只是一系列根据预先编好的程序完成的指令，它们只是对训练集中各种数据的一种拼接——一些言辞比较激烈的人甚至将AI作品称为“用其他作品的‘尸体’缝合起来的弗兰肯斯坦”——很显然，在他们看来，这种弗兰肯斯坦式的怪物身上并不是哪个人独立构思的结果，因而也就很难称得上是独创了。

另一些专家的意见则相反。在他们看来，人们用AI工具生成作品的构思中，依然是要进行构思的。事实上，如果想用生成式AI来创作一个好的作品，可能需要用提示语进行几十、甚至上百轮的交互，这个过程其实就是一种低代码的编程。没有人会否认在编程的过程中，人们需要进行独立的构思。同样的，对于在这种低代码编程工作中的独立构思也就应该被承认。从这个意义上看，用不满足“独”的特性来否认AI作品的独创性是不成立的。至于“创”，也就是AI作品与其他作品之间的相互区别，这在大部分情况下都不是一个问题。基于以上分析，这部分专家主张应该认可AI的作品具有独创性。

由于在以上的几个要点上存在着重大的分歧，目前人们对于AI生成物是否可以构成著作权法意义上的作品也依然是存在着争议的。

2、AI生成物的作者究竟是谁？

随着生成式AI的爆火，AI生成物的作者问题也成了人们热议的一个话题。围绕这个问题，还引发出了不少新闻。

例如，2022年8月，在美国科罗拉多州的艺术博览会上举办了一场美术比赛。在这场比赛中，一副名为《太空歌剧院》的作品获得了数字艺术组的冠军。这副作品的“作者”杰森·艾伦声称这是一副由AI应用Midjourney生成的作品。于是，很多人对艾伦的做法提出了质疑，既然是一副AI应用生成的作品，他怎么可以宣称自己是作者，并且拿着它去参赛并获奖呢？——由此可见，如果简单地将AI生成物的作者归为AI的使用者，并不能得到人们的广泛认同。

那么，将AI生成物的作者归为AI模型是否可行呢？在实践当中，这种做法也遭到了很多反对。一个典型的例子在学术界。在ChatGPT问世后，很多科研人员开始借用它来帮助自己生成论文，甚至著书立说。而作为“实诚人”，很多科研人员会在这些由ChatGPT生成的作品上署上ChatGPT的名，或将其作为共同作者。在一些条件下，部分谦逊的作者甚至会把ChatGPT作为单独的作者（比如，一些作品是通过人来提问，ChatGPT作答的方式完成的。这些人会将ChatGPT列为作者，而自己则仅署上一个“采访者”或者“整理者”的头衔）。但这种做法很快遭到了大量的质疑。比如，著名的《科学》杂志就发布了通知，规定不能将ChatGPT作为论文的作者或合作者。由此可见，将AI模型作为AI生成物的作者依然是不能得到人们认同的。

现在问题就来了，既然从直观上讲，无论是将AI的使用者，还是AI模型本身视为AI生成物的作者都会引来很多反对，那么究竟谁才是AI生成物的作者？总不能说，AI生成物都是没有作者，凭空从石头缝里蹦出来的吧。

目前在对于AI作品的作者认定方面，确实存在着很多学术观点分歧。

第一种观点认为，AI生成物的作者应该是AI的使用者。毕竟无论如何，AI作品都是在使用者的指令之下产生的，没有他们的指令就没有这些作品。

第二种观点认为，AI的生成物的作者应当是AI程序的编写者。持这种观点的人的理由是，从本质上看，AI作品只是由其预先编写好的程序完成了某一个工作。归根到底，是程序的编写者决定了作品的最终实现。

第三种观点则认为，AI生成物的作者应该就是AI模型。持有这种观点的人认为，随着AI在作品生成过程中的作用变得越来越重要，将没有起多大作用的人作为作品的作者是不合适的。他们指出，在实践当中，人们也经常将单位、组织作为“拟制人”来作为作品的作者，既然如此，也可以仿效这种做法，将AI模型视为“拟制人”，让它们来充当作品的作者。

除了以上几种观点外，还一些观点认为AI作品的作者应该是AI模型的拥有者，或者AI作品根本不需要有一个作者。到目前为止，并没有一个观点能说服多数人，成为主流的观点。

3、AI作品是否应该有著作权？如果有，它们该归谁所有？

对于这个问题，依然存在着很大的分歧。

一种观点认为，AI生成的作品不能享有著作权。主张这种观点的理由很简单：著作权是附属于人的一种权利，AI不是人，当然就不能拥有这种权利。一位非常著名的知识产权学者在论述这一点时举了一个非常生动的例子：一位摄影师在野外创作时不小心被猴子抢走了相机。当他千辛万苦从猴子的手中抢回相机时，发现相机里留下了很多张猴子不小心“拍”下的照片。由于猴子照相的角度非常特殊，所以这些照片拍出了人类作者很难拍出的动感和特色。这位摄影师将这些照片公开后，很多人在未经他许可的情况下复制并使用了它们。摄影师认为这些行为侵犯了他的著作权，就向法院请求终止这些人的侵权行为。但法院并没有支持他的观点，理由是这些作品并不是由人创作的，本来就没有著作权的保护。既然如此，那么复制、使用它们就不存在着所谓的侵权问题。这位专家以此作为类比，认为AI作品同样不是经人类之手创作的，因此无论这些作品多么精妙，它们都不能具有著作权。

但另一些专家则对此提出了异议。他们指出，从法律上看，著作权人并不一定是作者，例如现实中就经常出现由拟制人来充当著作权人的情况。因此，即使我们对AI作为非人主体充当作者有争议，也不应当就此认为AI生成物就不应该具有著作权。从著作权构成的角度看，它包括人身权和财产权（例如在我国的法律中，著作权就包括四项人身权和十三项财产权）。对于人身权，作为非人主体的AI当然无法真正享受，但像“署名权”等权利，对于清楚界定事后的各种权利义务关系是非常重要的，所以也应该给予AI。至于财产权，则可以视情况由AI的使用者和AI程序的编写者来进行分享。在这些专家看来，通过承认AI生成物可以拥有著作权，并对著作权中的各项权利进行合理的分配，不仅可以清晰界定权责、有效促进优质AI生成物的供给，还可以促进AI技术的发展。而相比之下，以AI作品不是由人创造的为理由，简单否认其著作权则是一种过于粗暴的做法。

这里需要说明的是，尽管从学术角度看，是否应该承认AI作品的著作权还存在着很大的争议，但在实践当中，人们似乎已经摸索出了一些做法。例如，在2017年时，北京联合出版社出版了一部题为《阳光失了玻璃窗》的诗集。不同于一般的诗集，它完全是由微软的AI“微软小冰”生成的。因此，在这部作品的封面上，就把“小冰”署为了作者。但与此同时，与本书相关的其他著作权则归属于开发小冰、并用小冰生成这些诗歌的团队所有。容易看出，这种做法实际上是类似于上面第二类专家的观点。

4、两个现实案例

由于对于上述的各种理论问题人们都很难达成共识，因此关于AI生成物是否可以有著作权，以及其著作权归属等问题都一直存在很大的争议。值得注意的是，随着AI技术的迅速发展，这种争议早已超出了理论的范畴，进入了实践领域。例如，在中国的司法实践当中，就出现了两个结果完全相反的判例：

一个判例是“菲林律师事务所（以下简称菲林律所）诉北京百度案”。在该案中，菲林律所根据在“威科先行”数据库设置相应检索条件后生成的分析报告整理了含有多张数据分析图和文字的文章并上传于其微信公众号上。不久后，菲林律所在百度经营的平台上发现了该文章，并发现这篇文章删除了署名和部分内容。据此，菲林律所以百度侵犯著作权为由，将百度告上了法院。在后来的判决中，法院认为数据库软件自动生成的相关内容是基于数据差异产生而不是由于创作，因此不具有作品独创性特征。虽然分析报告具有一定的独创性，但是根据现行法律规定，作品应该是由自然人创作完成的，因此该报告不是著作权法意义上的作品。不是作品，当然也就没有著作权。据此，法院对菲林律所的诉求不予支持。

另一个案例是“腾讯诉盈讯案”。在该案中，腾讯用其研发的智能写作辅助软件Dreamwriter创作完成了一篇新闻稿，并在腾讯证券网站上首次发表。在文章末尾，注明了“本文由腾讯机器人Dreamwriter自动撰写”。在文章发布的当天，上海盈讯科技有限公司就直接复制该文，并在旗下的网贷之家网站发布。腾讯方面认为，盈讯的行为侵犯其享有的著作权，由此提起了诉讼。法院在审理该案后认为，涉案文章由原告主创团队人员运用Dreamwriter软件生成，其外在表现符合文字作品的形式要求，其表现的内容也具有一定的独创性，因此涉案文章应该构成著作权法意义上的作品，并享有著作权。由此，被告盈讯在未经许可的情况下直接复制文章并发布，已经构成了对腾讯著作权的侵犯。

对比以上两个判例，不难发现这两者的案情类似，但法院做出的判决结果却正好相反。由此可见，在司法实践中，不同法官对于同样问题的理解还存在着非常大的差别。可以想见，随着生成式AI的兴起，类似的案例将有可能出现暴增。在这种情况下，如果不能及时在相关问题上形成一种共识，将有可能在实践中引发混乱。这不仅会让企业的合规和法律成本大幅增加，而且也可能阻碍生成式AI的健康发展。

关于生成式AI著作权问题的一些思考

那么，在生成式AI爆发的时代，我们应该如何应对由此产生的各种著作权问题呢？在我看来，面对创作工具、创作方法的如此巨变，固守既有的法律文本，试图从对法律中字词的解释来找出应对的方法可能无异于刻舟求剑。相比之下，回归著作权的本质，从更为宏观、更为动态的角度来对其进行思考或许是更为可取的。

　　著作权存在的意义究竟是什么呢？从根本上讲，它是为了维护人们的创作热情。如果我们不对创作者的相关权利进行一定的保护，那么就没有人会再进行创作，同时也没有人可以享受到具有创意的作品。但是，这种保护并不是无限度的，否则这就可能限制作品的传播。因此，如果我们用一种经济学的观点来审时著作权问题的话，那么它的本质就是一种激励和传播之间的权衡（trade-off）。

让我们想象一种理想的情况：假设世界上不存在交易成本，或者交易成本足够低的时候，所有希望使用作品的人和作品的著作权人之间可以自由议价，那么根据经济学上著名的科斯定理，让谁拥有著作权都可以让这部著作的使用状况达到社会最优的水平。这一点很容易验证：比如，假设有作者不希望自己的作品被复制，并认为这会给他带来价值100元的伤害；而某人则认为复制作品可以给他带来价值80元的收益。在这种情况下，社会最优的配置就要求作品不被复制。假设我们将权利分配给作者，承认他有权禁止别人复制自己的作品，那么很显然社会最优配置自然可以实现。但如果我们将权利分配给试图使用作品的人呢？在这种情况下，作者为了阻挡他复制作品，就会给他80元的费用，让他打消这个想法。最终，配置状况依然可以达到社会最优状态。

但是，在现实中，交易成本经常不为零，有时候甚至非常高。这时，人们就很难通过自由的交易来实现资源配置的最优。比如在上例中，如果交易成本高达50元，那么在后一种情况下，作者就不会付钱去要求使用人不再复制它的作品。在这种情况下，为了实现最优的配置状况，就需要将这些权利直接配置给能产生更高价值的一方。具体来说，在上例中，如果作者生产的作品价值非常高，那么就应该将权利赋予他，而如果使用人通过这些作品可以产生非常高的价值，则应该将权利赋予他，允许其自由复制作品。

除了初始权利的配置之外，权利的保护形式也是一个重要的问题。为此，我们可以采用法律经济学家卡拉布雷西提出的观点。具体来说，卡拉布雷西认为，在交易成本相对较低时，保护权利可以用财产规则（propertyright），即只有当权利人允许时，别人才可以要求让渡这种权利，并且由此产生的代价由双方议价决定；在交易成本较高时，保护权利则应该采用责任规则（liabilityright），即人们必要时可以先侵犯权利，事后对权利人进行补偿，补场的金额由第三方评估决定；而当涉及的权利具有很大外部性时，则适用不可转让规则，不允许双方进行交易。

利用以上这两个规则，我们就可以对生成式AI时代的著作权问题进行分析。

先看AI学习过程中的问题，即AI学习的材料的著作权归属。容易知道，在这种情况下，作品的作者和使用人进行议价的交易成本是很高的，因为对于作者而言，需要证明在某个AI生成物中有自己作品的元素是十分困难的。显然，根据前面的讨论，我们应该将著作权给那些能产生更高价值的人。那么哪一方可以产生更大的价值呢？应该是作者。因为对于AI而言，失去了一个学习材料，其实对模型的表现并不会有实质影响，但是如果否定了作品作者的权利，就可能让他们失去创作热情，从而不再创作。从这个意义上看，应当尊重这些作者的著作权，不允许AI训练者以合理使用为名无偿使用。但是，考虑到AI训练又切实需要数据，因此可以采用责任规则进行保护。AI企业可以先行获取相关数据，如果作者认为此举不妥，可以要求企业停止使用数据，否则就可以要求企业以第三方评估价格进行补偿。通过这种做法，就可以较好地兼顾作者的激励和AI训练的需要。

再看AI数据生成后的问题，即AI生成物著作权的归属。关于这一问题，我们应该将著作权这个权利束拆开来看。对于像署名权等权利，可以根据生成中的贡献来看，如果在创作过程中AI贡献足够大，就应该拥有署名权。至于其他的更为实质性的财产权利，则应该根据上述原则，视权利所能产生的价值大小来划分。

这里还有一个问题，就是如何界定创作过程中AI使用人的贡献大小。但在现代技术下，这已经越来越不构成一个问题。因为创作过程中使用人和AI的每一次交互都可以用时间戳等技术记录，由此，AI使用者在创作过程中的贡献就可以很容易被识别出来。