数据属于谁

陈永伟2019-01-14 18:18

(图片来源:全景网)

【超级平台】

2018年8月,杭州互联网法院对一桩反不正当竞争案件进行了判决。该案的原告是大名鼎鼎的淘宝(中国)软件有限公司(以下简称淘宝公司),而被告安徽美景信息科技有限公司则是一家名不见经传的小企业。

整个案件很简单:淘宝开发了一个名为“生意参谋”的软件,这个软件搜集淘宝平台上的各种信息数据,并整理成统计图表。淘宝平台上的商户可以通过这一软件查看自家店铺的经营状况,从而为自己的经营决策提供参考。这个软件分为几个版本,有免费的,也有收费的。免费版的功能较少,而如果商户要使用功能较为齐备的标准版,则需要每月支付98元的费用,如果要使用完整版,价格则更高。虽然每月不到一百块的费用并不能说得上是昂贵,但对于一些精打细算的商户来说,当然是节约一分钱是一分钱。在这样的背景下,被告发现了“商机”。它开发了一款名为“咕咕互助平台”的软件,让已经购买“生意参谋”服务的用户通过这款软件上共享自己的账户并获得租金,而其他没有购买“生意参谋”的用户则只需要支付少量的费用,就可以租用这些共享账户,获得来自“生意参谋”的信息服务。

案件的事实十分清楚,原被告双方都没有对此有过多异议。不过,被告在为自身行为辩护时提供的一番理由却十分令人玩味。被告辩称:“生意参谋”的数据本身就是淘宝从商户那里抓取的,它本来就应该是属于商户本人的。淘宝平台利用自身的垄断地位,在将数据进行了一定的处理后,再将其回卖给商户,其实是对商户利益的侵害。而美景公司建立“咕咕互助平台”,本意就是要让商户少付一些冤枉钱,少受一份剥削。按照这个道理,美景公司的行为,就不仅不应该被视为是一种不正当竞争行为,而应当是一种罗宾汉式的侠客作风!

不过,法官并没有对“罗宾汉”给予同情。最终,法庭认定美景公司不正当竞争行为成立,判令其立即停止类似行为,并向原告赔偿200万元。

虽然和同期的众多大案相比,这个案值200万的案件真的算不得什么大事件,但其意义却是巨大的。事实上,这个案件是中国大陆境内关于大数据反不正当竞争的第一案。这个案件中的很多问题,事实上都关乎我们每个人,值得我们深思。

当数据产权成为问题

笔者曾经和不少朋友讨论过这个案件。结果发现,大部分朋友在感情上更加认同美景公司,认为其做法客观上是对社会有好处的。例如,一位朋友就慷慨激昂地对我说:“明明是商户自己的数据,平台凭什么抢去做成了产品,再回头来赚商户的钱?真是太霸道!”那么,这种观点究竟对不对呢?要回答这一问题,我们就不得不牵扯出一个十分复杂的话题——数据的产权。

所谓产权(propertyright),指的是“一种通过社会执行而实现的对某种财产的多种用途进行选择的权利”。任何一种财产,只有被合理使用,其价值才能得到充分的发挥。如果这件财产本身的产权是不明晰的,什么人可以使用、可以以怎样的形式使用,这些问题都不明确,那么财产就很难得到合理使用。在这种情况下,人们出于自身利益的考虑,会对财产进行过度使用,导致“公地的悲剧”;也可能出于对财产遭受侵犯的恐惧,疏于对财产进行投入和维护,导致财产的使用不足。无论是使用过度,还是使用不足,究其根本,就是个人投入的成本收益状况与社会整体的成本收益状况之间不对等,用经济学的术语讲,就是存在着“外部性”(externali-ty)。而产权的最根本作用,就是要通过界定权利和责任,来消除这种个人与社会利益之间的冲突,让个人产生的“外部性”得到“内部化”。

作为信息的载体,数据几乎是与整个人类历史相伴随的。但在漫长的岁月里,人们似乎并没有将数据的产权看作一个问题,而在最近几年,数据的产权问题却突然成了社会的热点,很多公司甚至开始为数据打官司。本文开头所讲的淘宝与美景之间的诉讼,还有不久前被各大媒体争相报道的菜鸟与顺丰的纠纷、腾讯与华为的纠纷,本质上都是对数据产权的争夺。

为什么一个长期无人问津的问题,却突然成为了焦点呢?要理解这一切,还要从其背后的经济原因入手。经济学家哈罗德·德姆塞茨(HaroldDemsetz)在上世纪60年代曾发表过一篇题为《论产权理论》(TowardaTheoryofPropertyRights)的论文。在论文中,他指出:产权的产生,本质上还是一个成本收益权衡的过程。只有当通过界定产权,将外部性内部化的收益大于从事这一行为的成本时,产权才会产生。

德姆塞茨的理论对于现实世界很有解释力,在各种产权创设、变更的背后,都有经济因素的推动。一种财产,其产权的从无到有,要么是因为对其界定产权的收益变大了,要么是因为对其界定产权的成本变小了。其中,前一种情况的一个例子是美国水权的创设。在美国历史上,长期以来对河流的产权界定是比较模糊的,直到西进运动时,西部地区才开始出现了比较清晰的水权界定。究其原因,就是在人口大量迁入西部后,水源开始变得稀缺,争夺水源的冲突逐渐增加,此时界定产权的收益大幅提升了。后一种情况的一个例子是铁丝网的发明对美国西部土地产权变化的影响。在很长时间内,美国西部的土地产权非常模糊,牧民的牲畜可以随意在各家的土地上乱窜。其中的原因,就在于当时界定土地产权的成本太高。无论是搭建篱笆,还是派人驻守,都需要太多的投入,与其通过这些方法来避免干扰,居民宁愿选择接受让邻人家的牲畜践踏自家土地的现实。而铁丝网的发明则极大降低了人们界定土地产权的成本,在这之后,美国西部的土地产权就变得清晰了。

那么,数据产权成为一个问题,究竟是因为数据这种财产可能带来的收益增加了呢,还是因为保障这一产权的成本减少了呢?可能两方面的因素都有。一方面,随着软硬件技术的发展,数据本身可以产生的经济价值开始变得巨大。过去,人们可以获取的数据十分有限,对数据的分析能力也在很大程度上受到运算力的制约。随着互联网的普及和发展,人们搜索、采集数据的范围一下子变大了,可以获得的数据也一下子变多了。与此同时,计算机硬件的升级换代和算法的不断改进,也让分析技术的能力获得了本质的提高。原来简陋的数据分析开始变成了“大数据分析”,其对商业决策的价值迅速变大了。另一方面,一些技术的发展也让保障数据产权的成本下降了。过去,要清晰识别出一套数据从何而来,经过了哪些人的手,做了怎样的加工和处理是十分困难的。而随着时间戳等技术的发展,这些工作的成本都大幅下降了。在区块链技术发展后,人们甚至不再需要政府的背书,就可以通过去中心化的方式来对数据的产权进行跟踪和公示。

正是在收益和成本这两方面因素的共同作用之下,数据产权这个原本不是问题的问题,才在最近真正变成了问题。

数据产权应该如何界定?

一旦数据产权问题本身变得重要,那么,怎么对其进行界定、划分,就成为了必须要讨论的话题。关于产权问题的讨论很复杂,其中牵扯的因素很多,效率、公平,以及既有的法律和习惯都是需要牵扯到的问题。因此,要对这个话题展开讨论,我们就不得不先确定一个目标,也就是我们最希望通过界定数据产权来达到什么目的。

作为一名经济学研究者,笔者主张用效率作为界定数据产权的第一标准。换言之,在笔者看来,界定数据产权的最重要目标是在让数据可以产生的价值最大化,把社会福利的蛋糕做大,在此基础上,再对这个蛋糕进行切分、兼顾公平问题。需要指出的是,这里我们指的价值,并不是使用数据所产生的总价值,而是指整个总价值减去它所产生的成本后得到的净价值。例如,使用一套数据可能带来的价值为100,但在搜集数据过程中,却会给数据搜集的对象带来20的损害,那么这个数据的净价值就是80。

以效率为目标的产权应该如何界定呢?这一点,在很大程度上是和交易成本相关的。诺奖得主罗纳德·科斯(RonaldCoase)曾经提出过一个观点,那就是当交易成本很小时,初始的产权配置其实并不重要。通过人们的讨价还价,资源就会配置到最合理的地方。这个观点,就是著名的“科斯定理I”。这个定理的逻辑很直观:如果交易成本足够小,那么只要财产的产权还没有被配置到对其使用效率最高的人手里,那个人就会不断提高自己的出价。最终,相应的产权一定会落到最需要、最能使用它的人手里。

尽管“科斯定理I”具有很强的理论穿透力,但在现实应用中,它并不太好用。原因很简单:我们都生活在较高交易成本的真实世界,而交易成本的存在,就会让产权的初始配置影响资源的最终配置效率。这一点很好理解:从理论上讲,如果一个房主对房子的估价是200万,而市场上有人对这处房子的估价是300万,那么房子由前者转让给后者就是更有效率的。但现实中,这种情况并不总能达成。这可能是因为潜在的买主未必能找到卖主,即使找到了两者由于信息不对称,也可能和对方难以达成交易。当交易成本很高时,“科斯定理I”就不再奏效了。为了要实现效率目标,初始产权就应该要直接分配给最能有效对其使用的一方。这一结论,在文献中也被称为“科斯定理II”。

那么,数据产权的界定,应该参考“科斯定理I”还是“科斯定理II”呢?在笔者看来,应该是要参考后者。原因有两点:一是不同的人对数据价值的评价具有很大的主观性,难以形成共识。二是在数据的搜集和处理过程中,数据搜集者往往需要和大量不同的人打交道,因此需要大量的谈判,这样产生的成本是很高的。基于这两点,在界定数据产权的过程中,恐怕要更多参考“科斯定理II”,把产权直接分配给最有效率使用它的人。

不过,要界定谁更能有效率地用好产权,这又是一个困难的问题。以我们关心的数据产权问题为例,在现实中,参与数据产权争夺的人很多,每个人都可能声称数据对自己最有价值,在自己手里才能更好的利用。如何在不同的利益主体之间甄别出那个合适的人,需要结合具体的情况做具体的分析。

以淘宝和美景的纠纷为例。美景提出,“生意参谋”的数据都是从商户那里获得的,所以它的产权应该归商户所有,这听起来似乎有理有据。不过,如果我们来做一番推演,就会发现情况可能并不是这样。诚然,“生意参谋”的数据完全来自于商户的行为,但这些行为本身并不能直接形成数据,商户也不能用自己的行为本身作为参考。只有将这些行为中蕴含的信息萃取出来,进行加工,才会变成可以使用的数据,才能产生真正的价值,而这个过程是需要投入大量的资源和劳动的。一般来说,商户个人不会投入资源去进行这种整理,即使进行相关整理,其投入的成本也可能是巨大的。例如,他需要雇佣专门的人员对每日的营收状况、消费者访问状况进行记录,然后再将这些整理成图表,这些都会产生支出。并且如果单独做,这样的成本就可能很高。

而相比之下,淘宝平台利用其自身的技术优势,集中处理这些信息,就会产生“规模效应”,从而让成本大幅度地降下来。事实上,淘宝能把整理的数据以98元每月的价格出售,并且还有大量商户购买,就说明商户本身整理这些数据的成本要比这个价格更高。由平台来整理信息,形成数据,要比商户本人做来得更有效率。在这种情况下,如果把数据的初始产权界定给商户,那么淘宝平台就没有积极性去做这些工作,其结果就是淘宝赚不到钱,但商户却要花费更多的成本获得同样质量的服务。基于这点,我们可以得出结论:至少从效率角度看,淘宝利用采自商户的数据来向商户收钱,其做法本身是无可厚非的。至于美景对于这一行为的指责,则在更大程度上有狡辩之嫌。

说到这里,我想对一句颇有影响的话提一些自己的观点。现在有很多人说:“数据是新经济的石油”。在很多方面,这句话相当贴切:从作用上看,数据对经济的价值相比于传统经济下的石油可能是有过之而无不及;而从利用角度理解,数据也像石油一样需要经过加工,才能得到最终的使用。不过,这个说法也容易产生一种误解。如果数据就是石油,那么产生数据的人就变成了油田,平台用了人们的数据,就成了掠夺人们的资源了。

事实上,数据和石油存在着很大的不同。一方面,石油的数量是恒定的,挖一点就少一点。而数据则不同,它在时刻产生,即使利用再多,它也不会消失。所以只要在数据的搜集过程中,平台尊重了用户的意愿,尽到了保护用户隐私的职责,就不存在什么掠夺和剥削问题。另一方面,石油在长期保存中维持其自身的价值,而数据则有很强的时效性,其价值随着时间会迅速衰减。面对这种特征,如果商户本身在现阶段缺乏有效处理数据的能力,就应该更多地将他们交给平台来使用,从而挖掘其价值。

在效率与公平之间取舍

通过前面的分析,我们已经知道,从效率来讲,让更能让数据产生价值的一方获得数据的产权是更为可取的。由于在现实中,平台相比于平台的用户更能够利用数据、更能让数据产生价值,因此让平台来获得数据,就是比较可行的选择。

当然,在这个过程中,就会产生几个问题。

第一个问题是,如何保证公平,维护用户的合理权益。事实上,尽管我们已经根据效率标准否定了美景公司的辩解,但不可否认,从它被很多人认同这一事实看,这一观点其实在相当程度上触动了人们心中关于公平的那根弦。怎么在总体上保证效率的同时,让人们觉得更为公平呢?要达到这一点,采集数据的平台可能要在一些细节上下一番功夫。事实上,在国外的实践当中,一些数据搜集平台已经开始对搜集对象提供支付一定的费用,这一做法其实很值得借鉴。举例来说,其实“生意参谋”可以根据客户每月的被关注状况、流水状况等给予商户一定的优惠,因为那些生意更为频繁的商户事实上为数据的加工和生产提供了更多的资源,向这些资源的提供者们提供一定的对价应该是很合理的。

第二个问题是,在平台拥有了数据的产权后,如何保证其不滥用由此而衍生出的市场力量。不可否认,在数字经济条件下,数据就是权力。很多人认为,一旦企业掌握了大量的关键数据,就可能排挤竞争对手的进入。对于这一观点,笔者认为,我们首先不用过度担心。正如前面所言,数据的时效性是很强的,一个平台即使掌握了很多的过时数据,也不太可能衍生出太多的市场力量。当然,为了防止这种情况的出现,我们或许应该在数据产权的保护措施上多做点文章。例如,我们可以在把产权分配给平台的同时,要求其遵守卡拉布雷西所提出的“责任规则”,允许他人在使用数据之后,再按照第三方估价对其给予补偿。通过这样的设置,或许就可以在保证数据使用效率的同时,防止可能的数据垄断。

 

《比较》研究部主管