数据应该如何定价

经济观察报关注 2020-06-22 16:15

【超级平台】

陈永伟/文　

先定产权还是先定价格

近年来，随着大数据、人工智能、云计算等技术的发展，人们搜集、存储、分析数据的能力获得了极大提升，数据开始从单纯的传递信息的载体逐步变成了一种重要的生产要素。如何才能更好地创造、交易、使用这种要素，让它们能更好地提升效率、创造价值，成为了人们热议的话题。

为了更好地激励数据资源的创造，让既有的数据资源得到更为有效的配置，市场化的手段是必不可少的。只有数据可以在市场上被充分交易，这种资源才能真正地流动起来，其价值才能在流动中被发现。

不过，要真正实现数据资源的市场化配置并不是那么简单的，人们需要先解决很多制度配套问题。其中，最为关键的问题大致上有两个：第一个是数据的产权到底如何去划分；第二个是在交易中，数据应该如何被定价。

作为一个数字经济的研究者，我参与过很多有关上述问题的研讨会，听过、学习过很多专家的高论。在大多数专家看来，在以上两个问题中，数据产权的界定问题是需要优先解决的。原因很简单——如果这一问题不解决，那么交易的前提就难以保证。通俗地说，你怎么可以去拿别人的东西卖钱呢？正是由于这种“共识”，几乎所有关于数据要素市场建设的研讨会最后都会开成关于数据产权建设的研讨会。

唯一的一个例外是去年参加过的一个研讨会。在那次会上，一位资深的法学家提出了一个非常不同的分析角度。在他看来，界定数据产权这个问题固然重要，但由于数据这种要素太新了，和传统的要素相比又有太多的不同，因此在短期之内，我们可能很难在这个问题上达成共识。然而，推进数据的市场化配置，让数据流动起来这个任务是十分迫切的，所以我们并不能安心地等到产权的问题完全解决后再来考虑这个问题。因而，他主张，应该在进一步研究数据产权问题的基础上，把模糊产权问题下的数据定价问题提上日程，通过“两条腿走路”来推进要素的市场化。

可能是因为这个研讨会的参与者主要是法学学者，也可能是因为这位专家的观点在其他人看来过于离经叛道，因而他的讲话在当时并没有引起很大的共鸣——当然，碍于其资历和地位，现场并没有人去直接反驳他，大家只是很自觉地回避了他的观点，最后还是一如既往地把会开成了关于数据产权问题的研讨会。不过，在我看来，这个被大家刻意忽略的观点，其实是非常值得挖掘的。

我后来越回味这个观点，就越觉得这个观点虽然出自一位法学家之口，但其实是非常符合经济学的观点的。事实上，只要我们回顾历史，就会发现没有一样要素的产权是可以“毕其功于一役”，通过一个先天的设计而确定下来的。大多数的产权交易规则要在不断的交易中去磨合、去完善，最后才能成为一个公认的规则。这个产权规则形成的过程，其实是无数人参与的结果。那么，在什么时候，人们会有积极性去参与产权规则的设定呢？那就是，他们认识到，界定产权给自己带来的好处要大过界定产权给自己带来的成本，而要让他们认识到这一点，就必须让他们认识到他们要素本身的价值。

以数据为例，现在关于数据产权应该怎么界定，争议非常大。一种比较有代表性的观点是，应该把初始产权分配给对数据的估价较高的人，比如在搜集数据的平台和平台的用户之间，就应该把产权交给平台。这种观点是有理由的，由于数据本身的特征，它在平台手里通常能发挥出更大的作用，创造出很高的价值；而相比之下，不少实证研究都表明，即使那些号称非常在乎隐私的人，也愿意以非常低的价格出售和自己相关的数据。那么这个观点有短板吗？当然是有的。其中的一个重要问题就是，如果平台的用户都没有机会认识到与自身相关的数据的现实价值，他们对这些数据给出的估价就很可能是过低的。因而，按照以上的实证分析结果简单地把数据产权界定给平台，就有可能是一个错误前提下的错误结果。这里，我无意对以上关于数据产权的观点本身再作进一步的展开，只是想借这个例子说明，优先探索数据的定价和价格形成机制，再反过来思考数据产权，或许可以帮助我们理清很多原先难以搞明白的问题。

在那次研讨会后，我一直在期待那位法学家能够撰文进一步阐述自己的观点。然而，直到现在，我还没有等来这个文章。倒是在不久前，我看他发表了一篇文章，说应该把数据产权的界定作为数据市场建设的首要问题——不知道为什么，他又和其他的专家们达成了共识，而我也不知道究竟是应该为这种共识感到欣喜还是感到遗憾。

数据交易场景下的市场设计问题

既然法学界的前辈没有沿着自己提出的观点继续走下去，那么就让我这个经济学出身的后辈顺着他指出的路，往下探一探吧！

在讨论数据的定价问题前，我想先对价格这个概念本身进行一些讨论。价格是什么呢？从根本上讲，它是供求双方议价的一个结果。对于任何一件东西，它的供应者和需求者都可能存在着一定的估价差异。比如说一个杯子，持有这个杯子的人内心认为这个杯子值30块钱，低于这个价格不卖，而想买杯子的人内心则认为这个杯子最多值50块钱，高于这个不买，那么最终这个杯子将会以多少价格成交呢？答案是：我们并不知道，因为我们并不了解买家和卖家之间的相对谈判力量到底有多大。但有一点是可以肯定的，这个价格一定会在30块到50块之间，否则两人中就至少有一人不会愿意进行交易。从这个角度看，商品供给方的保留价格和需求方的意愿支付将分别是两人可能达成交易的最低价格和最高价格，至于实际的成交价，应该在这两者构成的区间内产生。如果一个市场充分发达，那么同一个商品的供给者和需求者都不止一个，每一个需求者都有不同的意愿支付，而每一个供给者都有不同的保留价格，正是这种差异化的存在，最终导致了所谓的需求曲线和供给曲线的形成，而这两个曲线的交点则会形成所谓的均衡价格。

对于大多数商品来说，由于它们的供给者和需求者都很多，交易量非常充分，因而价格通常是通过上面所说的供求曲线的交叉所决定的。对于这样的商品，我们无需多花心思，只要允许人们自愿交易，均衡价格就会自然显现出来。

对数据这种商品，有一些交易场景是比较符合以上特征的。例如，在物联网发达的环境下，可能有很多数据的采集者通过传感器在不断采集实时数据，而与此同时，又有很多企业需要这些数据。在这种场景下，我们就可以放开交易，让供求自己去寻找价格。这时，数据的价格就可能会随着时间的变化而不断波动，以此来体现供求关系的变化。

不过，在现阶段，以上的交易场景依然是比较少见的。事实上，在更多的情况下，市场上既没有那么多的数据供给者，也没有那么多的数据需求者，他们之间的交易也不会那么频繁。在这种情况下，整个交易在更大程度上就会退回到点对点的形式。正如前面指出的，最终的价格会在一个区间内产生。但是，这里有一个问题。当供求双方的数量都很少时，它们就各自成为了一个垄断者，因而都具有了巨大的谈判力量。他们不仅可能滥用自己的谈判力量去为自己争取价格上的优势，还可能会隐瞒自己的实际信息，来欺骗交易对象。这时，整个市场上的交易效率就可能会非常低。在这种情况下，一个良好的市场应该能够帮助数据供求双方尽可能地去披露信息，然后通过一定的市场设计来诱导价格的形成。

那么在数据的交易中，什么信息是最为关键的呢？很显然，一个是供给者的保留价格，而另一个则是需求者的意愿支付。有了这两个信息，市场上的哪些主体之间可能交易就可以被确定了，供求双方的彼此谈判也才有了目标。当然，按照我们的交易习惯，一般都是需求者去寻找供给者，所以在以上两个信息中，最为重要的是供给者的保留价格。有了这个信息，很多的交易就可以启动了。

从理论上讲，数据供给者的保留价格当然是其主观决定的，但在很多情况下，数据供给者都会利用成本加成的思路来决定保留价格，即在自己提供数据的成本基础上加上一个比例来作为自己的保留价格。和所有的商品一样，提供数据所需要的成本也可以分为固定成本和可变成本两个部分。固定成本是为了搜集、制造数据所必须投入的。例如你要搜集工业机器的实时数据，就必须铺设传感器，这一笔投入就是固定成本。当这些固定的投资铺设完成后，每多搜集一笔数据又需要投入一笔新的资金，这些资金就构成了可变的成本。根据不同的交易模式，数据供应者可以根据这些信息，采用不同的方式来在成本加成的基础上构建自己的保留价格。具体来说，如果数据交易是一次性的、整笔的，他的数据生产成本就是整个固定成本和可变成本的总和，在这个基础上加上一个比例，就可以作为保留价格。而如果数据的交易是按量进行的——例如让数据的使用者调用，按照调用次数付费，那么他要考虑的成本就是调用一次数据所需要的边际可变成本，以及固定成本的分摊，然后再在这个数值的基础上加上一个比例作为保留价格。

相比于数据提供者的保留价格，数据需求者的意愿支付可能是更难决定的。从理论上看，对于数据的需求者而言，数据的价值应该等于其能为自己带来的边际贡献——换言之，有这个数据还是没有这个数据，究竟能给自己带来多少好处，这个好处就是他们所愿意为数据支付的费用的上限。这个思路看起来非常简单，但在现实中却很难执行。事实上，在很多情况下，即使数据的使用者自己，也很难知道多使用一些数据能对自己的分析有什么改进，而这些改进究竟能带来多少经济收益，更是难以评估。在这种状况下，要精确获知他们的意愿支付将是十分困难的。好在在现实的交易当中，他们在交易前并不需要提供这些信息。通过交易程序的设计，我们可以诱导他们认识、披露这些信息。

那么市场交易机制应该如何设计呢？这需要取决于交易数据的特性。

一般来说，如果数据的潜在买家比较多，数据的排他性也不太强，一个人使用数据并不影响其他人使用，那么直接将数据供应者的保留价格设定为市场的价格就是一种比较好的价格。在这种设定下，所有愿意支付超过这个保留价格的用户，都可以获得数据，所有潜在的需求都能得到满足。从社会福利的角度看，这是一个比较好的结果。对于数据供给者来说，也能带来比较丰厚的收益，这是一个共赢的结果。在现实中，类似类型的数据有很多已经在采用这种模式进行交易。例如一些数据公司提供的研究数据，以及一些咨询机构提供的报告（在报告中往往有很多特别制作的数据），都是采用这种模式进行交易的。

当然，如果数据的潜在交易对象较少，数据本身的排他性又很高，那么以上的市场设计就不再适合了。举例来说，假设A、B两个公司都在尝试获取一套数据，如果这套数据被其中一家公司获取，则可以帮助公司制定有效的策略，带来巨大的价值，而如果这套数据被两家企业所共享，那么这个数据将一文不值。显然，在这种情况下，如果数据的供应者再按照上述策略来实施交易，这笔交易就不会达成。为了促进交易的达成，他可以采用一些变通的方法，例如设计一个拍卖机制，将保留价格作为底价，让A、B两家公司对数据进行竞拍，价高者得。通过拍卖制度，不仅A、B两家公司可以更好地通过对手的出价信息来认识数据的价值，最终还能保证数据落到对它评价最高的那家公司手里。显然，这比单纯的设定价格要有效得多。当然，拍卖制度的设计本身就是一门学问，关于这些技术问题，限于篇幅，在这里先不作展开。

总而言之，在数据的交易过程中，数据价格的生成机制应该根据其交易模式来设计。对于供需双方数量都较多，交易比较频繁的交易，可以更多地放任市场供求自行确定价格。而当供求中的至少某一方数量相对较少，在容易出现因供求双边垄断而导致交易无法进行的情况下，则应该引导数据供给者先披露其保留价格，然后根据交易数据的特征，设计一定的交易机制来促进数据竞争的效率。通过这些设计，数据价值就能更好地被发掘，数据资源本身也能够得到更有效率的配置。

无交易场景下的数据资产估值问题

到目前为止，我们对于数据价格的讨论依然集中在交易的场景之下。但还有很多时候，我们需要在交易本身并不能发生的前提下去为数据估价。

一种场景是数据驱动的并购案件。在这些案件中，被并购的公司所拥有的实物资产可能很少，就只有几台电脑，但它们却通过自己的技术，掌握了一些独一无二的数据。在这个时候，如何给这些数据估价就成了一个难题。一个现实的案例是2016年时，谷歌对职业社交网络公司领英（LinkedIn）的收购。当时，谷歌开出的高于领英市值50%的高溢价让整个市场都震惊不已，谷歌对此给出的一个重要理由是，领英拥有独一无二的数据，这些数据能够在未来为谷歌带来丰厚的回报。不过，谷歌这笔钱究竟掏得值不值，到目前为止依然有很大的争议。

另一个场景是涉及数据侵权的案件。举例来说，这几年涉及网络爬虫的案件非常多。一些数据公司为了获取数据，经常编写各种爬虫程序，去企业的网站上爬取数据，这很可能对这些公司造成侵权。当这类案件发生时，应该如何评估这些被爬取的数据的价值，又应该如何计算相应的损害赔偿，都会成为很大的问题。

对于以上这些场景，数据本身并没有发生交易，甚至没有发生交易的机会。那么，在这些情况下，又应该如何对数据来进行估价呢？在我看来，面对类似的情况，我们不妨将数据视为一种广义上的资产，然后根据通用的资产价值评估来设定数据的价格。

在资产评估中，常用的估值思路有两大类：直接法和比较法。其中，直接法是试图从资产本身入手，去进行估价；而比较法则是与已有的类似交易对比，在类似交易所产生的价格基础之上进行修订来确定资产的价格。这两种思路，都可以被借鉴到数据资产的估价当中来。

先看直接法。在资产估值中，直接法可以分为不同的角度。例如，我们可以从成本的角度来看资产，在成本加成的基础上确定一个价值。这种思路，其实就像是前面所提到的数据供给者对保留价格的确定，只不过在这儿，估价会是由一个独立的第三方给出的。与成本相对的，我们也可以从收益的角度来看资产。具体来说，无论是对于数据，还是其他的什么资产，但凡是一种资产，其价值的最终决定因素就是其未来收益流的贴现。对于评估机构，它们可以借助定量的方法，测算出数据可能为潜在者在未来各期带来的现金流改变，然后将这些现金流用一个比较公允的贴现值贴现到现在，就可以得到数据资产的价值。

在现实当中，数据究竟能给使用者带来怎样的回报，具有很强的不确定性，其实现会依赖很多因素。为了综合考虑这种因素，我们可以考虑引入实物期权（realoption）的观点来对其进行评估。在这种方法下，我们可以把数据分析工作视为一种风险投资，而购买的数据则可以被视为是在未来一段时期内从事或不从事这项活动的一种选择权（option，在英文中，它和期权是同一单词。也有些文献直接把期权译为选择权）。

相比于直接评估数据本身带来的收益，评估数据分析活动本身可能产生的价值是要更为容易的。一旦我们知道了数据分析活动可能的结果的概率分布，以及所有结果所对应的概率分布，我们就可以借用金融学中的期权定价方法来计算它。如果这些收益是连续的，且被假设服从正态分布，那么我们可以使用布莱克-肖尔斯（Black-Scholes）公式来直接得出估值；而如果收益是离散的，我们也可以用二叉树分析或者其他的方法来获得结果。或许有人会问，这种公式所计算出的价值靠谱吗？这取决于我们怎么定义“靠谱”。事实上，即使在期权交易中，布莱克-肖尔斯所计算的期权价格也未必和真正的成交价符合，但重要的是，它可以提供一个认识的“聚点”，在一定程度上消除人们对期权估值的分歧。我想，在数据资产的估价问题中，实物期权的思路也可以扮演类似的角色。

再看比较法。这种方法的优缺点都很明显。优点在于，它的思路很直接，也很符合金融中的“无套利”原则。如果现实中已有能够比较好地进行参照的交易，那么这种方法执行起来也很容易。而这种方法的缺点则在于，在事实上，对于任何一种数据交易，我们都很难找到一个完全可比的例子进行参照。现实中，数据是一种非常个性化的资产，看起来相似的数据，它们的成本可能很不一样；而即使是同样的数据，对于不同人的价值也差异巨大。因而，在采用这种方法时，如何在既有的交易价格上进行调整是一个亟待解决的问题。

在我看来，在处理这类问题时，我们或许可以根据经验，出台一套对既有交易价格进行修正的原则，这样至少可以让人们在估价时有章可循，从而减少很多交易成本。人们在讨论标准必要专利的许可费问题时，曾提出过一套Georgia Pacific方法。这套方法的基准是从一个已经授权的标准必要专利的许可费出发，然后加入现实中需要考虑的十五个要素去修正这个许可费。我想，在分析数据估值问题时，我们也很有必要去开发一套类似的标准。

除了具体的评估方法外，我还特别想强调一点，那就是相比于其他要素，数据要素之间的互补性是非常重要的。比如为什么谷歌愿意为领英出这么高的价，原因就在于它拥有的社交网络数据可以很好地和谷歌自身的搜索数据形成互补，因此，对于谷歌来讲，它可能值这么多价，但对别人而言，它可能就不值得。考虑到这一问题，在进行数据价值评估时，我们必须将这个问题考虑在内。当然，怎么在具体中去体验这种互补性，这本身还是一个难题。在我看来，一种比较好的思路是引入合作博弈中“沙普利值”（Shapley Value）的概念，这一概念可以很好地测定一个人从参与合作中所能获得的回报。如果我们把使用数据视为参与数据分析这项“博弈”，那么其沙普利值就可以被视为数据在这个问题中的具体价值了。