“数据”的黑暗面

2019-05-30 14:56

（图片来源：全景视觉）

陈季冰/文 2018年3月，就在英国《经济学人》杂志将数据比喻为“21世纪的石油”之后10个月，Facebook被曝出史上最大的用户数据泄露丑闻。自那以后，数据受到的关注度骤然升高，在金灿灿的前景的背后，数据的阴暗面也渐渐展现出来。

其实，数据泄露以往也并非罕见。过去十多年里，从航空公司、大型零售企业到连锁酒店，都发生过客户数据外泄事件，甚至连技术顶尖的谷歌也难免数据泄露之灾。

但所有这些都无法与Facebook数据泄露丑闻在美国社会所造成的震撼相比——一家叫做Cambridge Analytica（有人将它译为“剑桥分析”）的数据公司非法窃取了多达5000万Facebook用户的资料后，用算法进行大数据分析，根据他们在Facebook上留下的踪迹推测他们的日常喜好、性格特点、行为特征、政治倾向……最终目的是借助Facebook的广告投放系统，向他们推送个性化的政治广告、新闻乃至假新闻，以达到潜移默化地影响他们政治倾向和投票的目的。据称，Cambridge Analytica与共和党及特朗普的竞选阵营有着千丝万缕的联系。

此事牵涉面之广波及Facebook美国活跃用户总数的三分之一、美国所有选民人数的四分之一！在当今意识形态高度两极化的美国社会，无疑触发了一场史无前例的舆论大地震。整个2018年，年轻的马克·扎克伯格和他一手创办的Facebook都在焦头烂额地应付来自社会各界的诘难和压力。

这个事件第一次让人清楚地看到，如果数据被以不正当的方式错误地使用，将对整个社会造成多大的破坏，并且这种破坏已经越出了单纯的经济损失或某一些个体或群体的权利损害。换句话说，Facebook和谷歌这样的公司如果闯下了什么祸，已远非它们自己独自能够承担。

一

越来越多数据的收集和使用，正在给消费者带来巨大好处，并且必将重塑整个经济，使之实现前所未有的效率提升。然而，社会公众中的焦虑和恐慌也在与日俱增，许多人有一种对未来失去控制的无助感。对普通民众来说，首先自然是对隐私权利和安全方面的担忧。

据英国《金融时报》报道，2018年10月，牛津大学的研究人员发现，通过近100万款安卓（Android）app收集的数据有近90%被传回谷歌，其用途则不得而知。领导这个研究项目的负责人称，如今，对于智能手机数据流向数字广告集团、数据经纪商以及购买、销售并混合信息的中介机构的程度，用户、监管者、有时甚至app开发人员都不知道。他认为，“给人的感觉是这种本来正当的商业模式（数据共享）已经完全失控，形成了一种混乱的行业，受其影响最大的人却对它全然不了解……”

个人数据越来越多地被用于商业甚至政治目的，但消费者和公众却不清楚哪些公司（机构）拥有了我们的哪些数据？它们将会如何使用我们的数据？它们凭什么拥有并使用我们的数据……这个过程几乎是一个“黑箱”。加上频繁曝光的黑客攻击以及数据的泄露和失窃事件，就更令人烦恼不安了。

这就引出了一个“数据知情权”的问题。2019年3月中下旬，阿里巴巴发起的罗汉堂在杭州召开“隐私与数据治理”国际研讨会。2014年诺贝尔经济学奖获得者让·梯若尔（Jean Tirole）在主题发言中称，用户的“数据知情权”应当包括用户数据被收集以后将会如何使用、使用后会产生什么样的后果等一系列清晰的告知。然而他也承认，就连他自己在浏览网页，按下很多“接受（同意）”键时也并不会仔细地阅读它对自己意味着什么。

这个问题在中国更为严重。我们几乎每天都会收到大量垃圾邮件，接到陌生人打来的推销电话，电信诈骗在中国已成为一大公害。这些都说明，在中国，盗窃和买卖用户数据是家常便饭。

有媒体报道，最近一两年来，在线消费贷款应用的蓬勃兴起，甚至已经产生了一个活跃的专门买卖被窃用户数据的黑市。这很难禁止，也很难说消费贷款平台没有参与数据买卖。去年9月，有亚马逊员工大规模对外贩卖用户数据的丑闻被曝光，一度引发该公司中国区高管遭洗牌。

在中国，由于制度及文化等许多因素，人们长期以来对隐私保护的观念比较淡漠，这就使得数据的收集和交易（不管是合法的还是灰色的）都比在西方国家更容易。我们甚至还可以说，中国互联网产业之所以能够发展得如此迅猛，将经济整体上比我们发达得多的日本和欧洲远远甩在身后，除了得益于中国拥有世界上最庞大的消费人口以外，隐私保护的不受重视、数据监管的法律缺失，也是重要的土壤。

确实，即便发生了Facebook数据泄露丑闻之后，并没有明显迹象表明有人开始改变自己的网上行为，以更好地维护自己的“数据权利”。这或许是因为，这将是一场信息和能力严重不对称的博弈，普通消费者在复杂而海量的数据管理任务面前几乎无能为力。再则，他们也没有什么其他选择。

于是，这就又引出了第二重的担忧：数据垄断。

有资料显示，在欧盟《一般数据保护条例》（General Data Protection Regulation，简称GDPR，于2019年5月25日生效）正式施行以后，谷歌、Facebook等互联网巨头的广告量反而增加了，它们的平台也争取到了消费者很高的数据隐私使用同意率，比其他一些规模较小的竞争对手的消费者同意率要高很多。这一方面可以说明谷歌和Facebook的产品和服务确实做得很好，但另一方面恐怕更多的是它们市场力量的体现。

科技巨头一向受益于网络效应或规模效应，在“数据时代”，这种网络效应尤为凸显，以至于它在相当大的程度上改写了市场竞争的传统定义：Facebook的注册用户越多，它的“社交功能”就越强大，也就会吸引越多人加入；而收集了足够的用户数据后，公司会有更大的空间来改进产品、提升服务，从而吸引更多用户加入；这又意味着更多数据和更大的网络效应……这让后来的规模较小的竞争者永远处于劣势。

如果放到国家的层面来看，这种资源的聚集效应就更加触目惊心。因此有人预言，随着数据时代的深入和智能技术的不断进步，未来会出现一个巨大的“数字鸿沟”，国家与国家之间的“数据权力”的差距会越来越大。

悲观主义者描绘了一幅暗淡的场景：对数据的掌控和挖掘能力会成为一道难以逾越的坚固的“护城河”；那些领先一步的企业和国家将凭借它吞没竞争对手，以适合自己的方式重塑21世纪经济、乃至政治，从而加剧国与国、公司与公司、人与人之间的不平等，并将它永久固化下来……

而技术进步派将这种对所谓“数据垄断”的担心看作毫无必要的“杞人忧天”，他们认为，数据的最大特征就是变动不居、源源不断，在这样的背景下，任何一个技术上的变迁都可能带来颠覆性的变革，就像当年谷歌和Facebook彻底颠覆了广告行业一样。因此，如果“数据是21世纪的石油”的话，那么它恰恰意味着未来的竞争变得比过去更加防不胜防。光占有数据是没有太大意义的，重要的是开发数据——历史上，石油大国往往不是经济强国。

但悲观主义者们认为，技术进步派将破除“数据垄断”的希望建立在不受限制的技术进步上。然而在即将全面降临的“数据时代”，最大的威胁恰恰在于，技术进步派期待的技术进步将不再会自然发生。原因在于，当今的互联网巨头们能够通过数据来“监控”整个经济：谷歌能看到人们在搜索什么，Facebook能看到人们分享了什么，亚马逊能看到人们购买了什么……这让它们在各自场域内获得了“上帝视角”。当一种有潜力的新技术涌现时，它们会要么通过模仿和收购来将它收归己有，要么干脆通过自己的市场力量将它扼杀在摇篮里。总之，及早消灭潜在的竞争对手。

目前普遍存在的对于“数据霸权”的第三重担忧，其实更多的是一种对所谓“分配不公”的不满或怨愤。越来越多的人认为，那些科技巨头以提供免费服务作为诱饵，让用户感觉互联网上净是“大便宜”可赚，但实际上，随着消费者将越来越多的注意力投入在这些平台上，就成了它们不需要支付报酬的免费劳动者。

让·梯若尔一针见血地指出，平台经济改变了过去的生产者（提供者）、商品（服务）和消费者三者之间的关系。如今，对谷歌和Facebook来说，我们这些注册用户貌似是它们的消费者，但实际上我们更像是它们出售给广告商的“商品（服务）”，或至少是它们的“原材料”。问题在于，第一，我们的数据到底能产生多么大的价值，我们并不清楚；第二，即使我们不想要它们的“免费服务”，恐怕也没有什么选择的机会。

二

硅谷科技巨头们确实也有充分的正当理由来捍卫自己的商业模式：如果不收集数据，就不可能为用户提供优质服务。况且，它们并未强迫（或采用欺诈手段诱使）用户使用自己的服务。

就连凭借产业组织和管制理论摘得诺贝尔经济学奖的让·梯若尔也承认，尽管我们可以大胆地对这些互联网大鳄们提出质疑，但在监管实践中，恐怕不能鲁莽地一刀切，“把孩子连洗澡水一起倒掉”，这其实也是GDPR引人关注的焦点。他还认为，让平台给予注册用户经济补偿的建议，说起来容易，做起来很难。此外，如果用户过分强调对数据的掌控权，不让平台去“运算”和挖掘，那么这些数据实际上不会有什么价值，除非有第三方的中介数据公司介入。说到底，“掌握”数据不重要，重要的是“开发”数据。

如何对数据进行合理监管，并降服那些脱了缰似的平台公司？近年来，关于这个问题的学术争论层出不穷，有一些已经进入实践层面的尝试和探索。一般而言，它们大多沿着下述三条思路展开——

第一种监管思路的着眼点是隐私保护，欧盟的GDPR主要遵循的就是这条思路。

2016年11月美国大选投票几天前，联邦通信委员会(FCC)曾出台一项规定，试图强迫宽带提供商在出售用户数据前必须得到用户许可。但这项规定后来被美国国会投票否决了。此举遭到了隐私权利保护社团的谴责，但国会的否决也是有它明显的道理的。况且，美国是联邦制国家，现有的其他的一些联邦或各州的法律——比如ECPA（电子通信隐私法案）——都已有涉及到这部分的内容。

具有讽刺意味的是，孕育和诞生世界上最大的互联网平台的美国加利福尼亚州，却可能成为全美首个对数字经济采取严厉管束的地方。据报道，加州已经通过的隐私法律要求企业允许客户选择不参与任何形式的数据收集，并迫使企业就数据如何被使用和出售给第三方做出新的重大披露。它被认为是目前最高的数据保护标准，甚至可能比欧盟的GDPR更加严苛。

不过，如我在《如何定义“数据”的经济性质？》一文写到的，“隐私权”是一个本身就争议重重的概念。特别是在欧美发达国家，它的重点其实是在于防范政府对公民权利的侵犯。

第二种监管思路的着眼点是反垄断，这是原则层面最没有什么争议的，但它真的实施起来也相当复杂。

数据反垄断的原则无非是削弱互联网公司对数据的掌控力，赋予消费者（用户）对数据的更大控制能力。它可以通过提高透明度来实现，例如强制要求公司向用户公开它们掌握的关于数据的各种信息、使用前征得用户的同意、限制（禁止）“劝导式技术”的使用、对针对儿童的服务设置更多法律限制等等。

法律还可以借鉴专利机制，即在一定期限内对科技公司所掌控的数据采取保护，以维护他们的创新动力。超过一定期限后，这些数据就必须向市场公开并允许被分享。还有人呼吁，拆分Facebook这类掌握了过多市场权力的超级“巨无霸”，以实现更多的市场竞争……

不过，在当今的经济学界，主流的观点倾向于反垄断政策应当针对的对象不是市场垄断地位本身，而是滥用垄断地位对消费者或竞争者构成实质性的损害，更强调竞争性（Contestability）。用这一条去套那些硅谷巨头，大概没有一家应该受到打压或惩处——它们自己都还是生机勃勃的“年轻公司”。所以，针对社会上要求遏制硅谷科技巨头的呼声，负责反垄断的美国联邦贸易委员会（Federal Trade Commission）总体上态度并不积极，它的观点是：互联网与数据反垄断问题在现阶段是一个很不明朗、因而需要谨慎对待的问题，舆论所呼吁的监管目标可能是相互冲突的。举例来说吧，更高的透明度和更大范围的分享也许能有助于反数据垄断，但对于保护隐私权利却是不利的。

第三种监管思路的着眼点是更宏大的“社会公正”，方法就是迫使平台科技巨擘为开采“数据”买单，让它们向消费者支付所谓“数据红利”。

既然数据是“当代的石油”，那么，就像埃克森-美孚应当为开采地下的油气付钱一样，Facebook也理所当然地应当为开采数据而付钱。这是这一条监管思路的基本逻辑。自从阿拉斯加州发现了石油之后，它就成了这个冰天雪地的地方最重要的财政来源；挪威的情况也是如此，石油资源是公共财富，应当由全体民众共同受益，而非开发它的企业独占。“数据红利”的构想最初是硅谷技术专家杰伦·拉尼尔（Jaron Lanier）和经济学家格伦·韦尔（(Glen Weyl）提出的，并受到了公民自由律师、斯坦福大学教授吉姆·施泰尔（Jim Steyer）的有力推动。

让收集和经营数据的平台公司向“生产”它们的民众支付经济补偿的方法有两种——

相对更符合市场公平的第一种是“谁使用，谁获利”，也就是让平台公司根据用户产生数据的情况直接向他们支付“酬劳”。但前文已经说到，这种方式实施起来非常困难。无论这些数据是主动还是被动生成，很少有人有意愿、时间、和能力跟踪自己生成的所有信息或估计其价值。即便有这样的人，也缺乏议价能力来从平台那里获得比较好的价钱，最后只可能是平台爱怎么给就怎么给。于是有人提出，可以建立一个所谓的“数据劳工工会”，通过抱团合作，集体谈判的方式维护用户的“数据权益”。

另一种更为简便易行的方式是由政府出面，这其实就是阿拉斯加州和挪威等国处理石油收益的方式，眼下加利福尼亚州正试图对谷歌、Facebook和亚马逊等公司推行这样的监管。具体做法是，要求平台公司按数据经营获利的一定比例，出资创建一个财富基金，用于投资教育和基础设施等，最终服务于全社会。美国有经济学家做过估算，假如美国政府规定数字企业按50%支付数字分红，按目前的增长速度，到2022年，四大类数据收集者——平台、数据经纪商、信用卡和医疗保健公司——将向每个使用互联网的美国人支付308美元。

说到底，这实际上就是一种新的税。但正如有人提议的创设一个对数字经济进行专门监管的新型政府机构、甚至“全球性协调机制”，以应对“新时代的挑战”一样，从市场经济的角度来看，这一类政府强制行为注定会带来许多新的问题。很多时候，甚至比它能够解决的问题更多、更麻烦。

实际上，企业也在主动探索着自己的解决方案。

随着数据作为一种宝贵资源的重要性获得全社会越来越多的关注，许多科技企业发现，自己现在面临着这样一个严肃的问题：我到底是兜售数据的商贩，还是管理数据的管理员？

谷歌和Facebook显然是前者，它们现在变得声名狼藉。但或许还有另一种更好的商业模式，可以利用数据创造收入，但却不那么容易受到公众批评，也不太可能面临更严格的监管。

不久前，苹果和IBM都展开了公关行动。苹果推出了一个新的隐私网站，以更好地展示一些它认为将自己与谷歌等区分开来的特性，包括在单个设备而不是“云端”层面运行的搜索算法，让用户对苹果能看到什么拥有更大控制权。IBM则与欧洲议会合作，公布了一套新的旨在提高科技巨擘受信任度的数据原则和实践，其中包括一项承诺：永远不会将客户数据交给任何国家的任何政府监控计划，同时承诺客户不仅对其终端数据享有权利，还对任何源自其终端数据的算法“学习成果”也享有权利。IBM宣称，自己不会超出具体合约期限在其服务器中保留任何专有数据。

更多人则相信，包括隐私保护等在内的民众的“数据权利”，只有依靠技术进步才能真正得到有效捍卫。

在美国，已有的尝试包括开发私人账户，让个人或组织可以将自己的数据保存在一个他们能够完全控制的数据库里，并自主地选择与他人分享。

就像罗汉堂秘书长陈龙所说，其实数据不只是带来挑战，它也可以给我们带来很多的解决方案。未来可以有这样一种公共的“数字空间”，把用户各自拥有的一部分的数据放在一起，然后做共同的运算。但这部分用户数据是用户自己掌握的，没有人可以把它们“偷走”。所谓“魔高一尺道高一丈”，这种依靠更高阶的技术手段来提供解决方案、而不是把一切都“管住”的思路，或许才是经济和社会进步的更佳路径。