数据与故事

徐卓菁2012-08-06 13:47

 

by徐卓菁

 

副标题: 正在到来的数据革命,以及它如何改变政府、商业与我们的生活
作者: 涂子沛
出版社: 广西师范大学出版社
出版年: 2012-7

这仅仅是大数据时代的一个小故事。我们的身后都拖着一条数字信息组成的长长的尾巴——IDC最新的数字宇宙研究预计,到2020年,世界的数据存储总额将达到35ZB,1ZB等于一万亿GB字节——我们的生活已经变成了一堆数字,但大部分人对互联网的认知仍处于初级阶段。

年初,腾讯推出“QQ圈子”使用体验,“圈子”能智能识别用户每位好友及潜在好友的真实姓名,并根据社交关系进行智能分组,热情地为用户实名推荐好友。“圈子”功能引起多数用户的反感乃至恐慌。这种恐慌多半缘于隐私问题。即使是那些自认为没有隐私可瞒的用户,仍然觉得背后冷汗直冒。他们不理解,腾讯是如何做到这样精准地了解用户身份的,是否调用了聊天记录等隐私资料?虽然,在法律意识以及对人们心理、情感的认知方面显得很幼稚,但腾讯无疑成功地炫耀了一把庞大的用户数据库和后台算法。

“圈子”背后是强大的数据挖掘。QQ把服务器里的二度好友关系、群成员关系、朋友网、班级校友关系、微博听众关系等等关系链资源整合到一起,完整勾勒出用户的社交圈,数据量越大,结果越精准。

数据是什么?使用手机、点击网页、切换电视频道、开车穿过自动收费站、用借记卡或信用卡购物……我们每时每刻都制造数据,但我们不会意识到雅虎、Google正在捕获它们,不会意识到一群新兴的数学精英正千方百计以惊人的准确度剖析它们。这群如狼似虎的数据恐怖分子可以洞悉我们的每个举动,预测我们的行动计划,他们神不知鬼不觉地将我们买了什么、对什么感兴趣、与谁坠入爱河尽收眼底。对大数据投入关注的人的确存在于金字塔顶端。

我们对数据的重视足够吗?涂子沛在新书《大数据》的“尾声”里写道:“中国人数据意识的淡薄,由来已久,甚至可以称之为国民性的一部分。”他引用了黄仁宇的论点:在中国传统的学问——理学或道学当中,一直都分不清伦理之“理”与物理之“理”的区别。这两个“理”混沌不分的结果,是中国人倾向于粗略的主观定性、排斥精确的客观定量,从而养成了重形象、重概括、轻逻辑、轻数据的文化习惯。这种文化习惯,使中国人长期沉浸在含蓄、模糊的审美意识当中,凡事只能在美术化的角度来印证,满足于基于相似的“模糊联想”,止步于用逻辑来分析、用数据来证明,最终将表象上的相似,当作本质上的相同。

也许“圈子”事件可以是进行普世教育的一个机会,让我们从最切身的体会出发,领教“数据”的威力;社交是可以计算的(Social Computing),情感是可以计算的(Affective Computing)。《大数据》以美国为主体,为试图进一步认识大数据究竟有多大、这一世界大潮的来龙去脉为何的普通中国人提供了很好的梳理和参照。

就算不是说故事的高手,涂子沛至少也是个故事数据库。《大数据》吸引人的地方,是其中鲜活有趣的故事。不妨把它们分为两类。

一类是硬故事,政府面对大数据做出的应对首当其冲。数据技术变革推动政府信息公开、公共财政透明以及其中的曲折;《数据质量法》背后的隐情;全民医改法案的波澜;统一身份证的百年纠结;美国矿难的悲情记忆,《大数据》讲述了美国半个多世纪信息开放、技术创新的历史(从这点来看,它更像一本社会学而非科技类的书)。

“我们信上帝。除了上帝,任何人都必须用数据来说话。”这句话写在故事的开端。后半句把数据提到了和上帝相提并论的高度。可以想象,随着大数据时代的不断深入,美国人对于上帝的态度可能会越来越纠结;而对数据将会越来越“迷信”。这种“迷信”对联邦政府而言,已经不仅仅停留在“用数据来说话”的层次上了。随着大数据的迅猛增加,各个政府部门都在尝试“用数据来决策”、“用数据来管理”、“用数据来创新”。涂子沛喜欢用奥巴马的故事。他说:“我认为奥巴马是了不起的总统。奥巴马当时去Google拜票,就表示要设立国家的首席信息官。到了2010年,他还率先设置了首席数据官。奥巴马在签署的首份总统备忘案是《透明和开放的政府》,强调建立一个开放透明、公民参与、多方合作的政府。第二份备忘案则是《信息自由法》。这是一场数据民主化的运动,奥巴马政府正在把信息的力量放到美国人民的手中。”

Data.gov(www.data.gov)是书中提到的一个十分有趣的例子。美国政府搞的这个网站汇集了各种学科、不同政府部门的有关数值数据,供人们开放检索、下载,从美国的海外贷款和赠款数据、医疗保险数据、美国能源部和国家核安全局的数据,到食品原料数据、性别和种族人员趋势、农贸市场地理数据,还有现役军人的婚姻状况,甚至改良种用濒危野马种类、重量在10公斤以下的野猪种类等等令人意想不到的数据信息。涂子沛说:“由政府主导、向全社会开放政府拥有的公共数据,这种做法本身就是一种创新。”与此同时,美国政府在数据公开过程面临的威胁与困难,或许也能让我们看到一些借鉴意义。

涂子沛从太平洋对面看到中美两国的差距,深知这里缺少什么、需要什么。他将十多年观察、思索所得,淘洗成这一本书。美国是全书主体,但又处处反观中国当下的现实。涂子沛说:“虽然一谈到透明和公开,大多数人都会认可这是正确的价值观,但一旦要自己透明、要自己公开,那公开和透明就会立刻转化为一种威胁,政府也不例外。近几年,世界各国政府的信息公开工作有了新的基点和态势。政府信息的公开工作,定位新的G点。”