涂子沛说“大数据”时代
导语:“一个真正的信息社会,首先是一个公民社会”,这是全书的一个出发点,这个出发点就是说,“信息社会最大的特点就是,信息的自由流动。”如果没有人的平等,没有人的自由,信息能够自由流动吗?如果没有人的平等,我们这个社会彼此另外压抑另外一个人,我们的创造力怎么迸发出来?

主持人:我为大家介绍一下今天的嘉宾,首先是《大数据》一书的作者涂子沛老师,有请涂老师!接下来为大家介绍今天和涂老师一起对谈的两位嘉宾是王煜全老师,资深的市场营销战略专家;姜奇平老师,中国社科院信息化研究中心的秘书长,也是互联网周刊的主编,有请两位老师!我们首先请涂老师先就他的《大数据》一书和“大数据”和我们每个人的关系做一个简单的讲述。
    涂子沛:大家好!很高兴今天来到这里,非常高兴!而且我看到这个片头--鼓励和思想,我们现在就要讲这个东西。现在讲这个东西意义非常重要,十八大正在开,我们中国有30年的改革开放,我们说劳动力已经解放,市场经济的规则已经基本上建立起来了,但是当我们看世界的时候发现,还有一个新的关键词叫“创新”,怎么创新?没有独立的人格,没有自由的思想,我们能创新吗?所以我们现在需要的是一个创造力的解放,一个思想的解放和人格的解放。我这个书大家看了,一开头扉页就写的是“一个真正的信息社会,首先是一个公民社会”,这是全书的一个出发点,这个出发点就是说,“信息社会最大的特点就是,信息的自由流动。”如果没有人的平等,没有人的自由,信息能够自由流动吗?如果没有人的平等,我们这个社会彼此另外压抑另外一个人,我们的创造力怎么迸发出来?首先做一个解释和说明,这是看到了今天的片头时我的一个感想。
    今天给我说出的题目是“大数据时代的公民生活”,题目我也很喜欢,我们来演绎公民生活的时候,它的背景是“大数据”时代。首先来讲一讲“什么是大数据时代”,在研究一个现象的时候,首先要研究它的定义,研究它的内涵,咱们就先把数据给它抽走,看看代表是什么。数据不是数字,数据是有跟列的数字,当我们谈到数据的时候,我们想到的是它代表计算,代表精确,代表理性,代表科学,代表事实。大家说姚明很高,到底有多高,你最后说两米多左右,这就是一个精确的事实。数据的出现也是人类认识这个世界,不断地向前推进的需要,人类发现需要精确的数字,就好像回到刚才的例子,你说很高很高,到底有多高,我们看,人类历史上很多重大的文明推进和演进都跟数据离不开,比如说度量衡的发明,货币的发明,再比如二进制的发明最后导致计算机的发明,最背后就是数据。
我最近也在国内演讲,特别在广东讲的时候,讲“科学发展观”时,我特别引申了一下,我说科学发展观的落脚点就是数据,数据就是科学的基础,没有数据能有科学吗?数据就是科学的度量,所以再继续引申,因为这里面有一章叫“数据治国”,再继续引申“数据治国”就应该是科学发展观的题中应有之义。广东省委的机关报,日报最后就是以这个为标题,说科学发展观的落脚点就在数据,咱们就说数据的重要。经过信息时代之后,信息的内容实际上在不断的变化,就因为计算机的发明,我们有一个新的词叫Database--数据库。这个词完全是一个外来的词,计算机最早是计算数字和处理数字,那时候就存在Database,后来随着计算机能力的不断增强,它可以处理文字、图片、视频、声音等等,但所有这些都放在Database,所以我们把这所有的一切都称为数据,这时候数据的内涵扩大了。大家要知道数据的内涵在扩大,还有一些其他的事情也在发生变化,就是说数据的容量在增大。
八十年代的时候就有人提出Big data这个概念,那时候的“大数据”的还不是现在“大数据”的概念。“大数据”这个概念不断的演变,最早有人就预见到说有一天数据会比程序更加重要,比软件更加重要,它是指重要性。所以我们往大了说,可以说这是一个大的机器,一个大的房子,也可以说是一个大容物。到2000年的时候,宾夕法尼亚大学有一个教授出来定义,那时候企业的数据已经到泰了(?),他说200泰的数据就是大数据了,那泰到底是什么样的单位呢?比如全世界最大的图书馆是美国国会图书馆,美国国会图书印刷品的含量,不包括电子图书加起来是15泰,北师大应该是2个泰或者更少,这个数据就叫泰。现在国内也有很多人说“大”,到底多大才是“大数据”?我们说大数据的时候应该从大价值来理解,因为我们数据已经很多了,人类利用分析数据的能力很强了,我们能从数据当中发现以前不能发现的价值这个角度来理解。我们谈把数据的现象抽离出来谈,来理解什么是数据。接下来我们再把数据放回到物力事件当中,从它和其他现象的联系当中来把握和考察它的因果关系,大数据究竟是怎么产生的?我们说“大数据”的产生有五个因素:第一个是摩尔定律,第二个是组织计算,第三个是普适计算,第四个是数据挖掘,第五个是社交媒体。
我们现在一一对这五个因素进行解读,这五个因素里面有四个因素是认为影响到了我们公民生活的,我们来看看它怎么来影响在“大数据”时代公民的生活。data在五年的时候,应该有一个创始人,他发现一个东西:同一个计算机芯片,同一个面积上晶体管的数量每一到两年就要增加一倍,这意味着什么?意味着计算机处理的能力越来越强,存储的能力也越来越强,同一个面积上东西越来越多,越来越密,一到两年就增加一倍,物力存在器的性能不断上升,价值不断的下降。有一个考证说,从五十年代起最早的存储器发明到现在,存储器的价格下降了300万倍,大家可以想想,历史上还有什么商品它的价格能在半个世纪下降300万倍?而摩尔定律也成为了一个代名词,呈指数形发展的变化,急剧变化的状态,剧变的变化。我们可以看看,这个图代表摩尔定律,是条直线,为什么是直线呢?因为没办法画,如果严格按刻度来画的话应该是一条横轴的曲线。
我们说存储器的价格在不断下降,刚才说到泰,说北师大的图书容量假设是1个泰,1个泰的存储器要多少钱呢?现在的标价是95美元,意味着什么呢?意味着你有95美元你就可以把这个图书馆搬回家了。还有,科学家在继续预测摩尔定律还会继续有效,一直到2020年,2020年你把一个图书馆搬回家只要一杯咖啡的钱,3美元。1988年一个科学家提出了普适计算,普适计算提的不多,大家都提物联网。物联网是普适计算一个子概念,人家计算机的浪潮是分阶段的:第一个阶段是主机阶段,到80年代由于微软、苹果一直到个人电脑的阶段,88年互联网之后,科学家说这不是结果。未来的计算机会越来越小,会无处不在,跟日常的环境联系到一起,到今天实现了没有?我们智能手机就是一台计算机,无数的传感器、摄像头,很小很小,它可以收集数据,反馈数据。我可以举两个例子,美国气象局他气侯气象检测的传感器,随着汽车不停的往前走,从纽约到波士顿,它每10秒钟收集一次数据,一天收集10几万次数据,实时的传输到数据上面去。1989年就出现了数据挖掘,大家都挺熟悉的,也都都津津乐道,我们回头来看摩尔定律解决了什么问题?解决一个问题是说无论有多少信息,我可以以很低的成本保存下来。普适计算解决的一个问题是人类收集信息的能力越来越强,感应器、手机、无线网络、望远镜、仿真计算都在产生数据,就是说保存数据的能力很强、收集数据的能力很强,到1989年数据挖掘出现之后,这时候人类使分析数据的能力也空前的增强,数据挖掘是叫“在数据库当中发现知识”。
最近马云为了说服汪洋书记重视数据,他到汪洋书记那里说,他说汪洋书记你知不知道XX哪里卖的最好?根据他的数据他说新疆和西藏卖得很好,比全国绝大多数省份都卖的好,为什么呢?我们看数据挖掘沿着一条线,沿着一条什么线,首先我们有大量的数据,数据是信息的载体,然后有信息背景的数据就成为一条信息,有规律的信息就体现出一种知识。能够产生价值的新的知识,这时候就成为一种智慧,数据挖掘就是沿着这条线。我们再回到刚刚的例子,为什么呢?他们后来经过检测,发现西藏和新疆的男性总是给太太和爱人许下诺言,有一天我要带你去看海,可是一下子去不了,怎么办呢?先买一个笔记本表示一下心意,这是解释的一种,但这是不是一个知识?最多的解释,数据挖掘能发现一些新的知识,而我们知道的,数据挖掘不仅仅是挖掘数据,还会挖掘图像,挖掘文本,挖掘视频。现在的数据挖掘是非常强大的,我们周围有很多的摄像头,你在这个镜头出现过,挖掘一下你有没有在那个镜头出现过,如果它都监控过,就可以挖掘到今天同一个人在哪里哪里出现过,这就牵涉到我们公民生活一个很重要的方面--隐私,在这个时代还有没有隐私。另外还有一个很有名的事,有一个百货店,有一个父亲生气来质问这个销售经理,“你为什么给我未成年的女儿寄这个东西”,经理一看是一个怀孕妇女的用品,过几天父亲发现他的女儿居然怀孕了,那么他现在对这些企业而言,已经是一个很基本的数据挖据。现在对企业最大的挑战是什么?挑战是我要让你不知道我知道你怀孕了,要是知道,我作为一个顾客,我要知道你知道我怀孕了,我会觉得被冒犯了,下次我恐怕不会来你这里买东西,这就是平衡。但是商家他不想冒犯你,他用很巧妙的形式来隐瞒自己的意图,他把这个广告放在其他的广告里面,好像装作自己不经意,数据挖掘已经到达一个很普遍而且大家都在用的东西。
    到2004年的时候又出现了一个新的现象,就是facebook。我们回到创新这个话题,facebook是不是创新?那肯定是创新。前一段时间我看国内有很多制度来鼓励创新,我当时也跟几个朋友讨论了,说可不可行呢?马克?扎克伯格为什么要建facebook?他建facebook的理由很简单,就是想多认识一些漂亮的女孩子,后来他就是想帮助别人多认识一些漂亮的女孩子。facebook开始就是一个大学交流平台,就这么简单,后来他就去见硅谷的投资商,人家给了他1000万,觉得这个东西有前途。创新不是一个制度化的东西可以鼓励出来的,它是真正源于一种在自由的情况下的一种内在的能量的爆发。facebook给人类社会大数据的现象是一个“一锤定音”。为什么这么说呢?我们说以前是信息系统在收集数据,这时候是每个人都在贡献数据,你也发微博,他也发微博,而且你发了一条微博可能有视频,有图像。原来的信息系统收集恐怕就是数据,记录一个商业过程,这时候全世界的人开始贡献数据,而且这种数据有一个不同的名字叫“非结构保持性”,跟以前的数据不一样。大家想想什么叫非结构化?就是格式大小不一定一致。你发了一条微博大小肯定跟他发的不一致,你可能有三张图片,他可能没图片,你可能140个字,他可能只有20个字,这种数据的挖掘也很难,这时候人类的数据一下子就开始爆炸了,大数据已经成为一个不可挽回的现象,为什么呢?因为80%的数据都是这种数据,原来信息系统收集的数据变成20%,变成少数了,这就是不折不扣的进入大数据时代。
我们看到中国社会因为微博也发生了很多深刻的变化,很多事情都是由微博出发的,带表局长的事,高铁的事等等。我记得高铁的事的时候,我正在美国,我一直跟踪在微博上看,就是大家对这个事情的评论,事情不断地推进。比如盲人的事件的时候我也在里头,而且这些事件,你们能很快地从微博当中跟踪到最新的消息。你看微博被另外一个交流协同的影响比地震波还快,首先在微博可以看到那个地方地震了,几秒钟之后感到地震波,有振动。所以我们可以多说两句,因为这个东西太重要了,微博把这个平台,把互联网的交流沟通的功能推向了一个登峰造极的地步。我个人认为我们很难再超越在现有的互联网架构上很难有再超越微博新的发明和应用产生,要超越的话只有把现有的互联网架构重新推倒了再来。这就是Web3.0或者是Web2.0,王总和姜总他们两个人都很博学,我今天下午和他们交流的时候已经学到了很多东西。王总是投资公司的老总,他刚才跟我说,他投资的项目100%全是基于微博的力量。
我们再回到“大数据”上,2010年的时候“大数据”就成了一个很普遍的现象,2012年的时候“大数据”成了一个美国的国家战略。奥巴马把这个提得很高,他认为是跟互联网的超级计算一样重要。美国联邦政府投互联网的时候投了5亿,现在他们宣布给了2亿多。也是“大数据”很常见的一个解释,我就不多说了。
    我们最后来分析一下,这种种的现象最后导致了数据的增加,特别是社交媒体,使数据量大到物联网上,最后这个“大数据”的现象意味着什么呢?它代表的是什么呢?我个人认为,是一个新的时代来临,什么时代呢?信息时代和知识时代,正在向智能时代迈进。最简单的解释就是,我们从数据当中能有能力去发现更多的智慧,这是以前发现不了的,我们说我们在信息时代最大的标志是什么?信息无所不在,你想找一个你不知道的信息,你一百度几秒钟就可以找到了答案。信息时代就像这个三角形,再上面是知识时代,信息要成为知识,什么是知识?知识是有规律的信息,经过系统化的信息才成为知识,我们说现在正在一个知识的时代。
我们举几个例子,这几年教育领域近一两年在发生很深刻的变化,大家都是在大学教育,现在是在线教育。斯坦福大学的英文课现在已经有10万人在上,10万人同步在听,有一个教授在上课,斯坦福大学的学生没有100人,还有99900人都在全世界同步在听。大家现在要问,这个技术是不是以前就成熟了?以前的技术跟现在的不一样,他们除了上课之外还做作业,全世界10万个人跟这100个人做的作业是一样的,同一个平台,在一个智能学习平台。智能学习平台后面也是“大数据”,它能记录你所有的学习行为,然后分析你的学习行为,给后来的学习者提供建议。你进入它所有的鼠标,你在每一个PPT上面的停留,你什么地方做错了,它是大量的数据之后是不是能积累到很多很多的知识,你一上来如果告诉它我是个大一的学生,他就知道大一的学生学习行为应该是什么样子;她是一个女生,而且学的是物理学,它这里面有智能的系统会不断的引导你。这是以前没有的,大家可以想象这会发生什么变化呢?就是说每一门课都会有一个视频出来,这个视频是世界上最好的老师讲的,你学这门课恐怕大家都会有兴趣世界上最好的老师,哈佛的老师,斯坦福的老师讲课的时候是怎么讲的,更绝的事是什么,还有好多学者在进行编辑,他们把他们认为最好的视频汇编到一起,不同学习者不停地打分,不停地呈现,大家可以想象最后出现什么结果?就是每一门课都会有一个最好的视频,大家都要看这个视频,而且是免费的。所以说知识在变为无所不在,这跟我们的公民生活也都是相关的,等会儿我们再具体的阐释,这个跟公民生活到底怎么相关?所以说未来的老师也面临一个革命,他上课的时候就会想,我们是不是大家都先看看哈佛的老师怎么讲,他会成为一个课堂的组织者,而不是像以前一样的是一个知识的传授者。
我们说从知识时代进入智能时代还有很多的标志,比如说IBM能获胜,2011年时候战胜人类回答问题的冠军,我们记得,90年代的时候有一部计算机很有名叫“深蓝”,它下象棋战胜了人类的冠军。这个沃森是怎么回事,美国有一个节目叫“危险边缘”,主持人就是对参加比赛的人问问题,什么问题都问?天文、地理、语文、数学、明星、八卦、做菜、家务等等什么都问,终于有一个冠军出来了,回答战胜了所有的人,他的知识面是最广的,结果沃森把他战胜了。就是直接有人向他发问,然后沃森就回答,把人类冠军战胜了,这背后也是一个大数据,就是智能。它在快速的处理大量的信息时,一听到有人问,最后就回答。大家都知道谷歌,谷歌的无人驾驶汽车已经快上市了,现已经在路面上跑了,它也是一个大数据,很快就能决定什么情况应该刹车,什么情况应该转弯,什么时候应该减速,还有很多继续学习等等,因为只有半个小时,我就不展开了。
我们现在要来摩尔定律、普适计算、数据挖掘、社交媒体这些东西怎么会影响我们公民的生活。首先我认为,摩尔定律跟普适计算代表我国社会进入一个机会平等、信息更充分的社会,就是说,你最后的成就能走多远,恐怕跟你的出生,跟你家庭的情况,跟你的种族,跟你的性别,跟你以前种种情况下的约束的能量会越来越小。它怎么来影响呢?我想跟大家分享书里面的几句话,我特别喜欢这些话。
我们调查一下多少人看书,很少人,连十分之一都不到,看来我做的铺垫太少了,因为这么少才读过这本书,我以为90%的人读过。我很喜欢这段话----每个人的心里都有理想主义的火花,它可以被点燃,燃成火焰,进而迸发出非凡的能量,“大数据”的时代就是这样子,知识无所不作,数据在开放,知识在自动地流动,只要你想,只要你要,你就能做到。还有一个“一万小时定律”,就是说你腾出的时间只要够一万小时,你所有的资源都有,不像以前,家庭条件不好上不了最好的大学,现在哈佛大学的课都可以免费听,斯坦福大学的课你也可以免费听。因为知识无所不作,信息自由地流动,我们这个社会变得越来越开放,每一个人在面对很多社会禁忌的时候,可以利用自己的信息和知识去作出自己的决定,而不会盲从。我们以前的社会有很多禁忌,一个禁忌的社会,告诉你这个不能做,那个不能做。最典型的就是美国人坐月子,我在美国时他们也经常跟我讨论这个话题,在美国留学的中国女学生到底要不要坐月子?为什么我们的同事,今天生了孩子,第二天孩子也抱来了,就来办公室,跟大家打招呼?那中国女孩子要不要坐月子,这就是一个禁忌,是一个传统。怎么对待这个传统,国内也有争论,最有名的是方舟子。方舟子主张说坐月子是不科学的,我不知道我说的对不对,方舟子是不是这个观点。就是这个时代有足够多的知识,只要你愿意去找,然后按照自己的知识不再盲从,把自己的决定建立在自己的知识上。
然后说说“什么是一个开放的社会?”只有敢于突破禁忌的社会才是开放的社会,什么社会才会有真正的创新,才能不断激发创新?也只有一个开放的社会才能不断地激发创新,那是挑战禁忌,挑战传媒。下面一条也是我很喜欢的话,怎么改变?这句话都在我书里,我把它摘出来----不能坐等他人,这个时代是一个你主动要去,一个主动你就能改变的时代,因为资源就在那里,你不能去等其他的人,我们说影响公民的第一点:公民最主要的精神是什么?是积极地介入,积极地改变。影响我们公民的第二点,我书里面有很多关于“大数据”时代的隐私文化,我越讲越是有点对牛弹琴,这里有一个观点,有的专家说87%都不能定位,只要通过“大数据”挖掘就会定位,这是影响我们公民生活的一个巨大的挑战,就是隐私权的挑战,而隐私权是一个非常重要的问题,是对个人自由的凭照。我为什么用这么大的篇幅来写隐私权利呢?也是因为我觉得,我们中国社会特别需要隐私权利,不仅是政府在侵犯公民的隐私权利,我们公民彼此之间也在不停地侵犯隐私权,而且大家习以为常。但是隐私权是一个文明社会的标志,越文明的社会,越注重隐私权,个人才越有自由,隐私权是把自己跟公共生活划分开的一条界线,保障个人的自由。
社交媒体让我们进入一个前所未有人文相连的时代,这影不影响我们的公民生活?这是最大的隐患,为什么?它把我们人跟人连接起来,我们知道人跟人一旦连接起来,1+1大于2的作用。一个专制政体是不让人和人连接起来的,它要把人原始化地孤立起来,只有让你孤立了才好打压你,你的声音也发不出去,所以我书里面写“集体行动的逻辑”,100多年托克维尔写《论美国的民主》,他到了美国,说他的巨大发现,美国的民主为什么这么发达,他只归纳到一个节点:他说美国人太适合结社了,他太自由了,因为一旦结社的话,你的声音就能被放大,你就能形成一种力量,你就能发出这个声音,就能跟其他的团体博弈,你能进行一个表达,对不对?所以我在广东讲,汪洋书记放开了关于社会团体的注册,现在不用挂靠,原来要注册一个团体是要挂靠的,要找一个单位,要证明“我属于那个单位”,要大家“同意我”,现在不用了。哪个公民你要说愿意结社的话,当然还有一个过程,现在是一个巨大的过程,当然这是迈进了一小步就是时代的一大步。我们说微博之所以改变这个社会,就是因为它使人和人相连。今天王总给我讲了一个事情,就是说,行动会引发行动,信息越来越信息。
王煜全:其实也是刚才涂老师讲到的葛拉威尔的一万小时定律里讲到的,就是信息的传播
信息只能引发信息的传播,你听到一个消息,你觉得这个事情很让我生气。刚才涂老师讲了动车事件我们都很生气,怎么办?我也转发一下,就是信息转发信息,行动引发行动。如果你看到你的邻居上街了,你会说我为了支持他或者你的兄弟上街了,你说我为了支持他,我也上街,所以行动才能引发行动。
    涂子沛:对,我觉得这个总结概括的非常好,就是说信息引发信息,而只有行动才会引发行动。我们现在问题在哪?现在公民的社会问题在哪?很多人围观但是没有行动,很简单一个道理,你在公共汽车上如果看见有人偷东西,如果大家都不做声,如果有一个做声,那个偷东西的人还要威胁你,如果10个人都做声的话,他还敢威胁你吗?他肯定不敢了。所以我觉得,公民社会的形成不是围观能改变的。前两天说“围观可以改变”,现在围观不行了,那得要表态,表态发出声音才能改变中国。怎么影响我们公民的生活?我们说这是一个更开放的时代,为什么?“大数据”的时代是一个开放数据的时代。我记得跟一个省政府的人谈什么是开放数据,为什么要开放数据?首先说开放数据,要开放政府数据,就是说把政府的数据变成的格式放到互联网上去,为什么?所以大数据的时代,刚才说1+1要大于2,一个数据只有通过跟其他数据的整合才能产生新的价值,跟什么数据整合?我们说首先要跟公共数据整合,政府数据整合,因为公共数据是整个社会数据的一个基础。气候数据、人口数据,如果你的销售数据跟气候数据进行整合的话,你会发现它们不会有关联,你的销售数据能跟人口数据整合的话,你会发现跟密度没有关系。数据开放是有法理依据的。这要讲到公民,我们都在纳税,它用的是我们纳税人的钱,收集了关于我们的数据,但是不给我们用,这行不行?肯定不行,所以应该开放。我们说美国社会,不只是美国社会了,全世界现在有几十个国家都在开放数据,因为数据开放之后有很多创新都在产生,而且这种创新原来仅仅是知识分子才能做的事情,现在由于开放数据库,普通人也能用这个数据进行创新。我身边有很多这样的例子,大家可以看一下,创新的力量在向大众传输,每个人都可以传输,都可以拥有很多数据,数据也在成为一个权利,北京社会已经明确提出数据权这个概念。我再继续多说一点,沃尔玛在挖掘你的数据留下了记录,那大家问我为什么不能看自己的记录?沃尔玛是不是应该开个窗口也让我看一下我自己的消费记录?这就是数据权。
    全世界有30多个国家都在开放数据,不是发达国家的专利,非洲的肯尼亚也在开放数据。我大概就讲到这里,我还准备了10多页纸,差一点删掉了,就是关于我想通过这本书来表达什么,我讲了一个什么样的故事,我讲了一个大数据的技术浪潮是怎么兴起的,来龙去脉的,反正故事有一个背景,这个背景就是美国这个国家它的创新是怎么发生的,怎么一步一步的变得越来越开放的。通过这些故事我想传达三个层面的信息:第一个层面就是我个人层面,这就是本书的一个主题,除了上级政府必须让数据源时间,中国社会严重匮乏这种数据精神,我们的数据是一个任人打扮的小姑娘,数据的贡献率极差,中国的落后就是因为没有信息数据化的管理,缺乏这方面的东西;在国家的层面想传达一个信息,我们要抛开粗放型的管理,走向精细化的竞争,因为这是世界的一个浪潮----越来越精细化、越来越数据化;最后在社会层面谈这些,真正的信息社会,首先是一个公民社会,就是我开始说的,我认为我们不是一个信息社会,我们是一个信息时代,被科技力量拉近的信息时代,背后还是有一张手在操纵所有的信息。我前几天电子邮件都不能上,跟世界大量的联系都被切断了,只有打电话到美国说把密码告诉别人,再赶快把所有的邮件给我转过来,转到我中国的邮箱。所以说咱们今天晚上讲“大数据”时代的公民生活,我觉得是一个非常好的主题。谢谢!
    主持人:非常感谢涂老师,下面我们将请三位老师就一些热点的话题和大家进行讨论。我们每个人都避免不了有自己的数据,那我们就是通过数据来证明自己的一切,可我们的信息也都被无数的公司进行数据采集,在这样的情况下,我们会不会丧失掉自有的人性化和个性化?这个问题我想先请姜奇平老师回答,姜老师是《互联网周刊》的主编,在这方面非常有研究,先请姜老师发言!
    姜奇平:我觉得《大数据》这本书是非常有意义的,可以说把握住时代的潮流,从里面我们可以观察到时代的发展方向。我想结合刚才主持人的问题谈谈我的体会。我体会最深的一点就是刚才涂先生说要把“大数据”和“智慧”联系在一起,因为不搞数据的人就会想这跟我有什么关系,这里面的关键是把“大数据”和人,包括和公民,和我们自己结合起来。“大数据”对人会产生什么影响呢?我认为这是主持人说的问题核心。我记得在10多年前,我当时在一个中宣部长家给他修电脑,修完电脑后跟他聊天,他说“知识经济”这个提法不好,应该叫“智慧经济”。这里面请注意正好是涂老师说的四个阶段里面,“大数据”从知识到“智慧”这个道路,他当时说为什么叫“知识”不好呢,因为“知识”说的是特体,没有说我怎么样,对我意味着什么,因为数据多了好还是少了好,多了可能还成垃圾了。当说到数据跟我有什么关系的时候,那就得看跟人是什么关系。他认为“智慧“说的主体是“我怎么样”。我进一步的体会,就是个人看法了,我认为就是说“知识”往往是有价值的,而“智慧”,是什么才有智慧,是有意义的。有价值不一定有意义,也就是说知识可能很有价值但未必有意义。最典型的现象,比如说GDP上升,有钱但不快乐,也就是说有钱是很有价值,但是快乐关系到意义。
 “大数据”是干什么用的呢?什么样的知识可能是对人们有用,什么样的知识没有用呢?就看使我们的意义能不能得到提升,也就是说刚才主持人说的,个性化的东西。意义和价值是怎么换算呢?我的观点是这样的,个性化的价值就是意义,那么把意义合并同类项就是“价值”,价值是同质性的,意义是异质性的。当有“大数据”以后最终要变成智慧,就得看这个数据到底能不能解决人们的意义问题,我觉得这是一个核心的思想。这里面就要引申出两个话题了,首先,我刚才看到底下有人提问题,说“有了数据以后我们有没有可能对人的欲望进行解析?”我认为有可能,就是“大数据”最后对我们人的重大影响,它相当于读心术一样,可以读出我们内心隐秘的意义,不是价值这个层面的东西,而是意义这个层面的东西。早期最简单的大数据就是通过弗洛伊德解梦,就是一种数据挖掘,它不是把数据堆到那儿,而是通过数据解读你真正都说不出来的意义。在商业里面,它可能表现为个性化的需求,你自己都说不出来,但是我给你解读出来了,如果要在社会生活中,有可能就是把你满意或不满意,或者你出的那口气,你到底是骂娘还是不骂娘,你说不出来的那种东西表达出来了。这我认为是从大数据对人的重大影响和对社会的影响,也就是说对于我们追求幸福的目标提供一种工具,那么从表达的方面来说,是我们读数据,从利用数据方面来说,对于整个社会建设,包括公民建设是一个什么样的想法,我个人有一个观点,我认为它也是更大的表达意义,而不仅仅是表达价值。它可以表达价值就是大家共同的愿望,但是更主要的特点在于,它可以表达个人个性化的需求。个人的需求怎么说呢?比如四年一次,一大波人表达一个共同需求,这是一种有价值的思想,但是如果每天每日每时我有我自己的想法,这个东西我怎么来表达,现在美国的电子政务里面提出7×24小时,也就是我不需要四年表达一次,我每日每时都在表达,这个时候你注意它表达的东西,我在学理上把它称为“网民在日常生活中主张自己的权利”,也就是说他想说“官僚主义”。“官僚主义”是一个大概念吗?他说我这老虎,华南虎这个眼睫毛真好,这个眼睛真大,这是真的还是假的,他并没有宏大叙事,而是用一种解构的方式。你说华南虎是真的,我说是假的,那我就研究华南虎怎么样,好多人都围到一起。其实这就是一种公民表达,但这个公民表达和以前的17、18世纪的区别在什么地方呢?就在于它是个性化的,它不是宏大叙事,他就说我日常生活里的事,你要是在这些事上讲,那证明你就是官僚主义。我也不说你这个人贪污腐败,我就说这个人表,你戴这个表多少钱,这是和我们过去20世纪揭起大的暴乱的表达方法是不一样的。但是有一点是直指要害----你自己谈“为人民服务,为人民谋幸福”,具体现在到今天的7×24小时,你到底是还是不是。所以我认为它对个性化的意义得到更好地体现,这个就是“大数据”时代和以往时代的不同之处。
    主持人:感谢姜老师,王老师您谈一下对这个问题的看法?
    王煜全:我特别荣幸能和涂老师同台,因为我看了他的书特别兴奋,我估计大家可能都不太会意识到自己接触到了这个时代最前沿的脉搏。我要是上学时能听到这样的讲述我就兴奋死了,因为我们是花了20年的时间慢慢爬到前沿的,涂老师现在是直接把这个前沿给大家带过来了。可能大家觉得这事离我们很远,可是你回头想一个事情,谁手里还有没有手机,手机才花了多少年,十几年时间所有人都了,而且行为都改变了。这个时代的变化是非常快的,关键问题是我们要判断清楚潮流。在座很多都是学生,我自己的一点体会,对学生来说,一定要选准行业,如果是朝阳行业,你的未来无限。举个例子,1955年生的人有一堆成了IT巨富,比如比尔?盖茨、拉瑞?埃里森、迈克?戴奥这些人,但是问题是你如果是1955年生,没沾电脑这事和你还是没关系,但是就有一个要求,你的技术过硬。叫什么技术?我们叫“社会网络分析”。如果你没有这个技术我们免谈,但如果你有这个技术我会千方百计哄着你创业,就因为你站在时代的前沿。所以刚才涂老师问大家谁看过书,举手太少了,我觉得真的太遗憾了,回去一定要认真看,你掌握了这门科学的话,基本上,你出来薪水一定低不了。
    主持人:谢谢王老师,姜老师请您再谈一下吧!
    姜奇平:关于隐私这个问题,我们现在都是用一种防避的心态来看的。我非常赞成涂先生说的,从这个意义上来说,首先要解决如何保证公民隐私权的问题,避免政府对公民隐私权过度的侵入,我是完全赞同这个的。同时我认为,假设我们是在一个很正常的社会里面,我们再来讨论,把它当作一个全球化的问题来说,那“大数据”对个人隐私产生什么样的影响的话,我认为是另一回事的。我记得上次跟凯文?凯利讨论的时候,他提出一个观点,说我们有了数据以后,最终可能使我们的生活个性化、透明化了,这就是说,我们原来的生活是不透明的,隐私保护的很好,但是以后可能变的透明化了。但透明化和什么有规律,和个性化是有规律的,也就是说越透明化,越个性化。未来我相信很可能是在正面面对大世纪浪潮的时候,如果我们把它当作一个好东西或者坏东西都行,它本身是转型了,但是我们自己能调解它。也就是说,如果我不想个性化,我可能会把自己弄的不透明些;如果我想把自己更加个性化,那么我就不可能不让别人为我服务,不让别人了解我,因为别人更好地了解我,才能给我更好的提供科技化服务。他很有可能是这样的观点“我越个性化,我越主动的披露自己的信息”。我认为未来的社会,越来越开放,就会越透明,这个规律和社会发展有关系,一般到3000-5000美金之下收入的时候,大家看中的不是个性化的收益,更多的是消费,衣食住行大众化的东西。如果收入越高,可能个性化需求也越高,这就意味着对一个全球化的问题?我们不考虑“在一个制度合理不合理的情况下”,在一般情况下会是什么?就是越个性化。可能会面对大数据带来的各种挑战,如果这个人比较传统,比较保守,可能是把高级需求抑制住,专门发展低级需求。我认为我的感觉是中性的,未来对这个问题我的主张叫“个人信息的开发与保护”。“隐私”这个词有贬义,个人信息不一样,我们有可能在未来个人直接面对的是什么问题,实际上有好多隐私,不是简单的隐私问题,最关键的将来遇到的挑战是那些涉及我意义的事情,这些信息我到底是跟别人分享还是不跟别人分享?让不让别人知道?我认为这个可能是我们面对的一个现实问题。这个问题在以前可能不突出,但是以后“大数据”越发展,这个问题就越突出。美国的facebook相当于一个时间轴把你生活中大大小小的事给记录下来了,数据分析可以起码分析出你这个人对事物看法的偏好和意义,在这个时候你愿不愿意和大家分享?这个问题可能对我们这一代人或者我们下一代人和上一代人可能不一样,他会面对新的挑战。
    主持人:涂老师在这本书中用了很多的章节在数据和人的关系,以及隐私的问题,这方面涂老师再说一下。我们每个人用微博,很可能就面对人肉搜索,包括我们的个人信息被盗卖。这种事情也越来越多,你的书里也有好多类似的观点,现在给大家总结一下吧。
    涂子沛:隐私问题是一个很大的问题。我回国没多久,现在有人打电话来给我推销东西,因为这背后是一个利益的驱动。能不能有一个反数据挖掘的手段?当然是有的,现在有很多平台,像facebook、新浪。你进来的时候就问你愿不愿意公开自己的数据。进来的时候就是说信息是公开的,但是你能不能选这个地方说信息不公开,新浪微博是可以的,是吧。你对部分人开放,并不是代表它在后台不能搜索你的,其实它还是可以搜索你的。海外的平台,他们已经做到这个程度,因为隐私权是一个最大的争议。facebook怎么上新闻头条?它每次上新闻头条就是因为隐私权,现在它设了一个首席隐私官,但这个争议最大。如果它给你一个事先的权利,说你愿不愿意开放自己的数据?你不愿意开放的话就是锁上自己的数据,别人就搜索不了了,这是一个方法,还有其他的反挖掘。隐私这个东西,就是使数据成为一个权利,隐私权是集中的体现,为你管理自己数据的一个权利。你什么时候决定能够开放,什么时候决定能够编辑,什么时候决定这个信息可以删除,就是这样的,我觉得这就简单的终结吧。
   姜奇平:从产业和政策方向我估计是这样的,首先是法律上要解决这个问题,将决定隐私的开关权交给消费者,这个是法律将来的共同趋势,中国也不例外,这个也是根本性的保证。在我们的隐私里面,你不打开,别人也不能搜你。具体还有几个趋势使隐私的状态得到根本性的改变,第一个是技术发展,我们现在的隐私讨厌在什么地方?就是“推技术”,但将来是“挖技术”,这个“挖技术”是什么呢?你不要它不来,这个技术一旦变化,所有非垃圾的就没有了,这时候你可以发现,他挖的隐私没有意义了,这是一种情况,是由于技术类型的变化。另外一个是产业变化带来形势的变化。将来会出现原数据和加工数据分离的趋势,比如现在在阿里巴巴的原始数据,你能读你出你自己的绝对受保护的数据,当然任何人都不能读,可经过打马赛克或被编码化、粉碎化以后,它有可能被提炼出来。第三个方法是什么呢?商业模式会对隐私权造成巨大的影响,我们现在考虑的都是大批量的穿梭,如果是一对一就不一样了。你看大夫的时候,谁会对一个大夫隐瞒自己的隐私,可见“一对一”和“一对多”的时候是不一样的。你把你的信息可以给满大世界的人去看,和这个人正好就可以帮助你,帮完了你他连你姓名都不知道是完全不一样的,这第三个。第四是人们消费习惯不一样,刚才我打的比喻,我说现在你相当于大家都西服革履的,你个人被透明化变成比基尼了,大家都会觉得非常不自在。但如果将来进入一个透明化的世界,当大家都穿比基尼的时候,你突然西装革履跑到沙滩上时,人家会说你这人有毛病。这个时候,实际上大家的隐私还有另外一种心态,就是“看大家”,如果大家都是这个水平那我也要这个水平,大家都不是这个水平我也不是这个水平。这些事情会随着时间发展而变化,我相信不会像我们今天看来的这么严重,但不管怎么样,法律在这里起关键作用,就是说主动权在谁手里。如果你有开关权一切都OK了,现在的问题是我们目前不是这种情况,但以后会慢慢改变的。
    主持人:谢谢姜老师,王老师您对这个问题有什么看法?
    王煜全:我觉得姜老师说的特别好,第一隐私这个事的发展是个历史趋势,是不以人的意志为转移的。这个历史趋势大家如果有时间可以读一下facebook上市之前的时候,扎特伯格写的一封告所有股民的公开信。那个公开信写得非常有思想,(这个家伙是个非常了不起的人物,所以前一段国内有某著名的IT人士说中国出不了扎特伯格,因为咱们大学生没有那么有思想,我是希望重要能出,一定要有思想,)那里面最核心讲的,涂老师也讲了,社会网络是真正特别巨大的潮流,这个潮流是不可推断的,会使我们人进入到另一个时代,数字菠萝化时代,就是你想有隐私也不太可能有那么多了。大家大学的时候,一定住过宿舍,你们同宿舍的想在大学期间维系这四年的隐私容易吗?未来就是那么不容易的。举个例子,过去有个IT名人到处来演讲,说自己多么多么牛,是加州理工毕业的,后来被人翻出来,说是西太平洋毕业的。这事被翻出来还要靠人肉,靠人工,我们就是做技术的,用什么办法呢?我用技术办法根本不需要人工就可以把问题找出来,为什么呢?你只要分析他所有的好友,一定发现他没有加州理工毕业的好友,但有若干个西太平洋毕业的,你猜他是哪儿毕业的?这种东西用技术就把你的隐私打碎了,你想要有都不可能,这个趋势你只能接受。过去还有破坏机器的那些人,可这东西是潮流,你可以逆潮流而动,但是潮流不会以你的意志为改变,这是第一,隐私必然降低。姜老师说未来的人必然会适应,因为隐私降低大家还要活,大家一定去会适应,而且会衍生出另外一套方法来。
第二个,隐私的保护是巨难的事,为什么呢?我们是研究数据的,把A数据级和B数据集放到一起,尤其以前的数据和数据没有参照系这个很难做分析,现在一个参照系就是以人为参照,大数据最要命的是什么?我们说同一个用户的身份,叫userID,如果我拿手机做用户身份,你在手机上干的任何事我都能汇总起来,分析你,比你还了解你自己。原来我给移动干了10年的顾问,我跟他们开玩笑,说假设我取一个值,当然运营商这个概念还不到,所以咱们涂老师需要再去给运营商忽悠忽悠,很多数据他认为是我后院的金矿,我不挖我也不让你挖,但实际上他要挖的话,你会发现你很危险,因为他能知道你所有的情况。我当时就举一个例子说,运营商只要分析一个书,叫《异地开关机数据》,你猜我能知道你什么?我能知道你所有的背景,因为我们中国人一般都习惯飞机都起飞了,滑好了我才关手机,那边一降落就打开,我能准确的知道你什么飞,什么降。当然知道你所有的飞行行为,当然不止这些,就是通过运营商数据知道的事就多了。
我和姜老师我们前一阵参加一个读书会讲,那本书叫《爆发》,《爆发》里有一个说法曾经把大家吓坏了,说“通过数学分析能够对一个人任何一个未来的行为产生预测准确率到93%”。大家就说我行为93%都可预测这是很恐怖,其实不是所有的事都是93%,就指特别的事。如果我能采集你在基站之间漫游的数据,因为每个基站之间,你要跨基站运动的话,手机是会和基站发生通讯的,就是运营商能够连续记录你的运营行为轨迹,就知道你从哪儿到哪儿。这些运营商能记下来,运营商只要连续采集你一个月,你的行为轨迹,再往后去预测,未来的任何一个时间点,他能预测你在那出现的可能性是93%,这是很特异的。就是说如果你掌握了这些数据,那你知道的事就多了。我认为未来其实对隐私这件事还不是今天我们谈的这点问题,是个巨大的问题,但是第三点大家别担心,那个问题很遥远。运营商不知道他们家的数据那么值钱,他也不屑于采,这个问题在美国谈还略有点意义,因为美国已经开始在整合了。涂老师数据讲了很多,各部门的整合,我们做数据的知道,各部门数据一整合,尤其是以用户为核心点把数据一整合,你对用户的行为了解会惊人得准确,这个很恐怖。你知道他的社保数据,你知道他的银行数据,就会出很多事,比如说诈骗社保的就出来了,银行里都有钱他还去拿社保。现在美国发现这个事很严肃,宁可不抓这个诈骗犯,也不能让数据整合,美国对隐私考虑的很严重,两个部门的数据直接整合不起来,所以在中国这事还很遥远。我们先朝着整合数据努力,即使那是未来的痛,那也是个美好的痛,因为等到我们能谈那个痛的时候,说明我们离“大数据”不远了。
    主持人:谢谢王老师,今天的中国社会相比以前,我们掌握更多的财富,所以我们下一个问题想问一下涂老师,就是作为我们个人来说,在座的同学未来都将走进社会,掌握更多的财富,我们应该怎么来重视自己的数据,以及我们怎么来保护自己的数据和建立自己相关的数据信息,请你谈一下你对这个问题的看法。
    涂子沛:第一点还是回到这个话题,首先保护自己的隐私。第二点我想谈一下我书里面谈到一个东西,就叫做“量化自己”。如果你掌握了你自己很多数据,我招商银行给他们做了一个展示,是美国的个人银行是怎么管理的,银行记录了我所有的消费,而且我在美国的消费基本上不用现金了,也在很少情况下用现金,可以说我的消费行为95%都是信用卡,全部是有纪录的,这纪录拿到银行,把所有的消费分配,它就能知道你是在餐馆的消费,它能知道这笔消费是水电费,它能知道这笔消费是购物,这笔消费是租车子,这笔消费是加汽油的。每个月它都会有一个消费报告做对比,比如说你加油的记录,它就会有第一个月加油的数字,下个月加油的数字,有一个柱状图进行对比,如果你对这个行为有个分析,这个行为的分析其实这里意味着很多的商机。美国有一些应用,如果你把这部分数据全部提交给别人,他们会进行一些更深层的分析,比如分析你的消费行为合不合理,是不是什么东西买多了,什么东西买少了,还有什么东西是不是买的特别贵。它会告诉你,打个比方你上个月消费了这么多纸巾,你买的是什么牌子,是什么样子的,它会告诉你那个更便宜,甚至分析你买的实物,它可以统计出它的卡路里,它说你这个健康行为不好。量化自己,像凯文?凯利来的时候带一个监测器,现在很多种量化自己的方式,量化自己的健康,检测自己的一切的行为是通过数据,各种传感器来监控,它们在量化你自己的时候,会发现其实你自己的行为根本不像你想象的那样,就是你对自己的感觉实际上是有盲区的,它通过这种量化就可以纠正自己的行为,让自己的行为更加健康,搜集个人的数据也是有价值的,两位有什么补充?
    主持人:谢谢涂老师。
    姜奇平:我补充一下,我觉得涂老师讲的非常好。从未来的商业来看,个人数据库的问题,数据留在本地这会成为一个趋势。现在我们的模式是什么呢?就是你的数据存在服务公司的服务器上,或者是把诸多人的数据集中在某一个大的库量公司,然后它进行分门别类进行分析,将来不会是这样的。将来会出现一个什么情况?就是你出现一个本地数据库,这个本地数据库就是一个手机,手机会同时把你在地球上运动的轨迹通过网络BS服务的信息,你所有的交流记录,以及你所有的信息记录下来。这四大类信息一旦聚集相当于它解决了什么,相当于数据采矿业,也就是说大数据第一个形成的行业,相当于山西挖煤的,它是把数据当成采掘业采集了,现在四大行业大家可以注意,这都是上千亿的,一个是LBS采集器,第二是支付采集器,第三是SNS采集器,第四是邮件的采集器,有这些东西之后,这些东西都像是随身携带的,而且它现在向着那个方向发展,向着时间轴的方向发展。当时巴拉巴西提到这个,说它可以预测到你93%的概率行为,靠这个就可以基本搞定,这时候你会注意它和以前不一样了。以前它是通过分类,分类是到不了1对1,但是你如果管理好你的手机的话,它将来会出现什么事呢?就是把有价值的信息在中央处理库里面处理完之后,它会在最后的零点零一秒跟你比对一下,这时候分析出你的意义来了?刚才我说意义是什么,意义是个性化的价值,此时此刻的价值。这个时候你和别人不同的地方靠本地数据库来比对,这个我认为是将来数据挖掘模式重大的变化,所以在这个过程中会引发出第二个行业,我估计等你们的后代发展起来时就在这个行业,数据加工业,相当于山西挖煤业,那个“煤”大家就觉得卖煤太可惜了,煤就这么一加工就搞出这么多钱来。我认为以后看起来没什么好事了,以后深加工、加工,你可以发现,它有两个加工:一个是对于数量的加工,大量的统计外面公司将煤收购,他们自己都不知道他们有这个秘密,再有分解数据出来以后,也就是音频视频出来以后它会带来定性分析这种突飞猛进,下一步迫在眉睫的巨大变化就是咨询业。咨询业要变到那个方向去呢?它对数据分析要变成一对一数据分析,这时候就跟艾森的预测会出来了,这时候会出现几千种行业叫做“生活方式设计师”,一对一进行个性化服务,这些靠什么?都是靠数据的加工,也就是这时候加工不是原来数据,而是靠原来数据的增值一步一步在发展下去。
对我们个人生活来说会有什么影响,我刚才说的是对生产的影响。我就不讲那么多理论了。我谈谈我个人的感受,我自己是怎么管理的。我写日记跟别人不一样,我白天的事全都不记,我专门记我的梦,我做了什么梦,白天的事过去就过去了,我记这个梦是干什么,是对我进行心理分析,因为梦它是非常真实的,是在大数据这个层面才能挖掘出来的东西。我交给大家一招,你们大家都没有孩子,如果有孩子就可以看出,比如问你小孩,晚上梦的是大灰狼还是老巫婆,他如果说大灰狼一定是丈夫对他批评太严厉了,如果是老巫婆一定是夫人太严厉了,因为什么呢?小孩受到心理压力了,在意义层面受到心理压力了,他说不出来,也不敢对大人反抗,但是他晚上胡乱做梦的时候是毫无障碍的,这时候他就能随意匹配。再有一个你们都有一个印象,你要是做梦发大水,肯定是你喝水喝多了没上厕所,这时候你可以分析出什么,你可以分析出自己的快乐和不快乐的根源在什么地方,比如说你焦虑,焦虑状态,焦虑到什么程度或者说这个时候可以达到一个状态,就是所谓的“自知之明”。自己知道自己太困难了,你要能知道自己,我非常赞成刚才涂老师说的,别人的时候头头是道,等说到自己的时候比较困难,为什么?就因为你自我隐藏的太深了,藏在了潜意识层面,大数据干嘛的?就是干这些用的,所以将来我建议大家除了记白天的事,晚上还可以记一下梦。
    主持人:谢谢姜老师。王老师给我们支支招。
    王煜全:支招谈不上,就是姜老师讲的挖煤的,这个里面是非常精彩的,因为一切都刚开始,数据的收集刚刚能够有机会,那数据的解读也是史无前例的,斯坦福的一个教授(,东欧人,不知道为什么东欧人数学总是很好,那个哥们是我们学术领域的牛人,他)有一个说法,过去社会学有一个测本定理,就是三个东西不能全有:一个是全样本,就是所有人都去检测,第二个是实时数据,第三个是连续数据。我实时采一个点可以知道现在所有人的位置,一个点卫星一照没问题,连续记录卫星也留不住,以前是没有办法,现在有个摄像头一切都有了,网络把你的行为全部连续记录下来,而且是所有人的。这就跨到一个新的时代,我们对人的分析不再是以前说的用取样分析了,我们可以用全样本做分析。这时候就回来了,我们就大量的需要验证,以前只能取样的理论,现在我们在全样本上去验证,这里面就很好玩。比如举个例子,一直有个说法,现在社会学那帮人对人研究的兴趣还不如行为经济学,因为行为经济学是要看结果的,社会学太理论,我们总结“大数据”给我们的经验教训,太理论了没有数据做支持就会脱离实际。其实行为经济学里面最爱做数据分析了,哪怕在学校里也是实证得来的。比如说行为经济学里面有个领军人物,我估计他的那本书大家应该能读,叫“观看行为学”,其实在国外的翻译叫做“可以预测的非理性”就是说人都是非理性的,但是人的行为可以分析和预测,这个作者其实在另一个研究里面提到他很有趣的研究是什么,如果这个人身材更高,他谈恋爱的时候会有优势,所以矮的人他能够量化计算,他要每年多挣多少钱才能谈到差不多同样的女朋友数量,才能弥补这数,所以个矮的各位赶紧学习,赶紧挣钱吧,要不然在找朋友上很有劣势。这个东西可以做到量化,背后的理论依据是什么?其实我们原来在学校做学生研究的时候,专门找过高校的学生,跟踪他们的行为也得到了验证,什么意思呢?说简单点就是社会地位高的人倾向于占有更多的社会资源,在学生里社会地位高,比如说这人吉他弹的特好被别人崇拜或者这个人是他们的戏剧社的社长,被一堆小女孩追着,他倾向于占有更好的社会资源,他的女朋友一定漂亮。回去看看你们班女朋友漂亮的孩子,一定有出众的地方,当然不一定成绩好,别的地方好,受别人追捧。当然这事我们现在想办法在干嘛?在微博里面做全样本的量化分析,这个是据我所知国外也没人干过,我们是干一些史无前例的事,我们跟高校有合作,目标是把我们的文章登在顶尖论文期刊上,因为没人干过。怎么测呢?我也告诉大家,看看你们能不能做,能做大家合作:测某个人他拥有社会资源怎样,就看他的微博里的双向好友,代表你认识的,互相互粉的好友,你的异性好友的年龄和你的平均年龄差,比如说我40岁,我是一个看校门的。另外一个人40岁,他是一个亿万富翁,你猜我们俩谁更有可能认识更多年轻漂亮的女孩呢?我想把它量化出来,通过你的异性好友跟你年龄差来推算你是不是掌握更好的社会资源,在男性这个世界里说的比较现实,虽然我们都认为未来的共产主义很美好,但是现在我们还是活在真实世界里,对男性而言找年轻漂亮女孩,人说男性的追求永远都没有变,爱好永远没有变,不管是20岁、30岁、40岁永远爱那18岁的,所以你是可测的。这些以前都是调侃,我们现在把它搞成严肃的,学术的东西。因为全部有数据支持,所以就能知道数据来了以后会怎么样。我是师大毕业的,正好我们学校旁边就北邮,我需要借这个机会在往那个学校的校长那儿扔只鞋过去,就是这些创新的东西其实在国外是潮流,是趋势,就是国外讲“大数据”的一堆,国外有一个网站所有的新思想在不断的传播,中国就需要涂老师从美国回来给我们带,为什么呢?因为那个倒霉的破校长搞了一个东西,叫长城防火墙,我不知道这和长城是什么关系?长城是干这个的吗?把我们的创新思维阻断了,但是我用我自己的亲身经历告诉大家,未来是不可阻挡的,你今天想尽一切办法去接触最新的科学,未来你一定收益。因为你今天如果学过去的东西,我上大学的时候,我20年前在师大读书,我们那教授说“为什么还要开这门课?”因为他还没退休,当然了等他退休了,我们毕业了,我到哪儿去找饭碗去?我后来就改行了。所以我建议大家一定要面向未来,你如果学的是五年之后大行其道的东西,等你毕业出来你就是宝贝,所以你要突破那个倒霉的长城防火墙,去寻找知识,你多跟涂老师联系,因为那是未来。
    姜奇平:补充一个数据挖掘的问题,我有一个婚店网站的老板告诉我,说有一个数据,第一点怎么谈恋爱?这个数据特别常用,女孩子初恋成功率最高的是什么?长直发,成功率是65%,最低的概率是短卷发,这告诉我们,女孩子谈恋爱的时候,千万不要学别人是短卷发,因为短卷发给一个男孩子不单纯、老谋深算的感觉,长直发让他觉得这个女孩子青春可爱,没什么心眼,可见“大数据”是多么有用。
    主持人:谢谢姜老师。替同学问一下王老师您是北师大中文系毕业的?
    王煜全:我是生物系的。
    主持人:现在网友有生物系的同学吗?有请举手?这是你的榜样,给你的师兄一点掌声,谢谢!
    王煜全:我们生物系离现实就比较远,比较傻,没面向未来,我那时候都是学过去。
    主持人:谢谢王老师!涂老师在这本书里一直给我们讲说,数据开放不等同于信息公开,就这个问题我想请涂老师再详细给我们解读一下。
涂子沛:这个东西确实不一样,也是我在各地都一直强调的一个观念,信息公开不等同于数据开放。信息公开是作知情权层面上的概念,为什么要公开,因为我们有权利要知道。比如说现在谈到的领导干部的财产公开,是这个层面上的概念,但是数据开放不仅仅是知情权方面的概念,主要说的不是权的问题,是一个推动我们当前经济发展,转型升级的问题,是推动网络经济、知识经济向前发展的动力,因为开放了数据之后,这些数据会产生新的价值。刚才已经举了很多这样的例子了。你的这个数据如何跟其他的数据进行整合,如果实现1+1>2,推动知识经济、数据经济的发展,而不仅仅是知情权的问题,而且形式也是会一样的。开放是把这个完整的格式,记录在数据库里的数据格式,电子化的放在网上,你可以免费下载,而且对数据项也有原数据的说明,下来之后可以直接使用,信息公开是一条一条的,告诉你这个领导干部有多少财产,这是一条信息,数据开放是一片一片的。我们以后谈到数据的时候,就不要想公开,就不要用公开,数据就是开放,信息才是公开。
 
Q&A环节
主持人:谢谢涂老师,王老师和姜老师还有补充吗?那我们现在进入提问环节,前五名提问的同学有机会获得涂老师亲笔签名的《大数据》一书,请那边那位同学吧?
    提问:你好,非常谢谢三位老师非常精彩演讲,给我们提供了一个非常真实,令人振奋的方向感,也是之前没有接触到的。我非常感兴趣的是,这种大数据时代对于教育学的影响,我对这个方面比较感兴趣,我的一个问题就是说,从现在的教育制度上,从一个宏观的教育制度,让学生变成什么样,在这个大数据时代,每一个人积极的主动的去学习东西,比如说到一个微观的角度,我们每一个人能有一个创新的精神,在老师颠簸他的头脑的时候,他能绽放自己的思维之花,在这种大数据时代怎样从学校学生学习还有老师的教学,如果更大程度上可以说学校制度上,这三种层面上,怎样去把这种创新性发挥出来?
    主持人:你想提问哪位老师,这儿有三位老师。
    提问:我想三位老师,先问一下涂老师可以吗?不知道我的问题是否阐述清楚了。
    主持人:涂老师听明白了吗?
    涂子沛:你用两句话概括一下你的问题。
    提问:第一个是优质的教育需要一个公开,一个公平的教育资源,我想问的问题是,从学生的层面上,怎样运用这种资源;从教师的角度上,怎样帮助学生筛选这种资源,或者是怎样的一种态度教学生,不是说老师对学生的一种改造,而是说怎样帮助学生,激发自己内在的力量去学习,去选择自己喜欢的东西。
    涂子沛:以后的学习资源非常丰富,学生应该怎么利用这些资源?首先第一点,终身学习成为可能,不再拘束于一定要来到大学校里面,随时随地都可以学习,在这之前这都是梦寐以求的,教育部想实现这些目标,但中国的教育资源很匮乏。对学生这一个立场来说,就是选择,从时间上,从地点上选择度就增加多了,不从老师这个角度讲,也是资源多了,对老师你的技能恐怕不一样,对你的技能的要求不一样,原来是把知识讲清楚,这时候你的技能是说怎么组织一个讨论,怎么让学生在讨论当中激发新的思想。这个会比单纯的讲授一个知识更重要,因为恐怕有人比你讲更好,大家坐下来看这个视频就可以了,但是你要做一个课堂的组织者和引导者,技巧不一样。
    姜奇平:我补充一下,我觉得从看得到的实际发展动向来看,首先有几个趋势,第一,我非常得赞同学生,我补充一下未来的学习会是什么样的,会是一种现象学和体验的方式,也就是孔夫子的方法,就事论事,见到白菜说白菜,见到萝卜说萝卜,我们不脱离现象,这种方式是一对一教学,而且是终生进行,这个和现在的拿教科书和实践脱离的方式非常不一样。现在印度非常流行这种方式,用企业导师引导时代学习,这是一个,而且非常的速成。
    第二我认教育体系和教育理念会发生一个很大的变化,我看到美国用我们现在的方法和数据的结构不一样,这个我们都是在训练串型处理能力,就是先解决一个问题,再解决其他的。其实人生来就有并行处理的能力,比如说3岁、4岁小孩,只要你不教育他,不压抑他,他都自然的有悟性。现在有一本书叫《浅薄》,从表面上看来,它的处理有什么特点呢,他好象思路不专一了,同时想好几件事,但是你注意到,这正好是未来网络社会,大数据高度发达的状态,一会儿网上这叫了那儿响了,它同时处理好几件事,不乱,这是并行处理能力。这个时候我们的教育体制将从串型教育变成并行教育,现在在美国的三四岁小孩的教育里面,已经显示出来了。你拿小孩随便一试,在三四秒钟之内,把图纸上的零乱的数据,他可以轻而易举的回忆起来,大人通过教育,彻底的消灭了这种教育素质,这个是并行处理和串行处理的能力,将来会带来思维方式的改变,具体来说,小孩的方式是什么呢,他要求肤浅成为一种能力。为什么呢,他说我不懂的事,我问了我的朋友我知道了,我何必呢,人为什么这么聪明呢?就是因为没有人肯帮助他,他才训练自己聪明,如果谁都都肯帮助他,他干吗自己非得像爱因斯坦一样,我为什么自己非得针对我自己处理这个事,我才动脑子,这是一个。
    第三个我看到一个变化是什么呢?就是机械记忆不用了,将来完全集中创造性,实验室是什么呢?液体计算实现以后,到2050年把大影百科全书一针打入大脑,以后你们上课就可以打一针,回家玩去吧,接着干吗呢,你死记硬背不用背了,但是这个历史到底是怎么回事,你们辩论去吧,这个时候完全进入一种创造性的状态,叫你完全把死记硬背彻底交给机器。这是我谈的第三个趋势。
      另外还有一个眼前的趋势,就是课件化。有优秀的老师,为什么不能对着所有的学生,但是现在这种做法不灵,给所有人看一模一样的诗不是路子,应该是什么呢?上面有名师下面有各种品牌的解说师,就是说你看屋里给你讲述大道理,但是具体你今天买萝卜,这个道理我来给你换算一下,对于你的智慧的人来说,我应该像孔子那样给你个性化解说。这叫大规模定制的方法,再一个我们可以看出APP的模式教育你,有教育平台还有增值开发,干吗非得一堂课讲完呢,里面引起无数发财的机会等等,由于时间所限,注意观察我们《互联网周刊》做的广告吧。
    主持人:谢谢两位老师,王老师。
    王煜全:正好我们投资了一个未来教育的公司,有一点研究,说实话我对教育也是老不满,因为我上学的时候成绩可差了,老是倒数第一第二。后来得到一点宽慰,我们玩互联网的,互联网有一个叫西湖论剑活动,当初第一届的时候,我们在台下看台上几个互联网的牛人,有一个丁磊,他们请的嘉宾是金庸,金庸上台了,丁磊一上台就冲金庸说,金老先生你可把我们害苦了,我高考的时候就看金庸小说了,所以考得一塌糊涂。然后我就想,我不是被金庸害的,我是被世界杯害的,我高考的时候世界杯,我们一直看到半决赛看完,半决赛基本上第二天就考试了,所以考得特糟糕,我们那个同学看到决赛,就没考上大学。我当时在想,教育要是搞得比世界杯还精彩,比金庸小说还好看,我至于那样吗?所以一半的责任不在我们,在教育本身,教育怎么做的好玩。国外有很多的探索,其中有一个非常著名的叫可汗学院(音),你们可以去看,里面很多都是免费的。包括涂老师一直讲到国外大量教学的课程免费上网。未来一定是两者的结合,一个是教育变的更有趣,可以抓住人,另一个是什么呢,你是随着自己的心,随着自己的兴趣选择职业。我们当时比较惨,我们选择的职业是反过来想的,这个是唯一的一个我觉得好玩一点的东西,其他的太无聊了,所以就选择了这一个。但是实际上,今天你要想,这个是我最想要的,我希望一辈子就干这个事,你才能去选择这个,我们今天选择的领域宽了,如果你真心的热爱它,方法得当,你就可以成为专家,你就可以成为牛人,那个时候整个世界都是你的,这是第一个我想强调的。学习方法确实有改进之处,你可以去看,比如说你去搜索一个词,我不知道怎么翻译,反正就是适应性平台,就是它适应你,学习来适应你,而不是你去适应这个教材,教育方法有很多可改进之处。
    另外一半呢,姜老师说的特别好,我给姜老师的理论加一点注脚,未来我自己就在逐渐适应,大家讲话我在底下玩手机,我也应该姜老师说的分心怎么回事,而且现在这个还有很多的训练,大家如果有空的话上网站去玩,我给你很多玩的东西,叫lumosity.com,有一点点免费的注册期,如果你很有钱的话,你可以去玩,反正最起码免费的可以玩一周。它有好多各种各样的益智的游戏,通过玩益智的游戏帮你测量大脑的水平如何,比如说其中姜老师提到一点,国外的多任务处理,多任务处理还分很多不同的。静止的多任务和移动中的多任务,移动中的多任务,男性一般能力比较强,所以为什么说男性开车的时候要比女性好一点,因为我们移动中的任务擅长一点。但是这些都不要怕,因为你可以通过游戏训练提升,所以以后你会发现游戏就跟教材一样,你玩一个游戏下来,你考试就会很好。这个未来也多了,值得崇敬。
而且其实未来考的东西,姜老师说的特别好,我听说国外已经开始考虑,开始的时候可以上岗,反正搜索可以搜索到的东西都不考了,因为你上网可以查到没意义了,。那么考的是什么呢,未来人类最稀缺的是什么能力,是创始,不是记忆力,因为记忆力芯片会比我们强,不是计算能力,中国人往往心算能力超级强,但是你心算能力再强,涂老师讲了,要有电脑,你肯定玩不过人家。人和机器最大的区别是我们的创造力,这个就成了人最伟大的财富,我们所有的训练都要以这个为基础,因为未来有创造力的人会有巨大的前景,没有创造力的人你再有本事,机器会干的比你好,所以这个未来的方向也会完全不一样。
    第三个,说一点实际的东西,我们在投的项目,其实是另一个理念。除了说学习要娱乐化,要让我们可以适应和学习要面向未来,指的不是面向别的东西,激发创造力以外还有一个很重要,师生关系会转变。大家发现没有,师生关系是一个不负责任的关系,他是老师我是学生,我补考了扣他的工资吗?不扣的话,他怎么可以保证我尽心教我呢,但是国外有一种关系叫“师徒关系”,你带不出徒弟来,就没有饭吃。因为没有人给你干活,所以我们在投的一个项目就是重新构建师徒关系,什么意思呢?就是老师的信用取决于学生的表现,你要说的是,我教出这些学生来,这一点上来说哪做的好呢,体育界,你是名师,不是说我在各个大校巡回演讲,不是这样的,是我教的谁是世界冠军,所以你的信用取决于学生,这个时候你就会尽力教,而且就会做到姜老师说的,因材施教。根据不同的情况来解决问题,现在上大课谁来完了就走了,怎么因材施教,所以那个理念整个就是错的。反过来讲,学生也会跟老师互动,甚至说学生帮老师干活,因为只有帮老师干活,你才有实践的机会,才能做的好,你没练过,你怎么可能上的了手。我认为这个是一脉相承的,未来既然是个部落,这个部落里就是师徒关系,不是师生关系,我们也希望进行改进。涂老师刚才讲到了,一对一,你自己学的那部分我不管你,但是你需要我点拨的那部分,我根据你的情况我稍做点拨,你可能水平就很强,为什么要尽心点拨你,研究你的情况去颠簸,因为和我的水平是挂钩的,说白了就是大数据的另一个理念,一切都要是一个大数据的反馈系统,如果没有反馈一定会跑偏。今天我们的高校反馈就相对弱。
    主持人:谢谢王老师,我们请后面那位同学。
    提问:姜老师和王老师我很认同你们的观点,我认为真正的教育应该是价值观念、思维方式和知识结构并进的,而我们目前的教育只注重知识结构,学到的都是比较僵硬,死的东西。其实不光在美国,在我们中国也有很多这方面的探索,比如说现在的家庭自助教育,还有我知道的今日学堂是很不错的,三位老师可以关注一下。
    关于大数据我有一个问题,我们知道现在是海量数据,数据量是增长,而我们的人脑的容量又是有限的,这样的话就形成一种矛盾,未来的话,人会向哪个方向发展,来适应无穷无边界的海量数据,我们现在目前能做的又有哪些呢?
    主持人:你想提问哪位老师?
    提问:我想问涂老师。
    主持人:涂老师请做答。
    涂子沛:海量信息有计算机处理,我觉得对人不足以构成挑战,挑战就是说,人所做的一切决策都是一个有限的决策,基于有限信息的决策。人为什么发明计算机?就是想通过计算机来处理这些信息,来辅助自己的决策,扩大自己的信息范围,我不知道这样回答你的问题是不是回答了这个问题。
    提问:因为刚刚姜老师提到了,可以向大脑中植入芯片这样的方法。
   听众:非常感谢三位嘉宾做的演讲,我是几个月读的你们的《大数据》,我读完以后觉得非常好,所以我至少买了二三十本送给我的学生和朋友,而且我在很多的场合推荐了这本书。本科生上课的时候,我给他们推荐了,我教MBA的时候给他们提供了,我觉得这本书最好的地方在于,你把这个科学和民主结合的非常好,我觉得这个是这个书最值得劝导的,讲大数据很多人都可以讲,把五四的精神结合的很好,你讲的那些东西我们都很同意,而且我们都在做这个东西,比如说我是做创业研究的。我在两个月以前,我给全世界的合作伙伴发了一个短信,我提醒他们。
    主持人:您做一下自我介绍。
    听众:我是经管学院的老师,我们也在微博上也互动了一次,因为我标题叫做“大数据时代的心理研究策略”。我认为每一个专业的学生,每一个专业的老师都应该考虑大数据的时代,研究面临着什么样的挑战,而且还需要拥抱这种变化,比如说我们在研究的全世界各地的文化,我们以前是通过问卷调查的方法或者是实验的方法,或者是行为观察的方法,我现在提出一个观点,用搜索引擎加上海量文本的深层次的分析,我们将来有一天可以建立扫描的工具,我在全世界各地,各个国家的门户网站抓取信息,我去进行机器的处理,来透视它背后的文化价值观的动态的变化,这以前是完全不可能的事情,而现在我们在理论上可以的,而且是我们现在在做的我要讲的刚好是唱一些反调,因为我觉得你讲的是数据,但是事实上在将来这个时代上你稀缺的不是数据,而是创造性和理论思维。
我们说,你做研究有三种方法,一种是理论驱动,一种是工具驱动。我们以前都很贬斥数据驱动的,但是我觉得很多人的观念必须要改变了,比如说我强烈的相信没有什么东西比好的舆论更正确了,我们中国很多的学者或者是很多的人,事实上都在理论方法没有任何的贡献,西方在讲什么东西,我们都是在传承的。
    另外一个,我要告诉大家的,尤其是在座的学生,尤其是你不要被忽悠的地方在意,你现在加强的就是你理论的修养,比如说前几天有一篇文章说是,研究用5500万做的一个研究,在此之前,向我们做社会关系网络研究的,我们是没有可能测量社会影响,但是它通过一个非常巧妙的,比如说跟facebook的合作,测量了社会影响,这个是在上面发表这篇文章的原因而不是说用了5500万测试,所以我最后一句,在大数据的时代最稀缺的是创造力和理论思维。谢谢。
    主持人:谢谢老师精彩的回答。
    涂子沛:我补充一点,老师谈得非常好,其实说“大数据时代”首先是数据的定义,数据革命的根本是什么,实际上是统计学的革命,原来的统计学从抽样这个角度分析,现在这个统计学不仅仅是抽样,我有多元的数据就可以使。可以再举一个例子补充这个,奥巴马大选是刚刚发生的事情,每几天发生的事情,我记得我跟薛勇(音)的微博,薛勇(音)是在美国的一个作家,写了很多书,他当时在微博上说,这个我们要等很久,这个是一个焦灼的状态,他说结果已经不重要了。奥巴马的人气已经领先5个百分点了,通过文本分析已经分析出来了,很多人上网说,我投了这个票,所以大选出来之前都有预测奥巴马可以当选,这就是一个例子。事实上通过微博我们可以建立各种各样的指标,原来你是抽样,你抽样了之后还要回来数据分析。有一个时间的滞后性。
      再补充一个故事,我里面写了很多美国总统大选的预测,其实在历史上就发生过一件事情,四几年的时候,杜鲁门和杜威竞选,原来是杜威领先的。他们说肯定是杜威当选,那个时候的预测已经很准了。整个大的事件过来只失误过两次,这是其中一次,为什么呢,因为最后那几天杜鲁门翻盘,这个时候他已经来不及做民意调查了,因为他做民意调查,他预测的报纸已经印好了,准备去卖了,说杜威赢了,第二天报纸全部收回了,现在还会出现这种情况吗?现在出现这种情况已经很少了,有很多渠道可以预测,首先是一个统计学的概念,但是统计学的概念你想吧,现在哪一个不用统计学,哪一个科学不用。所以我书里面提到过,美国说了,他们总统委员会说了一个总统提交的报告,现在科技领域有五大挑战,第一大挑战就是大数据的挑战,大数据的挑战是贯穿所有科学领域的。每个科学领域都存在这个挑战,我就做这个补充。
      主持人:谢谢涂老师,这位同学。
      提问:大家好,三位嘉宾好,我的问题是关于教育和心理相关的两个问题。首先我要说一下,关于你那个大数据的公民生活,我觉得这个是一个非常好的主题,现在我关心的是,我们现在的手机的充电器,我们电脑的充电器,这些东西的话,目前还没有统一好,从数据统计的分析的角度,我想听一下你的看法。
第一个就是关于心理的,当前在我们心理学研究和计算机科学研究里面有一个叫情感计算,情感计算里面就涉及到我们现在比较敏感的,也就是面子的问题。我们现在很多中国的精神病人,现在抑郁啊,或者是神经症啊,这些导致很多的社会公众的诊断,从目前的角度来看,是没有这种依据的,我想听一下,从计算科学和数据的角度,谈一下数据对我们医学发展有什么积极意义。
    第二是关于我们教育统计与测量方面的东西,高考很敏感的。我们高考发展到今天,它的科学性是非常低的。我想知道一下,随着我们数据和计算科学的发展,我们的高考将是一个什么样的走向?谢谢。
    主持人:想提问哪位老师?
    提问:我觉得三位老师都可以回答这个问题,你们自由吧。
    主持人:请三位老师都谈一下。
    涂子沛:我简单地谈一下,我把其他的问题留给另外两个老师,我回答你第二个问题吧,第二个问题就是高考的走向。
    提问:从预测的角度,目前来说,教育发展是非常落后的。
    涂子沛:从数据的角度来说,我现在在广东呼吁一个事情就是数据开放,我们设想一下,如果所有考生的报考数据可以开放的话会出现什么事情。
    提问:我关注的是对人才的测评问题,我们现在高考的话,应该是很简单的数据的分量,不管是计算机还是心理学,还是教育科学的发展,完全是对高考进行测评,但是我们教育仍然不努力。
    涂子沛:我理解你的问题,是不是设计一个好的试卷。
    提问:能力的测量是一个很简单的东西,我认为现在的高考在这一块的思考真的不够。
    涂子沛:你的问题就是说,怎么通过数据设计一个好的开始制度是吗。
    提问:我们教育设计什么,或者是高考研究部门,他们的数据分析能力我认为是很差的。比如说他们可以完全去掉这些高考制度,这些现存的模型拿过来的,我们高考可以达到一个很高的水平,如果从数据分析的角度,你有什么好的建议吗?
    涂子沛:我没有什么好的建议。
    姜奇平:我想回答第一个问题,我觉得总的一个想法是什么呢?这个大数据最终是通向什么地方的,其实我觉得是通向人的,农业革命是解放了人的物质能力,工业革命是解放了人的社会能力,这个数据革命和信息革命是解放了人的大脑,但是并不是解放了人的物质的大脑,实际上解决了一个“会”的问题。我们想一想,在过去两个文明时代,真正能够成为“佛”的人或者是智慧的人是凤毛麟角。通过这场革命之后,他会使每个人都具有慧根,这一点我认为才是大数据最终的重点,这个慧根具体来说,假如说我们从人工智能的角度讲,我们在过去的时代都是在训练人们的理性能力。但是你刚才说情感计算,这个确实是未来发展的方向,情感计算包括你说的心理分析,包括精神病治疗,它的含义都是在我私之外,还有世界。是这样的一个基本的概念在起作用,也就是说,这个东西在哪体现的最多呢?就是图灵,图灵关于人工智能,也就是人和机器最终走向哪,不会认为人只是一个逻辑的动物或者是计算的动物,或者是冷冰冰的动物。人既有冷的一面,又有热的一面,既是既有干的一面也有湿的一面,所以我一直说,未来是这个主张,也就是说人在大的智慧的状态之下,最终要达到什么目的,实际上是人工智能情感和理智的平衡,或者是我们过去说的,用弗洛伊德的话说是意识层面和其他层面的分离。但是比如说你刚才说的精神病,精神病的本质是什么呢?当然有生理型的,如果我们不从生理型的角度讲,从精神分析者的角度去讲,实际上是意识和浅意识层面的隔绝,就是把自己闭塞其中的一个世界和另外一个世界不能产生互动。对于这个,大数据深入分析以后,对人工智能研究的深入水平是什么呢?不仅要能够进入到这种意识的层面,语言的层面,理性的层面,更主要的是可以进入人的情感的层面,进入到人的潜意识,并且使潜意识得到发展。这个我认为是挥,简单地说,我们将来可以期待的是一个什么样的未来前景呢?佛教里说的大乘佛教,大乘就是说,所有人都可以有慧根,所有人都可以成佛,这个知识用来干吗的,如果不能给人们带来智慧我认为一点用也没有。这是我的第二个概念。
    王煜全:我觉得没必要跟高考较劲。举例来讲,前两天创业大赛,还有小孩子初中生,几个孩子创业了,都有自己学的所有的途径了,话又说回来,你要真是好学生,老师就愿意教你了,不需要进学校他就愿意教你,所以未来师徒关系就是这样的,所以我觉得甭跟高考较劲,因为你在跟国家对抗,咱开十八大呢。
    主持人:谢谢王老师,还最后两个问题。
    提问:感谢三位老师,感谢主持人,很荣幸涂老师亲自给我们讲座,我有个问题想问一下涂老师,这本书我看过。刚开始的时候,因为我是来自经管学院的,刚开始这本书我以为是对大数据技术的趋势一种分析,一种走向。仔细翻的时候,我发现这本书大部分是写人为的东西,尤其是写美国的政治经济,一些法律、人文,一些数据的发展,一些前景,我不知道涂老师为什么选择了这个,刚才也讲了,其实数据开放的国家不止是美国,我不知道为什么这本书都是美国的一些事实。对于目前国内的话,我们知道,美国开放大数据,但是我们有防火墙,我们草根有一些微博,但是我们一样可以删除微博,包括你刚才说的话,还有我们有微博大号的话,可能写一些过激的言论的话,会被删除。我想提的问题是,大数据这本书,对我们国家的政治、经济、文化的一些改变冲击,或者是一些改善。这个东西,我相信涂老师应该有一些自己的想法,只不过你不方便写在这本书里面,所以我今天到场,想聆听一下你的一些见解,以及对我们个人来说,在大趋势之下我们有什么机遇和挑战,非常感谢,但是我问的问题不是教育学的问题。
    主持人:他想听听在外面不让说的。
    涂子沛:我讲一下写这本书的一个过程,很多学生已经开始走了。所以我想说这本书是给大学生看的,大家如果手头有书的话,可以把书翻开,第一页第一篇,有一个引言,引言我想跟大家分享一下,我认为中国现在是一个大时代,我们在座的各位都感觉到这个大时代,所谓的“大时代”就是改变即将到来的时代,对十八大开之前都有很多期望,感觉到大时代是不是离我们越来越近了。这段话是什么呢,为什么这是给大家写的,这段话是奥巴马在2007年在瑞士大学一个典礼上的演讲,我之所以把这段话放在开篇,很多人当时批评我,你这是什么大数据啊,开篇就来了这么一段,你们每一个人都可以拿到毕业证。当时在毕业典礼上说的话,去追求锦衣玉食,这个金钱社会认为理所当然的东西,你可以选择关心你自己的喜怒哀乐,把你的生活和国家的发展割裂开来,什么意思呢?这是奥巴马自己的选择,没有任何问题,这是你个人的自由,他接着说,但是我不希望你们讲述,这不仅仅是因为你对那些没有你幸运的人负有责任,尽管确实负有责任,也不仅仅是因为对你帮助走到今天的人欠下的债,尽管你确实欠下了债。我讲到这里的时候,我就想起了米歇尔的一个演讲,米歇尔在帮助奥巴马时候的一个演讲,她有一句话,我当时在听到的,她说当你跨过幸运之门的时候,请记住,不要把那扇门关上,要为后来人留门,要不同的人跨过来。
    为什么写这本书呢?我经常关注奥巴马,大家对比一下,我们国家的领导人和美国的领导人,他们在讲什么,那边的领导人又在讲什么,我们说很多人批评他们选举是虚伪的,是金钱政治。但是你想到这些话里面包含着一个价值观,一个价值导向,我觉得这些话是原话,我们接着回到这里,他说,“这是因为,为什么你不要这么做呢,这是因为你对自己负有使命和责任,这是因为我们个人的命运依赖于群体的命运,这是因为如果你仅仅考虑自己,满足眼先的需要,这是因为只有你把你自己和一些更伟大的东西捆绑到一起的时候,你才能发现你真正的能量,你才能发现,你为美国这个国家继续书写你在历史当中,你能扮演的一个角色。“我很喜欢这句话,所以把这句话放在台前。
    主持人:包涵,我要打断你,我们还有最后五分钟,所以我们还有最后一个问题。最后那位同学吧。
    提问:王总你好,我的问题是,我看到你投资了一些企业,我问一下现在这些企业的运营状况怎么样,你可以简要的给我们说一下这些企业的营运模式吗?
    主持人:关于投资的问题,王老师你时间有限,你得抓紧。
    王煜全:很简单,就两句话,经营状况还早呢,我们不是想做一个手机应用的,所以现在说早的很。盈利模式也不用讲,既然是未来的,我们将来讲。
    主持人:今天的讲座到这里结束。

    

11月12日晚,由本刊主办,广西师范大学出版社理想国协办的《“大数据”时代的公民社会》在北京师范大学如期举行,《大数据》一书作者涂子沛携同资深市场营销战略专家王煜全,《互联网周刊》主编姜奇平一同对大数据时代,以及时代下的公民社会这个话题展开讨论,以下是当天活动现场的速记整理:

主持人:我为大家介绍一下今天的嘉宾,首先是《大数据》一书的作者涂子沛老师,有请涂老师!接下来为大家介绍今天和涂老师一起对谈的两位嘉宾是王煜全老师,资深的市场营销战略专家;姜奇平老师,中国社科院信息化研究中心的秘书长,也是互联网周刊的主编,有请两位老师!我们首先请涂老师先就他的《大数据》一书和“大数据”和我们每个人的关系做一个简单的讲述。   

涂子沛:大家好!很高兴今天来到这里,非常高兴!而且我看到这个片头--鼓励和思想,我们现在就要讲这个东西。现在讲这个东西意义非常重要,十八大正在开,我们中国有30年的改革开放,我们说劳动力已经解放,市场经济的规则已经基本上建立起来了,但是当我们看世界的时候发现,还有一个新的关键词叫“创新”,怎么创新?没有独立的人格,没有自由的思想,我们能创新吗?所以我们现在需要的是一个创造力的解放,一个思想的解放和人格的解放。我这个书大家看了,扉页上写的就是“一个真正的信息社会,首先是一个公民社会”,这是全书的一个出发点,这个出发点就是说,“信息社会最大的特点就是,信息的自由流动。”如果没有人的平等,没有人的自由,信息能够自由流动吗?如果没有人的平等,我们这个社会彼此另外压抑另外一个人,我们的创造力怎么迸发出来?首先做一个解释和说明,这是看到了今天的片头时我的一个感想。   

今天给我说出的题目是“大数据时代的公民生活”,题目我也很喜欢,我们来演绎公民生活的时候,它的背景是“大数据”时代。首先来讲一讲“什么是大数据时代”,在研究一个现象的时候,首先要研究它的定义,研究它的内涵,咱们就先把数据给它抽走,看看代表是什么。数据不是数字,数据是有跟列的数字,当我们谈到数据的时候,我们想到的是它代表计算,代表精确,代表理性,代表科学,代表事实。大家说姚明很高,到底有多高,你最后说两米多左右,这就是一个精确的事实。

数据的出现也是人类认识这个世界,不断地向前推进的需要,人类发现需要精确的数字,就好像回到刚才的例子,你说很高很高,到底有多高,我们看,人类历史上很多重大的文明推进和演进都跟数据离不开,比如说度量衡的发明,货币的发明,再比如二进制的发明最后导致计算机的发明,最背后就是数据。我最近也在国内演讲,特别在广东讲的时候,讲“科学发展观”时,我特别引申了一下,我说科学发展观的落脚点就是数据,数据就是科学的基础,没有数据能有科学吗?数据就是科学的度量,所以再继续引申,因为这里面有一章叫“数据治国”,再继续引申“数据治国”就应该是科学发展观的题中应有之义。

广东省委的机关报,日报最后就是以这个为标题,说科学发展观的落脚点就在数据,咱们就说数据的重要。经过信息时代之后,信息的内容实际上在不断的变化,就因为计算机的发明,我们有一个新的词叫Database--数据库。这个词完全是一个外来的词,计算机最早是计算数字和处理数字,那时候就存在Database,后来随着计算机能力的不断增强,它可以处理文字、图片、视频、声音等等,但所有这些都放在Database,所以我们把这所有的一切都称为数据,这时候数据的内涵扩大了。

大家要知道数据的内涵在扩大,还有一些其他的事情也在发生变化,就是说数据的容量在增大。八十年代的时候就有人提出Big data这个概念,那时候的“大数据”的还不是现在“大数据”的概念。“大数据”这个概念不断的演变,最早有人就预见到说有一天数据会比程序更加重要,比软件更加重要,它是指重要性。所以我们往大了说,可以说这是一个大的机器,一个大的房子,也可以说是一个大容物。到2000年的时候,宾夕法尼亚大学有一个教授出来定义,那时候企业的数据已经到泰了,他说200泰的数据就是大数据了,那泰到底是什么样的单位呢?比如全世界最大的图书馆是美国国会图书馆,美国国会图书印刷品的含量,不包括电子图书加起来是15泰,北师大应该是2个泰或者更少,这个数据就叫“泰”。

现在国内也有很多人说“大”,到底多大才是“大数据”?我们说大数据的时候应该从大价值来理解,因为我们数据已经很多了,人类利用分析数据的能力很强了,我们能从数据当中发现以前不能发现的价值这个角度来理解。我们谈把数据的现象抽离出来谈,来理解什么是数据。接下来我们再把数据放回到物力事件当中,从它和其他现象的联系当中来把握和考察它的因果关系,大数据究竟是怎么产生的?我们说“大数据”的产生有五个因素:第一个是摩尔定律,第二个是组织计算,第三个是普适计算,第四个是数据挖掘,第五个是社交媒体。我们现在一一对这五个因素进行解读,这五个因素里面有四个因素是认为影响到了我们公民生活的,我们来看看它怎么来影响在“大数据”时代公民的生活。data在五年的时候,应该有一个创始人,他发现一个东西:同一个计算机芯片,同一个面积上晶体管的数量每一到两年就要增加一倍,这意味着什么?意味着计算机处理的能力越来越强,存储的能力也越来越强,同一个面积上东西越来越多,越来越密,一到两年就增加一倍,物力存在器的性能不断上升,价值不断的下降。有一个考证说,从五十年代起最早的存储器发明到现在,存储器的价格下降了300万倍,大家可以想想,历史上还有什么商品它的价格能在半个世纪下降300万倍?而摩尔定律也成为了一个代名词,呈指数形发展的变化,急剧变化的状态,剧变的变化。

我们可以看看,这个图代表摩尔定律,是条直线,为什么是直线呢?因为没办法画,如果严格按刻度来画的话应该是一条横轴的曲线。我们说存储器的价格在不断下降,刚才说到泰,说北师大的图书容量假设是1个泰,1个泰的存储器要多少钱呢?现在的标价是95美元,意味着什么呢?意味着你有95美元你就可以把这个图书馆搬回家了。还有,科学家在继续预测摩尔定律还会继续有效,一直到2020年,2020年你把一个图书馆搬回家只要一杯咖啡的钱,3美元。1988年一个科学家提出了普适计算,普适计算提的不多,大家都提物联网。物联网是普适计算一个子概念,人家计算机的浪潮是分阶段的:第一个阶段是主机阶段,到80年代由于微软、苹果一直到个人电脑的阶段,88年互联网之后,科学家说这不是结果。

未来的计算机会越来越小,会无处不在,跟日常的环境联系到一起,到今天实现了没有?我们智能手机就是一台计算机,无数的传感器、摄像头,很小很小,它可以收集数据,反馈数据。我可以举两个例子,美国气象局他气侯气象检测的传感器,随着汽车不停的往前走,从纽约到波士顿,它每10秒钟收集一次数据,一天收集10几万次数据,实时的传输到数据上面去。1989年就出现了数据挖掘,大家都挺熟悉的,也都都津津乐道,我们回头来看摩尔定律解决了什么问题?解决一个问题是说无论有多少信息,我可以以很低的成本保存下来。

普适计算解决的一个问题是人类收集信息的能力越来越强,感应器、手机、无线网络、望远镜、仿真计算都在产生数据,就是说保存数据的能力很强、收集数据的能力很强,到1989年数据挖掘出现之后,这时候人类使分析数据的能力也空前的增强,数据挖掘是叫“在数据库当中发现知识”。最近马云为了说服汪洋书记重视数据,他到汪洋书记那里说,他说汪洋书记你知不知道XX哪里卖的最好?根据他的数据他说新疆和西藏卖得很好,比全国绝大多数省份都卖的好,为什么呢?我们看数据挖掘沿着一条线,沿着一条什么线,首先我们有大量的数据,数据是信息的载体,然后有信息背景的数据就成为一条信息,有规律的信息就体现出一种知识。能够产生价值的新的知识,这时候就成为一种智慧,数据挖掘就是沿着这条线。

 注:本文系当日活动现场速记,刊误之处,敬请谅解

相关视频链接:http://www.tudou.com/programs/view/4KtO5uts2sg

已有0人参与

网友评论(所发表点评仅代表网友个人观点,不代表经济观察网观点)

用户名: 快速登录

经济观察网相关产品