《爆发》:大数据预测未来思维(10)
导语:姜齐平:我把这本书形容为大数据哲学,互联网是个机会特别多,却让人看不清楚的地方,我们看到一个成功的例子,却没看到后面的99具尸体,100个人往上冲,我们要当留下的那个。这是大数据之道,互联网之道。

 

 

罗振宇:二位,您是来自于腾讯是吗?

张昕:我现在是在腾讯做,姜老师和王老师他们给我有一种重新回到学生时代的感觉,因为我的本科和研究生都是在北大学经济学的,所以说对行为科学包括核磁共振包括很多社会学调查方法,很多书里面列举了一些实验,我都是做过的。其实这本书从我这个角度讲,学科角度讲,第一是从大数据还有对人类行为科学之间的一个联系,我在这里想说一个感受,因为当年98年的时候第一次学习的时候,心理学有一个目标,它的目标是说要描述、解释和预测并控制人类的行为。他是有分成四个方面,第一是要准确的描述人类的某个行为,第二个是试图在描述的基础上解释背后的原因是什么?第三个层次是说我还能进行一定程度的预测,最后是说在预测的基础上我们发明一些手段进行控制,比如说今天大数据给我们带来是到了预测这个阶段,可能对数据的要求是,因为我觉得在整个行为科学上,在历史上来讲第一拨比较精确地去记录有意识去记录人类的行为数据的,就是一帮社会心理学或者是心理学家们他们去用他们的方法在实验室里也好,去主动记录,因为当时的时代是没有人,人没有自发的产生数据这样一个系统,所以我们不得不去做一些实验,塑造一种实验环境来去把这个人的行为去描述清楚,解释清楚,今天的话可能是经过十年二十年互联网的发展,不知不觉当中已经有海量的用户留下了一些真实的行为数据,而通过这些真实的行为数据是带动了心理学或者是社会科学另外一个突破性的研究方法上的进展,之前的压力方法更多的是我自己找那个人来做研究,让你按照我的意图去讲模拟某种社会场景,现在是已经到了自发的社会场景已经有了这些数据自然而然沉淀下来只是说需要一些懂行为学的和社会心理学的一些学者介入来去帮助他再去解释,用他们的方法去解释,去预测,包括能发明一些方法去控制,控制的话就是刚才说的听音乐,相当于是控制了,就是产生一些巨大的商业价值,这是第一个从学科感受来讲的。

第二点是回到刚才的主题能否预测,这里面我有两个观点,第一个观点我认为随着我们整个社会群体的发展会分成两个阶级,第一个阶级是数字化生存的阶级,人生大部分时间里面你利用数字化的设备或者是数字化的环境是没法生存的,我们已经跟他是一种从小长大是生活技能了,这是一个群体,你不管是用手机也好,是用互联网也好,或者你参加工作之后你没有电脑没有网络的话你根本没有办法去生存,这是一个阶级。第二个阶级是说类似于非洲那些,他们根本不是数字化这个网络里边生存的,这是另外一个阶级。可能对于在数字化生存里面你有数据的产生,容易被预测,在那种原始的部落里边是非数字化的阶级,他们可能还是研究,因为他们目前的数据很难会去做一些预测,这是第一个观点。

第二个观点在书里面作者有一个反反复复扯不清又扯得清的东西,是一个基于对群体行为的预测和个体行为的预测,从社会学来讲是群体行为的预测,像革命爆发那个,最终成为很大的社会实践,根据农民军这个群体行为的预测,他是一种必然只是说是A人物还是B人物的问题了。另外一种是我对个体行为的预测,预测我的社会网络中知道我的喜好,这是林个纬度,可能对于群体行为的预测相对来讲会精准一些,对个体行为的预测因为我们的数据是分离的,中国移动可能是比较全的,但是他还没有把我们整个人生圈起来,比如说形成一个完整的利益集团,有的你的数据是在百度,有的数据是在腾讯,有的是在中国移动,有的是在淘宝网,但是还没有另外一个看不见的手段把这些数据给穿起来,如果穿起来之后可能是能增加预测的精准性,其实在与作者里面他用了很多例子,不管是信天翁的例子,用拿钞票来去全世界走的例子,全世界走的例子就不是一个非常好的数据描述的方法,他描述的其实不是人,是钞票的行为。所以他只是说不能说反应到个体上,对个体的预测会缺失,对群体有一种参照意义。这是对群体预测和个体预测的观点。

第三个观点不管是对群体还是对个体我们书中还有一个93%、7%这两个数字,他是从概率上讲,作者一直在用概率看待人的行为本质,他用了随机分布这样一些,并且最后归结为是一个异常值,很多爆发是要群体或者是个体生命当中肯定是有异常值存在的,我在93%,随着我的数据的完整性我在93、94、95方面我预测会比较准,但是他始终是有7%的,为什么这么讲?因为我们人类还是社会群体的话还是在进化,不断地往前进化的,就像说我肯定很抗拒说用人去把这个音乐我远远听这个音乐他突然放这个音乐了,所以进化是什么?当我们这种预测对人类社会产生一个冲击的时候,他有一些负面的冲击,比如说在网上因为在微博上被暴光受了伤害的人,他肯定采取的方式是要作为社会的异常值,以后再也不给网上提供任何数据了,因为我提供点数据都被你人肉出来了,我就很抗拒,这个社会会去进化的,进化的时候有一部分人是走抗拒的路线,因为进化有顺从的进化还有逆向的进化,逆向进化可能是7%,那7%还是属于无法预测,这是我的关于可预测性的三个观点。

罗振宇:虽然我知道您在腾讯也不负责数据挖掘工作,一会儿阿里巴巴的人可以讲数据挖掘,一会儿我再回来问你,你也给我们介绍一下腾讯的数据挖掘,下面我们请郭乐先生您在阿里巴巴主要负责的数据挖掘来给大家讲讲。

郭乐:其实我做的工作也不是数据挖掘,但是我可以说一下我的是产品化的东西,每次一听到大家在讲数据预测,我背后就一股凉意,可能是因为看数据看太多了,我在淘宝前后电子商务方面的数据做了五年左右时间,看了太多用户行为的数据,我为什么会做到跟数据结缘可能还会往前推,其实早先我是在搜索,当时搜索还比较早,雅虎搜索是易搜,我是在负责搜索的相关性,怎么让页面的相关性能提高更高一点,刚才王老师说的之前做的最主要还是要靠雅虎自己的(英文),得是互相连接的关系,这是很平面的关系,也是没有任何人的行为的因素,其实也是很伟大的一个想法一个概念,怎么能把人的行为引进来,我就想到了网页之间的链接之间是有点拨关系的,点拨以后会在对方的网页上面留下一个(英文),知道我从哪儿点过来,这个行为是人的行为,当时想怎么获得这个数据从而提升我们的相关性,后来就延伸出来一个产品,雅虎统计,当时在07年的时候是非常实验性的在团队里面带了两个人尝试这个东西,做了一个类似谷歌的(英文)这样一个统计产品,他的原理就是我提供你免费的服务,把这个部署在你的网站里,下面部署一个代码搜集你网站上所有的信息,你的用户从哪儿点过来的,在你的页面上的什么东西,做了这样一个东西,一个产品做起来以后,我们希望通过这样的产品的覆盖,收集到很多的用户在不同网站之间的行为关系再去贡献给搜索的办法,这个产品做起来以后,一方面是当时效果很好,很多用户都蜂拥而至,另外一方面收集到巨大的数据,覆盖了20亿的,在这个数据里面看到了非常多有意思的东西,后来从那个时候开始使得我的主要工作转移到数据上面,从此一发不可收拾做了五年左右的时间,后来我从雅虎到了淘宝这边,产品也不同,改到了量子统计,一些做电商的朋友会知道这个产品,专门给淘宝的一些网店去提供数据支持,帮助他们做分析。其实我们表面可能是在做这样一个用户的产品,70%工作是在分析网上这些数据,用户在网购上的数据,包括当时我们曾经做过很多一些有意思的小实验,比如说情人节我们当时情人节是深圳地区购买鲜花的销量是最高,但是在上海地区买安全套是最高的,最后得出很多这样的东西很有意思,这些后面其实还有很多再深入去变成一个推荐产品的这样一些东西,这些以后有时间可以继续交流,在数据预测方面一定是一个趋势,而且是一定可行的,包括像亚马逊他在这方面是做的非常领先的,我在亚马逊上买过手纸,过了一个月时间他给我发了邮件推荐其他的手纸,刚好我的手纸用的差不多了,这些都是亚马逊做的非常极大的数据分析的前沿的东西,我曾经想做一些尝试,再去买一些润肠药他会不会给我推荐再提前一些,半个月就给我推荐下一个手纸,都是有可能的。这种东西我们也是想尝试过。包括刚才Keso也提到,去了不同地方旅游,是不是可以继续精准的预测,精准预测这个可能做不到,但是去了印度、尼泊尔,可能通过如果再就是通过数据来说很可能再提供出你还有可能的一些下一个目的地,包括如果你要知道在尼泊尔里面去了哪些地方,比如说一些佛教的庙宇,是不是你可能下一次也是跟佛教相关的,可能是西藏或者是等等的地方,这些通过数据还是可以挖掘出来的,数据在预测方面一直是一个,我们一直是尝试,现在可能离出结论还比较远,这个一定是今后可行的一个方向,从我的角度来讲,我们之前的角度来讲我们更关心的是数据安全,怎么让大家提供的数据可以保证在一个可控的范围之内使用。

 

已有0人参与

网友评论(所发表点评仅代表网友个人观点,不代表经济观察网观点)

用户名: 快速登录

经济观察网相关产品