徐葳:数据流通基础设施——数字化转型新基座

2022-04-15 15:32

清华大学交叉信息研究院长聘副教授,清华大学金融科技研究院副院长兼区块链研究中心主任徐葳先生,在经济观察报主办的数字化转型产业价值论坛上表示,产业数字化过程中,数字化的新机座是数据流通基础设施,构建这样的基础设施涵盖的规模经济效益、数据风险的治理与监管、技术需求、有机增长的隐性需求,同时数据作为新的生产要素,要做到在阳光下流通和监管。搭建一个数据要素流通的基础设施,让数据要素更好的流通,回归到它的本质。

以下是演讲内容:

大家好,我是清华大学交叉信息研究院的徐葳,今天我给大家汇报一下我们在数据流通基础设施:数字化新基座方面的一些工作。那么数字化转型大背景,我相信大家来参加这个活动,应该对这些事情不陌生,大家现在国家数字系统加快以数据为关键是要素的数字经济,这件事情已经提了很久了,各个地方出台了很多政策等等,这些事情对大家也非常的了解。我们认为在十四五期间,或者在这几年数产业的数字化转型是非常高速的,而且预期也会有一个非常大的增长。

那么什么叫产业数字化?

第一个是,就是以数据资源为关键生产要素进行数字化转型。数据资源作为生产要素,这个国家积累数据资源,尤其各行各业的数据资源,在我国是非常的领先的。

因为这在政策的引导之下,各行各业其实都积累了大量的数据资源,数据资源究竟是什么?数据究竟是什么?这个事情其实大家讨论过,但现在提出来的,我觉得这也是我国提出的非常有战略引领性的一个事情,就是说数据是生产要素,那么国内,国家说数据要素流通要起到引领作用,引领资金流、人才流、技术流。所以数据引领了其他的生产要素的流转,这是国家希望的。而且数据还能作为企业的核心资产,来整个集成到企业的生产的全流程里面去,培育了模式创新。这是一个非常不一样的提法,生产要素这个东西,其实它都是多个生产要素结合才形成的生产,但是把数据作为生产要素,而且作为一个非常核心的生产要素,这个事情我认为确实它能够大大的推进数字化转型,成为一个数字化转型的动力。

现在无论在制造业、农业、服务业、生产、生活行业等等,经济数字化产生了数据,这数据究竟是什么?现在一方面我们认为数据应该用起来,那么它是生产要素,它是你的正的资产。另一方面大家对数据安全担心,所以现在不光不一定是正的资产,很可能变成你行业一个负的资产,它会增加你的监管成本、合规性成本等等的一系列的事情。所以数据要素到底是什么?我们应该怎么样能够管理它,能够更好的利用它,我觉得是一个非常重要的问题。

现在我们看到金融行业,金融行业和实体经济相结合,让助力企业的数字化转型,或者助力金融行业自己的数字化转型,带动其他领域的促销这些,为什么?这叫双循环。

我们打通了企业内部的数据,原来企业内部的数据,各个部门之间的各个行业是一个大的企业,不同产业之间的数据都是不打通的,为什么不打通?因为各个部门之间有各个部门之间的规范,各个部门之间的互相的不信任,甚至于规则、法规,让他们不能和交换数据。更别说企业和外部交换数据,为什么企业和外部交换数据,因为除非自己有个数据闭环,它从收集用户数据一直到能够把数据变为线,它是一个完整的闭环。但是对于绝大多数的无论是金融企业还是实体经济企业来说,它不是个数据平衡,要不然它能用得上数据,要不然它能收集到数据,但它不是两边都有,所以外部的数据也很重要。企业先把自己的数据打通,我们叫他数据中台等等也好,过去我们一段时间做大数据的数字化转型,一直关注的是企业内部的数据,但是现在大家发现企业的数据有了,也不是闭环,所以打通外部的数据也是非常重要的,所以这叫驱除数据孤岛,形成一个内外部数据的双循环,在很多的行业和金融领域,现在大家都很重视这件事情。那么这个数据的流通是需要基础设施的,要是没这个基础设施,一个生产要素不流通,它造成的结果是非常可怕的。

那么过去我们为什么叫择水草而居?又是因为水和草这些东西能放牧,能种庄稼,这个东西是绝对不能带着走的,所以这种生产要素物流,所以哪有吃的咱们上哪去。但是现在不是问题了,吃的可以运输,原来能源也是问题,你有能源的地方能待着,但现在大家干嘛不都住到中东去,因为我们有游轮,我们有高压输线,我们可以把能源运载,现在什么东西不能流通,现在数据生产要素,反而数据这种你听起来最容易流通的东西他不能够做,为什么?因为我们缺少基础设施。所以会导致这种很奇特的现象,就是银行把钱给一个科技公司,让他去放贷。放贷这件事最重要的生产要素显然是资本,是钱。那么银行有钱,为什么银行把钱给科技公司,科技公司把数据给银行,因为我们有基础设施,一个是转账,还有一个是技术的基础设施,有链,另外还有就是一个规则,我转了账之后,我将来给你要去,他有法律规则,得能要回来。

所以基础设施是一个技术和规则相结合的整体,导致基础设施能流动。数据这个东西缺乏这种基础设施,它既缺乏规则,也缺乏技术。为什么没有?是因为它很难。数据这个基础设施是个非常麻烦的过程,是个非常麻烦的技术挑战,难点在于,技术上就很难,而且它是要必须要结合的是数据流动的规则,它要解决什么问题呢?

这个问题叫数据可控不可见。数据要可管可控。例如,钱我给了你,之后我找你要回来,要不回来我找你打官司去,这个东西你看它这是有规则的,这规则是由一个技术来决策的,我能把钱转给你,我能确认你能收到,也要能证明你给了我,这都是技术和规则的一个统一体。但是数据这个东西是不一样的,数据是无限制使用的,复制成本约等于0,所以假如我把数据给了你,那么你干什么用?

这个数据使用的责任是谁的,它会产生什么样的问题等等,实际上我们都不知道。

我给大家讲我是做大数据的,那么很多人找我想做一个数字化的应用,大数据的应用等等的事情,而从来就没有人敢把数据给我,为什么?他说我给了你,你肯定拿去滥用了,我说我怎么会滥用呢?他说你怎么证明你没滥用,这话我就没法说了。

我说你给我看看,其实这个数据其实并不是给我看的,它是给一个机器,一个算法看的。但是大家怕的就是给机器算法看。机器过一遍你怎么知道它没存下来,它的模型没被记住?所以我们需要一种技术叫做数据可用不可见的技术,就是数据让机器能够用到它,但是我限制数据的特定的用途,导致它不能复制一份,所以它不能用于其他的用途,那么这种东西怎么做?它的基本的思路是我不给你原始的数据,我给你一个加密的数据的副本或者什么,这个加密的数据,是你不用解开它,你也不能解开它,但是你不解开它也能在上面算出一些结果来,最后再给出解开的结果,这个就导致了我没有暴露这数据,所以这是数据可用不可见的技术。

数据可用不可见是个手段,真正的目的是要做到数据的用途的可控可计量,如果有了这个规则,我们就知道我给了你数据之后你不会滥用了。我们流通和交换的是数据的特定的使用方法,而不是数据本身。所以我们认为数据本身就不应该是个交换的东西,因为它维度太广,但是可能限制住了特定的使用方法,这件事情能让数据交流变得更容易。

所以我们认为数据流通的基础设施,第一,我们就要把数据的使用方法和数据的拷贝和所有权,分离了,这是基本的要求。

确实有很多的技术都支持这种要求,但是我们选择什么样的技术来支持这种要求,你就得看它还有什么其他隐含的要求。

作为一个基础设施,最核心的隐含要求,它必须得有规模经济效益,它得有可扩展性。有人说技术便宜,便宜的技术很多,但是它能扩展规模经济效益了之后,我每交换一个字节的数据,它的平均成本更低,反而是我们更想要的。

第二个隐性的需求,有一个常见的误区,就是我给你买卖数据,这就是咱俩的事儿,咱俩之间偷偷做了就完了,我干嘛让其他人知道。其实这个是不对的,因为数据的使用或任何生产要素的挖掘和任何资源的挖掘,最后都是一个负外部性的问题。

比如我通过一个交易伤害了一个第三方,那人反正没法举证,我他也不知道我伤害了他,所以我就榨取了那个人的价值对吗?所以数据的使用是需要监管的,凡是负外部性的东西,我们都需要治理和需要监管。那么监管怎么监管?如果我们把数据的交易彻底的隐藏起来,变成一个P to P的点对点的交易,你监管不了。

所以我们提出来将数据在阳光下,它要可监管。但是你不能够让监管的人拥有太高的权利,就是如果监管的人什么数据都能看得见了,它就变成了一个单点的失败了。如果监管的人万一是个坏人,那就变成了一个重大的数据安全的风险。所以我们说数据要在阳光下流通和可监管,但是要限制监管的权利,这是第二个需求。

第三个需求这是个技术需求,到底是不是能让开发人员能懂,能用。我们软件行业之所以能发展,是因为软件行业致力于让所有的技术变成“烂大街”的技术,变成任何程序员都能写的技术。然而现在这种技术不是的,你看对它里面有加密,有分布式系统来回来去网络传,然后它还有AI模型训练,它把这些东西缠绕在一起,它开发起来非常挑战,包括加上业务逻辑,没法做了。所以怎么样把这个技术变成“烂大街”的技术,让所有人都能懂,也是一个非常大的核心需求。

第四个需求其实是一个有机增长,有些人就觉得数据要素这么重要,国家要流通它,是不是国家应该建一个巨大的数据中心,然后怎么把这个数据都导入那里,其实我觉得世界上没有事情是这样一蹴而就的,它都是慢慢有机增长的,包括过去银联也是因为各个银行之间不存在交换数据,如果你记得过去那一个收银台上有无数个POS机不同的银行的,大家为了解决这个问题,然后大家才把它互联互通起来才有银联。

那么现在数据流通也是一样的,我们认为它在不同的行业,不同的地域上,它肯定会有大大小小的交易中心,慢慢的起来,根据需求慢慢的增长,有机地增长起来,然后以后会变成一张网,但如何能把它让它有机的增长起来,让它现在能见到行业级的,地域级的数据中心之后,它连成一张网也是一个非常大的技术挑战。

那么这里头有很多的不同的技术路线,现在全国做“准不可见技术”的公司,我觉得号称做这个东西的起码有五六百家,所以它有很多不同的技术路线,那么这些技术路线其实都有它的道理。

我认为更多的是你的场景下你信的东西不一样,所以在一个信任条件下,你最低的成本的东西它就是某种技术路线。比如我们推荐的一种方法是信任互相监督,就是信任一个去中心化的系统,这个系统里头有若干方,这若干方在计算的过程中他需要配合,他需要互相监督,但是每一方单独都不可能偷走你的数据。你想这个事情我觉得比较符合在阳光下运行的好处,因为没有监督的权利,都是可怕的权利,但是我这是有监督的权利,而且不光监督了你,还得同意你这么做,配合你这么做,所以他必须得跟你共同承担这个责任的时候,你才能这么做,计算会简单很多,他算的会快很多,而且你还买了一个互相监督,或者你说我信什么,我信做芯片的人,我觉得做芯片的人肯定是做的是对的,他不会骗我。那你信一个叫“可信执行环境”,这个东西这个词中文翻译得非常有特色,因为英文它那个词叫trusted execution,什么叫trusted?Trusted叫做被信任,是被动语气的trusted,就是你假设它可信的,因为英文有一个非常严谨的词叫trustworthy,trustworthy是可以信任的值得信任的,但中文一个商业上的翻译本身叫可信的执行环境,让你觉得这东西是可信的,其实不是的。

当然还有信更加奇怪的东西,比如信组团经验,这种往往是一个规则定义的,这个规则是来源于某一个领域的某一个规则的制定者,他承担了所有的责任,他说我为了数据能流通,我就这么定了,所以我促进了这个行业的数据的流通,那么我所有的责任将来所有的出了任何问题,制定规则的人来承担它。

一个非常知名的例子就是美国健康医疗保险的女子保护条例,这个东西它就是当年这些人承担的所有责任,他说我只要一个叫做可匿名的方案,这个方案在任何的理论圈学术圈和实践中都证明它是不保护任何什么隐私的,但是他说凡是用这个规则的我都能够交换,所以促进了美国的交换,所以它是相当于组织和定这些东西的领导的个人承担他所有的这些责任,我觉得也是一种方案。

还有一些比如说你信一些统计,比如有种方案叫联邦学习,就是说我信我中间交换的一些中间结果,比如说模型空间训练的一些梯度,这个东西不会泄露数据,但没有什么证明他为什么不会泄露,看起来是比信祖传经验好一些,但是事实上,我们也做了一些实验,他说你看他这个东西交换的结果是一个非常训练中间的梯度,但是我们经过几轮重复的训练之后,我是能够恢复出整个的原来数据的,但是不是所有的数据都能恢复出来,但是什么样的数据能恢复出来,什么样的数据不能恢复出来,这个事情我们也没有什么定论,这个东西跟机器学习和人工智能算法的可解释性有关系。

所以这个事既然这可解释性搞不清楚,这个事我们也不是非常搞得清楚什么东西能汇总出来,所以这有时候就是你不一定可信。

所以大家实际上是结合了多种不同的信任,但是你的系统里头有什么样的信任,你的行业的决定和你行业里有什么样的规则有关,行业特性就决策了,你准备信什么东西,你信什么东西,它总有一个最低成本的这样的计算的平台,所以所谓的数据流通的基础设施,它一定是分行业、分系统、分不同领域的,因为它的成本才是最低的。

但是这里头最核心的一点,无论你用什么,一个信任的来源在于能监督能举证,换句话说我能告你去,这是一个非常重要的事情。你要是出了问题我能告诉你我就能举证,所以所有的东西基层必须都加上可监管的一层,而不是逃避监管的一层,所以这个东西跟信法制是有关系的。

这个是我们提的想法和整个的需求,到底如何来构建一下这样的基础设施。

第一我们要有一个理论,这种理论应该是密码学理论,这种密码学理论告诉你说在什么样的安全假设下,它能够证明我没偷你的数据。

而这种密码学理论还有一个好处,就是说我告诉你任何的可以算的函数在这种加密的环境下都应该能算出来,但这里头有很多的理论,密码学做了好多好多年,为什么你看起来这东西不是说非常的常见,哪里都在用,因为性能不是很好,它里头加密等等东西对性能是有损失的,如何来减少它的性能损失,这个是一个工程化的难点,这也是我们着重解决的一些一系列方法,这就包含了不同的密码学安全假设的选择,包含了你选择哪种样子的密码学协议,一定要适应当前的网络和计算的环境。

还有一个就是架构怎么扩展,实际上它是一个大数据系统和超算系统融合。在单一算一个密码学协议的时候,它基本上更像一个超算的系统,就是要算你足够快。同时因为大数据它同时要算很多数据点,需要并行起来,这就需要借鉴大数据的那种思路,就能让它横向扩展起来,用很低的成本来横向扩展起来,在这之间做容错。到底在哪里扩展算力?我们认为显然应该是在云上扩展算力,而不是在一个数据源端扩展算力。

然后后边的话就刚才说的编程门槛,怎么能让所有的人都会编程,我们就想大家把数据copy在一起,它就会编程,但现在那数据分散在各处了,怎么办。我们虚拟地把它拷在一起,然后要让编程模型和系统自动的把它在不拷在一起的情况下算出来,假装是拷在一起的,是一种非常常见的系统设计的模式,就叫做我们是单一系统的印象,就是说去掉分布式系统含义,让它变成一个完全跟中心化的是一模一样的,这个时候大家都会写程序了,因为过去其他数据积累的算法都可以用了。后边的话包括如何能够实现用法的可控,那么就是用法你怎么描述?用法我们把它描述成一个计算的合约,这些程序如果是程序,你怎么说跟程序对还是错的,肯定有人看的。看过之后你怎么知道这个程序,你在运行的时候真的处理数据他没改过,但你得知道他没改过,你得知道所有各方都得知道他没改过,所以这个东西就借鉴了一些区块链的智能合约的思路,就是这个合约是在各处履行的,在各个参与方,无论是数据提供方,计算的方还是结果获得的话,都在重新的验证这个数据这个程序确实是没改,还是原来我们签名过,认为你应该可以跑那个程序,所以每一步数据的处理,我们都要有一个存证,记住谁到底做了什么事情,将来不可抵赖,你参与的计算将来做了这个事情,你把数据发给谁了?

这个是一个相当于是一个存证机制和一个合约验证的机制的结合,所以这一大套东西里头有20多种模块等等一些东西,那么怎么部署?

最后一个挑战就是你真的有这些东西了,一个一般的企业,能够部署它运维它其实也很难,所以后来我们就做了一体化的软硬件产品,我们选新做的硬件把这些东西包含在里边,所以这些东西你把那机器插上它就能用,这是我们为了解决它的部署和运维难,所做的一些事情。

那么这个有什么用?给大家介绍几个我们的场景,都是落地会的场景。一个是基于数据交易所,这是一种部署模式,就是有的地方政府建立了这种数据交易所,这样的数据交易所,希望的是我是把数据你不是把数据给我,这是新型的数据交易所,过去数据交易所你把数据给我,把数据拿出去卖,没有人敢买,是有很多的风险。

那么现在他说我新型数据交易所怎么做,我不卖你数据,你授权给我用你的数据,而且你授权特定的使用方法,就刚才说的合约,实际上我交易的是合约,交易所跑的是这种密文计算的平台,数据交易所看到的都是加密的数据,我自己解不开,所以我就可能以不可见的方式来处理这数据,所以像它这个里头就是某个大政府大数据中心,把一些个部门的政府的大数据什么纳税的什么一些数据,然后还有用电的,银行税的,这些数据放在交易所上,然后某个算法提供公司,把它的模型放上去,然后银行想给企业做个征信等等这些东西,他把任务请求发过来,但最后通过交易平台计算出结果给到商业银行。

交易所的平台证明了确实这个结果是用这些数据算出来的,但是算法提供方显示我的模型,模型参数我并没有协同给你,然后包括政府的数据,他认为和原始数据也没有显示给你,但是它通过交易所的交易平台来保证了交易的可监管性,所以监管方可以看到你交易的什么东西,但是监管方也看不到数据,交易所交易平台也看不到这个数据,所以大家都放心。同时又有一个互相监管监控的性质,这是一种部署的模式,就是有一个数据交易所在构建。

还有一种模式,这个模式是一个联合建模的模式,它的模式是没有这个数据交易所,但是这两方自己搭了一个去中心化的计算平台,平台的几个节点是两方自己出的,一个是某个商业银行,另外一个是某个互联网平台,所以他们俩就是想做一个反欺诈和客户画像的东西。

那么互联网平台当然还有一些客户的基本信息,商业银行有一些客户的关于他的账户的信息,然后他们俩第一先把这数据要对齐,其实因为你如果对齐了之后,你说我暴露出来交集里的是谁,这个事情其实银行是吃了大亏的,因为你现在随便找一个人,他不是大的互联网企业的用户的可能性是非常低的,但银行一共就那么个几十万用户,你跟他求一个交集,你把这交集暴露出来,互联网公司就知道了哪些人是你银行的客户了,你知道这些人也是互联网公司的客户。所以这个事情事实上我们不应该暴露出来交集,你通过一个通用的多方计算的一种平台的技术,可以不暴露交集的情况下,把它先选出来,最后你也不知道他具体从哪几个人的数据来选出来的,这像一个多方联合建模的场景。

第三个叫做保险数字化风控。一个卫健委的,他实际上希望做一个健康保险的精准定价等等一些事情,但是你的医疗个人医疗数据显然是能不能给任何保险公司。

但是他要做差别化定价等等的,其实上也是训练一个模型,这个东西我们也可以用这样的方法来做的话,跟刚才差不多。

所以总结一下,我们认为数字化转型,你看各个行业都有物流,都有生产要素的流通,也有货的流通,也有资金的流通。但是现在我们产生了数据,这个数据不流通,你不光不能用,而且甚至于到数据安全谈的多了,它就变成你企业的负资产给你造成的困扰。我们不希望数字化转型给企业造成了负担,这个本身应该是个正资产,但就因为它没有数据闭环,所以他发挥不出这个价值来。为什么没有数据闭环?是因为业务本身它就没有。但是我们想交流数据,交易数据,流通数据,但是这种合规安全等等的担忧,导致你不能。

我们在搭建一个数据要素流通的基础设施,当然它有很多技术挑战,他可以去掉数据要素流通的时候,这些担忧,让数据要素更好的流通。

这个时候我们说才回归到它本质,让比特的流通比原子的流通更便捷。