联邦学习能打破数据孤岛吗

陈永伟2020-05-01 23:44

(图片来源:壹图网)

【超级平台】

陈永伟/文

数据引发的烦恼

美国当地时间4月25日,社交网络巨头脸书发布官方消息,证实在对剑桥分析公司(CambridgeAnalytica)滥用数据丑闻进行了漫长的调查后,联邦法院已正式批准该公司去年7月与美国联邦贸易委员会(FTC)达成的和解协议。根据和解协议,脸书将支付高达50亿美元的巨额罚款,并成立一个独立的隐私委员会,主动识别潜在的隐私风险,以便实施缓解措施。自此,持续数年的“剑桥分析门”终于得以告一段落。

“剑桥分析门”事件虽然已经结束,但它留下的影响却是深远的。近年来,随着大数据、人工智能等技术的兴起,人们对于数据的利用水平获得迅速提升。通过对数据的分析,人们可以轻松地发掘出大量潜藏在事物背后的规律,并将它们用于商业实践,从而产生巨大的经济价值。与之对应的,原本分文不值的数据也摇身一变成为了数字经济时代至关重要的生产要素。然而,在数据身价节节上升的同时,一大串问题也涌现了出来:数据的产权究竟属于谁?在搜集和使用数据的过程中,如何保证数据安全和用户隐私?当一些公司拥有了庞大的数据,应该怎样应对由此可能产生的数据垄断和数据霸权?……

围绕着以上这些问题,很多人展开了各自的探索。根据探索的方向,这些努力大致上可以分为两类:第一类是法学的探索。在法学家们看来,当前数据的搜集和使用过程中之所以会出现种种问题,其关键就在于各种相关的法律和规范滞后了,不能适应时代发展的需要。针对这一问题,他们正积极推进立法,努力弥补法律和制度上的各项不足和漏洞。第二类则是技术的探索。在技术专家看来,数据应用中存在的各种问题本质上都是技术问题,只要技术进步了,问题就会迎刃而解。到目前为止,技术人员已经沿着这一方向进行了很多的努力,开发出了包括安全多方计算、区块链在内的众多新技术。而最近兴起的“联邦学习”技术,就是这些新技术中比较引人注目的一种。

机器学习的软肋

在讨论联邦学习(Federated Learning)之前,我们需要花费一些篇幅来讨论一个更大的概念——机器学习(Machine Learning)。最近几年,人工智能大火。但熟悉人工智能的朋友应该知道,作为一个庞大的学科,人工智能其实有很多分支。在这些分支中,真正火了的其实就是机器学习这一支。

何谓机器学习?通俗地讲,就是让计算机使用算法解析数据并从中学习,从而得出规律,然后对世界上的某件事情做出决策或预测的学问。举例来说,如果一个分析师希望知道有哪些因素影响了电商平台的销售业绩,那么他就可以把电商销售数据,以及可能影响销售的各种变量,例如价格、流量、投入广告量等一起输入电脑,然后电脑就可以通过算法,得出一组关于某某变量增加一单位,会导致销量变化多少个百分点的关系。这个从分析数据到发现规律的过程,就是机器学习。

很显然,对于机器学习这种从数据到规律的学习过程,两个因素是至关重要的:一是算法,二是数据。其中,算法主要解决“怎么学”的问题,而数据解决的则是“从哪儿学”的问题。过去几年中,这两个因素碰巧都取得了很大的发展——在算法上,深度学习异军突起,解决了很多长期困扰技术人员的问题;在数据上,随着互联网技术的进步,海量的数据得以被不断生产、存储下来。正是在这两个因素的共同推进之下,机器学习也迎来了春天。

不过,在经历了几年的繁荣之后,机器学习也正在遭遇瓶颈。在决定机器学习效率的两个因素中,算法的进步是相对缓慢的,突破性的进展可能要几年或者几十年才能遇上一回。在经历了深度学习的崛起之后,整个机器学习要迎来下一轮的算法突破,恐怕还要等上不少时间。而看起来,数据因素的突破似乎是比较容易的,毕竟在互联网时代,每天都有无数的数据被创造出来。但是,事实却并非如此。

诚然,在这个时代,数据是不会缺的,但它们却散落在不同的人手里。要将所有的这些数据集中到一起来加以分析,简直是难如登天。举例来说,假设我们希望研究人们每月在线购物支出在收入中所占的比重与教育水平之间的关系。从表面上看,这个问题十分简单,我们只需要知道人们每月的在线购物支出、个人收入,以及教育水平这三个变量,然后同构一个简单的回归就可以搞定这个问题。但我们要从哪儿知道一个人每月究竟有多少在线支出呢?他可能在很多平台消费,并且通过很多支付渠道来付款。这些数据分散在各个互联网公司的手中。个人收入数据呢?要确切知道这点,需要拿到这个人的工资单,然后再调查他的非工资收入。这些数据源,都分散在不同的人手里,彼此之间像一个孤岛一样没有联系。

怎么把这些数据集中起来呢?一个方法是进行调查,直接选取一个样本,让样本中的被访者来提供这些信息——这就是传统的统计学所用的方法。但这种方法的缺陷是相当明显的:一方面,被访问者出于隐私等问题的考虑,很可能不会如实提供这些信息。尤其是像收入这样敏感的数据,很多人都不愿提供。另一方面,要进行类似的调查,成本往往非常高,因此,搜集的样本数量通常也难以很大。而如果数据样本过小,那么先进的算法也就没有了特别的意义。

另一个方法是从不同的数据集拥有者手里去获取数据。但这又谈何容易?且不说很多数据对于拥有者来说是核心资产,不能外泄。即使这些数据拥有者同意提供数据,数据的使用者又如何能够向数据提供者保证数据的安全、用途的正当?事实上,本文开头的“剑桥分析门”事件,原本就起源于脸书的数据开放项目。根据脸书当时的规定,人们可以在其网站上搜集数据用于学术研究工作。但是,剑桥分析公司从脸书搜集了数据后,却没有像先前承诺的那样,把数据的使用范围限制在纯粹的研究工作上,而是将其用到了影响和操控选举。

正是由于考虑到类似的问题,很多数据拥有者即使主观上愿意分享自己的数据,在实际提供时也会十分犹豫。需要说明的是,尽管区块链等新技术的兴起在某种程度上缓解了这一问题,但却未能从根本上解决它。虽然借助这些新技术,人们可以对数据打上时间戳,从而对数据的使用和传输进行一定程度的监控,但这些监控只能通过计算机实现。一旦人们采用更为传统的手法,例如肉眼观察、手工记录等方法传播数据,那么即使采用这些新技术,也很难有效追踪数据的走向,自然也就不能有效防止数据泄露的风险了。

联邦学习:打破数据孤岛的新希望

如何才能解决数据搜集、使用、传播等环节存在的问题,让分散在各处的数据有效整合起来,更好地用于分析呢?当大多数人都把思考聚焦于数据,试图从数据出发找到答案的时候,有一些人却想到了另外一条思路。

事实上,无论是数据搜集过程中可能产生的侵犯隐私问题,数据传输过程种可能的数据泄露问题,还是占有数据之后可能引发的数据垄断问题,其症结都在于数据的集中处理模式。正是由于人们需要把数据集中起来进行处理,所以才需要搜集和传输数据,在这个过程中才可能会侵犯隐私,才可能会泄露数据,才可能会产生数据的集中和垄断。从这个意义上讲,只要这种集中处理数据的模式被改变了,那么以上所有的问题就会迎刃而解。所谓的联邦学习技术,就是在这种思路的指引下产生的。

和传统的机器学习算法要求集中处理数据不同,联邦学习把算法发到所有的数据拥有者手中,在本地对数据进行学习,然后对所有分别学习的结果进行整合,得到最终结果。形象地说,如果传统的机器学习是把数据“喂”给算法,那么联邦学习就是让算法去主动觅食。

在联邦学习的过程中,数据都没有离开本地,分析者也不直接接触到数据,因而前面提到的那一系列和数据相关的问题也就自然不存在了,而数据的拥有者们也就可以在充分保证自身数据安全的前提之下更好地开展合作,更有效地挖掘和利用数据中包含的价值。这个过程就好像数据邦国在保持各自独立的前提下,通过算法组成了一个机器学习的联邦,“联邦学习”也因此而得名。

在现实中,分析人员所面临的数据分散状况大致上可以分为三类。

第一类是所谓的“横向”分散。举例来说,我们想要分析心血管疾病的成因,就需要搜集尽可能多的病例信息。各个医院都有一些病人的病例信息,并且每个医院搜集的变量维度都差不多。这种变量维度类似,仅仅是观察对象的分散,就被称为“横向”的分散。

第二类是所谓的“纵向”分散。这种分散和“横向”分散正好相反,它面临的情况主要是多个数据集之间有共同的观察对象,但每个数据集的变量却不同。例如,在分析征信问题时,我们需要包括个人的家庭条件、教育水平、收入状况、消费记录等众多的变量信息。这些信息分散在很多数据拥有者的手中,每个数据所有者都只有其中的一个或几个变量,这时数据的分散就被称为是“纵向的”。

第三类分散则同时包含了“横向”和“纵向”的特征,观察对象和变量维度之间的重合都比较小。例如,当我们要进行一次关于企业盈利因素的跨国分析时,我们就需要搜集各个国家企业的财务信息。这些信息分布在不同国家、不同机构的手中,并且每个数据所有者手里的变量信息也各不相同。此时,我们要处理的数据就既是“横向”分散的,也是“纵向”分散的。

针对以上三种不同的数据分散状况,研究人员设计出了三种不同的联邦学习方法,也就是“横向联邦学习”、“纵向联邦学习”,以及“联邦迁移学习”。横向联邦学习的思路比较简单。在学习的过程中,分析者把相同的算法模型发到各个数据所有者手里,每个数据所有者都基于自己的样本进行学习,然后把结果反馈给分析者,分析者通过对这些结果的整合来得到想要的信息。纵向联邦学习要复杂一些。它首先要通过加密传输,将不同来源的数据整合到一个第三方的数据中心,然后将整个学习任务拆成不同的部分,再分给各个数据所有者来完成。在学习过程中,不同的数据所有者之间需要通过加密信息传递来不断修正模型,最终得出学习结果。迁移学习是三种联邦学习中最复杂的。它需要先找到被观察者和变量之间的相似性,据此来对数据进行处理和转换。在完成了这一切后,再根据类似纵向联邦学习的方法来完成机器学习。

实践当中,最早把联邦学习技术投入应用的是谷歌公司。2017年,谷歌推出了一款基于安卓手机的联邦学习程序。它通过将算法程序发送到每个用户的手机上,然后回收反馈信息,进而获得想要的分析结论。在看到了谷歌的实践后,国内的大型互联网企业也很快认识到了联邦学习的价值,“腾讯系”的微众银行、“阿里系”的蚂蚁金服都陆续推出了与之类似的技术解决方案,并将它们应用到了实践领域(注:蚂蚁金服将自己的方案称为“共享学习”,但从本质上看,它和联邦学习的思路是一致的)。在这些大型互联网企业的推动之下,目前联邦学习技术已经开始在金融、保险、电子商务等领域得到了应用,而其潜在的应用前景更是相当可观。在一些行业研究机构发布的报告中,这一技术甚至已经被誉为了“推动人工智能下一轮高潮的重要力量”,以及“数字时代的新基础设施”,其重要性可见一斑。

联邦学习带来的新问题

纵观技术的发展史,我们不难发现一个规律:新技术的产生往往可以解决很多旧的问题,但与此同时,它也可能会引发很多新的问题。作为一项新兴的技术,联邦学习当然也难逃这个规律。

诚然,联邦学习打破了数据集中处理的固有模式,一举解决了由此引发的很多问题,其价值无可估量,但它在应用中所可能遭遇的问题也是十分值得关注的:

其一,联邦学习技术其实并没有完全破解数据孤岛等问题。以横向联邦学习为例。在现实当中,很多企业都有了解整个行业动态的需求,从这个意义上讲,它们对于横向联邦学习的需求是很大的。但是,它们真的会放心参与到联邦学习过程中来吗?恐怕未必。这是因为,一旦企业参与了联邦学习,它就必须贡献自己的数据集。这样,尽管它未必会暴露具体的数据条目,却会暴露自己数据中掩藏的信息。如果市场上的竞争企业很多,这种情况可能未必严重,但如果市场上只有少数几家企业,情况就完全不一样了。极端的讲,如果市场上只有A、B两个企业,那么其中任何一个企业都可以结合自有数据的分析结果以及联邦学习的结果来很好地推断出对手的信息。

至于纵向联邦学习和联邦迁移学习,企业在参与时所面临的顾虑就可能更大了。根据纵向联邦学习的原理,在执行学习时,各方事实上需要把数据集中到一个第三方的数据中心。尽管在过程中,参与学习的各方可以通过数据加密来让数据安全获得一定的保证,但从本质上讲,整个学习并没有完全去中心化。至少在理论上,在数据的传输,以及数据集中存放在第三方数据中心的过程中,都可能有数据泄露的可能。

其二,联邦学习的应用对于硬件可能具有一定的要求,而这可能引发出很多新问题。正如前面指出的,在联邦学习的过程中,数据拥有者需要在本地完成大量的计算任务,而这可能耗费广大数据拥有者的巨大算力。这对面向B端的学习任务来讲可能算不上什么问题,但对于面向C端的任务则可能是个大麻烦。

在现实中,大量的数据都是分散在广大的C端用户手中的,对于多数企业来讲,这些数据也是最有价值的。因此,一旦拥有了联邦学习技术,企业们最希望的,可能就是把自己的算法放到C端用户的终端上进行学习。不过,C端用户的计算能力往往是有限的,因而就会产生相应的问题:一方面,过于复杂的学习程序并不适合投放到他们的终端,否则就会影响他们自身对终端的使用,这就对学习任务的复杂程度提出了一定的限制。另一方面,由于大量企业都希望将自己的算法投入到用户的终端,但用户对算法的接受程度又是有限度的,因此“究竟谁有权这么做,谁没权这么做”、“在投放学习程序时应该得到怎样的授权”等问题就会出现。而要处理这些问题,恐怕不会比搞清楚“数据的产权究竟归谁”,“平台在数据使用时应该得到哪些授权”等问题来得容易——事实上,从某种程度上讲,这些新问题只不过是把老问题变了个视角,重新问了出来。

其三,在联邦学习中,如何处理参与者的激励也是一个问题。除了前面所说的安全考虑外,激励和回报也是制约人们参与联邦学习的一个障碍。从数据拥有者的角度看,我既然贡献了数据,那么又能从中获得多少回报呢?如果这个问题不能很好地被回答,人们参与联邦学习的积极性就会受到很大的打击。

我们知道,作为一种新型的生产要素,数据的价值是很难衡量的。我们通常说“大数据”,好像数据规模越大就越有价值,但现实却并非如此。事实上,很多规模巨大的数据本身所包含的信息却非常少,大量的记录都是无用的噪声,对于这样的数据,其价值并不会和其规模成正比。在传统的集中数据处理模式下,人们在购买数据的过程中,可以对数据的质量进行检验,并根据数据质量给出对应的估价,因而可以让数据交易双方获得一个比较好的共识。而在联邦学习的条件下,学习的参与者并无法检验其他参与伙伴给出的数据质量,因而也自然无法对数据质量进行估价。在这种情况下,要对数据的提供者提供合理的激励,让他们感到获得了公平的回报就是一件十分困难的事。从难度上讲,它甚至远远超过了现在的数据定价问题。

目前,已经有一些研究试图对这一问题进行回答。例如,在一篇论文中,提出了用合作博弈论中的“沙普利值”(ShapleyValue)的概念来处理这个问题。简单来说,它根据每个用户提供的数据对于最终结果的影响比重来衡量他们对学习的贡献。这似乎是一个不错的主意,但问题也是很多的。例如,假设一个用户提供了很多无用或虚假的数据,它很可能让整个模型的结论产生巨大的变化,然而根据沙普利值,它在学习中给出的贡献却会是最大的。

其四,联邦学习事实上也为造假或攻击留下了漏洞。举例来说,如果一个企业试图干扰对手企业的决策,它完全可以把学习程序放到一个虚拟的数据集上进行学习。这样一来,对手获得的信息就会是十分具有误导性的。

其五,联邦学习也可能对市场的竞争产生一些潜在的负面作用。一方面,这种技术很可能会加强一些平台的市场力量。在联邦学习的三种模式中,后两种模式在学习过程中都需要借助于一个第三方数据中心才能完成。这个第三方数据中心从哪儿来呢?它一般都是学习服务的提供者,或者与其有关联的企业提供的。从这个意义上讲,联邦学习服务的提供就强化了它们在数据中心,或者云市场上的市场力量,使这些市场上的对手更难与它们开展竞争。另一方面,联邦学习很可能会称为一种新的共谋的工具。在传统条件下,企业之间进行共谋往往需要公布自己的一些数据信息。正是考虑到泄露自身数据所带来的风险,所以一些企业会在进行共谋时比较犹豫。而有了联邦学习后,企业可以在不泄露具体数据的同时,完成必要的信息交换,这就给共谋提供了更好的条件。

最后,联邦学习引发的知识产权问题也可能会是一个问题。在联邦学习的过程中,算法提供者,以及所有的数据所有者都投入了贡献,从理论上讲,它们都有一定的资格获得最终模型的知识产权。在这种情况下,谁能获得、使用、授权这些知识产权,恐怕也是一个比较值得思考的问题。

综上所述,联邦学习虽然解决了由于数据集中所带来的很多问题,但它本身却又会引发很多新的问题。要彻底解决这些问题,我们恐怕还需要投入很多新的努力。

 

《比较》研究部主管