本篇文章2467字,读完约6分钟

8月29日,2019年世界人工智能大会在上海世博会中心开幕。国内外的大咖啡聚集在一起,学术界和工业界聚在一起讨论人工智能的未来。伟众银行首席人工智能官杨强教授在大会主论坛上站在科学前沿的演讲中表示,联邦学习已经成为学术界和产业界人工智能的新趋势。未来,公众面对行业的要求和监督将会越来越严格。联邦学习可以满足用户隐私保护和数据安全的需求,同时实现多赢的结果。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

作为国内联邦学习的先驱和领导者,伟忠银行在杨强教授的领导下首次提出了联邦迁移学习,并通过领导制定联邦学习国际标准(ieee标准)和开发联邦学习框架联邦人工智能技术使能器(简称命运),推动了联邦学习技术在行业中的落地。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

以下是伟众银行首席人工智能官杨强教授的全文:

大家好,我很高兴今天和大家讨论这个话题,人工智能的最后一英里。为什么会有这样一个话题?现在我在伟忠银行负责人工智能,我接触了很多人工智能的应用场景。作为一家像伟众银行这样的互联网银行,其服务的用户数量已经超过1.7亿,提供服务的主要手段是人工智能和机器人。服务过程中有很多环节,如业务咨询、贷款文件审批、申请人身份验证如人脸识别、语音识别、客服问答等。在金融领域,不仅需要建立用户肖像和模型来寻找用户,还需要建立一个完整的长链接来服务于广大用户。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

我们已经熟悉了人工智能领域的这些应用,但我想说的是,这些应用离不开一个元素数据,尤其是大数据。但是当我们环顾四周,我们发现数据非常有限。在法律领域,积累有效数据需要很长时间。在金融领域,特别是在大额贷款和财富管理领域,有效数据很少;在医学领域,我们面临着数据碎片化的现象。每个医院都有大量的医学影像数据,但由于监管、安全、利益等原因,它们不能相互传递,形成合力。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

在这种情况下,对数据聚合的需求非常强烈,但很难满足。最重要的原因之一是社会对用户隐私的要求越来越高。目前,世界各地的监管机构都颁布了强有力的法律法规。例如,欧盟去年正式提出了《通用数据保护条例》(gdpr),该条例对个人隐私和个人数据所有权提出了非常严格的要求,包括模型的使用和可解释性。中国的法律也在飞速发展,一系列关于用户隐私、用户数据安全和所有权的法律法规不断出台,这也将严格限制企业之间的数据交换。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

一方面,我们面临数据碎片化,没有大数据来训练人工智能;另一方面,法律、法规和社会对安全性的严格要求限制了数据融合。大数据已经成为人工智能的挑战。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

我们如何迎接这一挑战?放弃人工智能?只有拥有大数据的公司才被允许做人工智能?这不是真的。我们的答案是积极寻求一些新的技术方向来解决数据挑战。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

我们提出的方法和方向叫做联合学习,英语叫做联合学习。数据的每个所有者在他们自己的数据不在本地时建立一个模型,并使这个模型共享,那么在建立模型的过程中用户的隐私将不会被侵犯。整个建模过程称为联合学习的框架和算法。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

谷歌在2016年启动了一个项目,在安卓手机用户中建立联邦学习,以解决用户个人终端设备的数据隐私问题。首先,将初始化后的模型下载到每个终端,每个终端根据自己的数据更新模型参数。不同的终端将产生不同的更新结果,这些更新将被发送到云进行聚合。总结的模型参数将被用作下一次更新的初始参数,然后迭代直到收敛。使用这种方法不仅可以保证用户的隐私,还可以共享一个公共模型,并利用群体智能在云中不断更新。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

这种模型不仅需要一种机器学习算法,还需要一种分布式机器学习算法。除了分布式机器学习算法,还有各种加密算法。在此基础上,我们仔细分析,发现联邦学习有三种模式。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

第一种模式称为水平联合学习,这意味着当两个数据集的用户不同且重叠较少,但用户特征重叠较多时,我们对数据集进行水平分割(即用户维度),并取出用户特征相同但用户不同的部分数据进行训练。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

第二种类型称为垂直联合学习,这意味着两个数据集的用户特征重叠较少,但它们有更多重叠的用户,因此我们在垂直方向(即特征维度)上划分数据集,并取出用户相同但用户特征不完全相同的数据进行训练。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

最后,如果两个数据集不重叠用户特征和用户,那么在这种情况下,我们还提出了一种新的算法,称为联合迁移学习。它可以利用迁移学习算法挖掘出这两种数据模型的本质,聚合抽象模型,在聚合过程中保护用户隐私,取得巨大成功。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

虽然联邦学习框架是最近提出的,但它在工业中的应用已经取得了成熟的进展。例如,我们最近在金融信用场景中获得了非常成功的应用:一个是拥有许多用户行为数据的互联网公司;另一方是金融企业银行,它需要建立一个更准确的客户信用模型。此时,使用垂直联合学习,双方的模型被共享和更新,这样模型会更加有利,并且效果随着数据量的增加而大大提高。以下是渲染。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

与此同时,我们还尝试了许多不同的应用场景,例如,在城市管理领域,使用分散的计算机视觉数据来建立一个安全和共享的模型;在语音识别领域,不同的组织有不同的语音数据和不同的服务中心,他们也可以建立一个联合学习来解决用户隐私问题。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

刚才提到的这些应用是与一个叫做生态学的概念分不开的。联邦学习生态的建立需要我们不断倡导。我们还在学术界和工业界做了一系列的推广工作,包括在刚刚结束的第28届国际人工智能联合会议(ijcai 2019)上举办了首次国际联邦研究研讨会;linux基金会为联合学习开启了世界上第一个开源项目,名为命运(Fate,Federated AI Technology Enabler),并为更多开发人员的联合学习开源做出了积极贡献。与此同时,我们也在为联邦学习建立一个国际标准(ieee标准),这样不同的机构可以有一个共同的语言,当为联邦学习建立一个共同的模式时,每个人的交流都会更加敏捷;在国内,我们也取得了巨大的成就,率先建立了中国第一个联邦学习群体标准——“信息技术服务联邦学习参考框架”。

微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

最后,机器学习离不开大数据,大数据也离不开对安全性和隐私保护的考虑。联合学习是一种有益的工具,它不仅可以构建大数据模型,还可以保护数据安全和用户隐私。我希望更多的人能加入我们,建立一个联合学习生态系统。谢谢大家!

标题:微众银行CAIO杨强:联邦学习领跑人工智能最后一公里

地址:http://www.ao5g.com/adlxw/12564.html