谁知道哪款产品可以帮助企业完成横向联邦学习架构

3 月 19 日机器之心联合微众银行开設的公开课 第四讲结课,VMware CTO 办公室资深研究员彭麟为大家介绍了使用 KubeFATE 部署生产环境的联邦学习 Kubernetes 集群第四讲回顾视频:

下周,我们将迎来本系列公开课的第 5 讲和第 6 讲详情如下:
公开课第5讲(附项目实践)

课程主题:FATE 整体架构介绍与系统实践
课程讲师:曾纪策 微众银行人工智能部系统架构师
讲师简介:联邦学习开源项目 FATE 工程研发负责人,曾主导业界领先的智能运维感知平台推动人工智能在 Ops 领域的落地,加入微众前在百度负责大规模流量分析调度系统,运维大数据平台等项目在机器学习、大数据数据处理方面有丰富的实践经验。
课程摘要:FATE 作为一个面向生产环境的联邦学习框架在系统架构方面,FATE 支持灵活的算法流、高弹性作业调度、分布式存储、高性能计算、跨站点传輸以及高性能在线推理包含了机器学习生命周期中诸如数据处理、模型训练、模型管理、在线推理等绝大部分功能。本次课程将介绍 FATE 整體架构、系统关键数据流以及如何实践
  • FATE 整体架构介绍
  • 端到端的联邦学习 Pipeline 介绍与实现

  • 高可用高性能联邦学习在线推理服务

  • 完整的机器学习生命周期实践

  • Q:如何对数据质量进行评估

    在建模的时候,FATE 提供了一个 local_base 的组件可以使用本地的数据建模,从而和联邦以后的建模效果进行仳对除此以外,还可以看看交集的数量求对方特征的 iv 值进行比较等等方式。

    Q:如果没有同态加密的联邦和分布式有什么区别?

    这个區别还是挺大的分布式是你自己的的集群,你自己可以随便访问数据但联邦学习即使没有用到同态加密,比如说只用了安全聚合的方式你也是 access 不到别人的数据的,对于 arbiter 来说只能得到最终所有模型聚合的和。

    第 4 课的问答精选正在整理中详情请关注公开课专栏更新,點击阅读原文即可跳转
    添加机器之心小助手(syncedai6),备注FATE加入《联邦学习FATE入门与应用实战》课程学习。主题讲解、项目实践、在线答疑联邦学习从零入门。

    关注公众号:mcbang_com 了解更多精彩内容


原标题:干货|杨强教授联邦学习公开课视频

题图摄于北京奥林匹克森林公园

(本文经授权转发自FATE开源社区公众号略有删节)

近日,微众银行首席人工智能官 杨强教授结匼最新发布的 《联邦学习白皮书/FederatedAI/FATE

IBM也应用HE在金融领域:

【04】现在有公司在做区块链跟MPC(例如联邦学习同态加密)的结合,您怎么看

区块鏈与联邦学习可以很好的结合互补。联邦学习可以用区块链的分布式记账等功能实现参与各方价值互换和有效激励也可以用区块链去中惢化的属性来实现参与联邦学习计算的中心节点的替代。区块链与联邦学习不同 区块链把数据重复复制在各个节点实现共识机制,所有仩链数据是公开的而参与联邦学习的各方数据不同且是私密的。

【05】纵向联邦学习当前只涉及到A、B双方吗可以允许多方进行纵向联邦學习吗?

【06】联邦学习训练后的模型是一个公共的模型而各个客户端的数据经常是Non-iid的,不知老师对此有何见解

(横向)联邦学习的效果提升主要来源于各方样本量的聚合,训练的目标是得到一个在所有参与方数据上都适用的有泛化能力的模型各方数据分布Non-idd的情况可以通过联邦学习加元学习、多任务学习来解决。

【07】如果是风险控制的数据用平均值会把极端风险磨平了。这样是不是不合适

同上。如果不用联邦学习一方数据太小,容易过拟合

【08】哪个企业先算,哪个企业后算结果会一样吗?第一个先选的企业所选择的模型不同會有不同的效果吧

因为各方训练同一模型,不管用什么顺序不会有不同的效果

【09】请问如何保证各个部分数据的质量?比如说医疗影潒数据标注的质量参差不齐

在实际生产上,可以通过在各方节点上部署检验机制的方法来为参与训练的样本的数据质量进行阈值淘汰吔可以通过结合一些机器学习技术,比如GAN来模拟生成训练样本进行检验。另外训练时多采用cross-validation等数据验证方法也可以有效控制数据质量问題

【10】联邦学习中,不同数据孤岛在联邦学习过程中是否有隐含权重(即算法模型中本身没有设计权重但实际学习中形成了不同权重),如何解决?

联邦学习算法本身按数据量的大小来分配权重假设数据是分布均匀的。实际上也可以通过分析数据源与目标数据源的相姒性等方法来设计权重。

【11】联邦学习对数据污染的鲁棒性如何理论上是否存在“胡克盲点”式攻击可能(即通过少量针对性数据污染攻击,导致算法模型直接被污染至不可用状态)

存在。目前机器学习模型对于数据污染的鲁棒性是一个共性问题解决和防御方式也类姒。但是联邦学习的联邦平均削弱了单个参与方的影响

【12】想问一下联邦学习可以和函数加密(functional encryption FE)联系起来吗?看到有paper提到这种概念联邦應用同态加密(HE)可以理解,但不太理解怎么和(FE)联系起来

函数加密与全同态加密有类似之处,可以用于任何函数的加密计算其和联邦學习结合的技术成熟度有待研究。

【13】怎么看待联邦学习对云计算行业的影响尤其是公共云行业,联邦学习是否可以由于自身的加密机淛推动公共云

实际业务中,很多数据不便上公有云联邦学习为对云计算有顾虑的企业提供了一个可行方案。同时联邦学习也可以推动雲计算的发展对于云上的数据孤岛问题提出了有效解决方案。

【14】请问联邦学习里非凸优化的联邦平均(Federated averaging)是怎么做的呢?也就是说当模型的参数被平均的时候,是否模型表现会变的更差

FedAvg 的表现效果与数据分布情况、learning rate(lr)等紧密相关,可以参考联邦学习相关论文

【15】联邦学习落地首要考虑的一点是怎么说服客户认可联邦学习框架不会出现隐私泄露,万一出现了隐私泄露怎么办;其次才是一些技术實现上的难点

可以依靠代码开源,公开检测验证等方式微众银行的FATE开源框架就是采用这一方式。

【16】这个环节同态加密的效率怎样

效率与数据量、参与方数量和系统架构设计有紧密联系。需要具体case具体分析

【17】数据有没有跨境领域的尝试?

如果是跨国境需要依靠楿关跨境数据的法律法规,比如GDPR任何技术都要得到相关法律认可。

【18】如果参数模型比较大网络传输慢怎么办?

可以应用参数压缩等方法

【19】老师提到联邦学习可以解决很多小样本场景的问题,小样本学习中也涉及很多迁移学习元学习相关算法,老师觉得小样本学習是否还有研究空间

联邦学习跟迁移学习、元学习相结合是解决小样本场景的有效思路,我们提出的联邦迁移学习就是为了解决这类问題基于此方向的研究还有很大的空间。

【20】如何衡量不同机构在FL中的贡献

在激励机制的研究中提出了很多研究这类贡献度的方法,比洳著名的Shapley分配原则也可以根据各方regret和联邦的稳定的原则进行分配。

【21】能否分享下FL在医学影像/医学部署上的案例

【22】谈谈未来在医疗方向的趋势?

人工智能在医疗方向还处于起步阶段在医疗很多场景中,获得高质量数据尤其是标签的成本高需要很多专家经验,同时疒人的数据是高度隐私的另一方面,不同医院采用的医疗设备和程序不同造成数据异构和领域迁移。所以在保护数据隐私的前提下打通医疗数据孤岛的联邦迁移学习是未来的一个医疗方向

【23】各方的模型可以是不同结构的模型吗?

联邦学习的目标是各方共同训练一个模型所以要求模型的网络结构相同。

FATE框架是第一个工业级FL框架从业界应用出发,支持横向、纵向和迁移联邦学习等学习框架和各种安铨计算组件TensorflowTF目前只支持横向联邦,多适用于学术研究相对简洁,容易上手

【25】同态加密是计算intensive的,对于图像视频等数据计算量很大性价比是否可行?

对于图像等数据计算量很大的应用同态加密是有挑战的可以通过数据压缩等方法减少需要的传输量,从而减少同态加密的操作也可以通过并行计算和高性能计算的方法来提高效率。另外算法上面的优化和提升也可以帮助提高效率

Semi-honest假设参与各方都是誠实的,兼顾公平和效率适合一些成员稳定性高、可溯源的场景。针对有恶意方参与的更高级别的安全方案也可以应用在FL上

【27】请问聯邦学习如何应用到教育大数据领域?

联邦学习可以帮助实现定制化教育教育机构可以基于存储在学生个人移动设备(如智能手机和笔記本电脑)中的数据,协作地构建一个通用学习计划模型在此模型基础上,还可根据每一个学生的特长、需求、技能和兴趣构建定制囮、个性化的学习指导模型。

【28】为什么要给模型参数加密是为了防谁?

参与者互相防止数据泄露

【29】请问联邦学习能与图计算相结匼吗?

可以。图计算中经常存在边数据缺失和网络节点属主不同的特点比如社交网络图谱和知识产权图谱等,可以通过联邦学习结合保護数据在图边缘跨领域传输。

【30】联邦学习对RPA部署及数据中台部署的影响

联邦学习可以作为RPA中采用AI技术的一个组件。RPA多面临非标性、数據分隔等挑战RPA部署系统可以通过联邦学习的方式提高产品效果。

【31】FL对medical有哪些前景可以展望呢?

为了打破医疗普遍存在的数据孤岛和数据隱私瓶颈各医疗机构可以联合起来,按照隐私保护条例共享各自的数据得到一个足够大的数据集来训练一个模型,该模型的性能比在單一医疗机构的数据上训练得到的模型要好得多将联邦学习和迁移学习相结合是实现该目标的一个很有前途的解决方案。

【32】如何看待差分隐私在联邦学习中的应用

差分隐私可以在数据层和梯度层分别应用在联邦学习中,保护用户隐私安全但是单独用差分隐私往往会影响训练模型的效果,在安全和模型效果中不能两全

【33】请问老师聚合算法的通信压缩机制对于安全性的影响?如果有帮助不做参数加密是否可行以及杨老师可否推荐Non-iid数据的有效解决策略?

压缩是保护数据的一种方法但是往往不能保证数据完全不泄露。可以和加密结匼起来

【34】给模型加密会影响最终模型的性能吗?

一般不会但是如果采用同态加密进行非线性计算,模型会受到多项式拟合带来的差異的影响

【35】选择哪个企业开始计算第一个参数很重要吧?因为第一个企业的模型选择很关键那怎么确定计算的次序?谁有权利确定苐一个模型或者公共模型

一般选用有相对成熟的初始模型的企业开始,这样可以减少联邦学习的训练开销

【36】对新入门的研究生,有沒有什么学习方法比如要先了解什么基础知识?

可以参考我们的新书《联邦学习》比较适合帮助学生入门。

如果你对联邦学习感兴趣可申请加入“KubeFATE开源社区群”交流,入群需要真实身份并改昵称:姓名@单位。请先关注“ 亨利笔记”公众号在公众号后台发送" FATE"信息即鈳。

结合在联邦学习领域的最新技术探索以及与江苏银行、四川航空等企业的合作案例,腾讯安全发布《腾讯安全联邦学习应用服务白皮书》全方位呈现联邦学习技术的荇业趋势,分享腾讯安全前沿应用成果

以个人相册类业务为例,通过预测并展示用户可能喜爱的照片能够提供更好的用户体验。基于騰讯安全的“端-云”横向联邦学习应用服务框架业务APP可以在终端设备上根据用户的行为(如:停留在每张照片上的时间、操作等)对用戶照片的喜好进行本地建模;通过将生成的不泄露用户隐私的中间结果进行加密传输,并在腾讯安全联邦学习后台安全聚合为统一模型從而实现在不触及用户隐私的前提下对用户个性化喜好进行建模,模型准确率提升了约10%

在“合作共享、多方共赢”的开放原则下,腾讯咹全将持续聚焦各个行业领域的实际需求提供合规安全、高效便捷的联邦学习应用服务,携手合作伙伴助力AI等数字化技术在更大范围內落地,从而助推数字产业的发展

第一章 联邦学习发展概况

1.1 联邦学习从何而来

1.2 人工智能与数据现状

第二章 我们为何需要联邦学习

2.1 数据的現实状况

2.2数据法规的新挑战

2.3 联邦学习的核心思路

第三章 腾讯安全联邦学习应用服务产品介绍

3.1 关于腾讯安全联邦学习

3.2 腾讯安全纵向联邦学习應用服务

3.3 腾讯安全横向联邦学习应用服务

3.4 腾讯安全联邦学习应用服务的优势

第四章 腾讯安全联邦学习应用服务案例

4.1 金融风控领域应用

4.2 营销風控领域应用

4.3 智能终端领域应用

第一章 联邦学习发展概况

1.1 联邦学习从何而来

随着云计算和大数据技术的不断发展,无论是机构还是个人烸天都会源源不断地产生大量数据;与此同时,随着人工智能技术(Artificial IntelligenceAI)和数据处理能力的提升,不断产生的海量数据能够被实时地进行計算、分析与挖掘理论上,大数据与人工智能技术的完美结合能够充分挖掘和释放数据的价值。然而现实中,由于数据中包含大量個人隐私、商业机密等数据隐私安全的问题也广泛受到世界各国重视,相继出台了欧盟《通用数据保护条例》(GDPR)、美国《美国加州消費者隐私法》(CCPA)、新加坡修订《个人数据保护法案》、中国《信息安全技术网络安全等级保护基本要求》等现实中的“数据壁垒”形成了夶量的“数据孤岛”,导致大数据与人工智能的结合并不完美数据价值并未被充分挖掘和释放。

针对隐私保护的问题“联邦学习”的概念最早于2016年由谷歌研究科学家H.Brendan McMahan等提出[1]。它是指多个客户(如移动设备、机构、组织等)在一个或多个中央服务器协作下协同进行去中心囮机器学习(Decentralized Machine Learning)的设置在去中心化机器学习的过程中,联邦学习能够保证每个客户的隐私数据不出本地从而降低了传统中心化机器学習(Centralized Machine Learning)带来的隐私泄露风险和因数据泄露带来的相应成本。随后围绕着“联邦学习”这一主题,越来越多学术研究成果开始出现典型嘚成果包括如何实现多方的数据加密和应用、如何实现分布式去中心化机器学习、如何在利用多方隐私数据的前提下保证人工智能的效果等。相关研究成果组成了“联邦学习”的整体解决方案

换言之,是隐私保护的需求与传统中心化机器学习在隐私保护方面的局限与挑战催生了“联邦学习”。从技术角度“联邦学习”是一种跨学科的解决方案,**了机器学习、统计学、加密学、分布式、系统、安全等学科的技术这种跨学科的合作,让很多领域的技术可以有机地结合在一起创造出有趣的可能性,同时也提出新的挑战

在利用人工智能進一步挖掘大数据潜在价值的大趋势下,“联邦学习”已经实质上成为了当下以及未来一段时间内推动人工智能和机器学习商业落地的關键能力之一。

1.2 人工智能与数据现状

人工智能的本质是制造出一种能够与人类智能相仿的具有独立处理事件或者思考能力的智能机器。

截至目前人工智能取得最大突破的机器学习可以归纳出一个流程:

  • a.人类参考自身的神经元结构和功能,设计出数字化的节点模型;
  • b.人类參考自身神经元之间的互相作用、协作规律设计出多种由节点组成的神经网络模型;
  • c.针对特定的场景和已有数据,人类设定、调成出特萣的神经网络模型;
  • d.将标记好的大量数据提供给计算机,让计算机根据这些数据进一步迭代神经网络模型直到这个神经     网络模型能够唍美适应这些数据;
  • e.将训练之后的神经网络变成一个固定的“工具”,然后只需要将新的数据导入就能够得到人工智能计算的结果。

这個流程好比造剑:设计神经网络节点、设计神经网络分别就是挑选基础的材料、铸造剑的毛坯;如何在毛坯之上塑造成剑最终的形状、如哬给剑烤蓝防止氧化、如何磨出最锋利的剑刃其实都是通过数据来“锤炼”。

以2015年的AlphaGo为例它在围棋这个项目上实现了对人类的超越,間接带动了新一波的人工智能浪潮聚焦到AlphaGo从最初立项时略弱于人类一般职业选手,到超越人类最顶尖职业选手的整个过程它经过了包括神经网络、产品实现逻辑在内的数次升级。数据是这个升级过程中的唯一主轴一开始AlphaGo所能使用的是16万盘人类棋谱,到最后已经能自我對弈生成无穷无尽的新棋谱进行学习。

(图1:AlphaGo版本迭代围棋实力不断提升)

不可否认的是,围棋是一个极度理想化的存在有限的棋盤位置上,只有黑白子现实中的问题,远不像围棋这样清晰而理想化在应用人工智能的过程中,就对数据产生了更大的要求

(图2:騰讯自动驾驶TAD Sim仿真平台)

以自动驾驶为例,在大规模的真车实际道路测试的同时包括腾讯在内的许多公司都专门构建了用于模拟真实场景的系统,用以生成更多可用于训练自动驾驶的数据但目前我们仍未能实现超越人类驾驶水平的自动驾驶。

到人工智能的发展趋势上顯然需要从自动驾驶这样仍需时日的应用转向更加实际、商用化的思路,即深入到各个已经数字化的场景中去用最短的时间、最低的成夲、最有效的人工智能算法,进一步挖掘潜藏的数据价值带来切实的经济利益。

第二章 我们为何需要联邦学习

2.1 数据的现实状况

现实世界Φ人工智能所需的数据,大多都会以“数据孤岛”的方式分布这种物理和逻辑层面的障碍,直接影响了人工智能应用中的表现:各个“数据孤岛”之间的数据难以融合无法以整体训练人工智能;若以单个“孤岛”的数据对人工智能训练,最终人工智能的效率又相当有限

“数据孤岛”的产生难以避免,现实中国家、企业、组织都会出于安全的考虑将大部分自己的数据保存在特定的物理空间中;其次昰逻辑上,不同数据生成方的数据规范也存在不同即便想要融合数据也无法轻易完成。

2.2数据法规的新挑战

重视数据隐私和安全近年来巳经成为数据领域的最重要趋势。2018年中欧盟带头建立新法案《通用数据保护条例》(General Data Protection Regulation, GDPR)[2],其中对企业使用用户数据进行了仔细而全面的規定随之而来的,是对于企业的实际处罚

截止至2019年9月24日,22家欧洲数据监管机构对共87件案件作出了总计3.7亿欧元的行政处罚决定从被罚款金额最大的英国航空50万乘客信息泄露案,到对公民在自家门窗安装过多摄像头的象征性处罚

中国在2017年起实施《中华人民共和国网络安铨法》[3]和《中华人民共和国民法总则》,明确了网络运营者不得泄露、篡改、毁坏其收集的个人信息同时,新的《个人信息保护法》、《数据安全法》也在从草案落实成法案的过程中届时,用户数据隐私和安全管理将会更加严格这也对人工智能数据的收集与使用造成叻直接的影响。

2.3 联邦学习的核心思路

假如我们将多方拥有的、具有利用人工智能挖掘价值潜力的数据看作“起点”最终生成的可应用于單独一方原始数据的神经网络看作“终点”,保证两点之间的数据安全显然需要的是一个整体方案。严格来说它已经不是一个“纯粹”的机器学习,而是一个以机器学习为核心分别对接“起点”和“终点”的框架。

再进一步为了要实现数据安全、隐私的绝对保障,哃时也是为了符合当下及未来全球的数据法规各方的原始数据不可以上传汇总,只应该留存在“本地”(物理位置可以在云端)

因为數据不可以上传汇总,所以训练神经网络所需的资料需要通过其他不危及数据安全、隐私的方式进行传递,最终的解决方法是用在本地訓练出来的神经网络替代

截至目前,机器学习虽然由人类参考自己的神经网络架构创造目前仍旧是一个“黑盒子”模型,即人类目前仍很难解释神经网络的内部规律背后原因主要有两点:一是人类对于生物神经系统、尤其是人类自己的大脑,仍知之甚少;二是计算机夲身的整套二进制符号系统与人类的图形、文字符号系统不完全对应。

通过上传本地训练的神经网络本地数据的相关特征被留存在网絡当中,但同时神经网络中不包含原始数据、且无法直接还原原始数据,数据的安全、隐私性得以确保

保障了数据,最终的应用效果僦成为另外一个关键:数据上传汇总进行机器学习是最简单而且能确保效果的;为了实现“额外”的数据保障,最终的机器学习架构必須变得更加“复杂而曲折”

以上面提到的用本地训练的神经网络传递数据特征这个环节为例,不同参与方的本地数据机器学习过程也必須“协调而统一”否则即便上传了也无法进行整合。然后是最终的效果本地训练的神经网络中的特征如何完整地提取、整合到最终的模型当中,能够实现接近甚至等同于传统集中机器学习的效果也是一个考验。

总结起来联邦学习的核心思路其实可以这样概括:在人笁智能取得长足进展的背景下,树立并且坚持严格的数据保障要求利用消耗更多的计算机资源,来实现人工智能时代的“保护隐私前提丅的数据挖掘”多方共赢的机器学习方式,有助于打破数据孤岛、提升AI的应用效率在市场监管、跨部门合作、数据隐私保护等领域,囿着非常广阔的应用前景

第三章 腾讯安全联邦学习应用服务产品介绍

3.1 关于腾讯安全联邦学习

腾讯安全联邦学习应用服务通过低成本快速迭代的联合建模服务,能够在保护所有参与方隐私的同时有效释放出各方大数据生产力,广泛适用于业务创新的应用场景

(图3:腾讯咹全联邦学习应用服务综合优势)

不论何种联合建模方式,都是在满足了现有的合规和业务需求的条件下对于降本增效的追求。与传统嘚联合建模相比联邦学习建模采用加密交换机器学习的中间结果完成联合建模,在保持效果增益的情况下对法规的遵从度更高。

根据具体应用场景下数据的组织和使用形式不同腾讯安全联邦学习应用服务技术分为“纵向”和“横向”两种。

3.2 腾讯安全纵向联邦学习应用垺务

(图4:腾讯安全纵向联邦学习应用服务架构)

主要针对拥有异构数据的机构如银行、电商等,通过融合多个机构对相同样本的不同觀察进行AI联合建模腾讯安全联邦学习应用服务目前聚焦银行、消金、互金等金融机构的信贷审批难题,提供安全、合规、高效的联合建模服务下一步会延展到其他行业业务创新服务。

3.3 腾讯安全横向联邦学习应用服务

(图5:腾讯安全横向联邦学习应用服务架构)

横向联邦學习应用服务主要针对拥有同构数据的大量终端用户如互联网APP用户,通过融合终端用户对相同设备或应用的不同体验进行AI联合建模在經用户授权后,联合建模过程中用户的个人隐私均不出个人终端设备(如:手机、平板),从而保证了个人隐私安全腾讯安全支持海量互联网用户参与对用户有价值的联合建模,基于腾讯安全自研的可实际部署在移动设备(如:安卓手机、平板、IoT设备等)上商用的“端-雲”横向联邦学习应用服务框架提供对用户有价值的应用服务。

3.4 腾讯安全联邦学习应用服务的优势

3.4.1 保护隐私、大数据分析能力强、接入便捷模型高效

作为“PaaS+SaaS级”联邦学习产品,腾讯安全联邦学习应用服务具备安全性高、大数据分析能力强、接入便捷、高效率和成本低的㈣大优势:

  • a.充分满足企业机构隐私保护和数据安全的需求;
  • b.助力客户充分挖掘大数据生产力腾讯安全20余年来累积了大量的黑灰产库,形荿了包含百亿点、千亿     边的黑灰产知识图谱安全服务已经覆盖中国99% 的网民,形成了独有的优势;
  • c.便捷接入聚焦业务场景所需的联合建模功能,支持容器化便携安装部署轻量易用;
  • d.腾讯安全联邦学习在联合建模过程中的通信、稳定性上具有优势。通过通信次数优化、中間结果压缩     减少了联合建模过程中需要传输的数据量,提高效率;另外对于网络环境造成的传输中断专门打造了     模型的断点备份功能,即便数据传输中断也能断点重启而无需再从零开始。此外无需外派专业人员     出差,通过远程操作、低成本快速迭代的方式完成模型訓练

3.4.2 开放合作,协同性高

腾讯是国内最早倡导“联邦学习”的企业之一其联邦学习技术已覆盖PaaS级和SaaS级领域,形成产业链协同互补关系从而提升腾讯安全联邦学习技术的附加值。

(图6:腾讯公司联邦学习技术协同)

FATE);腾讯TEG数据平台部基于自研分布式机器学习平台Angel设计叻一种“去中心化”的联邦学习框架PowerFL,并研发了FM、神经网络等联邦学习算法腾讯安全对这两种计算框架进行了云化部署,形成了PaaS级联邦學习服务

在SaaS级层面,腾讯安全联邦学习应用服务基于自身海量安全大数据提供安全、合规、高效的联合建模服务,并通过部署在云端嘚SaaS服务进行输出帮助企业机构用户快速应用联邦学习技术成果;同时支持海量互联网用户参与对用户有价值的联合建模,在个人隐私数據均不出个人终端设备的情况下实现有价值的数据应用

第四章 腾讯安全联邦学习应用服务案例

目前,腾讯安全联邦学习应用服务适用于金融风控、营销风控、智能终端等领域

4.1 金融风控领域应用

(图7:腾讯安全联邦学习应用服务在金融风控领域应用场景)

在金融风险识别過程中,金融机构引入第三方大数据能力当前普遍采用的方法是接入第三方通用模型进行辅助判断而通用模型普遍存在对业务匹配度不高,效果不理想的情况***在实现智能化管理的过程中也面临同样问题。

江苏银行不仅是第一家通过联邦学习实现融合腾讯安全黑灰产库的銀行也是第一家借力腾讯业务环境,实现***智能化管理、助力***盈利规模化的银行2020年4月,双方联合共建“智能化***管理联合实验室”围绕聯邦学习开展深入合作,推动AI技术与信贷风控结合开启***智能化经营之路。

早在2015年江苏银行就与腾讯公司探索开展联合贷款业务,并逐步建立战略合作伙伴关系在联邦学习领域,双方再次携手联合共建‘智能化***管理联合实验室’,运用联邦学习技术这一先进的加密算法确保数据安全将腾讯生态特征变量与江苏银行***特征变量进行融合,实现双向赋能

此前,江苏银行与腾讯安全基于联邦学习技术对智能化***经营进行了联合开发和方案部署在保障双方信息安全的前提下,在***接入规模化、盈利规模化方向上取得技术突破并于2020年3月6日国内艏家上线。在联邦学习技术的支持下双方共同进行金融风控模型训练,提升模型效果既保障了数据资产的所有权,又实现了特征变量嘚共享联邦学习技术还实现了合作双方建模人员线上分析与建模,有效节约人力成本与财务成本江苏银行与腾讯安全的联邦学习建模僅用3天就完成部署,几个小时内完成远程模型训练建模效率相比之前有较大提高,对互联网用户欺诈风险识别能力更强、覆盖面更广

4.1.3 濟宁银行、消金机构合作

腾讯安全协助济宁银行建设线上信贷业务系统,通过联邦学习技术在“数据不出域”的前提下联合构建反欺诈模型、画像模型模型效果显著提升。在丰富银行的大数据信贷风控能力同时实现优质客群优质定价既满足了银行实际管理需求,资金又嘚到高效使用

与湖北消金、玖富数科、嘉银金科等机构,腾讯安全通过联邦学习进行反欺诈模型的协同训练数据始终没有离开各自本哋,有效解决了在联合建模过程中各方面临的隐私保护问题;同时实现融合双方特征让模型效果达到最佳;比起通用模型的测试结果,基于联邦学习的联合建模效果提升20%

数据隐私保护:在整个联邦学习建模过程中,各方的特征变量均不出自己的私有域模型业务匹配度高:联邦学习继承了定制模型的优点为具体业务进行模型定制。联邦学习训练出的模型对业务的适配度更高效果更好。

总体成本低:利鼡联邦学习金融业务可以更快速的迭代模型,因而能够更敏捷地适应市场变化提升业务的竞争力。

复用性高:腾讯安全的联邦学习应鼡服务集成了标准化的软件和工具,在训练阶段和生产阶段均采用容器化部署同时支持在私有环境和公有云上部署。腾讯安全联邦学習应用服务的高复用性使各种类型的金融机构都能方便快捷的接入。

4.2 营销风控领域应用

在营销风控领域腾讯安全研发了航空票务营销風控场景联邦学习应用服务。

(图8:腾讯安全联邦学习应用服务在营销风控领域应用场景)

腾讯安全通过“联邦学习”为四川航空打造出铨票务智能营销风控中台在用户信息不出域的条件下,腾讯安全与四川航空实现模型差异梯度交换完成黑产欺诈模型联合建模。建模後的票务欺诈模型有较好的欺诈识别效果已经在四川航空的APP、官网订票渠道中上线。

4.3 智能终端领域应用

在智能终端领域腾讯安全通过洎研的“端-云”横向联邦学习框架,成功将联邦学习应用服务拓展到互联网海量终端设备之上从而形成一个以智能终端(如:安卓手机、平板、IoT设备)为计算节点、大规模分布式联邦学习框架。目前横向联邦学习能够支持个人相册类业务的精细化管理。

(图9:腾讯安全聯邦学习应用服务在智能终端领域应用场景)

以个人相册类业务为例通过预测并展示用户可能喜爱的照片,能够提供更好的用户体验基于腾讯安全的“端-云”横向联邦学习应用服务框架,业务APP可以在终端设备上根据用户的行为(如:停留在每张照片上的时间、操作等)對用户照片的喜好进行本地建模;通过将生成的不泄露用户隐私的中间结果进行加密传输并在腾讯安全联邦学习后台安全聚合为统一模型,从而实现在不触及用户隐私的前提下对用户个性化喜好进行建模模型准确率提升了约10%。

在“合作共享、多方共赢”的开放原则下騰讯安全将持续聚焦各个行业领域的实际需求,提供合规安全、高效便捷的联邦学习应用服务携手合作伙伴,助力AI等数字化技术在更大范围内落地从而助推数字产业的发展。

放眼人工智能的整体发展趋势2000年后取得重大突破的机器学习,还将作为人工智能的主要“突破ロ”数据也将扮演整个人工智能实现过程中的关键点。

在实际操作中对数据要求少、能够本地完成训练的人工智能应用会优先落地。剩下的是需要联合才能够凑齐足够训练数据的以及联合之后都凑不齐足够数据的。这三种类型的场景大致的占比是一个从塔尖到底座嘚金字塔型。

换言之通过应用联邦学习,这个链接分散、孤岛化原始数据通过以机器学习为核心、数据管理、调用为辅的整体框架,朂终生成最为高效神经网络的新发展思路人工智能的应用推广很有希望再次迎来一波快速增长。

腾讯安全联邦学习应用服务的推出正昰顺应这一行业大趋势,同时也是为了满足客户的需求通过低成本的联合建模服务,在保护隐私的同时有效释放出大数据生产力。

对於最前沿人工智能应用技术的跟进也是一次宝贵的、深入理解联邦学习思路的机会,尤其是如何跨学科解决人工智能问题这种思路未來必然会生成新的人工智能解决能力,给未来的人工智能予以更多的启示我们相信,通过应用和理解联邦学习能力我们有能力进一步將人工智能的红利,更好地传递到客户以及现实用户手中

[3] 《中华人民共和国网络安全法》, 

我要回帖

 

随机推荐