我们企业正在进行纵向联邦学习,可不可以推荐一款产品

近日国际权威研究与咨询公司Forrester發布报告——《人工智能变革欺诈管理》,报告列举了多项应用于反欺诈领域的人工智能技术包括知识图谱、监督学习等,并且首次提箌了联邦学习的相关实践

Forrester长期致力于技术趋势与商业化的调研与洞察,其发布的报告为众多企业战略布局提供重要指导作用在过去的36姩中,是公认的全球最具影响力的独立调研公司之一

此次Forrester发布的报告中提到:“联邦学习是一种新型人工智能运用模式……通过交换加密的模型参数,帮助企业建立跨组织的模型“对联邦学习在反欺诈领域所发挥的作用予以了肯定。报告还以微众银行为例列举了联邦學习在反欺诈领域的相关实践,“微众银行运用联邦学习技术进行商业银行合作将模型性能提高了13%”。 

关于报告中提到的联邦学习技术Forrester研究员认为:该技术对于提高跨机构合作效率帮助很大,目前仍处于早期发展阶段未来可期。

突破小数据限制  联邦学习成为人工智能發展新方向

联邦学习是什么何以成为Forrester技术洞察中的重要技术方向之一?

如果将人工智能比作一辆高速运转的汽车数据就是推动其运转嘚“燃油”。理想状态下用于人工智能训练的数据应该是“量大质优,有标签”以便人工智能模型高效训练。但现实的行业场景中高质量“大数据”往往是稀缺资源。例如在医疗场景里每个医院的数据集有限,如果不能把这些数据打通每个数据集就只能做简单的模型,远远达不到辅助医生进行疾病预测的要求尤其是场景数据随着时间的推移,特征还会随之变化

另外,行业竞争也使企业往往习慣于将数据封锁在隔离墙内而随着保护数据隐私的法律法规日趋完善,数据的搜集与交换变得更加困难形成了一个个“数据孤岛”。

洏联邦学习技术的提出为突破这个难题创造了极大可能性。

何为联邦学习可以将其简单比喻成两个人合作创作一本书,每个人的大脑裏都有数据但并不需要将两人的脑袋进行物理结合,只需要每人写一部分通过交流最后完成合著。这个过程就是通过交流参数,达箌共建模型的目的而整个过程中,双方并不知道对方的具体数据

在金融反欺诈领域,目前中国征信业的发展困境之一便是小数据难题数据显示,目前中国央行个人征信记录覆盖率仅为35%更多可利用的有效数据,如消费记录、交通出行记录等却封闭在各家企业的数据牆内,难以打通运用联邦学习技术,可以在保护用户数据的情况下将能证明个人信用的不同维度数据纳入联合风控建模,从而对个人財务状况和信用进行全维度模型评估整个过程,因为同态加密等加密技术的保驾护航数据始终处于暗箱状态,安全保密

不止金融 联邦学习在各领域落地生根

由于联邦学习解决了数据孤岛与隐私保护两大难道,成为近年来人工智能领域炙手可热的研究方向联邦学习技術落地应用项目不断涌现,发展迅速已经有不少企业利用联邦学习技术做出了实际成绩。

在国内首倡联邦学习概念的微众银行通过将聯邦学习用于反欺诈、智能服务、营销、零售等多个领域,取得了显著效果其中自研的智能评分引擎在纵向联邦学习技术的基础上,联匼开票金额与央行的征信数据等标签属性共同建模将小微企业风控模型区分度(AUC of ROC)提升了12%。

在实践落地应用之外微众银行积极推动联邦学习生态建设,牵头国际标准制定、举办学术国际研讨会、并开源了全球首个工业级联邦学习框架FATE(Federated AI Technology Enabler)该框架支持多种主流算法,适配多種多方安全计算协议简化了使用门槛,对开发者更为友好目前FATE被纳入全球最大非营利技术社区Linux Foundation、与腾讯云等多家企业和单位达成合作,对壮大联邦学习开发社区做出了巨大贡献

联邦学习丰富的应用场景,吸引了众多企业参与其中

FaceBook的深度学习框架PyTorch,目前已经支持采用聯邦学习方案来实现隐私保护并同步推出Secure and Private AI,将联邦学习技术应用到了消费者领域;平安科技推出联邦学习平台“蜂巢”;京东在智慧城市领域探索联邦学习的落地应用

除了头部企业,该领域也涌现了不少创业公司如S20.ai、Owkin和Snips,都围绕联邦学习创建了新的工具和企业解决方案

越来越多的企业参与到了联邦学习理论标准与行业应用的建设中来,联邦学习势必会迎来更广阔的前景在隐私保护法律法规日益趋緊的态势之下,数据利用面临重大挑战也为联邦学习的推广创造了一个机遇。未来5G通信以及AI芯片等技术手段的突破使终端设备在通信穩定性和算力方面进一步提升,将为联邦学习进一步发展奠定深厚的技术基础在各行各业的加入之下,在数据孤岛之上构建起安全数据聯盟的未来可期

联邦学习无疑是当前最受工业堺和学术界关注的人工智能研究方向之一。

近两年在杨强教授等世界级专家的联合推动下,国内外多数科技巨头均已开始搭建联邦学習的研究与应用团队。

基于此雷锋网《AI金融评论》与《AI科技评论》联合邀请五位顶尖联邦学习专家,启动《金融联邦学习公开课》其Φ在昨日的首节公开课上,微众银行首席AI官杨强教授分享了《联邦学习前沿与应用价值讨论》(课程全文与视频回顾,将在公众号《AI金融评论》发布)

今天我们先来完整回顾下联邦学习诞生三年来,从“自给自足”的To C模式到企业之间互联互通的To B模式,再到金融、医疗、安防等全场景应用的过程

联邦学习的诞生:一个有趣的To C设想

联邦学习的概念,首次提出是在2017年的一篇Google AI Blog博文

文章作者之一是Blaise Agu?ray Arcas,他2014年加入谷歌此前在微软任杰出工程师。加入谷歌后Blaise领导了谷歌设备端on-device机器智能(Machine Intelligence)项目,同时负责基础研究与新产品研发工作

在他加叺谷歌后不久,便开始了联邦学习的研究直到2017年,当他们取得了一定的成果才在博文中进行公布。

Blaise 等人(或许也在某种程度上代表谷謌)所关注的更多是设备上的联邦学习——这也正是联邦学习概念被提出之初的应用场景。

由于神经网络仍然受到学习效率的限制它需要大量的数据进行训练,所以一些大公司如谷歌、微软、亚马逊等开始提供人工智能服务时需要收集大量的数据,才能去训练大型神經网络这也是一直以来,整个社区所做的事情

对于设备端(例如手机)的智能应用,通常情况下的模式是用户在设备上产生的数据會被上传到服务器中,然后由部署在服务器上的神经网络模型根据收集到的大量数据进行训练得到一个模型服务商根据这个模型来为用戶提供服务。随着用户设备端数据的不断更新并上传到服务器服务器将根据这些更新数据来更新模型。很明显这是一种集中式的模型训練方法

然而这种方式存在几个问题:1)无法保证用户的数据隐私,用户使用设备过程中产生的所有数据都将被服务商所收集;2)难以克垺网络延迟所造成的卡顿这在需要实时性的服务(例如输入法)中尤其明显。

Blaise等人便想是否可以通过做一个大型的分布式的神经网络模型训练框架,让用户数据不出本地(在自己的设备中进行训练)的同时也能获得相同的服务体验

解决之道便是:上传权重,而非数据

我们知道神经网络模型是由不同层的神经元之间连接构成的,层与层之间的连接则是通过权重实现的这些权重决定了神经网络能够做什么:一些权重是用来区分猫和狗的;另一组则可以区分桌子和椅子。从视觉识别到音频处理都是由权重来决定的神经网络模型的训练夲质上就是在训练这些权重。

那么Blaise提出的设备端联邦学习不再是让用户把数据发送到服务器,然后在服务器上进行模型训练而是用户夲地训练,加密上传训练模型(权重)服务器端会综合成千上万的用户模型后再反馈给用户模型改进方案。

这里或许值得强调这种在設备端上的模型是经压缩过的,而非像服务器中那种大型神经网络模型因此模型训练的耗能是非常小的,几乎检测不到

此外,Blaise讲了一個非常形象的比喻即人会在睡觉的时候通过做梦来更新自己的大脑认知系统;同样设备终端的系统也可以通过闲置时进行模型训练和更噺。所以整体上这并不会对用户的使用体验造成任何影响。

总结一下设备上联邦学习的过程

  1. 设备端下载当前版本的模型;

  2. 通过学习本哋数据来改进模型;

  3. 把对模型的改进概括成一个比较小的更新;

  4. 该更新被加密发送到云端;

  5. 与其他用户的更新即时整合,作为对共享模型的改进

整个过程有三个关键环节

  1. 根据用户使用情况,每台手机在本地对模型进行个性化改进;

  2. 形成一个整体的模型修改方案;

  3. 应用於共享的模型该过程会不断循环。

首先数据可以不上传云端,服务提供商看不到用户数据这能提高用户数据隐私性。因此也就不必茬隐私和功能之间权衡可以两者兼有。这一点在当下数据隐私越来越受到重视的情况下特别重要

其次,延时降低如果将用户所有数據都上传到云端,且服务本身也是从云端进行反馈那么在网速较慢的环境下,网络延时将会极大降低用户体验而联邦学习加持下的服務则不会出现这种情况,因为服务本身就来自于本地

同时,联邦学习的出现也使得用户从人工智能的旁观者,真正转变为人工智能发展的参与者

To B人工智能的困局:隐私保护、小数据、数据孤岛

其实Google的联邦学习,并没有解决企业之间数据孤岛问题

Google的方案可以理解为To C的,应用在用户的手机端是同一家公司根据内部对To C业务的需求所产生的一套用以解决数据隐私问题的方案。

而杨强教授牵头建设的联邦学習生态更多是To B模式用以解决企业与企业之间的数据孤岛难题,是一个更开放的类似企业联盟的生态

总体而言,Google的联邦学习方案是横向嘚它使用的数据特征相同,因此只需要建同一个模型

而新方案则是纵向联邦学习,不同企业之间的数据特征往往不同所以即便面向嘚用户是相同的场景,整个技术方案和实施框架也不一样

杨强教授曾在雷锋网承办的CCF-GAIR 2019「AI 金融专场」的大会报告中指出,利益驱使下各镓公司们过去并不愿意把数据拿出来和其他公司交换。除了少数几家拥有海量用户、具备产品和服务优势的「巨无霸」公司外大多数企業难以以一种合理合法的方式跨越人工智能落地的数据鸿沟,或者对于他们来说需要付出巨大的成本来解决这一问题

此外,监管当局已經采取颇为严格的隐私保护措施

去年5月份欧洲首先提出数据隐私保护法GDPR,对人工智能机器的使用、数据的使用和数据确权都提出非常嚴格的要求,以至于Google被多次罚款每次金额都在几千万欧元左右。

因为GDPR其中一则条文就是数据使用不能偏离用户签的协议也许用户的大數据分析,可以用作提高产品使用体验但是如果公司拿这些数据训练对话系统,就违反了协议如果公司要拿这些数据做另外的事,甚臸拿这些数据和别人交换前提必须是一定要获得用户的同意。

另外还有一些严格的要求包括可遗忘权,就是说用户有一天不希望自己嘚数据用在你的模型里了那他就有权告诉公司,公司有责任把该用户的数据从模型里拿出来这种要求不仅在欧洲,在美国加州也实行叻非常严格的类似的数据保护法

中国对数据隐私和保护也进行了非常细致的研究,从2009年到2019年有一系列动作而且越来越严格,经过长期嘚讨论和民众的交互可能近期会有一系列正式的法律出台。

其次我们的数据大部分是小数据:没有好的模型就无法做到好的自动化,恏的模型往往需要好的大数据但往往高质量、有标签的数据都是小数据。

而且数据都在变化每个阶段的数据和上一个阶段的数据有不哃的分布,也许特征也会有不同实时标注这些数据想形成好的训练数据又需要花费很多人力。

当前大多数应用领域均存在数据有限且質量较差的问题,在某些专业性很强的细分领域(如医疗诊断)更是难以获得足以支撑人工智能技术实现的标注数据

三是“对抗学习”嘚挑战。即针对人工智能应用的作假比如人脸识别就可以做假,针对面部进行合成如何应对这种“对抗学习”的挑战,这是金融场景丅人工智能安全领域的重大题目

不仅金融场景,在法律场景也是这样医疗场景更是如此。每个医院的数据集都是有限的如果不能把這些数据打通,每个数据集就只能做简单的模型也不能达到人类医生所要求的高质量的疾病识别。

在这样的困境中不少人觉得人工智能的冬天也许又一次到来了——但在联邦学习研究者看来,这正是一次技术跃迁的良机

联邦学习:横向、纵向、迁移

杨强这样形容联邦學习的精髓:

我们每个人的大脑里都有数据,当两个人在一起做作业或者一起写书的时候我们并没有把两个脑袋物理性合在一起,而是兩个人用语言交流所以我们写书的时候,一个人写一部分通过语言的交流最后把合作的文章或者书写出来。

我们交流的是参数在交鋶参数的过程中有没有办法保护我们大脑里的隐私呢?是有办法的这个办法是让不同的机构互相之间传递加密后的参数,以建立共享的模型数据可以不出本地。

从简单定义来讲联邦学习是在本地把本地数据建一个模型,再把这个模型的关键参数加密这种数据加密传箌云端也没有办法解密,因为他得到的是一个加密数据包云端把几千万的包用一个算法加以聚合,来更新现有的模型然后再把更新后嘚模型下传。重要的是整个过程中Server云端不知道每个包里装的内容。

之前这种做法比较困难但同态加密的出现让运算效率取得了重大提升,即加密算法可以隔着加密层去进行运算不过需要注意的是这只是2C的例子,是云端面对大用户群的例子

它可以把多项式的加密,分解成每项加密的多项式A+B的加密,变成A的加密加B的加密这是非常伟大的贡献。因为这样就使得我们可以拿一个算法在外面把算法给全蔀加密,加密的一层可以渗透到里面的每个单元能做到这一点就能改变现有的机器学习的教科书,把任何算法变成加密的算法

对于横姠、纵向和迁移联邦学习,杨强给出了如下解释:

横向联邦学习是每行过来都可以看作一个用户的数据按照用户来分,可以看作一、二、三个手机它叫横向学习。还有一个原因是它们的纵向都是特征比如手机型号、手机使用时间、电池以及人的位置等,这些都是特征他们的特征都是一样的,样本都是不一样的这是横向联邦学习。

主要做法是首先把信用评级得到然后在加密状态下做聚合,这种聚匼里面不是简单的加而是很复杂的加,然后把征信模型再分发下来

大家的Feature不一样,一个机构红色、一个机构蓝色大家可以想象两个醫院,一个病人在红色医院做一些检测在蓝色的医院做另外一些检测,当我们知道这两个医院有同样一群病人他们不愿意直接交换数據的情况下,有没有办法联合建模

它们中间有一个部门墙,我们可以在两边各自建一个深度学习模型建模的时候关键的一步是梯度下降,梯度下降我们需要知道几个参数上一轮参数、Loss(gradients)来搭配下一个模型的weight参数。

这个过程中我们需要得到全部模型的参数级这时候需要进行交换,交换的时候可以通过同态加密的算法也可以通过secure multiparty computation,这里面有一系列的算法两边交换加密参数,对方进行更新再次交換参数,一直到系统覆盖

它们在特征上一样,或者在特征上不一样但是他们的用户有些是有交集的,当用户和特征没有交集时我们退一步想,我们可以把他们所在的空间进行降维或者升维把他们带到另外的空间去。

在另外的空间可以发现他们的子空间是有交互的這些子空间的交互就可以进行迁移学习。虽然他们没有直接的特征和用户的重合我们还是可以找到共性进行迁移学习。

总的来说联邦學习的这种思想,事实上并不仅仅适用于设备用户数据的隐私保护和模型更新

我们将设备用户抽象来看,视作数据的拥有者可以是手機持有者,也可以是公司、医院、银行等;而服务器或云端视作模型共享综合平台

作为一种新的学习范式,联邦学习具有以下特点:

  • 在聯邦学习的框架下各参与者地位对等,能够实现公平合作;

  • 数据保留在本地避免数据泄露,满足用户隐私保护和数据安全的需求;

  • 能夠保证参与各方在保持独立性的情况下进行信息与模型参数的加密交换,并同时获得成长;

  • 建模效果与传统深度学习算法建模效果相差鈈大;

  • 联邦学习是一个「闭环」的学习机制模型效果取决于数据提供方的贡献。

这样一个直接命中人工智能发展痛点的新技术也开始進入到各大应用场景当中。

联邦学习与金融信贷风控

在众多金融业务环节中饱受数据隐私和孤岛效应困扰的信贷风控,无疑是实现联邦學习落地的最佳场景之一

微众银行联邦学习团队指出,基于联邦学习的信贷风控解决方案能够“在建模过程中,双方交换梯度值类姒于方向向量的概念,交换的是中间变量不是原始数据。同时对这个中间变量还进行了同态加密所以数据并不会出库,保证数据源和應用方的数据安全”

联邦学习所采用的局部数据收集和最小化原则,将降低传统中心化机器学习方法带来的一些系统性隐私风险和成本这样的效果也正契合了信贷风控的提升方向。

总的来说这一做法是试图通过联邦数据网络进行信贷风控增强,在贷前环节利用更丰富嘚数据信息综合判断客户风险帮助信贷公司过滤信贷黑名单或明显没有转化的贷款客户,进一步降低贷款审批流程后期的信审成本

在貸中,采用联邦学习的解决方案主要提供根据用户放款后的行为变化进行的风险评估产品帮助放贷机构进行调额调价的辅助决策。

对于貸后风险处置方案则提供可以根据客户的行为进行催收预测的产品,帮助放贷机构进行催收的策略评估调整催收策略,提升催收效率

微众联邦学习团队表示,在具体实施上解决方案会先行使用联邦学习云服务进行业务冷启动,并通过建立业务及AI模型闭环小样本建模,后期持续迭代优化模型的方式实现项目数字化,便于消费金融业务方及信贷合作方能够持续积累业务数据优化联邦模型

以微众银荇与合作伙伴公司的情况为例,微众的特点是有很多用户Y数据集可分为X和Y,X是用户的特征和行为Y是最后的结论,我们在银行的结论是信用逾期是否发生这是逾期概率,合作的伙伴企业可能是互联网企业或者是卖车的或者卖保险不一定有结论数据Y,但是它有很多行为信息X

现在这两个领域对于同一批用户如果要建模,属于纵向联邦学习建立纵向联邦学习的应用,最后就取得了很好的效果AUC指标大为仩升,不良率大为下降

通过合法合规的多维度联邦数据建模,风控模型效果约可提升12%相关企业机构有效节约了信贷审核成本,整体成夲预计下降5%-10%并因数据样本量的提升和丰富,风控能力进一步增强

对合作方信贷机构而言,信贷风控能力也大幅度提升

通过初审筛选掉黑名单和不可能转化贷款客户,在“信审漏斗第一步”减去无效客户从而在信贷预审阶段使单接口调用成本预计节省20-30%,有效控制了信貸审核成本

作为医疗AI成长道路不可或缺的“粮食”,数据一直是医疗AI落地的“拦路虎”

医疗健康数据领域长期存在“信息孤岛”问题,不同地区甚至不同医院间的医疗数据没有互联也没有统一的标准。与此同时数据安全问题也存在着巨大挑战。

就在昨日腾讯天衍實验室公开宣布,其联合微众银行研发的医疗联邦学习在脑卒中预测的应用上,准确率在相关数据集中高达80%

联邦学习可以绕过医疗机構之间的信息壁垒,不考虑将各自数据做合并而是通过协议在其间传递加密之后的信息,该加密过程具有一定的隐私保护机制保证加密后的信息不会产生数据泄露。各个医疗机构通过使用这些加密的信息更新模型参数从而实现在不暴露原始数据的条件下使用全部患者數据的训练过程。

举例来说假设医院 A 和 B 想联合训练一个脑卒中疾病预测模型,两个医院各自掌握科研病例数据此外,医院 B 还拥有模型需要预测的标签数据如脑卒中发病标签出于数据隐私保护和安全考虑,医院A和 B无法直接进行数据交换联邦学习系统则可以利用基于加密的患者样本对齐技术,在医院 A 和 B 不公开各自数据的前提下确认双方的共有患者并且不暴露不互相重叠的患者,以便联合这些用户的特征进行建模在确定共有用户群体后,就可以利用这些数据训练疾病预测模型

在这样的一种方式下,联邦学习技术就实现了保护不同医院数据隐私的疾病预测模型而这项技术也在疾病预测领域落地,天衍实验室和微众银行成功构建了一个“脑卒中发病风险预测模型”

通过使用来自就诊记录数量TOP5的医院真实就诊数据验证,联邦学习模型和集中训练模型表现几乎一致在脑卒中预测模型中的准确率达到80%,僅比集中训练模型准确率降低1%

同时,联邦学习技术显著提升了不同医院的独立模型效果特别是,对于两家脑卒中确诊病例数量较少的醫院而言联邦学习分别提升其准确率10%和20%以上。

除疾病预测模型外双方还会围绕联邦学习在医疗大数据领域的应用落地进行更多维度的匼作,包括医保控费、合理诊断、精准医疗等领域例如通过联邦学习助力电子健康卡实现保护用户隐私建模等等,进而促进医疗健康产業发展提升医疗服务的质量。

而在2019年医学影像分析顶会MICCAI中联邦学习在医学影像上的应用正式进入研究者的视野。

英伟达与伦敦国王学院以及一家法国初创公司Owkin合作在新成立的伦敦医学影像与人工智能中心中应用了联邦学习技术。

由于医疗数据的隐私规定在集中数据鍸中收集和共享患者数据通常是不可行的。这就给训练机器学习算法带来了挑战例如深度卷积网络通常需要大量不同的训练示例。

联邦學习通过将代码带给患者数据所有者并且只在他们之间共享中间模型训练的信息,从而避开了这一困难尽管适当地聚合这些模型可以獲得更高精度的模型,但共享的模型可能会间接泄漏本地训练数据

这项技术论文提出了一个用于脑肿瘤分割的联邦学习系统,探讨了在聯邦学习系统中应用微分隐私技术来保护病人数据的可行性

此次试验是基于取自BraTS 2018数据集的脑肿瘤分割数据实施的,BraTS 2018 数据集包含有285位脑肿瘤患者的MRI扫描结果

研究人员表示:“联邦学习在无需共享患者数据的情况下,即可实现协作与分散化的神经网络训练各节点负责训练其自身的本地模型,并定期提交给参数服务器服务器不断累积并聚合各自的贡献,进而创建一个全局模型分享给所有节点。”

研究人員进一步解释道虽然联邦学习可以保证极高的隐私安全性,但通过模型反演仍可以设法使数据重现。为了帮助提高联邦学习的安全性研究人员研究试验了使用ε-差分隐私框架的可行性。这个框架是一种正式定义隐私损失的方法可以借助其强大的隐私保障性来保护患鍺与机构数据。

NVIDIA团队解释到联邦学习有望有效聚合各机构从私有数据中本地习得的知识,从而进一步提高深度模型的准确性、稳健性与通用化能力

英伟达与伦敦国王学院研究人员在MICCAI上介绍了联邦学习技术的更多实施细节:

深度学习神经网络在多种医学应用中都显示出很恏的效果,但它高度依赖于训练数据的数量和多样性在医学成像方面,这构成了一种特殊困难:例如由于患者数量或病理类型的原因,所需的训练数据可能无法在单个机构中获得同时,由于医疗数据隐私规定在集中数据湖中收集和共享患者数据通常是不可行的。

联邦学习则允许在不共享患者数据的情况下对DNN进行合作和分布式训练每个节点都训练自己的本地模型,并定期将其提交给参数服务器服務器收集并聚合各个节点模型以生成一个全局模型,然后与所有节点共享

需要注意的是,训练数据对每个节点都是私有的在学习过程Φ不会被共享。只共享模型的可训练权重或更新从而保持患者数据的私密性。因此联邦学习简洁地解决了许多数据安全挑战,将数据放在需要的地方并支持多机构协作。

论文也披露了客户端模型训练过程、服务器端模型聚合过程、部署在客户端的隐私保护模块以及聯邦学习实验项目的配置与实验结果。研究人员表示未来他们将探索用于医学图像分析任务的微分隐私SGD算法。

安防是目前计算机视觉變现最快的领域。

宇视科技CEO张鹏国曾在接受雷锋网专访时提到“当前AI安防落地能力与用户需求存有较大差距,前者还需面对数据隐私保護与安全管控、低成本、流程再造、组织变革等挑战” 

具体来看,最为核心的痛点是数据不够多元,且异常封闭

中国拥有庞大的人ロ数量、用户量及图像采集点,相关企业得到数据之后经过筛选、过滤、叠加、组合会对自身算法效果有阶段性提升。

但这类提升属于個人式的、微乎其微式的

每个安防厂商所建设的AI系统类似一个又一个的“烟囱”,“烟囱式”架构也就是垂直的体系结构

每一个IT系统嘟有自己的存储和设备,以及独立的管理工具和数据库不同的系统不能共享资源、不能交付和访问,形成了资源孤岛和信息孤岛

由于鈈同企业的数据库模型设计和针对的目标有所不同,他们也无法直接交换、共享模型

即便相关企业间的数据库可以融合,但受制于隐私、安全等问题也绝不可如此为之。

有场景缺数据、有数据难共享这是包括AI安防在内的诸多行业目前存在的普遍问题,也是阻碍AI普惠的朂大痛点

一方面,AI在安防行业的探索才刚刚开始;另一方面做好AI所必须的数据养料有限且质量较差,不同数据源之间存在难以打破的壁垒

除了少数几家拥有海量用户、具备产品和服务优势的巨无霸企业外,大多数中小型AI安防企业难以以一种合理、合法的方式跨越人工智能落地的数据鸿沟或者需要付出巨大的成本来解决这一问题。

多位学术界、工业界领头人指出:从目前的研究进展来看“联邦学习”技术可能是解决以上问题的最佳选择。

譬如A厂商有校园数据、B厂商有工厂数据、C厂商有社区数据且这三家厂商都使用了联邦学习技术。

从业务层面出发A、B、C这三家厂商便直接获得了两种能力:1、最快速地优化自身业务;2、最快速地拓展新业务。

最快速地优化自身业务表现在平台每天会有若干个类似A厂商的企业向平台输入加密后的数据模型,而这些数据模型中有A厂商非常缺乏的其他数据信息而A厂商便可根据这些数据去更新自己的算法模型。

最快速地拓展新业务表现在A、B、C每家厂商都有各自构建好的模型,通过汇总去得到更大的数據模型在不流通数据的情况下得到数据流通的最好效果,通过资源互补可以在最短时间内安全地获得对方的能力去拓展新业务。

从隐私保护层面来看通常智能摄像头产生的数据会被上传到后台服务器中,然后由部署在服务器上的神经网络模型根据收集到的大量数据进荇训练得到一个模型服务商根据这个模型来为用户提供服务。

这是一种集中式的模型训练方法这种方式很难保证数据隐私安全。

而联邦学习就不再是让数据发送到后台而是在每个企业自己的服务器上进行训练,并加密上传训练模型后台会综合成千上万的用户模型后洅反馈给用户改进方案。

其中一个典型应用案例就是微众银行与极视角联合推出的中国首个视觉联邦学习系统。

以视频摄像头中的火焰識别为例AI工程师们可能千辛万苦训练了一个火焰检测的识别模型,想要用在监控摄像头中识别是否有燃烧现象,从而对火灾发生的可能性进行分析实现火灾预警。

原有的AI算法可以比较准确地识别有明显大面积燃烧和明火发生的常见场景然而,遇到打火机点出的火焰時摄像头就有些“懵”了。

如果想让模型增强识别能力传统的AI训练要求适用方能够提供一些数据样本,而这又出现了因网络带宽导致嘚算法准确率不高及数据隐私等问题

在联邦视觉系统中,依托本地建模在保证各方数据不出本地的情况下,即可提升AI算法准确率

在┅次公开分享中,微众银行AI部门副总经理陈天健透露“在‘联邦视觉系统’项目中,通过联邦学习技术整体模型的性能提升了15%,且模型效果无损失极大地提升了建模效率。”

信贷风控、医疗和安防的应用都只是联邦学习赋能各领域的冰山一角。

未来包括金融、医疗、安防、零售、政务、工业等各行各业、各个场景都可以依据此技术实现降本增效、开源节流

联邦学习的生态建设也在同步进行,只有哆方合作、多方认可下的联邦学习才有望实现效益最大化

如果你也想参与到人工智能学习和落地的最前沿,了解联邦学习的最新研究成果与应用情况请持续关注杨强教授的公开课全文整理回顾,以及《联邦学习系列公开课》的其他课程

雷锋网雷锋网(公众号:雷锋网)雷鋒网

雷锋网原创文章,未经授权禁止转载详情见。

我要回帖

 

随机推荐