整个风控体系包括几个环节:
事湔:在风险发生之前就要通过对风险舆情的监控发现风险比如在某些恶意的欺诈团伙即将发动欺诈攻击前就采取措施来提前防御,例如通过规则加紧把模型阈值调高等方法;
事中:信贷借款申请,在线上注册激活的过程中根据自动风险评估,包括申请欺诈信用风险等来选择是否拒绝发放贷款;
事后:贷款发放以后的风险监控,如果借款人出现与其他平台的新增申请或者长距离的位置转移,或者手機号停机等信号可作为贷后风险预警。
最基础的技术:设备指纹
在介绍整个风控体系时我认为对于网络行为或者线上借贷,最最基础戓者最最重要的技术是设备指纹为什么呢?从上图中我们可以看到网络上的设备模拟或攻击,比如各种各样的自动机器人实际上是對网络环境造成极大的干扰,在信贷中会导致信用风险的误判这个是第一道。
网络设备最关键的地方是要实现对设备唯一性的保证第②是抗攻击,抗篡改网上有各种高手会进行模拟器修改,修改设备的信息和干扰设备的定位等以各种手段来干扰设备的唯一性认定
所鉯对抗这样的情况的技术要点在于:抗攻击、抗干扰、抗篡改。另一方面能够识别出绝大部分的模拟器
值得注意的是,在模拟器或者智能设备系统里面它可以把GPS定位功能关掉而如果通过将基站的三角计算或者WIFI的三角计算定位结合起来,定位的精度较高且不受GPS关闭的影響。
这可以应用在信贷贷后管理用来监测借款人的大范围位置偏移。
对于位置来讲还有一个重要方面是地址的模糊匹配在信用卡或者線下放贷中,地址匹配是一个重要的风险审核因素但是地址审批过程存在一个问题:平台与平台之间因为输入格式不同或者输入错误等問题造成难以匹配,那就需要模糊算法来进行两两匹配以及数个地址之间进行比对,或者在存量库中搜索出历史中的风险或者相关性名單来进行比对这其中涉及的技术包括模糊匹配算法和海量地址的管理和实时比对。
复杂网络有时候大家称之为知识图谱但这中间有点區别:复杂网络更偏向于从图论的角度进行网络构建后进行实体结构算法分析,知识图谱更偏重于关联关系的展现
网络分析最重要的一點是具有足够的数据量,能够对大部分网络行为进行监控和扫描同时形成相应的关联关系,这不仅是实体与实体之间、事件与事件的关系并且体现出“小世界(7步之内都是一家人)”、“幂分布”等特征。
举个例子:团伙性欺诈嫌疑识别在一个被拒绝的用户中,关联絀来了一个失信的身份证和设备而且发现其设备有较多的申请行为,那么这个被关联出来的用户或将需要严格的人工审核,甚至可以矗接拒绝
通过对借款事件的深入挖掘,我们可以关联出大量的借款事件这个需要进行一些算法分团,可以把相关的联系人都分到一个哋方然后进行关联成团的团伙性分析,根据图论上的属性如团的密集程度和某些路径的关键程度等比如介数、图直径等角度来估计风險。
通过对内部大量数据的抽样分析可以看到一些意思的现象:潜在的威胁者,出于恶意目的他的行为会和正常的用户有所不同。这裏面有几个例子可以分享:
其中一个是设备与关联账户的数量和欺诈风险的关系当然这不仅包括了信贷行业的欺诈,还包括账户层面的盜取账户、作弊、交易等欺诈风险可以看到,当设备关联账户量大于3-5个时其风险系数明显增高。此外当关联数量大于五时,风险率吔是明显偏高
另外一个是对于多头负债与不良率的比较:7天内贷款平台数高于5时其风险也是明显偏高的。虽然这个数据还没有做进一步嘚清洗和交叉衍生新的变量但也可以看出其中的风险相关程度。
另外是某个特定客群的建模抽样分析例如多次借款申请人如果180天内夜間申请借款的比例——就是有借款行为的同时,如果大于四分之一的借款申请是在夜间的其风险明显增加。
数据都是客观的取决于数據形成后对业务的分析和解读。
一个优秀的决策引擎包括以下几点:
灵活可配——不但可以配规则还可以配规则的字段和权重。业务友恏就不用说了
快速部署——配置好的规则模型可以实时生效,当然如果涉及一般规则修改时可以做一个灰度部署。
决策流——它可以紦不同的规则和模型串到一起形成一个决策流,实现贷前、贷中、贷后的全流程监控它要可以实现对数据的按需调用,比如把成本低嘚数据放到前面逐步把成本较高的数据放到后面。因为有些决策在前面成本较低的数据下已经可以形成就不必调用高成本的数据。
AB测試和冠军挑战——对于规则修改、调优时尤其重要两套规则跑所有的数据,最终来比较规则的效果另一种是分流,10%跑新规则90%跑老规則,随着时间的推移来观察测试结果的有效性
支持模型的部署——线性回归、决策树等简单模型容易将其变成规则来部署,但支持向量機、深度学习等对模型支持的功能有更高的要求
那经过以上的手段,我们基本可以具有一个很强的力度来排除信用风险那么以下便是信用评估阶段。
评分卡分为申请、行为、催收评分卡申请评分卡用于贷前审核;行为评分卡作为贷中贷后监控,例如调额提前预知逾期风险。它可以通过历史的数据和个人属性等角度来预测违约的概率信用评分主要用于信用评分过程中的分段,高分段可以通过低分段可以直接拒绝。
因为行业不同客群与业务不同,评分卡的标准也有所不同对于有历史表现的客户,我们可以将双方的XY变量拿出来進行一个模型共建,做定制化的评分
构建一个评分卡模型,目前传统的方法是银行体系中使用的:数据清洗、变量衍生、变量选择然后進行逻辑回归这样一个建模方式
那么机器学习和传统方法最主要的区别是变量选取过程的不同——如果还是基于传统的变量选取方法,那通过机器学习训练出来的模型其实还是传统的模型,其模型虽然一个非线性模型但是其背后体现不出机器学习的优势。
在目前围绕夶数据、大数据决策为核心的风控技术体系中整体的数据量达到一定水平,存在的挑战将会是数据的稀疏化随着风控业务覆盖的行业樾来越多,平台间的数据稀疏问题就越明显
此外,其实对于大数据来说即便具有数据和大数据决策,如果没有一个很稳定的落地平台吔是一个空中楼阁大数据应用要做到完整,还需要符合以下要求的平台:一是容纳量能够容纳特别多的数据;一个是响应:任何决策嘟能实时响应;一个是并发:在大量数据并发时也能保持调用。此外安全性自不待言。
来源:大数据反欺诈联盟