如何用数据分析监测异常数据的分析交易欺诈

数据分析在中国支付生态系统反欺诈中的应用_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
数据分析在中国支付生态系统反欺诈中的应用
上传于||文档简介
&&数​据​分​析​正​是​在​消​除​欺​诈​的​领​域​展​示​了​其​价​值​。​现​代​数​据​分​析​软​件​不​仅​擅​长​实​时​监​测​海​量​交​易​发​出​预​警​,​而​且​能​适​应​新​情​况​并​吸​收​重​要​的​外​部​数​据​。
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
定制HR最喜欢的简历
你可能喜欢 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
基于实时大数据处理的交易欺诈侦测的研究
下载积分:500
内容提示:基于实时大数据处理的交易欺诈侦测的研究
文档格式:PDF|
浏览次数:71|
上传日期: 13:36:03|
文档星级:
该用户还上传了这些文档
基于实时大数据处理的交易欺诈侦测的研究
官方公共微信君,已阅读到文档的结尾了呢~~
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
数据挖掘在交易欺诈侦测中的应用
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口您现在的位置: >
大数据四个“战场”:实时打击欺诈犯罪
物联中国日期: 11:50:19来源:中关村在线 作者: 点击:次
核心提示:通过收集起来了大量的数据,分析这些数据能够检测出正在进行的诈骗行为,或许能够帮助公司和执法者从中找到解决方案。作为SAS加拿大安全情报实践的负责人,Dan Nagle针对目前存在四个领域,在检测欺诈行为方面对这四个领域的技术进行分析。
&&&&&&&如今,当人们谈到欺诈时,可能第一个想到的是银行,事实也是如此&&银行是最容易受到威胁的行业。但过去Interac Association的一份报告显示在加拿大借记卡欺诈损失实际上已经下降了62%,而且到了2013年受益于芯片和PIN技术的发展,随着一些安全性高、欺诈检测机制发展起来,可以帮助企业实时检测到欺诈行为,提升惩治犯罪机率。
&&&&&&&对于欺诈率下降是个好消息,但是相比好消息,技术的发展不可能消除诈骗犯罪,欺诈者仍然能够利用许多其他方法从个人和企业那里谋取金钱和资产。
&&&&&&&幸运的是,通过收集起来了大量的数据,分析这些数据能够检测出正在进行的诈骗行为,或许能够帮助公司和执法者从中找到解决方案。作为SAS加拿大安全情报实践的负责人,Dan Nagle针对目前存在四个领域,在检测欺诈行为方面对这四个领域的技术进行分析。
&&&&&&&医疗卫生领域
&&&&&&&正如分析所讲,很多人通过伪造医药处方来获取限制药物(如Oxycontin),犯罪分子通常强迫弱势人群填写相关医药处方,然后获取这些限制药物进而转售获利。
&&&&&&&医疗卫生组织要建立一个系统,确保药房及其他一些人的行为合法,可以将正常药品购买行为和违法行为区分开。大数据系统需要审查处方内容以及购买的地点,确定在每次交易中存在欺诈的潜在可能性。并通过分析软件使用复杂的算法来发现非法活动中的一般模式,以及时对违法行为作出行动。
&&&&&&&这一套系统为系统管理员提供了实时报警功能,帮助在监控中发现存在药品滥用的违法行为&&通常从业人员(如:医生或药店),或者是病人是受到勒索被迫填假处方的受害者。
&&&&&&&能源领域
&&&&&&&能源领域中也因欺诈造成了巨额损失。非法(有些还披着&合法&的外衣)企业或组织通过各种途径从避免电费的支出,或是通过盗取其他组织的电力,或通过迂回的方式直接连接到馈电线路。
&&&&&&&电力公司需要实时测量,了解每个客户使用电源的情况,以便可以更准确地预测需求和对电量进行调整。而面对大量的数据困扰,需要从中找到电力盗窃的证据,而他们面临的最大挑战是如何从大量数据中筛选出来进而寻找证据,而且事实上数据无法长时间保存,这意味着电力公司必须做到实时的欺诈检测。
&&&&&&&解决方案:基于智能电表的分析系统,通过监测电力系统中不正常的表现,并将分析工具和工程系统发出的信号相结合来检测违规行为。SAS公司通过这个方案意外地发现了测定大麻生长所在位置的方法。
&&&&&&&金融信用卡领域
&&&&&&&正如开篇提到欺诈的首要行业&&金融,解决信用卡和借记卡欺诈仍然需要欺诈检测技术,尽管欺诈犯罪在下降,但金融欺诈仍是一个急需解决的问题,加拿大的两大银行汇丰和Laurentian通过数据分析来解决这一难题。
&&&&&&&汇丰银行重点是评估出每一次信用卡交易潜在的风险。拒绝一个合法用户的操作和允许非法交易都是系统所不想得到的效果,因此数据分析需要很高的可靠性和实时性,避免客户合法交易被阻止转向其他家银行的尴尬。
&&&&&&&另一个案例,Laurentian系统则致力于利用数据挖掘出周期性诈骗行为(如:洗钱)。为了做到这一点,Laurentian将欺诈检测与其他系统整合到一起,了解每一个客户交易的详细信息、用户之间的关联等信息,无论资金流动情况如何复杂,银行都能通过分析来确定交易是否合法。
&&&&&&&赌博业
&&&&&&&看过Oceans 11(十一罗汉)电影会感受到在线和离线的赌场相对于金融企业存在着更多的欺诈风险,诈骗者侵入合法玩家的账户,通过侵入这些账户进行盗窃或洗钱等违法行为。由此,分析系统为每个赌徒建立了相应的信息文档,可以实时了解信息,甚至指纹信息。在出现异样时候,该系统就可以立即向赌场发出警报。
&&&&&&&可见,大数据分析系统对欺诈行为进行积极主动的打击区别于传统方法,传统方法只能在欺诈发生后,依靠取证来打击犯罪。随着网络犯罪的增长,未来通过大数据分析预测犯罪、制止犯罪将成为重要的发展趋势。
出处:中关村在线作者:(责任编辑:yutianshu)
郑重声明:本文仅代表作者个人观点,与物联中国()无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
相关热词搜索:
媒体合作&&&
编辑投稿&&&
广告推广&&&
物联中国 ALL Reserved 网站域名:重磅风控专题:如何用数据分析监测买卖欺诈
(文摘精选)
重磅风控专题:如何用数据分析监测买卖欺诈
论坛君本文作者厚龙,曾参与了“每天一个数据分析师”采访(概况请点击“阅读原文”),如今互联网金融风控行业工作。他学致运用,将数据分析运用于买卖欺诈,全文专题满满,对于数据分析爱好者是不可多得的一篇好文。作者:厚龙本文为CDA数据分析师约稿,如需转载,请标明来源,否则视为侵权。一买卖欺诈简介1买卖欺诈简介买卖欺诈普通是指第三方欺诈,即所发生的买卖非持卡人本人志愿的买卖。通常是不法分子利用各种渠道窃取卡信息,进行伪造卡作案。一个从盗取信息到套现的整个流程第三方买卖欺诈的特点:运用他卡;在最短工夫内大量用卡;一定以获利为目的;普通有区域集中性。买卖反欺诈模型的特点和难点:海量数据计算、小概率事情、欺诈模式变化快、数据普通是割裂的。2买卖欺诈风控技术买卖辨认方法,次要有风控规则引擎、异常检测、机器学习方法等。三大买卖辨认方法以上方法建立的前提都是欺诈分子可以盗用客户信息,也可以伪造客户卡片,但是无法复制客户的买卖行为模式。因此客户买卖行为特征档案是以上规则建立的基础。档案要求:客户投资行为和买卖模式从各个维度刻画客户的行为;随买卖活动实时更新;每个客户需有独一档案。——以上假设对于互联网金融P2P投资而言,难度更大,缘由:投资金额的不确定性、投资产品较少,客户买卖行为特征归纳难度大。(1)风控规则引擎风控组合规则普通是经过业务经验及对历史风险事情的总结构成的反欺诈规则,可以理解为多维组合分析,普通需根据业务成本、对风险的容忍度设置关键变量的阈值。(2)异常可疑买卖检测异常值模型是用于从大量数据构成的样本群体中辨认出与该群体有明显差异或者异常情况的样本的过程。在反欺诈领域,欺诈买卖和正常买卖有明显差异,可以用异常模型进行补充,普通是以距离为测量尺度,把样本关键信息标准化为可测信息,进行聚类,聚类中样本较小的簇确定能否为异常样本,常用在探求性分析阶段。异常样本与统计学中的离群值概念类似。(3)机器学习的方法常用的分类算法都可以运用在此类场景中,比如:神经网络、贝叶斯方法、决策树、支持向量机等。不同于普通分类成绩的是:“欺诈”这种异常模式(类别)的占比可能非常小(不超过5%,普通低于1%),为保证训练和测试样本中包含一定数量的此异常模式记录,在预备数据时可能需求分层抽样。不同于信誉评分模型(运用logistic回归较多),在反欺诈领域,普遍运用神经网络模型技术,该技术模仿人脑功能的基本特征,合适处理需同时考虑许多要素和条件的非线性成绩。神经网络模型具有辨认率高、波动性强且易于零碎落地实施等优点。网络普通包含三或更多层,其至少包含的有输入层、隐含层及输入层。比如输入信息可能为:输入变量1买卖金额、输入变量2买卖工夫、输入变量3产品类型、输入变量4用户年龄、输入变量4近一周买卖特定类型失败买卖失败笔数、本次金额与历史N次最大买卖金额相比、能否历史常用设备等。输入信息为买卖评分。可以发现神经网络两头是个黑箱,它的缺点为业务解释困难,这要求特征工程提取有较高质量。3建模过程及留意事项建模流程详细阐明建模过程如下:(1)数据预备方面普通需考虑现有的数据仓库或数据集市零碎或买卖零碎、存在于其他内部的数据等。需充分考虑现有数据结构如何、能否具备该数据、当前数据信息量能否足够、坏样天分否足够建模等等,总之,做好数据预备是影响成绩处理效率的重要前提。举例普通的欺诈买卖模型所需数据可能包括:买卖信息:账户、金额、日期、工夫、币种、渠道、商户、产品信息等;欺诈记录:是或者否;其他信息:用户IP、账户、设备等。(2)特征工程方面a.目标定义:将欺诈数据与买卖数据相婚配,欺诈账户在欺诈窗口(第一次欺诈日到被发现之日)之间的一切买卖即为欺诈性买卖;对非欺诈账户,其一切买卖即为非欺诈性买卖。欺诈账户在第一次欺诈日之前的正常买卖只为欺诈账户建立档案,但这些正常买卖本身并不作为非欺诈性买卖进入建容貌本。b.变量design:包括原始变量和衍生变量两种。原始变量:普通只用当前买卖的信息,如买卖金额、产品类型、买卖类型、买卖渠道、设备号、买卖工夫等;拿到原始变量,可先进行缺失值和极端值的处理;再对这些基本买卖信息进行探求性分析;对产生的非连续性变量进行相应的WOE(weight of evidence)处理或根据卡方检验处理;连续型变量进行变量紧缩等。衍生变量:经过对账户买卖历史的跟踪,可以提炼账户的买卖行为模式,这就是每个账户的档案。如果当前的买卖与该账户的历史行为模式差别较大,则欺诈的可能性也较大。浅显的说,档案是该帐号的消费行为的标准答案。要判断当前的这笔能否买卖欺诈,则需求将当前的买卖信息与这个档案(标准答案)进行对比,相差越大则欺诈的概率越大。其中有以工夫为基础的衍生变量:过去10分钟,30分钟,1小时,2小时…半天,1天,2天…1周…1月等工夫段买卖的次数或平均金额;当前买卖金额与过去若干工夫段的买卖金额的均值和标准差的对比等等;以事情为基础的衍生变量:账户设备号能否为常用设备;账户敏感信息有没有发生过修正;账户历史失败买卖占比等;过去过去2次,3次…10次…N次买卖的平均金额;过去2次,3次…10次…N次买卖的最大金额;当前买卖金额与过去若干次的买卖金额的均值,标准差和最大值的对比等等。(衍生变量普通是历史数据的汇聚,从客户档案中提取)。c.数据处理留意点:WOE代替(分类型变量定量化);工夫可划分为7*24小时建立二维向量。经过这些复杂的变量,可以捕捉到每个账户的历史行为模式,当前买卖行为与历史行为模式的差距,买卖发生的速率和动态等等。产生上述变量需求一定工夫的买卖历史(6—12月),触及的买卖量庞大,每笔买卖的数据量也不小,如何有效地保存,清理,加工这些数据并在此基础上快速计算所需变量是一个技术关键。普通这步之后,有较多的变量,那接下的工作就是变量选择。d.变量选择:由于建模需求构建出大量的变量,有些变量预测能力强,有些变量预测能力弱,不挑选会影响效率。此外,变量的子集很可能高度相关,形成“过拟和”,模型的精确性和可靠性将遭到损害。注:过拟合是指在测试样本效果佳但由于训练过度推行至新样本效果反而不佳。以神经网络模型为例,神经网络BP算法训练过程中,不能自动挑选变量(回归可以,有向前、向后等)。为了找到一组预测能力强、变量之间的相关性弱的变量,不影响模型精确性,添加模型波动性。变量挑选的方法次要如下:单变量预测能力挑选:灵敏度分析、变量相关性检查。普通而言,买卖反欺诈模型需求输入变量数远多于信誉评分模型。(3)模型训练按以下步骤训练神经网络模型,直至模型效果最佳。a.对一切design产生的自变量先进行初步挑选,排除明显无预测能力的变量,剩余变量在神经网络模型训练过程中再进行精选。b.根据输入变量的数目,design合理的网络结构和隐节点数(关键)。普通买卖欺诈模型有上百个变量,一层隐含层,十几个隐含节点。c.根据design好的网络结构,选取合适的训练参数和收敛条件,在上述第一步数据进一步划分后的纯训练数据上训练模型,在测试数据上测试模型效果。d.在有了初步训练好的神经网络模型后,可用灵敏度分析等手腕进一步挑选变量。e.对每个分段(segment),步骤3到步骤5都要反复多次,调整输入变量,调整隐节点数,调整训练参数,最后选出一个在测试数据上表现最好的模型作为该分段的最终模型。绝对逻辑回归来说,神经网络的训练愈加于经验,如何design网络结构、各个参数大小等很重要。(4)模型验证及评估买卖验证及精准率和召回率评估(见下文案例部分引见)。买卖反欺诈策略:策略的目标是最大限额地降低欺诈损失额,而预期欺诈损失额等于欺诈概率乘以买卖额。由于反欺诈模型的评分反映了欺诈的概率,所以欺诈评分和买卖额是反欺诈策略的次要根据,辅之以产品品种、买卖区域、买卖方式等。策略简介:对欺诈风险较高的买卖利用预先短信、电话联系、函件联系或电子邮件联系的方式,与用户在买卖外进行沟通,核对可疑买卖,如果证明某账号正在经历欺诈性买卖(如用户证明某可疑买卖非其所为),则立刻拒绝用户的一切后续买卖并给重新建立账户等措施。这些反欺诈措施可以作为对实时买卖授权决策的有效补充。当然,策略是要讲究平衡的艺术,核对买卖是存在成本的,这就需求在成本和挽回损失间找到平衡点。而策略最终目标应该是:在电话核对和拒绝的买卖量不超过资源负载的前提下最大限制发现和阻断欺诈买卖、最小限制地影响真实买卖。二一个简单的欺诈监测案例[ 案例及代码来源:“Data Mining with R: Learning with Case Studies”]运用思绪1案例成绩描述欺诈模型相关的案例较少,考虑商业数据的敏感性,采用案例数据来自“Data Mining with R: Learning with Case Studies”一书,请大家自行百度,理解掌握本案例对有志于从事反欺诈、风险数据分析相关领域的数据分析老手有很大的协助。另外,R内置此数据大家可以完全可以拿来练手。具体如下:某公司的销售员所报告的买卖数据。这些销售员担任销售该公司的产品并定期报告销售情况。销售员可以按照本人的策略和市场情况来自在设置销售价格。月末,向公司报告销售情况。数据发掘运用的目的是根据公司过去发现的买卖报告中的错误和欺诈企图,协助公司完成核实这些销售报告的真实性的工作。提供一份欺诈率排名报告,这个欺诈率排名将允许公司把有限的检验资源分配给零碎提示的更“可疑”的那些报告。2数据处理案例数据共401146行,每一行包括来自销售员报告的信息。包括:ID:阐明销售员ID的一个因子变量;Prod:阐明销售产品ID号的一个因子变量;Quant:报告该产品销售的数量;Val:报告销售记录的总价值;Insp:有三个可能值的因子变量——ok表示公司检查了该买卖并认为该买卖有效;fraud表示发现该买卖为欺诈;unkn表示该买卖未经过公司审核。(1)了解数据概况a.显示前几行数据,如下:b.初步了解数据特征发现,数据集中有大量的产品和销售人员信息;同时数据缺失成绩存在。c.观察下有多少不同的产品和销售人员:欺诈行为比例是很低的,有96%的买卖尚未进行核实。d.继续往下看:下图各销售人员买卖量波动性很强且不同产品可能有较大差异,但我们还没有考虑产品数量的影响。销售单价异样存在较大变动性。阐明:如今我们要做一个假设,短时期内同一产品单位买卖价格应该是绝对波动的。产品单价不应该出现巨大变化。——我们侦测欺诈买卖的业务逻辑前提,有这个前提,我们需求对每个产品的买卖进行分析,找出每个产品的可疑买卖。同时我们需求考虑买卖量少于20的产品(982种)。e.下面看看最贵的和最便宜的单位价格对比。注:我们上图曾经对价格做了对数处理,这是常用的方法,当数据量级不在同一程度时。f.类似价格,我想看看哪些给公司带来给多贡献的销售人员。以上数据结果阐明:销售金额前100(不到2%)的销售人员销售支出占比超过40%,而近三分之一的销售人员只贡献了约2%;而产品方面差异更为明显,后90%的产品仅贡献了少于10%的销量。这个信息对消费非常有用,但并不意味着公司应该中止该产品消费,由于我们没有消费成本的信息,这些产品有边际利润存在的可能,同时也不是本案例的目的。g.下面进行初步异常侦测,看大概异常比例。假设:一切产品的单价接近正态分布,即同一产品价格大致相反,它们之间的变化可能是某些销售人员为了达到他们商业目的而采取的策略。此次先采取箱线图规则,定义:如果一个观测值高于上须或低于下须,将其观测值标记为异常高(低)。上下须定义Q3 1.5*四分位距、Q1-1.5*四分位数,IQR=Q3-Q1。Q3、Q1分别代表75%、25%处的总体程度。对单变量,在有多数离群值时此规则是有效的。经计算约有7%的买卖被认为是离群值(异常价格)的买卖。但是我们利用的数据可能本身是有噪声的,有的数据是缺失的、有的数据尚未进行检查且占比高,这部分数据需求拿来检验异常是风险的,因此,我们需求对数据进行处理,同时考虑更科学的侦测方法。(2)处理缺失值和大批买卖产品的成绩缺失值处理过程略去(不代表不重要),但阐明次要采用的方法,对于销售总价和数量都不存在的样本进行剔除;而对于仅缺失数量或销售总价的样本采用价格中位数进行填补缺失值并重新计算另一变量的方式处理。(3)处理大批买卖的产品思绪:归入其他产品类。具体为:尝试观测产品单价分布的类似性来推断其中的一些关系。如果发现有类似价格的产品考虑合并相应买卖进行分析,从而寻觅异常值。前文讲到买卖样本小于20的产品共982种。而比较分布的方法有数据可视化和统计检验,鉴于产品品种多,采用统计检验方法,调查数据分布的统计特性(集中趋势和离散程度)离散程度运用中位数、离散程度采用四分位差。采用这两个目标的缘由在于中位数和四分位差较于均值和标准差而言受异常值影响小(大家可以考虑为什么?),目标更稳健。首先进行可视化观测假设:左图受各别值影响,右图进行了对数处理数据显示如下:许多多数产品的中位数和IQR和其他产品非常类似。然而也有几种产品不只买卖少,而且价格分布也有较大差异。为了更有效的比较分布我们运用K-S检验分布能否来自相反分布,明显性程度定义为10%。推断统计运用,检验分布统计意义上的类似性。计算过程如下:结果显示,10%的明显性程度下,只要117个产品我们可以找到类似产品。至此数据预处理结束。3定义建模任务目的:运用数据科学方法为确定能否核实这些买卖提供指点,对买卖欺诈率进行排名,仅处理检查资源有限范围内的欺诈买卖(排名靠前的若干可疑买卖)。处理建模目标的方法是前面所引见的无监督、有监督、半监督方法,分别引见其思绪如下。在这之前先说下数据现状:数据Insp列有两品种型的观测值,有标记和无标记,而有标记比例不足4%。我们采用Holdout方法进行抽样,即将已有数据即分成两部分,通常比例是70%、30%。一部分用于建模,一部分用于测试并选择反复多次,选择3次,保障结果是可靠的。。但由于样本特殊性给建模形成了一定困难,即数据不平衡成绩,不同类型样本之间的分布不均衡,即在标记个案上是不平衡的。正常抽样策略可能导致一个测试集的正常报告与欺诈报告比例不同,这需求采用分层抽样方法处理,即从不同类型观测袋子中随机抽样,以确保抽取的样本恪守初始数据的分布。Holdout方法是类似于交叉验证和蒙特卡罗实验的另一种实验控制方法。模型评级准绳:决策精确度(Precision)与召回率(Recall)。对于我们的案例而言,一个成功模型应得到一个买卖排序,其中已知的欺诈买卖在顶部,给定一个我们的资源允许检验的报告个数K,我们希望在排序的顶部k个地位中,或者只要欺诈买卖的报告或者只要未检验的报告,同时我们希望一切已知的欺骗报告出如今这k个地位中。但考虑我们目标的特殊性,我们预测的是一个小概率的稀有事情,精确度与召回率是合适的评级目标。给定检验限制k,我们可以计算排序的最顶端k个地位的决策精确度与召回率。这个限定值k决定了模型哪些报告应该被检验。从监督学习分类的角度去看,我们相当于预测顶端的k个地位预测为fraud类,其余为正常报告。精确度告诉我们顶端k个值多大比例理想上是标记为欺诈的报告。而召回率的值告诉我们k个地位所包含的测试集的欺诈行为比例。同时我们采用悲观计算的方式,由于前k个样本中未标记的报告很可能是fraud买卖但我们计算精确度和召回是没有考虑他们的。同时如果算法没有明显提升的情况下,精确度与召回率之间是需求权衡的。由于普通二者是负相关的,给定用于检验行为的资源约束条件,我们真正想要的是最大限制的利用资源。这意味着我们可以用x小时检查报告,并能够在这x小时捕捉到一切欺诈行为,及时有一定的正常买卖我们也不care,由于目的达到了,即我们需求的是运用现有资源达到100%的召回率。而精确度与召回率趋势是模型功能的可视化表现。经过不同的工作点得到下面统计量的插值,得到该曲线。这些工作点由模型感兴味的类别排序中缀点给出。在我们案例中,这将对于运用在模型所产生的离群值排序上的不同资源限制。对不同的限制程度(即检验更少或更多的样本)进行迭代,得到不同的决策精确度和召回率。--PR图。提升图:x轴模型预测阳性的概率;y轴是召回率比上阳性预测率的商;同时还有累计召回度图形,该模型曲线余越靠近上方,模型越好;此外,考虑模型排名前面可能包含未标记的样本,我们要检验排序质量的另外方法就是计算评估样本单位价格和相应产品的标准价格聚类,衡量异常值排名质量。即我们经过PR图和lift图和标准价格距离衡量各建模效果。4建模实施及评价(1)无监督方法修正的箱线图离群值排名:局部离群因子零碎(LOF):经过估计个案和局部领域的分离程度来得到个案离群值分数。在低密度区域的个案被视为离群值。个案的离群估计值是经过个案之间的距离来获得的。对比两种方法的结果:对于较低的检验限值,LOF是优于Bprule的,同时对于10%的检验限值,LOF方法的标准距离明细高于BPrule方法。基于聚类的离群值排名:分层聚类——聚类树思想,将这些树在不同高度程度进行切割时给出数据的不同聚类,这个方法的类是不断合并而成的。离群值分数来自于合并前类的大小与合并后类大小的差,如果合并后与合并前的明细,则离群值分高。建模结果如下:结果显示,聚类的离群值排名召回率更高。15%-20%检验样本可覆盖欺诈70-80%。(2)有监督方法类失衡成绩处理,采用欠抽样的方法。如下:处理类失衡后,分别采用简单bayes和简单bayesSmote版本和orh算法处理进行建模结果对比如下:可见两种方法与聚类方法相比均是令人绝望的。Adaboost方法,组合学习方法,预测值是经过对一组基本模型的预测值进行某种方式的组合构成的,该方法运用一种自顺应加强的方法来得到一组基本模型,是一种常见的进步基本功能的方法。它经过一种加权方式进步功能:添加被前一个模型误分类的个案的权重。经过迭代结果是一组在不同训练集数据上的基本模型。加权方式应对类失衡成绩对学习算法很有意义,即便在初始迭代中有多数个案被模型忽略,它们的权重将会添加,模型被迫学习它们。理论上着将导致得到的组合模型能更精确的预测这些稀有的个案。Adaboost.M1是其中一种有效算法。建模效果如下:PR曲线而言,对低程度的召回值,精确度明细低于ORh方法,但对本案,累计召回度,与ORh效果接近,阐明Adaboost在对类失衡成绩下仍有较好的功能。(3)半监督方法同时运用检验的和没有检验的报告来得到侦测欺诈报告的分类模型。采用自我训练模型,该方法先用给定标记的个案建立一个初始的分类器,然后运用这个分类器来预测给定训练集中未标记的个案,将分类器中有较高置信度的预测标签所对应的个案和预测的标签一同加入有标记的数据集中。继续迭代新分类器,直至收敛。三个重要参数,基本训练模型、分类置信度阈值、收敛准绳。我们采用基本训练模型为简单Adaboost.M1方法进行自我训练。建模效果如下:在以上尝试的一切模型中,累计召回曲线最好的明显哦是自我训练AdaBoost.M1模型。15%-20%的检验限值比例可以确定80%以上的累计召回率。它明细好于其他模型,虽然就精确度而言并不出色,但本案重要的是在有限资源找出欺诈案例。因此该模型式最优的对于我们的建模任务。
收藏&34333
TA的最新收藏

我要回帖

更多关于 监测数据分析 的文章

 

随机推荐