通过一些规则筛选了一批数据,怎么去分析哪些规则淘宝权重规则最新较大

如果说到数据的话,其实在整个淘宝生态圈有着非常多的数据,因为现在已经大数据了!那么这么多的数据,作为我们中小卖家,到底哪些数据值得我们去分析和思考呢?
也就是说到底哪些数据值得我们去分析!
今天主要从三个大的维度来细讲
一丶流量分析
二丶访客分析
三丶直通车数据
先来说第一点,对于流量分析的分析,我主要讲四点。
1.流量来源构成
2.流量权重比例
3.按小时流量分析
4.宝贝被访问分析
因为对于流量这块来讲,实在是讲的地方太多太多,所以我觉得作为我们的中小卖家,这些东西才是我们需要关注的,并且要重点关注的。为什么要把宝贝访问分析写入流量分析呢,其实我觉得大家其实非常关注单品的流量,所以……那么1和2我用下面这张图来给大家解释
通常来讲我们在成长中的店铺,构成大多是这样的。在看图的时候,先看一组数据。
毛利率20%-30%
广告费10%-20% 物流运费5%-8% 佣金5% 仓储配货5% 人员工资10%
通常我们知道,在整个天猫淘宝,不管什么类目什么产品,总体的毛利润也就是20-30。那么这样算下来,如果我们是天猫到最后我们的利润有多少呢?因为我们还要支付我的人员工资,广告费等等,因为这些开支比较大!
通过图我们可以看到,在这张流量构成数据图当中,我们的 淘宝免费流量+自主访问=70.51%
也就是说,整个流量构成来讲,我们的免费流量占比70%,付费流量占比30%
如果这样算下来的话,其实我们是亏损的。对,亏损了,这个时候怎么办呢,首先第一反应肯定是降低我们的付费广告投入。其实我觉得,我们更应该重视我们的免费流量的输入,图中很明显的显示到,在整个免费流量中,其实我们的搜索流量丶类目流量丶站内其他丶还有直接访问,这些流量是在我们流量里权重最高的,那么看到这些数据,我们就知道我们应该去优化哪些流量,最起码有了目标,当我们继续丰富我们的这几项流量的时候,其实我们的付款流量占比就会下降。按照正常来讲的话,成熟的店铺,付费流量只需要10%左右就够了。
那我们再来看一下第三个问题,也就是按小时的流量分析。
通过这张图我们得知的数据是我们店铺的三个流量高峰期。那么我们就可以在流量高峰期对我们的重点宝贝进行合理的上下架时间优化。
再者就是第四个问题,也就是我们的宝贝访问排行,其实我们的3与4,大家很多人都是明白的,所以在得到这些数据的时候,我们可以先通过对宝贝访问排行找出我们重点培养的宝贝,当然在选择访问排行的时候,不要只看被访问指数,更是要注重平均停留时间和跳失率,在此我也给大家再次补充一下跳失率的公式。
跳失率=离开页面访问次数/总访问次数x100%
通过公式我们得知,跳失率当然是越低越好。所以控制跳失率也是我们大家应该重视的地方,那么从什么方面去着手呢。也就是我们的详情页,我觉得一个客户进入店铺详情页之后,他即使不选择该宝贝,那我们也要让他去查看其他宝贝,这个时候其实我觉得宝贝分类,关联,包括我们的店招导航,都是起到很大的作用
流量讲完了,现在可以开始对我们的访客进行分析了。对于访客,我也分为3个部分来讲
1.访客地区占比
2.产品价位喜好占比
3.客户群体
首先来看下访客地区占比。下面我以沙发垫为案例给大家讲解,那么在沙发垫这个类目我找出了三个搜索程度比较高的词作为对比分析。
从图中可以看出,我们的沙发垫目前访客地区占比最高的为华东和华北区,西北也有两省入围,那么只要我们迅速的找准客户所在地区,我们就可以完美投放了。因为直通车是可以选择投放地域的。
而且针对于地区这块,我们在直通车当中也是要灵活一点,怎么样灵活呢,继续看图。
在我们投放直通车的时候,我们肯定会有一个测试期,那么在数据出来之后,我们可以根据地区,对客户进行多维护的广告投放,以我个人的喜好,我会把投入产出高的省份,和点击转化率高的作为重点培养地区。并且加大投放的力度,这样的话,我们的广告才会有价值!
OK,进入下一环节,也就是我们的产品价位喜好占比。
说到产品,我想说的东西有很多,可能换做大家的话,又回想到一些价格啊,材质啊,详情页等等乱七八糟的事情,因为我觉得产品就是人生,人生是丰富的,产品也是。
对于产品价位喜好占比我想要说三个点。
1.产品和价位的关系
2.找侧重点
3.把握产品根本属性
既然说到了产品和价格,那我们要认识到一点,就是说是儿子和爹的关系。产品是爹,价格是儿子,有了爹,才能有儿子。说到这里,侧重点肯定是产品。因为最终能说服客服的,赢得客户对我们长期信任的肯定是产品,所以,不要老是拼价格,拼低价。不然你会死的很惨,9.9包邮现在看的我都有点想吐!那么最后要说的就是……既然说到了产品是重点,是价格他爹,那产品最核心,最根本的属性才是我们要把握的关键点,是产品决定的价格,不是价格决定的产品!
这里肯定有人要知道,什么才是最根本的属性,那我先对产品进行一次测试!
类目:女装/女士精品&&连衣裙
核心属性:主材质(真丝;棉)
其他属性又能否真正决定产品的价格?
(长裙or短裙)(圆领or方领)(中腰or高腰)(日系or韩版)
测试关键词:主材质+类目词
看图!!!
第一组关键词:真丝连衣裙
第二组关键词:棉连衣裙
可以看到第一组图当中50%的用户喜欢的价位是240-630,第二组图当中40%用户喜欢的价位是41-114。同样是连衣裙,价格差距为什么这么大呢,其实这里就是核心属性在作怪。因为连衣裙这个产品,对应的是非常多的属性,什么领型,腰型,颜色,等等,但是真正决定产品价格的还是主材质。
所以我想告诉大家,要卖好产品,定价也是一门学问。
然后再用反正法来测试。接着上面的问题。其他属性又能否真正决定产品的价格?
测试的关键词分别是高腰连衣裙丶低腰连衣裙,可以看到用户喜欢的价位区间,都是大同小异的,所以就是说其他属性多多少少也会对产品价格有所影响,但是不是最根本!此测试只是针对该类目,我想其他类目也差不多。如果不对,请大神指点!
继续说第三个问题,也就是我们的客户群体。怎样通过数据来分析客户群体?
作为掌柜你知道你客户都是男是女,都在哪里,爱好?年龄?消费能力?旺旺等级?如果知道的话,说明你这个掌柜还是比较细心的。因为知道这些我们才能针对我们这批特定的人群进行广告投放。不同的人群,接受实物的感觉不一样的。
1.客户分布地区
2.客户性别比例
3.客户年龄占比
4.客户爱好
5.买家星级
第一个问题之前已经说过了,我接着来说2和3,来看图。
我们测试的产品是连衣裙类目,可以看到我们的主要群体想都不用想,是女性,那么年龄分布也是18-29占比最高,占了60%以上。所以对于这类人群,我们要重点培养。因为现在直通车也改版了,定向更加丰富了,所以我们可以在我们的定向推广里面有选择性的来添加该年龄段和性别,进行重点投放。
再来看一下第四点,客户爱好。既然对应了一批客户,那么这批客户肯定是有自己的特殊爱好。
通过图我们可以看出来,我们的客户群体主要是爱美女生,那么爱美女生都喜欢买什么东西呢。其实可以根据女性生活特点,制定投放计划。
再来看一下买家星级。最后一个问题。
网上随便找了一家店铺的产品,貌似是RV的高跟,通过对用户分析,得出三点。
1.通过对买家星级的分析,对咨询客户,进行重点沟通丶将时间留给最
有价值的客户。
2.买家星级占比最高的群体,用双倍的精力去维护客户关系管理
3.给予客户最大化的客户体验
CRM到底关键不关键,你们肯定知道!
终于到了最后一个环节了,也就是直通车的数据分析。真是要累死的节奏^^
说到直通车我个人最关注的几个点是
2.投入产出比
3.平均点击花费
下面我用一个案例简单的给大家分析一下。
1.什么是转化率?
点击转化率=总成交笔数/点击量x100%
我想说,虽然你们都知道什么是转化率,但是公式我觉得还是有必要记牢靠的,有的时候运营推广没思路可以从公式得到你想要的答案。
仔细盯着公式看5分钟,我不知道你们能不能看出什么东西来。
人通常说转化率和关键词有关系,详情页有关系……很多,但是通过简单地公式我们分析一下。
如果通过公式想让转化率提升,两个办法,第一:提升总成交笔数,点击量不变。第二:总成交笔数不变,降低点击量。
先来看下第一个,如果在点击量不变的情况下,需要提升总成交笔数,才能提升转化率,其实这也就是说让一个客户发挥多份价值,我觉得这个是和店铺内部的活动还有客服是有很大的关系的。所以这点是需要我们来注意的,只有客户对产品极度感兴趣+客服技巧=高的成交笔数,那如果说第二点呢,也就是说,成交笔数不变,降低点击量,转化率才会提升,其实这句话可以这么理解。让少量的客户,发挥大量的价值,其实和第一点差不多,但是作为我们来讲,肯定是不愿意让点击量下降的,因为流量是我们生存的关键。
好了,我继续说说其他公式。
投入产出比=总成交金额/花费
平均点击花费=花费/点击量
点击率=点击量/展现量
先不说公式,先来看一下我之前做的一款护腰带,大家只看提升,别看数据呵呵。
刚开始的时候,投入产出差的可怜,做了1个月,投入产出才做到正值。这个行业PPC死高!
接着在看。
整个优化过程,我记录了三个月,第二张图和第三张分别是后两月的。短暂的时间我们也把销量提升了近8000件!!
其实看数据,PPC是一直在降低的,而且投入产出比一直在上升,点击率本来是一直在上升,由于双11的影响,节后点击率出现了一些不稳定,但是还是比较高。
说到这个环节,肯定会有很多人想知道,这个环节是一个怎样的环节,看起来很奇妙的样子,其实在做直通车的整个环节我是最关心CTR。为什么?看图
可以看到,在这段时间段的优化过程中,我们的点击率在不断上升的情况下,我们的PPC是一直在降低的,这就说明了,我们的PPC和点击率是有直接的关系的,所以大家再做直通车的时候,选好款式之后,做的就是测试,并且提升CTR,不断提升,这样你的高价词,才会被你压死!
其实做点击率,也不是很难,反复测试推广主图,玩创意,反复测试推广标题。并且点击率和我们的位置也是有一定的关系,每页13个位置,每个位置都有不同的点击率。OK,基本上说完了,案例也看了,现在你再来回顾一下公式。
投入产出比=总成交金额/花费
平均点击花费=花费/点击量
点击率=点击量/展现量
做直通车每个人肯定是希望我们的投入产出比越高越好,那么怎么才能高呢。公式表达了,只有在成交额不变的情况下,降低花费才能使得我们的投入产出比扩大,其实这里想表达的意思并不是说直接降低你的广告投入。看第二个公式,其实花费通过此公式可以看出是和PPC相关的,也就是说,在我们控制花费不变的情况下,使得1分钱变成2分钱的价值。在花费不变的情况下,有效点击量增加,PPC降低,也就等于说我们的花费降低了。所以我们的投入产出比,和我们的PPC是有非常大的关系。当然还有我们的销售技巧。
再来看第三个公式,要想我们的点击率变高,只有在展现量不变的情况下,提高我们的有效点击,这个时候我们想想,如果我和我的竞争对手,排名只相差1位,什么样的因素,才能让客户点击我们的产品,而不是他的呢?(因为只有客户点击你的产品,你的点击率才会提升,因为客户在点击你的时候,你的竞争对手同样获得了展现,但是没有点击,这就是竞争)。OK,基本完了,说了这么多,其实就是想让大家在做直通车的时候,注重PPC和点击率,和一些小技巧。
回顾案例我们可将所讲内容总结为
1.做好流量基础才是关键,让店铺有一定的数据基础,便于后期分析。
2.对客户进行全面体检式分析,不放过任何价值点。
3.对转化率,点击率等数据要有基础认知,且能通过分析得知问题所在。
via:派代网,作者:边半仙,QQ:
转载请注明来自36大数据(): &
除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。重磅风控干货:如何用数据分析监测交易欺诈-人大经济论坛
重磅风控干货:如何用数据分析监测交易欺诈
作者厚龙,曾参与了“每天一个数据分析师”采访,现在互联网金融风控行业工作。他将数据分析应用于交易欺诈,全文干货满满,对于数据分析爱好者是不可多得的一篇好文。...
论坛君本文作者厚龙,曾参与了“每天一个数据分析师”采访(详情请点击“阅读原文”),现在互联网金融风控行业工作。他学以致用,将数据分析应用于交易欺诈,全文干货满满,对于数据分析爱好者是不可多得的一篇好文。作者:厚龙本文为CDA数据分析师约稿,如需转载,请标明来源,否则视为侵权。一交易欺诈简介1交易欺诈简介交易欺诈一般是指第三方欺诈,即所发生的交易非持卡人本人意愿的交易。通常是不法分子利用各种渠道窃取卡信息,进行伪造卡作案。一个从盗取信息到套现的整个流程第三方交易欺诈的特点:使用他卡;在最短时间内大量用卡;一定以获利为目的;一般有区域集中性。交易反欺诈模型的特点和难点:海量数据计算、小概率事件、欺诈模式变化快、数据一般是割裂的。2交易欺诈风控技术交易识别方法,主要有风控规则引擎、异常检测、机器学习方法等。三大交易识别方法以上方法建立的前提都是欺诈分子可以盗用客户信息,也可以伪造客户卡片,但是无法复制客户的交易行为模式。因此客户交易行为特征档案是以上规则建立的基础。档案要求:客户投资行为和交易模式从各个维度刻画客户的行为;随交易活动实时更新;每个客户需有唯一档案。——以上假设对于互联网金融P2P投资而言,难度更大,原因:投资金额的不确定性、投资产品较少,客户交易行为特征归纳难度大。(1)风控规则引擎风控组合规则一般是通过业务经验及对历史风险事件的总结形成的反欺诈规则,可以理解为多维组合分析,一般需根据业务成本、对风险的容忍度设置关键变量的阈值。(2)异常可疑交易检测异常值模型是用于从大量数据构成的样本群体中识别出与该群体有显著差异或者异常情况的样本的过程。在反欺诈领域,欺诈交易和正常交易有显著差异,可以用异常模型进行补充,一般是以距离为测量尺度,把样本关键信息标准化为可测信息,进行聚类,聚类中样本较小的簇确定是否为异常样本,常用在探索性分析阶段。异常样本与统计学中的离群值概念相似。(3)机器学习的方法常用的分类算法都可以应用在此类场景中,比如:神经网络、贝叶斯方法、决策树、支持向量机等。不同于一般分类问题的是:“欺诈”这种异常模式(类别)的占比可能非常小(不超过5%,一般低于1%),为保证训练和测试样本中包含一定数量的此异常模式记录,在准备数据时可能需要分层抽样。不同于信用评分模型(使用logistic回归较多),在反欺诈领域,普遍使用神经网络模型技术,该技术模拟人脑功能的基本特征,适合处理需同时考虑许多因素和条件的非线性问题。神经网络模型具有识别率高、稳定性强且易于系统落地实施等优点。网络一般包含三或更多层,其至少包含的有输入层、隐含层及输出层。比如输入信息可能为:输入变量1交易金额、输入变量2交易时间、输入变量3产品类型、输入变量4用户年龄、输入变量4近一周交易特定类型失败交易失败笔数、本次金额与历史N次最大交易金额相比、是否历史常用设备等。输出信息为交易评分。可以发现神经网络中间是个黑箱,它的缺点为业务解释困难,这要求特征工程提取有较高质量。3建模过程及注意事项建模流程详细说明建模过程如下:(1)数据准备方面一般需考虑现有的数据仓库或数据集市系统或交易系统、存在于其他外部的数据等。需充分考虑现有数据结构如何、是否具备该数据、当前数据信息量是否足够、坏样本是否足够建模等等,总之,做好数据准备是影响问题解决效率的重要前提。举例一般的欺诈交易模型所需数据可能包括:交易信息:账户、金额、日期、时间、币种、渠道、商户、产品信息等;欺诈记录:是或者否;其他信息:用户IP、账户、设备等。(2)特征工程方面a.目标定义:将欺诈数据与交易数据相匹配,欺诈账户在欺诈窗口(第一次欺诈日到被发现之日)之间的所有交易即为欺诈性交易;对非欺诈账户,其所有交易即为非欺诈性交易。欺诈账户在第一次欺诈日之前的正常交易只为欺诈账户建立档案,但这些正常交易本身并不作为非欺诈性交易进入建模样本。b.变量设计:包括原始变量和衍生变量两种。原始变量:一般只用当前交易的信息,如交易金额、产品类型、交易类型、交易渠道、设备号、交易时间等;拿到原始变量,可先进行缺失值和极端值的处理;再对这些基本交易信息进行探索性分析;对产生的非连续性变量进行相应的WOE(weight of evidence)处理或根据卡方检验处理;连续型变量进行变量压缩等。衍生变量:通过对账户交易历史的跟踪,可以提炼账户的交易行为模式,这就是每个账户的档案。如果当前的交易与该账户的历史行为模式差别较大,则欺诈的可能性也较大。通俗的说,档案是该帐号的消费行为的标准答案。要判断当前的这笔是否交易欺诈,则需要将当前的交易信息与这个档案(标准答案)进行对比,相差越大则欺诈的概率越大。其中有以时间为基础的衍生变量:过去10分钟,30分钟,1小时,2小时…半天,1天,2天…1周…1月等时间段交易的次数或平均金额;当前交易金额与过去若干时间段的交易金额的均值和标准差的对比等等;以事件为基础的衍生变量:账户设备号是否为常用设备;账户敏感信息有没有发生过修改;账户历史失败交易占比等;过去过去2次,3次…10次…N次交易的平均金额;过去2次,3次…10次…N次交易的最大金额;当前交易金额与过去若干次的交易金额的均值,标准差和最大值的对比等等。(衍生变量一般是历史数据的汇聚,从客户档案中提取)。c.数据处理注意点:WOE代替(分类型变量定量化);时间可划分为7*24小时建立二维向量。通过这些复杂的变量,可以捕捉到每个账户的历史行为模式,当前交易行为与历史行为模式的差距,交易发生的速率和动态等等。产生上述变量需要一定时间的交易历史(6—12月),涉及的交易量庞大,每笔交易的数据量也不小,如何有效地保存,清理,加工这些数据并在此基础上快速计算所需变量是一个技术关键。一般这步之后,有较多的变量,那接下的工作就是变量选择。d.变量选择:由于建模需要构建出大量的变量,有些变量预测能力强,有些变量预测能力弱,不筛选会影响效率。此外,变量的子集很可能高度相关,造成“过拟和”,模型的准确性和可靠性将受到损害。注:过拟合是指在测试样本效果佳但由于训练过度推广至新样本效果反而不佳。以神经网络模型为例,神经网络BP算法训练过程中,不能自动筛选变量(回归可以,有向前、向后等)。为了找到一组预测能力强、变量之间的相关性弱的变量,不影响模型准确性,增加模型稳定性。变量筛选的方法主要如下:单变量预测能力筛选:灵敏度分析、变量相关性检查。一般而言,交易反欺诈模型需要输入变量数远多于信用评分模型。(3)模型训练按以下步骤训练神经网络模型,直至模型效果最佳。a.对所有设计产生的自变量先进行初步筛选,排除明显无预测能力的变量,剩余变量在神经网络模型训练过程中再进行精选。b.根据输入变量的数目,设计合理的网络结构和隐节点数(关键)。一般交易欺诈模型有上百个变量,一层隐含层,十几个隐含节点。c.根据设计好的网络结构,选取合适的训练参数和收敛条件,在上述第一步数据进一步划分后的纯训练数据上训练模型,在测试数据上测试模型效果。d.在有了初步训练好的神经网络模型后,可用灵敏度分析等手段进一步筛选变量。e.对每个分段(segment),步骤3到步骤5都要重复多次,调整输入变量,调整隐节点数,调整训练参数,最后选出一个在测试数据上表现最好的模型作为该分段的最终模型。相对逻辑回归来说,神经网络的训练更加于经验,如何设计网络结构、各个参数大小等很重要。(4)模型验证及评估交易验证及精准率和召回率评估(见下文案例部分介绍)。交易反欺诈策略:策略的目标是最大限额地降低欺诈损失额,而预期欺诈损失额等于欺诈概率乘以交易额。由于反欺诈模型的评分反映了欺诈的概率,所以欺诈评分和交易额是反欺诈策略的主要依据,辅之以产品种类、交易区域、交易方式等。策略简介:对欺诈风险较高的交易利用事后短信、电话联系、信件联系或电子邮件联系的方式,与用户在交易外进行沟通,核对可疑交易,如果证实某账号正在经历欺诈性交易(如用户证实某可疑交易非其所为),则立刻拒绝用户的所有后续交易并给重新建立账户等措施。这些反欺诈措施可以作为对实时交易授权决策的有效补充。当然,策略是要讲究平衡的艺术,核对交易是存在成本的,这就需要在成本和挽回损失间找到平衡点。而策略最终目标应该是:在电话核对和拒绝的交易量不超过资源负载的前提下最大限度发现和阻断欺诈交易、最小限度地影响真实交易。二一个简单的欺诈监测案例[ 案例及代码来源:“Data Mining with R: Learning with Case Studies”]应用思路1案例问题描述欺诈模型相关的案例较少,考虑商业数据的敏感性,采用案例数据来自“Data Mining with R: Learning with Case Studies”一书,请大家自行百度,理解掌握本案例对有志于从事反欺诈、风险数据分析相关领域的数据分析新手有很大的帮助。另外,R内置此数据大家可以完全可以拿来练手。具体如下:某公司的销售员所报告的交易数据。这些销售员负责销售该公司的产品并定期报告销售情况。销售员可以按照自己的策略和市场情况来自由设置销售价格。月末,向公司报告销售情况。数据挖掘应用的目的是根据公司过去发现的交易报告中的错误和欺诈企图,帮助公司完成核实这些销售报告的真实性的工作。提供一份欺诈率排名报告,这个欺诈率排名将允许公司把有限的检验资源分配给系统提示的更“可疑”的那些报告。2数据处理案例数据共401146行,每一行包括来自销售员报告的信息。包括:ID:说明销售员ID的一个因子变量;Prod:说明销售产品ID号的一个因子变量;Quant:报告该产品销售的数量;Val:报告销售记录的总价值;Insp:有三个可能值的因子变量——ok表示公司检查了该交易并认为该交易有效;fraud表示发现该交易为欺诈;unkn表示该交易未经过公司审核。(1)了解数据概况a.显示前几行数据,如下:b.初步了解数据特征发现,数据集中有大量的产品和销售人员信息;同时数据缺失问题存在。c.观察下有多少不同的产品和销售人员:欺诈行为比例是很低的,有96%的交易尚未进行核实。d.继续往下看:下图各销售人员交易量波动性很强且不同产品可能有较大差异,但我们还没有考虑产品数量的影响。销售单价同样存在较大变动性。说明:现在我们要做一个假设,短时期内同一产品单位交易价格应该是相对稳定的。产品单价不应该出现巨大变化。——我们侦测欺诈交易的业务逻辑前提,有这个前提,我们需要对每个产品的交易进行分析,找出每个产品的可疑交易。同时我们需要考虑交易量少于20的产品(982种)。e.下面看看最贵的和最便宜的单位价格对比。注:我们上图已经对价格做了对数处理,这是常用的方法,当数据量级不在同一水平时。f.类似价格,我想看看哪些给公司带来给多贡献的销售人员。以上数据结果说明:销售金额前100(不到2%)的销售人员销售收入占比超过40%,而近三分之一的销售人员只贡献了约2%;而产品方面差异更为显著,后90%的产品仅贡献了少于10%的销量。这个信息对生产十分有用,但并不意味着公司应该停止该产品生产,因为我们没有生产成本的信息,这些产品有边际利润存在的可能,同时也不是本案例的目的。g.下面进行初步异常侦测,看大概异常比例。假设:所有产品的单价接近正态分布,即同一产品价格大致相同,它们之间的变化可能是某些销售人员为了达到他们商业目的而采取的策略。此次先采取箱线图规则,定义:如果一个观测值高于上须或低于下须,将其观测值标记为异常高(低)。上下须定义Q3+1.5*四分位距、Q1-1.5*四分位数,IQR=Q3-Q1。Q3、Q1分别代表75%、25%处的总体水平。对单变量,在有少数离群值时此规则是有效的。经计算约有7%的交易被认为是离群值(异常价格)的交易。但是我们利用的数据可能本身是有噪声的,有的数据是缺失的、有的数据尚未进行检查且占比高,这部分数据需要拿来检验异常是危险的,因此,我们需要对数据进行处理,同时考虑更科学的侦测方法。(2)处理缺失值和少量交易产品的问题缺失值处理过程略去(不代表不重要),但说明主要采用的方法,对于销售总价和数量都不存在的样本进行剔除;而对于仅缺失数量或销售总价的样本采用价格中位数进行填补缺失值并重新计算另一变量的方式处理。(3)处理少量交易的产品思路:归入其他产品类。具体为:尝试观测产品单价分布的相似性来推断其中的一些关系。如果发现有类似价格的产品考虑合并相应交易进行分析,从而寻找异常值。前文讲到交易样本小于20的产品共982种。而比较分布的方法有数据可视化和统计检验,鉴于产品种类多,采用统计检验方法,考察数据分布的统计特性(集中趋势和离散程度)离散程度使用中位数、离散程度采用四分位差。采用这两个指标的原因在于中位数和四分位差较于均值和标准差而言受异常值影响小(大家可以思考为什么?),指标更稳健。首先进行可视化观测假设:左图受各别值影响,右图进行了对数处理数据显示如下:许多少数产品的中位数和IQR和其他产品非常相似。然而也有几种产品不仅交易少,而且价格分布也有较大差异。为了更有效的比较分布我们使用K-S检验分布是否来自相同分布,显著性水平定义为10%。推断统计应用,检验分布统计意义上的相似性。计算过程如下:结果显示,10%的显著性水平下,只有117个产品我们可以找到类似产品。至此数据预处理结束。3定义建模任务目的:运用数据科学方法为确定是否核实这些交易提供指导,对交易欺诈率进行排名,仅处理检查资源有限范围内的欺诈交易(排名靠前的若干可疑交易)。解决建模目标的方法是前面所介绍的无监督、有监督、半监督方法,分别介绍其思路如下。在这之前先说下数据现状:数据Insp列有两种类型的观测值,有标记和无标记,而有标记比例不足4%。我们采用Holdout方法进行抽样,即将已有数据即分成两部分,通常比例是70%、30%。一部分用于建模,一部分用于测试并选择重复多次,选择3次,保障结果是可靠的。。但由于样本特殊性给建模造成了一定困难,即数据不平衡问题,不同类型样本之间的分布不均衡,即在标记个案上是不平衡的。正常抽样策略可能导致一个测试集的正常报告与欺诈报告比例不同,这需要采用分层抽样方法解决,即从不同类型观测袋子中随机抽样,以确保抽取的样本遵守初始数据的分布。Holdout方法是类似于交叉验证和蒙特卡罗实验的另一种实验控制方法。模型评级准则:决策精确度(Precision)与召回率(Recall)。对于我们的案例而言,一个成功模型应得到一个交易排序,其中已知的欺诈交易在顶部,给定一个我们的资源允许检验的报告个数K,我们希望在排序的顶部k个位置中,或者只有欺诈交易的报告或者只有未检验的报告,同时我们希望所有已知的欺骗报告出现在这k个位置中。但考虑我们目标的特殊性,我们预测的是一个小概率的罕见事件,精确度与召回率是合适的评级指标。给定检验限制k,我们可以计算排序的最顶端k个位置的决策精确度与召回率。这个限定值k决定了模型哪些报告应该被检验。从监督学习分类的角度去看,我们相当于预测顶端的k个位置预测为fraud类,其余为正常报告。精确度告诉我们顶端k个值多大比例事实上是标记为欺诈的报告。而召回率的值告诉我们k个位置所包含的测试集的欺诈行为比例。同时我们采用悲观计算的方式,因为前k个样本中未标记的报告很可能是fraud交易但我们计算精确度和召回是没有考虑他们的。同时如果算法没有显著提升的情况下,精确度与召回率之间是需要权衡的。因为一般二者是负相关的,给定用于检验行为的资源约束条件,我们真正想要的是最大限度的利用资源。这意味着我们可以用x小时检查报告,并能够在这x小时捕捉到所有欺诈行为,及时有一定的正常交易我们也不care,因为目的达到了,即我们需要的是使用现有资源达到100%的召回率。而精确度与召回率趋势是模型性能的可视化表现。通过不同的工作点得到上面统计量的插值,得到该曲线。这些工作点由模型感兴趣的类别排序中断点给出。在我们案例中,这将对于应用在模型所产生的离群值排序上的不同资源限制。对不同的限制水平(即检验更少或更多的样本)进行迭代,得到不同的决策精确度和召回率。--PR图。提升图:x轴模型预测阳性的概率;y轴是召回率比上阳性预测率的商;同时还有累计召回度图形,该模型曲线余越靠近上方,模型越好;此外,考虑模型排名前面可能包含未标记的样本,我们要检验排序质量的另外方法就是计算评估样本单位价格和相应产品的标准价格聚类,衡量异常值排名质量。即我们通过PR图和lift图和标准价格距离衡量各建模效果。4建模实施及评价(1)无监督方法修正的箱线图离群值排名:局部离群因子系统(LOF):通过估计个案和局部领域的分离程度来得到个案离群值分数。在低密度区域的个案被视为离群值。个案的离群估计值是通过个案之间的距离来获得的。对比两种方法的结果:对于较低的检验限值,LOF是优于Bprule的,同时对于10%的检验限值,LOF方法的标准距离明细高于BPrule方法。基于聚类的离群值排名:分层聚类——聚类树思想,将这些树在不同高度水平进行切割时给出数据的不同聚类,这个方法的类是不断合并而成的。离群值分数来自于合并前类的大小与合并后类大小的差,如果合并后与合并前的明细,则离群值分高。建模结果如下:结果显示,聚类的离群值排名召回率更高。15%-20%检验样本可覆盖欺诈70-80%。(2)有监督方法类失衡问题解决,采用欠抽样的方法。如下:解决类失衡后,分别采用简单bayes和简单bayesSmote版本和orh算法解决进行建模结果对比如下:可见两种方法与聚类方法相比均是令人失望的。Adaboost方法,组合学习方法,预测值是通过对一组基本模型的预测值进行某种形式的组合形成的,该方法应用一种自适应增强的方法来得到一组基本模型,是一种常见的提高基本性能的方法。它通过一种加权方式提高性能:增加被前一个模型误分类的个案的权重。经过迭代结果是一组在不同训练集数据上的基本模型。加权方式应对类失衡问题对学习算法很有意义,即使在初始迭代中有少数个案被模型忽略,它们的权重将会增加,模型被迫学习它们。理论上着将导致得到的组合模型能更精确的预测这些稀有的个案。Adaboost.M1是其中一种有效算法。建模效果如下:PR曲线而言,对低水平的召回值,精确度明细低于ORh方法,但对本案,累计召回度,与ORh效果接近,说明Adaboost在对类失衡问题下仍有较好的性能。(3)半监督方法同时使用检验的和没有检验的报告来得到侦测欺诈报告的分类模型。采用自我训练模型,该方法先用给定标记的个案建立一个初始的分类器,然后应用这个分类器来预测给定训练集中未标记的个案,将分类器中有较高置信度的预测标签所对应的个案和预测的标签一起加入有标记的数据集中。继续迭代新分类器,直至收敛。三个重要参数,基本训练模型、分类置信度阈值、收敛准则。我们采用基本训练模型为简单Adaboost.M1方法进行自我训练。建模效果如下:在以上尝试的所有模型中,累计召回曲线最好的明显哦是自我训练AdaBoost.M1模型。15%-20%的检验限值比例可以确定80%以上的累计召回率。它明细好于其他模型,虽然就精确度而言并不出色,但本案重要的是在有限资源找出欺诈案例。因此该模型式最优的对于我们的建模任务。微信号:cdacdacda CDA数据分析师,数据分析,是技术也是艺术!快戳!除了你关注的论坛官微外,我们还有一:专注数据分析的“CDA数据分析师(ID:cdacdacda)“;二:专注经管答疑的”经管爱问(ID:jgasker),欢迎关注,给你不一样的精彩!
1.微信之窗遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2.本文内容来自“人大经济论坛”微信公众号,文章版权归人大经济论坛公众号所有。

我要回帖

更多关于 3dmax 骨骼权重规则 的文章

 

随机推荐