数据挖掘方法的数据分析方法有哪些

您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
数据挖掘中数据预处理的方法分析.pdf47页
本文档一共被下载:
次 ,您可免费全文在线阅读后下载本文档
文档加载中...广告还剩秒
需要金币:150 &&
你可能关注的文档:
··········
··········
硕士学位论文
数据挖掘中数据预处理的方法研究
姓名:方洪鹰
申请学位级别:硕士
专业:高等教育学
指导教师:张俊容
两南人学硕十学位论文
数据挖掘中数据预处理的方法研究
高等教育学 数学 专业硕士学位申请人 方洪鹰
张俊容副教授
在现代的科研和实际工作中,各行各业都需要对采集剑的各种各样的数据进行处理。如
何从这些海量的数据之中发现更深层次、更重要的信息,使之能够描述数据的整体特征,可
以预测发展趋势,从而生成决策。这就需要进行数据挖掘。
数据挖掘与知识发现过程中的第一个步骤就是数据预处理。统计发现,在数据挖掘与知
识发现的过程中,数据预处理^.到了整个工作量的60%。因为现实世界的数据往往是不完整的、
含噪声的和不一致的,数据预处理能有效提高数据质量,为数据挖掘内核提供更有针对性的
可用数据,不仅可以节约大量的时间和空间,而且得到的挖掘结果能更好地起到决策和预测
目前数据预处理的常用步骤包括:数据清理、数据集成、数据变换以及数据归约。
本文总结了目前数据预处理的常用方法,并对其分析和思考。发现有些方法可以在数据
预处理的不同阶段使用,分别达到相应阶段的预处理效果。在预处理中用到了许多的统计方
法,但需要与实际的数据特征和专业知识相结合才能有效地虑用。强调
正在加载中,请稍后...【数据挖掘:方法与应用(数据分析系列教材) 价格/报价表】-智购网中国人民大学出版社研究生/本科生/专科生文法类教材报价查询
搜一下,找到42个报价
数据挖掘:方法与应用(数据分析系列教材)价格
(···)
(···)
(···)
(···)
(···)
(···)
(···)
(···)
(···)
(···)
23.00&18.40
28.00&21.00
25.00&22.00
32.00&25.60
39.00&26.90
43.00&34.40
45.00&34.80
52.00&39.00
48.00&40.80
69.00&47.60
59.50&49.00
23.00&20.20
45.00&31.10
39.00&32.80
42.00&33.10
49.00&39.20
59.00&46.00
69.00&46.30
128.00&88.30
23.00&19.55
25.00&17.70
25.00&18.80
26.00&19.50
25.00&21.80
33.00&22.40
32.00&24.00
38.00&28.50
33.00&27.50
36.00&30.00
45.00&39.60
904.00&777.40
28.00&23.20
34.80&29.20当前位置: >
常见数据挖掘分析方法介绍
18:01 来源:
下面介绍十种数据挖掘(Data Mining)的分析方法,以便于大家对模型的初步了解,这些都是日常挖掘中经常遇到的算法,希望对大家有用!(甚至有数据挖掘公司,用其中的一种算法就能独步天下)
1、基于历史的MBR分析(Memory-Based Reasoning;MBR)
基于历史的MBR分析方法最主要的概念是用已知的案例(case)来预测未来案例的一些属性(attribute),通常找寻最相似的案例来做比较。
记忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最相似的案例;结合函数则将相似案例的属性结合起来,以供预测之用。记忆基础推理法的优点是它容许各种型态的数据,这些数据不需服从某些假设。另一个优点是其具备学习能力,它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是它需要大量的历史数据,有足够的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时,不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预测、医学诊疗、反应的归类等方面。
2、购物篮分析(Market Basket Analysis)
购物篮分析最主要的目的在于找出什么样的东西应该放在一起?商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品,找出相关的联想(association)规则,企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说,零售店可藉由此分析改变置物架上的商品排列或是设计吸引客户的商业套餐等等。
购物篮分析基本运作过程包含下列三点:
(1)选择正确的品项:这里所指的正确乃是针对企业体而言,必须要在数以百计、千计品项中选择出真正有用的品项出来。
(2)经由对共同发生矩阵(co-occurrence matrix)的探讨挖掘出联想规则。
(3)克服实际上的限制:所选择的品项愈多,计算所耗费的资源与时间愈久(呈现指数递增),此时必须运用一些技术以降低资源与时间的损耗。
购物篮分析技术可以应用在下列问题上:
(1)针对信用卡购物,能够预测未来顾客可能购买什么。
(2)对于电信与金融服务业而言,经由购物篮分析能够设计不同的服务组合以扩大利润。
(3)保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。
(4)对病人而言,在疗程的组合上,购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。
3、决策树(Decision Trees)
决策树在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元树、三元树或混和的决策树型态。
4、遗传算法(Genetic Algorithm)
遗传算法学习细胞演化的过程,细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似,它必须预先建立好一个模式,再经由一连串类似产生新细胞过程的运作,利用适合函数(fitness function)决定所产生的后代是否与这个模式吻合,最后仅有最吻合的结果能够存活,这个程序一直运作直到此函数收敛到最佳解。基因算法在群集(cluster)问题上有不错的表现,一般可用来辅助记忆基础推理法与类神经网络的应用。
5、聚类分析(Cluster Detection)
这个技术涵盖范围相当广泛,包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以作为研究的开端。
6、连接分析(Link Analysis)
连接分析是以数学中之图形理论(graph theory)为基础,藉由记录之间的关系发展出一个模式,它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的营销业者亦利用连结分析做有利于企业的研究。
7、OLAP分析(On-Line Analytic Processing;OLAP)
严格说起来,OLAP分析并不算特别的一个数据挖掘技术,但是透过在线分析处理工具,使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一般,透过图表或图形等方式显现,对一般人而言,感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。
8、神经网络(Neural Networks)
神经网络是以重复学习的方法,将一串例子交与学习,使其归纳出一足以区分的样式。若面对新的例证,神经网络即可根据其过去学习的成果归纳后,推导出新的结果,乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式,其学习效果十分正确并可做预测功能。
9、判别分析(Discriminant Analysis)
当所遭遇问题它的因变量为定性(categorical),而自变量(预测变量)为定量(metric)时,判别分析为一非常适当之技术,通常应用在解决分类的问题上面。若因变量由两个群体所构成,称之为双群体 &判别分析 (Two-Group Discriminant Analysis);若由多个群体构成,则称之为多元判别分析(Multiple Discriminant Analysis;MDA)。
(1) 找出预测变量的线性组合,使组间变异相对于组内变异的比值为最大,而每一个线性组合与先前已经获得的线性组合均不相关。
(2) 检定各组的重心是否有差异。
(3) 找出哪些预测变量具有最大的区别能力。
(4) 根据新受试者的预测变量数值,将该受试者指派到某一群体。
10、罗吉斯回归分析(Logistic Analysis)
当判别分析中群体不符合正态分布假设时,罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件(event)是否发生,而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状,当自变量很小时,机率值接近为零;当自变量值慢慢增加时,机率值沿着曲线增加,增加到一定程度时,曲线协率开始减小,故机率值介于0与1之间。
注:本文来自谢邦昌老师的《数据挖掘的十种分析方法》,中国统计网根据内地习惯对一些名词、描述进行了校准和整理。
(责任编辑:中国统计网)
本文链接:
关键字:|||
版权声明:本站内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。
评论列表(网友评论仅供网友表达个人看法,并不表明本站同意其观点或证实其描述)设备投资决策数据挖掘方法分析--《科技创新与应用》2012年12期
设备投资决策数据挖掘方法分析
【摘要】:本文针对货运中心、物流企业的设备投资决策所面临的基础数据匮乏的普遍性问题,提出了引入银行、保险、证券等行业的成熟的数据挖掘技术进行数据分析,列举了常用的数据挖掘技术。
【作者单位】:
【关键词】:
【基金】:
【分类号】:TP311.13【正文快照】:
由于目前我国大多数货运中心、货运企业对企业设备的投资管理缺乏实用的全面综合的决策评价体系和强有力的手段,因而使得企业对设备的投资决策仅仅停留在设备的技术性能和价格上,而完全没有充分考虑设备寿命期内的综合性能。企业对设备的投资管理关系到设备在寿命期内的实际
欢迎:、、)
支持CAJ、PDF文件格式,仅支持PDF格式
【参考文献】
中国期刊全文数据库
王继成;[J];计算机工程与科学;2000年03期
【共引文献】
中国期刊全文数据库
干娟;;[J];安徽电子信息职业技术学院学报;2011年04期
宋平平;;[J];安徽工程科技学院学报(自然科学版);2006年03期
焦亚冰;;[J];辽宁科技大学学报;2010年03期
孙娟;张秀梅;;[J];办公自动化;2008年16期
李波;;[J];北京广播学院学报(自然科学版);2005年04期
安颖;;[J];北京联合大学学报(自然科学版);2008年04期
杨晓;张迎新;;[J];北京工商大学学报(自然科学版);2009年03期
演克武;张磊;孙强;;[J];商业研究;2008年03期
杨玉;;[J];商业研究;2008年12期
裘立波;姜元春;林文龙;;[J];商业研究;2009年09期
中国重要会议论文全文数据库
赵云鹏;石丽;刘莹;;[A];第九届全国信息获取与处理学术会议论文集Ⅰ[C];2011年
杨纪军;朱培栋;;[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
刘智涛;;[A];甘肃成人教育协会2008年年会论文集[C];2008年
尹松;周永权;;[A];广西计算机学会2004年学术年会论文集[C];2004年
付森;;[A];全国第九届企业信息化与工业工程学术会议论文集[C];2005年
王忠明;何卫平;;[A];先进制造技术论坛暨第二届制造业自动化与信息化技术交流会论文集[C];2003年
刘大为;冯径;孙春风;刘子俊;;[A];2009第五届苏皖两省大气探测、环境遥感与电子技术学术研讨会专辑[C];2009年
原姝;;[A];江苏省系统工程学会第十一届学术年会论文集[C];2009年
鹿瑾;王青青;肖涛;;[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
孙永道;邵慧莹;仝彦丽;;[A];2008'中国信息技术与应用学术论坛论文集(一)[C];2008年
中国博士学位论文全文数据库
殷志伟;[D];哈尔滨工程大学;2009年
李彤岩;[D];电子科技大学;2010年
韩明华;[D];浙江工商大学;2011年
张晓辉;[D];大连海事大学;2011年
屈岚;[D];湖南中医药大学;2011年
卢又燃;[D];复旦大学;2009年
彭柳青;[D];西安电子科技大学;2011年
金海浩;[D];南京中医药大学;2011年
周雪明;[D];黑龙江中医药大学;2011年
周明;[D];天津大学;2009年
中国硕士学位论文全文数据库
汤雪;[D];山东科技大学;2010年
梁大圣;[D];山东农业大学;2010年
曾祥莉;[D];哈尔滨工程大学;2010年
解保忠;[D];哈尔滨工程大学;2010年
尹丽玲;[D];哈尔滨工程大学;2010年
刘靖媛;[D];哈尔滨工程大学;2010年
徐洪伟;[D];哈尔滨工程大学;2010年
李丽;[D];哈尔滨工程大学;2010年
吴迪;[D];大连理工大学;2010年
赵晓燕;[D];大连理工大学;2010年
【相似文献】
中国期刊全文数据库
裘钧;陈志凌;;[J];浙江交通职业技术学院学报;2008年03期
,詹秀菊;[J];现代通信;2003年06期
孙京兰;;[J];中文信息;2003年04期
冯进;[J];现代情报;2005年03期
王小燕;[J];商场现代化;2005年05期
方忠祥,屠立;[J];机床与液压;2005年06期
龙腾芳;[J];微计算机信息;2005年08期
周勇;[J];中国科技信息;2005年16期
徐守军,高波,甄蓓,彭奕,王东根,王玉民,吴乐山;[J];中华医学科研管理杂志;2005年04期
张特来,刘万军;[J];自动化技术与应用;2005年10期
中国重要会议论文全文数据库
马洪杰;曲晓飞;;[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
戈欣;吴晓芬;许建荣;;[A];2009中华医学会影像技术分会第十七次全国学术大会论文集[C];2009年
魏元珍;杨沂凤;;[A];网络信息资源的搜集与应用——全国高校社科信息资料研究会第十次年会论文集[C];2004年
肖健;沈彩霞;;[A];广西计算机学会2008年年会论文集[C];2008年
巩耀亮;邱晓东;孙丽君;李树强;;[A];信息时代——科技情报研究学术论文集(第三辑)[C];2008年
王洪锋;;[A];河南省通信学会2005年学术年会论文集[C];2005年
姚小磊;彭清华;;[A];中华中医药学会第七次眼科学术交流会论文汇编[C];2008年
张婧;;[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
杨利军;勾学荣;;[A];2008年中国高校通信类院系学术研讨会论文集(上册)[C];2009年
孙义明;曾继东;;[A];全国计算机安全学术交流会论文集(第二十二卷)[C];2007年
中国重要报纸全文数据库
博时平衡配置基金经理
杨锐;[N];证券时报;2010年
宁宇;[N];晋中日报;2011年
刘令仪;[N];证券日报;2004年
何理;[N];中国高新技术产业导报;2000年
付秋实;[N];金融时报;2010年
都文;[N];江苏经济报;2000年
常兴胜;[N];中国贸易报;2008年
凌南;[N];中国高新技术产业导报;2010年
彭婷婷;[N];财经时报;2006年
王在冉;[N];西部时报;2007年
中国博士学位论文全文数据库
许增福;[D];哈尔滨工程大学;2005年
庞淑英;[D];昆明理工大学;2008年
赵晨;[D];浙江大学;2005年
高清东;[D];北京科技大学;2005年
李兴;[D];中国科学院研究生院(遥感应用研究所);2006年
王玉峰;[D];大连理工大学;2007年
潘海天;[D];浙江大学;2003年
程其云;[D];重庆大学;2004年
束志恒;[D];浙江大学;2005年
孙蕾;[D];西北大学;2005年
中国硕士学位论文全文数据库
赵林明;[D];山东科技大学;2005年
陈骏武;[D];湖南大学;2005年
房静;[D];天津大学;2004年
罗国甫;[D];同济大学;2006年
王鑫;[D];山东师范大学;2006年
袁明;[D];西安电子科技大学;2007年
左红武;[D];昆明理工大学;2006年
田静;[D];贵州大学;2007年
柳迎春;[D];吉林大学;2007年
朱丽萍;[D];上海交通大学;2006年
&快捷付款方式
&订购知网充值卡
400-819-9993
800-810-6613
《中国学术期刊(光盘版)》电子杂志社有限公司
同方知网数字出版技术股份有限公司
地址:北京清华大学 84-48信箱 知识超市公司
出版物经营许可证 新出发京批字第直0595号
订购热线:400-819-82499
服务热线:800-810-91813
在线咨询:
传真:010-
京公网安备74号

我要回帖

更多关于 数据挖掘方法 的文章

 

随机推荐