数据挖掘数据价值是从什么地使用数据中挖掘数据价值出有价值数据的过程

&& 查看话题
数据挖掘方向是做算法类的研究还是应用类的研究更有价值呢?
本人数据挖掘大方向的研究生,目前在找更加狭窄的研究方向,目前总结了一下有两个途径:
1.完全做理论改进,改进一些已有的数据挖掘算法,或者提出一些适用于某些场合的新算法,然后跑一堆的测试数据,验证算法的有效性
2.不去研究新的算法了,就是用现有的数据挖掘算法去解决一些实际的问题,这样一来,无非是用已有的算法的各种组合去分析实际的数据,得出相应的结论(比如预测某种现象等)
我现在感觉,第一条途径是比较难的,但是做下去的话,写出的论文是由创新性的,而第二种途径的话只是用理论工具解决实际问题,我找不到什么创新点
现在,从比较利益化的角度来看,哪种途径写出的论文更好发表,更有价值呢?
看楼主的未来规划了。
准备研究生毕业就工作的话,当然做应用好。
如果准备走学术路线,则研究理论。 肯定是前者发文章容易了,有创新点。楼主为何不怕改进的算法进行一下简单的应用实现呢? 第一种,偏重理论研究,但也是注重实用的,有创新点,好发论文。
第二种,如果你是信息类专业研究生,我个人觉得没太大意义,因为这不是这个专业的强项;如果是资源类的,或者说容易拿到数据,那么就适合了。
我认为,信息类的研究生目前处境比较尴尬,经常处在辅助角色,利用别人的数据做处理,编程序。因此我现在也很郁闷的。数据挖掘中涉及的关联规则在实际生活中的应用有哪些?实际中能够提供给商家怎样的解决方案?
数据挖掘中关联规则在实际生活中的应用有哪些?像最小支持度、最小可信度、apriori算法这些内容在实际中能够提供给商家怎样的解决方案?
按投票排序
这个还真就是啤酒和尿布的例子最有名了。而其他相关的应用几乎绝迹的原因我觉得很大一部分是关联规则挖掘,尤其是Apriori算法产生的规则太多了!!!以至于还要用方法去挖掘产生的规则中哪些是有意义的。这就让我对啤酒和尿布的故事产生了怀疑。其实我想说的是如果是要找关联规则的话,还有很多方法,比一定要用类Apriori和类FP-Tree的算法。有时候,把关联问题转化为分类问题和聚类问题往往也是可行的,就看如何解读结果,产生规则了。比如说,会蹦蹦跳跳的长着毛茸茸尾巴的经常在树立里面出现的爱吃种子和果仁的哺乳动物是松鼠就是一个不错的规则嘛,完全可以和鸟类这种会飞的长着毛茸茸尾巴的经常在树立里面出现的爱吃种子和果仁的哺乳动物区分开。通过对聚类算法找到的簇进行恰当的描述也是可以总结出规律来的。这个就不举例子了。如果按照上面我定义的“广义”关联规则的话,那么商业应用就多去了。
关联规则最典型的可能就是那个啤酒和尿布的例子了。说起来很惭愧,做DM这么些年没什么建树,基本混日子了。之前写过一篇科普型的文章。为了省事,直接从自己空间()中复制下文。:D数据挖掘是个科学技术名词,又叫知识发现。但在商业领域,它基本与商业智能概念等同。其实商业智能属于管理学科概念,有更多的管理属性。我国信息化进程已经有年,这当中企业数据积累多了,必然有挖掘新知识的需求。企业往往希望从以往的业务数据中找到一定的规律,用以辅助未来的经营决策,而这当中,传统的统计学方法是不够用的。尽管数据挖掘并非一定使用数学模型,但数据挖掘思想仍然来源于统计学。典型的数据挖掘有分类、聚类、孤立点分析、关联规则、预测等。分类很好理解,是按照一定的规则,将元组划分为若干类别;聚类与分类的差异,就是在于并不会先入为主地给出规则,而是按照集合本身的特点来划分为若干类别,正所谓“物以类聚”。聚类的思想其实非常简单,举一个信用卡的例子。银行为了有针对性地对信用卡用户进行营销,首先要对用户进行市场细分。你当然可以按照一个简单的规则,如“年龄”,“职业”,“职位”,“收入级别”来对用户进行有规则的分类,但这样子太主观了,谁能保证划分出来的几个用户群体的用卡行为就一定是接近的呢?为了尽量找到用卡行为相似的用户群体,为什么不从历史以来的用户用卡行为中去寻找呢?既然一个用户以前消费行为是这样,可想而知其未来大致也差不离。再辅之以用户基本信息如上述“年龄”,“职业”,“职位”,“收入级别”等,也就更容易做到准确定位用户,从而实现业界常说的“精准营销”。例如,挖掘发现,有一类用户每隔一段时间习惯性地提取少量现金,而用卡消费往往在一些百货公司的奢侈品柜台,那么大致可以圈定这样一个用户群体,给他们寄账单的时候信封里塞上奢侈品广告也就自然而然了,这样是不是不管青红皂白塞些超市折扣券要精准得多呢?举这个例子是因为我的信用卡账单信封里经常有香港旅游和消费的广告,但我的信用卡记录中其实从来没有在香港有过消费,更不会有旅游信息,营销方只是按照我的基本资料,自以为是地认为我这样的一个人很容易在香港产生旅游和购物而已。还有一些应用在电信行业,例如根据用户的语音通信历史资料,圈定若干用户群,然后有针对性地设计套餐。例如亲情长途电话,就是这个行业一个很贴心的设计。关联规则。业界有非常出名的“啤酒和尿布”的经典案例,但有更好玩的例子说明问题。坊间流传着无数股市的技术分析“秘笈”,如果我没记错的话,诸如《短线是银》,《三线开花》,《筹码分布》,《K线力学》书籍等等等等,可称为浩如烟海。我看过若干,发现其实这些书籍都属于实战经验的总结,然而人毕竟不是机器,会受到情绪的影响,无法一折不扣地执行策略,而这个正是计算机的强项。同时总结的经验规则到底靠不靠谱呢?还只是偶尔出现的情况?若只是偶然发生的巧合被当作常用的规律,投资者可就赔惨了!对于这些书中普遍缺乏严谨的验证——没有计算机等工具的话,事实上也没法验证——往往只是举个个例来说明问题。计算机在历史数据中检索,发现市场上出现情况A时,情况B就很可能会出现。形式化表达为规则:A--&B。不过这样还远远不够。要想这样的规则有效,显然得问两个问题:(1)情况A在整个市场运行中出现了多少次呢?(2)情况A出现若干次,随后情况B出现了多少次?占多大比例?对(1)我们要有个支持度指标 support,说明这样的情况是不是经常出现。对(2)我们也有个置信度指标 confidence,说明A出现后,B出现的可能性有多大。再具体一点的例子。一般股价跌到一定程度的时候,在底部都会有不少投资者抄底,从而形成类似蝌蚪似的大头小尾的“甲”字形K线图,这里称作“尾针”。“尾针”出现以后,是不是一定上涨呢?或者说上涨的可能性有多大呢?抛开用无数形容词天花乱坠吹嘘自己的炒股秘籍吧,这时候我们应该回到数据中。例如在中国股市这么多年,有10000次下跌,其中有7000次出现“尾针”,而这7000次“尾针”中,接下来4000次出现了上涨,而3000次下跌。即支持度为7/10,置信度为4/7。那么可以认为,投资者按照这个规则操作的话,有4/7的几率会成功,3/7的几率会失败——上例纯属虚构,切勿模仿喔。要那样简单的话我自己早发财了。。。实际的挖掘会比这个复杂很多。数据挖掘的应用非常广泛,这里只是举例一二说明问题而已。学术界研究的则越来越复杂和抽象,但诸如分类、聚类、孤立点分析、关联规则、预测这些基本技术已经发展成熟并且进入业界,也有现成的数据挖掘工具,也很容易找到类似的人才。这些对于提升企业业务水平,又重新开了一扇窗口。
最有名的例子应该是“啤酒和尿布”,但我不认为这是个成功的案例,甚至有点不靠谱。非常有可能我们在数据中发现啤酒和尿布这样的一条关联规则,但是如果你是沃尔玛超市的店长,你觉得在尿布货架周围放啤酒是个好主意么?在互联网里著名的成功案例是Amazon的推荐:看过这本书的人还看过……
。从读书的角度来说,这往往是非常靠谱的推荐。
网络故障定位就会用到,研究中当前位置: >
数据挖掘是从()数据库中寻找有意义、有价值信息的一种过程,也是从大量数据中学习的方法。
所属学科:
试题类型:客观题
所属知识点:
试题分数:1.0 分
暂未组卷。
暂无学习笔记。
&&&&&&&&&&&&&&&希赛网 版权所有 & &&&&增值电信业务经营许可证湘B2-热门标签:
·····
从定义到应用 数据挖掘的一次权威定义之旅
  什么是数据挖掘
  前两天看到群里有人问,什么是数据挖掘,现在就数据挖掘的概念做一下分析,并且尽量用大白话说一下数据挖掘到底是个啥东西,为啥大数据来了数据挖掘也火了(其实原来就挺火)。
  先看一上概念:
  数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
  数据挖掘简介
  数据挖掘说的直白些就是在海量的数据中找到有价值的数据,为企业经营决策提供依据。
  价值包括以下几类:
  1、相关性
  相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性,也不是简单的个性化,相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的定义也有很大的差异。用于确定数据之间的变化情况,即其中一个属性或几个属性变化的是否会对其它属性造成影响,影响有多大。
  下图就是相关性的示例:
  2、趋势
  是指将实际达到的结果,与不同时期财务报表中同类指标的历史数据进行比较,从而确定财务状况,经营成果和现金流量的变化趋势和变化规律的一种分析方法。可以通过拆线图预测数据的走向和趋势,也可以通过环比、同比的方式对比较的结果进行说明。
  如下图所示:
  3、特征
  看具体分析的内容是什么,比如互联网类,就是用户画像这类的需求,根据不同的用户给用户群打相应的标签。
  下图是一个示意图:
  展现形式
  数据挖掘的结果一般有几种展现形式:
  1、表格
  最早的一种展现方式,交叉表的展示,如下图:
  2、图表
  相比于图表更具展现力,让人很直观的就能看出数据的整体情况,如下图:
  3、决策树
  套用俗语,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话:
  女儿:多大年纪了?
  母亲:26。
  女儿:长的帅不帅?
  母亲:挺帅的。
  女儿:收入高不?
  母亲:不算很高,中等情况。
  女儿:是公务员不?
  母亲:是,在税务局上班呢。
  女儿:那好,我去见见。
  这个女孩的决策过程就是典型的分类树决策。相当于通过年龄、长相、收入和是否公务员对将男人分为两个类别:见和不见。假设这个女孩对男人的要求是:30岁以下、长相中等以上并且是高收入者或中等以上收入的公务员,那么这个可以用下图表示女孩的决策逻辑:
  数据挖掘涉及的领域
  数据挖掘是计算机学科中的一个交叉研究领域,其研究方法与多个其他科学紧密相连,如:统计、机2器学习、专家系统、信息检索、社会网络、自然语言处理和模式识别等等。
  什么是数据仓库?
  数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理:
  ①数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;
  ②数据仓库是对多个异构数据源的有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
  企业数据仓库的建设是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们作出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理、归纳和重组,并及时提供给相应的管理决策人员是数据仓库的根本任务。
  数据立方体与OLAP
  数据立斱体以多维对数据迚行建模和观察。
  下图就是客户、产品和销售的数据立方体:
  OLAP的多维分析操作包括:钻取(Drill-down)、上卷(Roll-up)、切片(Slice)、切块(Dice)以及旋转(Pivot)等。
  钻取(Drill-down):在维的不同层次间的变化,从上层降到下一层,或者说是将汇总数据拆分到更细节的数据,比如通过对2010年第二季度的总销售数据进行钻取来查看2010年第二季度4、5、6每个月的消费数据。
  上卷(Roll-up):钻取的逆操作,即从细粒度数据向高层的聚合,如将江苏省、上海市和浙江省的销售数据进行汇总来查看江浙沪地区的销售数据。
  切片(Slice):选择维中特定的值进行分析,比如只选择电子产品的销售数据,或者2010年第二季度的数据。
  切块(Dice):选择维中特定区间的数据或者某批特定值进行分析,比如选择2010年第一季度到2010年第二季度的销售数据,或者是电子产品和日用品的销售数据。
  旋转(Pivot):即维的位置的互换,就像是二维表的行列转换,如图中通过旋转实现产品维和地域维的互换。
  数据挖掘解决的四大类问题
  1、分类
  分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别,比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征;其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等。机器学习、专家系统、统计学和神经网络等领域的研究人员已经提出了许多具体的分类预测方法。下面对分类流程作个简要描述:
  训练:训练集——&特征选取——&训练——&分类器
  分类:新样本——&特征选取——&分类——&判决
  下面看一个基于决策树的分类器的示例:
  2、聚类
  聚类:将数据对象划分为若干类,同一类的对象具有较高的相似度,不同类的对象相似度较低。从这个简单的描述中,可以看出聚类的关键是如何度量对象间的相似性。较为常见的用于度量对象的相似度的方法有距离、密度等。
  聚类分析的原理可以根据下图来看:
  对牌进行分组:
  按花色分:
  按符号分:
  按颜色分:
  按大小程度相近分:
  下面就是一个聚类的示例:
  3、预测
  数据挖掘预测与周易预测有相似之处。周易建立在阴阳二元论基础上,对天地万物进行性状归类(天干地支五行论),精确到可以对事物的未来发展做出较为准确的预测。许多学者认为周易理论依据是万事万物的相似性、关联性和全息性原理。这三个原理已被现代科学所证实。全息性是指事物的某一局部包含了整体的信息。例如,法医工作者对一根毛发进行化验,得出受害者或嫌疑人的许多身体特征。
  周易预测通过对历史事件的学习来积累经验,得出事物间的相似性和关联性,从而对事物的未来状况做出预测。数据挖掘预测则是通过对样本数据(历史数据)的输入值和输出值关联性的学习,得到预测模型,再利用该模型对未来的输入值进行输出值预测。一般地,可以通过机器学习方法建立预测模型。DM(Data Mining)的技术基础是人工智能(机器学习),但是DM仅仅利用了人工智能(AI)中一些已经成熟的算法和技术,因而复杂度和难度都比AI小很多。
  机器学习:假定事物的输入、输出之间存在一种函数关系y=f(x, β),其中β是待定参数,x是输入变量,则y=f(x, β)称为学习机器。通过数据建模,由样本数据(一般是历史数据,包含输入值和输出值)学习得到参数β的取值,就确定了具体表达式y=f(x, β),这样就可以对新的x预测y了。这个过程称作机器学习。
  数据建模不同于数学建模,它是基于数据建立数学模型,它是相对于基于物理、化学和其他专业基本原理建立数学模型(即机理建模)而言的。对于预测来说,如果所研究的对象有明晰的机理,可以依其进行数学建模,这当然是最好的选择。但是实际问题中,一般无法进行机理建模。但是历史数据往往是容易获得的,这时就可使用数据建模。
  典型的机器学习方法包括:决策树方法、人工神经网络、支持向量机、正则化方法。其他常见的预测方法还有近邻法、朴素贝叶斯(属于统计学习方法)等。
  预测的模型可以参考下图:
  4、关联
  分析各个物品或者商品之间同时出现的机率。
  在各种数据挖掘算法中,关联规则挖掘算是比较重要的一种,尤其是受购物篮分析的影响,关联规则被应用到很多实际业务中。
  首先,和聚类算法一样,关联规则挖掘属于无监督学习方法,它描述的是在一个事物中物品间同时出现的规律的知识模式,现实生活中,比如超市购物时,顾客购买记录常常隐含着很多关联规则,比如购买圆珠笔的顾客中有65%也购买了笔记本,利用这些规则,商场人员可以很好的规划商品摆放问题。在电商网站中,利用关联规则可以发现哪些用户更喜欢哪类的商品,当发现有类似的客户的时候,可以将其它客户购买的商品推荐给相类似的客户,以提高网站的收入。
  下图就是一个关联的示例:
  CRISP-DM
  CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述.该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段。
  1: business understanding: 即商业理解. 在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什么. 并将这些目的与数据挖掘的定义以及结果结合起来。
  2: data understanding: 数据的理解以及收集,对可用的数据进行评估。
  3: data preperation: 数据的准备,对可用的原始数据进行一系列的组织以及清洗,使之达到建模需求。
  4: modeling: 即应用数据挖掘工具建立模型。
  5: evaluation: 对建立的模型进行评估,重点具体考虑得出的结果是否符合第一步的商业目的。
  6: deployment: 部署(方案实施),即将其发现的结果以及过程组织成为可读文本形式.(数据挖掘报告)。
  商业理解(Business understanding):商业理解阶段应算是数据挖掘中最重要的一个部分,在这个阶段里我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划。
  数据理解(Data understanding):数据是我们挖掘过程的“原材料”,在数据理解过程中我们要知道都有些什么数据,这些数据的特征是什么,可以通过对数据的描述性分析得到数据的特点。
  数据准备(Date preparation):在数据准备阶段我们需要对数据作出选择、清洗、重建、合并等工作。选出要进行分析的数据,并对不符合模型输入要求的数据进行规范化操作。
  建模(Modeling):建模过程也是数据挖掘中一个比较重要的过程。我们需要根据分析目的选出适合的模型工具,通过样本建立模型并对模型进行评估。
  模型评估(Evaluation):并不是每一次建模都能与我们的目的吻合,评价阶段旨在对建模结果进行评估,对效果较差的结果我们需要分析原因,有时还需要返回前面的步骤对挖掘过程重新定义。
  结果部署(Deployment):这个阶段是用建立的模型去解决实际中遇到的问题,它还包括了监督、维持、产生最终报表、重新评估模型等过程。
  这里简单的介绍了一下数据挖掘的概念以及数据挖掘的展现形式和数据挖掘到底能做一些什么。
  数据仓库和数据立方体,并且介绍了数据挖掘要解决的四大类问题,任何跟数据挖掘相关的问题都可以先归类到这四大类问题中,然后再根据相应的算法进行解决。
  最后介绍了CRISP-DM 模型,是IBM提出的标准模型,可以对数据挖掘的过程进行理论的指导。在接下来会针对用户产生的数据来探讨如何进行用户画像。
  来源:牛吧大数据
贵州大数据产业政策
目前,大数据已经成为重要的战略性资源,国家 ...
贵州大数据产业动态
贵阳市委常委、市委政法委书记庞鸿率市委政法 ...
贵州大数据企业
时下,位于贵阳高新区数字内容产业园的贵阳朗 ...
作为国内搜索巨头,百度收录全世界超过一万亿 ...双11网购节将至,冒充电商网站的钓鱼网址诈骗 ...TalkingData为您深度解析3.9亿用户规模的旅游 ...

我要回帖

更多关于 数据挖掘的价值 的文章

 

随机推荐