weka中用DBSCANweka聚类分析结果之后,进行模式识别用什么算法,有哪些比较好的?

DBSCAN算法的性能分析
随着医学技术的发展,有关医学诊断的各种图像在现代疾病辅助诊断中占有相当重要的地位,在分析和阅读灰阶医学图像时,图像的对比度、边缘特征和信噪比等对诊断的正确性致关重要。但是在图像拍摄中避免不了的一些噪声(量子噪声、颗粒噪声、CCD暗电流噪声等)及病变变化微小情况下的不清晰的图像信息,影响了疾病的正确诊断,因此为了提高疾病的正确诊断率,医学图像处理技术就显得尤为重要[1]。
  近年来,医学图像处理技术中的分割技术是国际上图像分割领域的一个新的研究热点。该方法将图像映射为带权无向图,把像素视作节点。利用最小剪切准则得到图像的最佳分割,该方法本质上将图像分割问题转化为最优化问题。是一种点对聚类方法。对数据聚类也具有很好的应用前景。这种分割技术对医学诊断有很大的帮助。
【关键词】 医学图像; 聚类算法; 遗传算法; 分割
Martin等人提出的DBSCAN聚类算法是一种基于密度的聚类算法。该算法利用类的密度连通性可以快速发现任意形状的类。其基本思想是:对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目。在DBSCAN算法中,发现一个类的过程是基于这样的事实:一个类能够被其中的任意一个核心对象所确定。为了发现一个类,DBSCAN先从对象集D中找到任意一对象P,并查找D中关于半径Eps和最小对象Minpts的从P密度可达的所有对象。如果P是核心对象,即半径为Eps的P的邻域中包含的对象不少于Minpts,则根据算法,可以找到一个关于参数Eps和Minpts的类。如果P是一个边界点,则半径为Eps的P邻域包含的对象少于Minpts,P被暂时标注为噪声点。然后,DBSCAN处理D中的下一个对象。
  DBSCAN算法可将具有足够高密度的图像点划分为簇,它能找到图像样本比较密集的部分,概括出图像样本相对比较集中的类,并可在带有“噪声”的图像中进行聚类,完成图像分割;有较强的抗“噪声”能力。但是,该算法对用户定义的参数较敏感,ε邻域、最小数目minpts的设置的细微不同将导致聚类结果的较大差异;且此算法需扫描整个图像数据库.对每个点对象都进行一次查询,所以计算复杂度较大。在图像分割过程中,若能建立空间索引降低计算量,且通过反复实验能找到适当的ε邻域和最小数目minpts值,则DBSCAN算法是一种较优的图像分割算法[4]。
针对医学图像的特点,设计了一种聚类分析的图像分割算法,并且将遗传算法引入聚类,利用遗传算法的并行性和随机搜索性,从DBSCAN算法出发,针对其局限性提出了一种基于取样的DBSCAN算法及其遗传优化,从而达到较好的分割效果。
  2 DBSCAN聚类算法
  密度可达对象的获取是通过不断执行区域查询来实现的。一个区域查询返回指定区域中的所有对象。为了有效地执行区域查询,DBSCAN算法使用了空间查询R?树结构。在进行聚类前,必须建立针对所有数据的R3?树。另外,DBSCAN要求用户指定一个全局参数Eps(为了减少计算量,预先确定参数Minpts)。为了确定取值,DBSCAN计算任意对象与它的第k个最临近的对象之间的距离。然后,根据求得的距离由小到大排序,并绘出排序后的图,称做k-dist图。k-dist图中的横坐标表示数据对象与它的第k个最近的对象间的距离;纵坐标为对应于某一k?dist距离值的数据对象的个数。R3-树的建立和k-dist图的绘制非常消耗时间。此外,为了得到较好的聚类结果,用户必须根据k-dist图,通过试探选定一个比较合适的Eps值。DBSCAN算法不进行任何的预处理而直接对整个数据集进行聚类操作。当数据量非常大时,就必须有大内存量支持,I/O消耗也非常大。其时间复杂度为O(nlogn)(n为数据量),聚类过程的大部分时间用在区域查询操作上。DBSCAN算法对参数Eps及Minpts非常敏感,且这两个参数很难确定[3]。
  近年来,大量数据被存储到空间数据库中,如何提高查询效率和从大量数据中提取有用的模式显得尤为重要。聚类分析是将物理或抽象的对象组成的集合分组成为由类似的对象组成的多个簇,使得处于相同簇中的对象具有最大的相似性,而处于不同簇中的对象具有最大的差异性的方法及过程.聚类可以定义如下:在数据空间A中,数据集由许多数据点(或数据对象)组成,数据点
xi=(xi1,……,xid)∈A,xi 的每个属性(或特征、或维度)
既可以是数值型的,也可以是枚举型的.数据集A相当于是一个n&d矩阵.假设数据集X中有n个对象xi(i=1,…,n)。聚类的最终目的是把数据集X划分为K个分割Cm(m=1,…
,K),也可能有些对象不属于任何一个分割,这些就是噪声Cm。所有这些分割与噪声的并集就是数据集X
,并且这些分割之间没有交集,即:x=c1∪,…,ck∪cnCi∩Cj =? (i≠j )这些分割Cm就是聚类[2]。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。想用WEKA里面的DBScan算法来进行离群点检测,但要解决输出问题_weka吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:145贴子:
想用WEKA里面的DBScan算法来进行离群点检测,但要解决输出问题收藏
想用WEKA里面的DBSCAN算法来进行离群点检测,但是发现输出的结果把能正常聚类的点跟噪声点一并输出出来了,如果我只想让他输出噪声点该怎么做?
登录百度帐号推荐应用
为兴趣而生,贴吧更懂你。或数据挖掘工具weka中的算法列表 - CSDN博客
1) 数据输入和输出&WOW():查看Weka函数的参数。&Weka_control():设置Weka函数的参数。&read.arff():读Weka Attribute-Relation File Format (ARFF)格式的数据。&write.arff:将数据写入Weka Attribute-Relation File Format (ARFF)格式的文件。&2) 数据预处理&Normalize():无监督的标准化连续性数据。&Discretize():用MDL(Minimum Description Length)方法,有监督的离散化连续性数值数据。&3) 分类和回归&IBk():k最近邻分类&LBR():naive Bayes法分类&J48():C4.5决策树算法(决策树在分析各个属性时,是完全独立的)。&LMT():组合树结构和Logistic回归模型,每个叶子节点是一个Logistic回归模型,准确性比单独的决策树和Logistic回归方法要好。&M5P():M5 模型数算法,组合了树结构和线性回归模型,每个叶子节点是一个线性回归模型,因而可用于连续数据的回归。&DecisionStump():单层决策树算法,常被作为boosting的基本学习器。&SMO():支持向量机分类&AdaBoostM1():Adaboost M1方法。-W参数指定弱学习器的算法。&Bagging():通过从原始数据取样(用替换方法),创建多个模型。&LogitBoost():弱学习器采用了对数回归方法,学习到的是实数值&MultiBoostAB():AdaBoost 方法的改进,可看作AdaBoost 和 &wagging&的组合。&Stacking():用于不同的基本分类器集成的算法。&LinearRegression():建立合适的线性回归模型。&Logistic():建立logistic回归模型。&JRip():一种规则学习方法。&M5Rules():用M5方法产生回归问题的决策规则。&OneR():简单的1-R分类法。&PART():产生PART决策规则。&4) 聚类&Cobweb():这是种基于模型方法,它假设每个聚类的模型并发现适合相应模型的数据。不适合对大数据库进行聚类处理。&FarthestFirst():快速的近似的k均值聚类算法&SimpleKMeans():k均值聚类算法&XMeans():改进的k均值法,能自动决定类别数&DBScan():基于密度的聚类方法,它根据对象周围的密度不断增长聚类。它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组&密度连接&的点集。&5)关联规则&Apriori():Apriori是关联规则领域里最具影响力的基础算法,是一种广度优先算法,通过多次扫描数据库来获取支持度大于最小支持度的频繁项 集。它的理论基础是频繁项集的两个单调性原则:频繁项集的任一子集一定是频繁的;非频繁项集的任一超集一定是非频繁的。在海量数据的情况 下,Apriori 算法的时间和空间成本非常高。&Tertius():Tertius算法。&6)预测和评估:&predict():根据分类或聚类结果预测新数据的类别&table():比较两个因子对象&evaluate_Weka_classifier():评估模型的执行,如:TP Rate,FP Rate,Precision,Recall,F-Measure。本文固定链接:
上一篇::
木有头像就木JJ啦!还木有头像吗?属于你的个性Gravatar头像吧!
最新文章热门文章随机文章
拖延是一种病,只有克服了它,才能真正掌握自己的时间 20:48
后面开始,每天都尽量写点儿东西,有没有用不是我写博客的原因,我写博客的原因只有一个,那就是写 08:59
今天收到一封告别信,抓虾网终于抓瞎了,给以敬意,同时也觉得遗憾 19:19
无数次舍弃只为一次all in 11:14
昨天晚上微信群里有人说外滩那边发生践踏事故,早上便传来噩耗,35死43伤,太不可思议,太恐怖了,为死者默哀,为伤者祈福 11:18
友情连接1:对Weka中DBSCAN算法的分析以及在C#中的实现
对Weka中DBSCAN算法的分析以及在C#中的实现
摘要: DBSCAN算法是常用的数据挖掘算法。所有的聚类方法分为若干类型,前面讨论过的KMEANS算法是基于划分的方法进行聚类,而这次提到的DBSCAN算法是基于密度的方法。当然其它的还有基于层次凝聚和分裂的方法、基于模型的方法等。我先对Weka中实现的DBSCAN算法进行一个介绍和分析,然后再给出我自己的实现方法。但是在这之前要解释几个概念,如果之前没有了解过这个算法的话,最好是先熟悉几个概念:epsilon-邻域、核心对象、(直接)密度可达、密度相连,这些概念可以在《数据挖掘概念与技术》一书中找到,了解这些概念对理解这个算法来说是很重要的。-----------------------------------------------------------------------------------------------本文链接: 作者博客:
网站导航: &&&&&&&&&&&&新闻频道:
阅读: 776 评论: 3 作者:
博客园团队
热点随笔:
·  理性声音少吗?
·  动软.NET代码生成器 开源了!
·  Su
With the release of Iron Ruby we are no more tide up with the xml based build script like NAnt and MSBuild, we can now use Rake with Iron Ruby to build our .NET based projects. In
(不好意思,置顶几天)
微软招聘SQL专家,如果您认为在下述方面有专长,请积极报名:  
1、工作地点:上海; 2、很强的微软技术背景和产品熟悉度; 3、很强的客户沟通能力; 4、熟悉
在水晶报表中,如果显示多个数据表内容?起初我想到的是使用子报表,通过代码动态的绑定数据源给子报表,来显示所需数据。不过,最近发现,使用子报表显示的某些字段无法显示,就连前些日子写的
摘要: 作者:Tony QuNPOI官方网站:/本节将围绕“对齐”选项卡中的设置展开,虽然实际上你会发现该选项卡中的很多设置和对齐没有什么关系。合并单元格已经在
摘要: 做了一阵子开发后发现,几乎所有项目都和数据库有关,SQL Server、Oracle、Access、MySql。如果没有一个数据源无关的底层,迁移的时候必然遇到些麻烦。虽然Ado.net 2.0和1.1的时候比较已
times when working with crystal report viewer you do not want to show
the report to user in raw format but instead you want to pass on the
report in PDF or other format
Note: This describes the behavior of ASP.NET MVC 2 as of the release candidate. It’s possible things might change for the RTM. When using areas in ASP.NET MVC 2, a common problem
摘要: Remoting是NET平台下比较成熟高效的分布式技术,我们习惯采用传统的远程调用的方式使用Remoting。在客户端所在的Application Domain,我们通过Proxy(Transparent Proxy)远程地跨Applic
MSComm控件初始化如下:
this-&axMSComm1-&CommPort=1;
this-&axMSComm1-&Settings=&9600,E,8,1&;
this-&axMSComm1-&InputMode=MSCommLib::InputModeConsta
Powered by
[ RssXN(build:
070517 Asp.net 2.0)]
每隔1小时自动更新一次

我要回帖

更多关于 dbscan聚类算法 java 的文章

 

随机推荐