聚类是数据挖掘领域中最活跃的研究分支之一,聚类技术在其他的科学领域也有广泛的应用。迄今为止已经提出了大量的聚类算法,其中基于密度的DBSCAN算法因其很多优点而备受关注,为了减少DBSCAN的区域查询次数,降低I/O开销而提出的改进算法有FDBSCAN、LSNCCP等。随着应用的发展,增量聚类显得越来越重要,而现有的增量聚类算法存在很大的局限性。基于LSNCCP,提出了一种有效的增量聚类算法,同时它也可以用于对LSNCCP进行性能优化。Clustering is one of the most flourish direction of data mining. It has been applied abroad at other scientific fields. Many clustering algorithms have been proposed so far,and the DBSCAN algorithm which was density-based was famous for it's advantages. In order to decrease the amount of regional queries and operations of I/O,some people suggested some advanced algorithms such as FDBSCAN,LSNCCP. With the development of application, incremental clustering algorithm became more important,while the incremental clustering algori...
介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感.为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算...
引入序关系保持的思想,即层次聚类的簇间距离度量应该能够最大限度地维护样本点闻的原始距离排序关系.定义了样本点对序关系的概念和序关系损失度量,证明了序关系损失度量可用做聚类的目标准则函数和聚类结果质量的...
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hierarch...
bnAk-dIVIdE-And-MErgE聚类算法是基于dAVId等人提出的dIVIdE-And-MErgE算法的一种改进算法。dIVIdE-And-MErgE算法是一种将自顶向下的分裂方法和自底向上...
随着信息技术的高速发展,数据量急剧增长,如何从海量的数据中提取有用的信息和知识成为当务之急。数据挖掘就是解决这个问题的新兴领域。聚类分析作为数据挖掘领域中的一个重要课题,受到了越来越多的关注。目前聚类...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数...
传统的数据挖掘技术如分类、聚类、关联和异常点发现等技术与OLAP技术的结合通常采用的方法是分类、聚类、关联和异常点发现的结果即为任务的终点和目标.然而事实上,在实际需求中用户不仅仅需要分类、聚类等数据...
数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering...
针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing...
[[abstract]]本文提出一個以資料間的灰關聯分析為基礎的資料聚類方法。由資料間的灰關聯分析結果,我們可以經由一個閥值的設定來判斷資料與資料間的相似關係,再利用這個相似度的測量結果將資料分類。由...
针对基于密度的聚类算法不能自动处理密度分布不均匀的数据问题,提出一种基于不均匀密度的自动聚类算法.该算法既保持了一般基于密度算法的优点,也能有效地处理分布不均匀的数据.实验结果表明,该算法是有效的.国...
针对目前聚类算法不能有效的处理模糊边界点的问题,提出了一种基于真实核心点的RDBSCAN聚类算法。提出真实核心点的概念,首先在密度聚类过程中的核心点进一步处理分类,把影响聚类效果的伪核心点剔除,将剩下...
計畫編號:NSC95-2119-M032-002研究期間:200612~200707研究經費:240,000[[abstract]]本計畫主要是探討長期追蹤資料(longitudinal data)的...
传统K-means算法的聚类数k值事先无法确定,而且算法是随机性地选取初始聚类中心点,这样容易造成聚类结果不稳定,且准确率较低。基于SSE用来选取聚类个数k值,基于聚类中心点所在的周围区域相对比较密集...
介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感.为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算...
引入序关系保持的思想,即层次聚类的簇间距离度量应该能够最大限度地维护样本点闻的原始距离排序关系.定义了样本点对序关系的概念和序关系损失度量,证明了序关系损失度量可用做聚类的目标准则函数和聚类结果质量的...
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hierarch...
bnAk-dIVIdE-And-MErgE聚类算法是基于dAVId等人提出的dIVIdE-And-MErgE算法的一种改进算法。dIVIdE-And-MErgE算法是一种将自顶向下的分裂方法和自底向上...
随着信息技术的高速发展,数据量急剧增长,如何从海量的数据中提取有用的信息和知识成为当务之急。数据挖掘就是解决这个问题的新兴领域。聚类分析作为数据挖掘领域中的一个重要课题,受到了越来越多的关注。目前聚类...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数...
传统的数据挖掘技术如分类、聚类、关联和异常点发现等技术与OLAP技术的结合通常采用的方法是分类、聚类、关联和异常点发现的结果即为任务的终点和目标.然而事实上,在实际需求中用户不仅仅需要分类、聚类等数据...
数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering...
针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing...
[[abstract]]本文提出一個以資料間的灰關聯分析為基礎的資料聚類方法。由資料間的灰關聯分析結果,我們可以經由一個閥值的設定來判斷資料與資料間的相似關係,再利用這個相似度的測量結果將資料分類。由...
针对基于密度的聚类算法不能自动处理密度分布不均匀的数据问题,提出一种基于不均匀密度的自动聚类算法.该算法既保持了一般基于密度算法的优点,也能有效地处理分布不均匀的数据.实验结果表明,该算法是有效的.国...
针对目前聚类算法不能有效的处理模糊边界点的问题,提出了一种基于真实核心点的RDBSCAN聚类算法。提出真实核心点的概念,首先在密度聚类过程中的核心点进一步处理分类,把影响聚类效果的伪核心点剔除,将剩下...
計畫編號:NSC95-2119-M032-002研究期間:200612~200707研究經費:240,000[[abstract]]本計畫主要是探討長期追蹤資料(longitudinal data)的...
传统K-means算法的聚类数k值事先无法确定,而且算法是随机性地选取初始聚类中心点,这样容易造成聚类结果不稳定,且准确率较低。基于SSE用来选取聚类个数k值,基于聚类中心点所在的周围区域相对比较密集...
介绍了文档聚类中基于划分的k-means算法,k-means算法适合于海量文档集的处理,但它对孤立点很敏感.为此,文章提出将聚类均值点与聚类种子相分离的思想,并具体给出了基于该思想的对k-means算...
引入序关系保持的思想,即层次聚类的簇间距离度量应该能够最大限度地维护样本点闻的原始距离排序关系.定义了样本点对序关系的概念和序关系损失度量,证明了序关系损失度量可用做聚类的目标准则函数和聚类结果质量的...
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hierarch...