数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering using references and density)聚类算法,其创新点在于,通过参考点来准确地反映数据的空间几何特征,然后基于参考点对数据进行分析处理.CURD算法保持了基于密度的聚类算法的上述优点,而且CURD算法具有近似线性的时间复杂性,因此CURD算法适合对大规模数据的挖掘.理论分析和实验结果也证明了CURD算法具有处理任意形状的聚类、对噪音数据不敏感的特点,并且其执行效率明显高于传统的基于R*-树的DBSCAN算法.国家高技术研究发展计划(863计划); 国家重点基础研究发展计划(973计划); 北京大学校科研和教改项目中文核心期刊要目总览(PKU)中国科学引文数据库(CSCD)061089-10951
传统的数据挖掘技术如分类、聚类、关联和异常点发现等技术与OLAP技术的结合通常采用的方法是分类、聚类、关联和异常点发现的结果即为任务的终点和目标.然而事实上,在实际需求中用户不仅仅需要分类、聚类等数据...
Рассмотрена новая реализация FKM известного алгоритма k-medoids, основанная на общеизвестной PAM-реа...
PCCS是为了帮助Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档,而使用的一种对Web文档进行快速聚类的部分聚类方法:首先对一部分文档进行聚类,然后根据聚类结果形成分类模型对其余的文...
针对目前聚类算法不能有效的处理模糊边界点的问题,提出了一种基于真实核心点的RDBSCAN聚类算法。提出真实核心点的概念,首先在密度聚类过程中的核心点进一步处理分类,把影响聚类效果的伪核心点剔除,将剩下...
传统属性空间的密度聚类算法仅考虑对象属性取值相似度,网络空间密度聚类算法仅关注对象间关系紧密度.针对两类算法的不足,提出一种兼顾属性距离及关系强度的密度聚类算法.在构建兼顾属性距离及关系强度的网络之后...
针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing...
随着信息技术的高速发展,数据量急剧增长,如何从海量的数据中提取有用的信息和知识成为当务之急。数据挖掘就是解决这个问题的新兴领域。聚类分析作为数据挖掘领域中的一个重要课题,受到了越来越多的关注。目前聚类...
针对基于密度的聚类算法不能自动处理密度分布不均匀的数据问题,提出一种基于不均匀密度的自动聚类算法.该算法既保持了一般基于密度算法的优点,也能有效地处理分布不均匀的数据.实验结果表明,该算法是有效的.国...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数...
Teknolojinin hızla gelişimi, elde edilen ve saklanan verilerin sayısının büyük boyutlara ulaşmasına ...
これまでに, データベースに対する検索システムは, 精度, 再現度, 速度ともにめざましく進歩した. 検索は生活のあらゆるレベルに浸透し, コモディティ化したため, 検索に対する要求も性能面はもちろん...
聚类是在假设数据具有某种群聚结构的前提下根据观察到的无标记样本发现数据的最优划分.现有的聚类算法通常简单地导出假设结构和给定先验下最优或较优的聚类结果,体现为算法对样本分布拟合度的迭代最优化,即算法有...
聚类是数据挖掘领域中最活跃的研究分支之一,聚类技术在其他的科学领域也有广泛的应用。迄今为止已经提出了大量的聚类算法,其中基于密度的DBSCAN算法因其很多优点而备受关注,为了减少DBSCAN的区域查询...
传统K-means算法的聚类数k值事先无法确定,而且算法是随机性地选取初始聚类中心点,这样容易造成聚类结果不稳定,且准确率较低。基于SSE用来选取聚类个数k值,基于聚类中心点所在的周围区域相对比较密集...
传统的数据挖掘技术如分类、聚类、关联和异常点发现等技术与OLAP技术的结合通常采用的方法是分类、聚类、关联和异常点发现的结果即为任务的终点和目标.然而事实上,在实际需求中用户不仅仅需要分类、聚类等数据...
Рассмотрена новая реализация FKM известного алгоритма k-medoids, основанная на общеизвестной PAM-реа...
PCCS是为了帮助Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档,而使用的一种对Web文档进行快速聚类的部分聚类方法:首先对一部分文档进行聚类,然后根据聚类结果形成分类模型对其余的文...
针对目前聚类算法不能有效的处理模糊边界点的问题,提出了一种基于真实核心点的RDBSCAN聚类算法。提出真实核心点的概念,首先在密度聚类过程中的核心点进一步处理分类,把影响聚类效果的伪核心点剔除,将剩下...
传统属性空间的密度聚类算法仅考虑对象属性取值相似度,网络空间密度聚类算法仅关注对象间关系紧密度.针对两类算法的不足,提出一种兼顾属性距离及关系强度的密度聚类算法.在构建兼顾属性距离及关系强度的网络之后...
针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing...
随着信息技术的高速发展,数据量急剧增长,如何从海量的数据中提取有用的信息和知识成为当务之急。数据挖掘就是解决这个问题的新兴领域。聚类分析作为数据挖掘领域中的一个重要课题,受到了越来越多的关注。目前聚类...
针对基于密度的聚类算法不能自动处理密度分布不均匀的数据问题,提出一种基于不均匀密度的自动聚类算法.该算法既保持了一般基于密度算法的优点,也能有效地处理分布不均匀的数据.实验结果表明,该算法是有效的.国...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数...
Teknolojinin hızla gelişimi, elde edilen ve saklanan verilerin sayısının büyük boyutlara ulaşmasına ...
これまでに, データベースに対する検索システムは, 精度, 再現度, 速度ともにめざましく進歩した. 検索は生活のあらゆるレベルに浸透し, コモディティ化したため, 検索に対する要求も性能面はもちろん...
聚类是在假设数据具有某种群聚结构的前提下根据观察到的无标记样本发现数据的最优划分.现有的聚类算法通常简单地导出假设结构和给定先验下最优或较优的聚类结果,体现为算法对样本分布拟合度的迭代最优化,即算法有...
聚类是数据挖掘领域中最活跃的研究分支之一,聚类技术在其他的科学领域也有广泛的应用。迄今为止已经提出了大量的聚类算法,其中基于密度的DBSCAN算法因其很多优点而备受关注,为了减少DBSCAN的区域查询...
传统K-means算法的聚类数k值事先无法确定,而且算法是随机性地选取初始聚类中心点,这样容易造成聚类结果不稳定,且准确率较低。基于SSE用来选取聚类个数k值,基于聚类中心点所在的周围区域相对比较密集...
传统的数据挖掘技术如分类、聚类、关联和异常点发现等技术与OLAP技术的结合通常采用的方法是分类、聚类、关联和异常点发现的结果即为任务的终点和目标.然而事实上,在实际需求中用户不仅仅需要分类、聚类等数据...
Рассмотрена новая реализация FKM известного алгоритма k-medoids, основанная на общеизвестной PAM-реа...
PCCS是为了帮助Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档,而使用的一种对Web文档进行快速聚类的部分聚类方法:首先对一部分文档进行聚类,然后根据聚类结果形成分类模型对其余的文...