传统属性空间的密度聚类算法仅考虑对象属性取值相似度,网络空间密度聚类算法仅关注对象间关系紧密度.针对两类算法的不足,提出一种兼顾属性距离及关系强度的密度聚类算法.在构建兼顾属性距离及关系强度的网络之后,完善了近邻对象及核心对象的概念,并给出了相应的聚类策略.理论分析和实验结果表明,由于综合考虑了属性、关系及关系强度信息,算法规避了对象属性值分布对聚类过程的影响,改善了聚类效果,并能有效识别枢纽点和孤立点.国家自然科学基金资助项目中文核心期刊要目总览(PKU)中国科技核心期刊(ISTIC)中国科学引文数据库(CSCD)0113283-32863
Рассмотрена задача кластеризациии данных, заданных в порядковой шкале, в условиях перекрывающихся кл...
計畫編號:NSC95-2119-M032-002研究期間:200612~200707研究經費:240,000[[abstract]]本計畫主要是探討長期追蹤資料(longitudinal data)的...
传统K-means算法的聚类数k值事先无法确定,而且算法是随机性地选取初始聚类中心点,这样容易造成聚类结果不稳定,且准确率较低。基于SSE用来选取聚类个数k值,基于聚类中心点所在的周围区域相对比较密集...
针对目前聚类算法不能有效的处理模糊边界点的问题,提出了一种基于真实核心点的RDBSCAN聚类算法。提出真实核心点的概念,首先在密度聚类过程中的核心点进一步处理分类,把影响聚类效果的伪核心点剔除,将剩下...
数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering...
针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing...
针对基于密度的聚类算法不能自动处理密度分布不均匀的数据问题,提出一种基于不均匀密度的自动聚类算法.该算法既保持了一般基于密度算法的优点,也能有效地处理分布不均匀的数据.实验结果表明,该算法是有效的.国...
随着信息技术的高速发展,数据量急剧增长,如何从海量的数据中提取有用的信息和知识成为当务之急。数据挖掘就是解决这个问题的新兴领域。聚类分析作为数据挖掘领域中的一个重要课题,受到了越来越多的关注。目前聚类...
Teknolojinin hızla gelişimi, elde edilen ve saklanan verilerin sayısının büyük boyutlara ulaşmasına ...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
K-means 演算法是一個十分普及的分類演算法,它廣泛的運用在各種工程以及科學領域上,像是影像分割(Image segmentation)、圖形識別(Pattern classification)與...
传统的数据挖掘技术如分类、聚类、关联和异常点发现等技术与OLAP技术的结合通常采用的方法是分类、聚类、关联和异常点发现的结果即为任务的终点和目标.然而事实上,在实际需求中用户不仅仅需要分类、聚类等数据...
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数...
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hierarch...
聚类是在假设数据具有某种群聚结构的前提下根据观察到的无标记样本发现数据的最优划分.现有的聚类算法通常简单地导出假设结构和给定先验下最优或较优的聚类结果,体现为算法对样本分布拟合度的迭代最优化,即算法有...
Рассмотрена задача кластеризациии данных, заданных в порядковой шкале, в условиях перекрывающихся кл...
計畫編號:NSC95-2119-M032-002研究期間:200612~200707研究經費:240,000[[abstract]]本計畫主要是探討長期追蹤資料(longitudinal data)的...
传统K-means算法的聚类数k值事先无法确定,而且算法是随机性地选取初始聚类中心点,这样容易造成聚类结果不稳定,且准确率较低。基于SSE用来选取聚类个数k值,基于聚类中心点所在的周围区域相对比较密集...
针对目前聚类算法不能有效的处理模糊边界点的问题,提出了一种基于真实核心点的RDBSCAN聚类算法。提出真实核心点的概念,首先在密度聚类过程中的核心点进一步处理分类,把影响聚类效果的伪核心点剔除,将剩下...
数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering...
针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing...
针对基于密度的聚类算法不能自动处理密度分布不均匀的数据问题,提出一种基于不均匀密度的自动聚类算法.该算法既保持了一般基于密度算法的优点,也能有效地处理分布不均匀的数据.实验结果表明,该算法是有效的.国...
随着信息技术的高速发展,数据量急剧增长,如何从海量的数据中提取有用的信息和知识成为当务之急。数据挖掘就是解决这个问题的新兴领域。聚类分析作为数据挖掘领域中的一个重要课题,受到了越来越多的关注。目前聚类...
Teknolojinin hızla gelişimi, elde edilen ve saklanan verilerin sayısının büyük boyutlara ulaşmasına ...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
K-means 演算法是一個十分普及的分類演算法,它廣泛的運用在各種工程以及科學領域上,像是影像分割(Image segmentation)、圖形識別(Pattern classification)與...
传统的数据挖掘技术如分类、聚类、关联和异常点发现等技术与OLAP技术的结合通常采用的方法是分类、聚类、关联和异常点发现的结果即为任务的终点和目标.然而事实上,在实际需求中用户不仅仅需要分类、聚类等数据...
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数...
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hierarch...
聚类是在假设数据具有某种群聚结构的前提下根据观察到的无标记样本发现数据的最优划分.现有的聚类算法通常简单地导出假设结构和给定先验下最优或较优的聚类结果,体现为算法对样本分布拟合度的迭代最优化,即算法有...
Рассмотрена задача кластеризациии данных, заданных в порядковой шкале, в условиях перекрывающихся кл...
計畫編號:NSC95-2119-M032-002研究期間:200612~200707研究經費:240,000[[abstract]]本計畫主要是探討長期追蹤資料(longitudinal data)的...
传统K-means算法的聚类数k值事先无法确定,而且算法是随机性地选取初始聚类中心点,这样容易造成聚类结果不稳定,且准确率较低。基于SSE用来选取聚类个数k值,基于聚类中心点所在的周围区域相对比较密集...