针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing based clustering Algorithm).新方法克服了传统聚类算法标称型计算的缺陷,提高了聚类精度.针对聚类算法的中心点问题,提出了相应的层次编码型数据的快速处理算法,并从理论上证明了算法的正确性.实验表明,对比朴素处理算法,HDCA的性能明显提高.新算法已经应用到警用流动人口分析当中,取得了良好效果.国家自然科学基金; 中国博士后科学基金; 四川省青年科技基金; 国家高技术研究发展计划(863计划); 北京市自然科学基金中文核心期刊要目总览(PKU)中国科技核心期刊(ISTIC)中国科学引文数据库(CSCD)05786-7953
これまでに, データベースに対する検索システムは, 精度, 再現度, 速度ともにめざましく進歩した. 検索は生活のあらゆるレベルに浸透し, コモディティ化したため, 検索に対する要求も性能面はもちろん...
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数...
传统K-means算法的聚类数k值事先无法确定,而且算法是随机性地选取初始聚类中心点,这样容易造成聚类结果不稳定,且准确率较低。基于SSE用来选取聚类个数k值,基于聚类中心点所在的周围区域相对比较密集...
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hierarch...
数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering...
传统属性空间的密度聚类算法仅考虑对象属性取值相似度,网络空间密度聚类算法仅关注对象间关系紧密度.针对两类算法的不足,提出一种兼顾属性距离及关系强度的密度聚类算法.在构建兼顾属性距离及关系强度的网络之后...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
引入序关系保持的思想,即层次聚类的簇间距离度量应该能够最大限度地维护样本点闻的原始距离排序关系.定义了样本点对序关系的概念和序关系损失度量,证明了序关系损失度量可用做聚类的目标准则函数和聚类结果质量的...
To deal with the hierarchy coding data structure widely existed in application, this paper proposes ...
聚类是数据挖掘领域中最活跃的研究分支之一,聚类技术在其他的科学领域也有广泛的应用。迄今为止已经提出了大量的聚类算法,其中基于密度的DBSCAN算法因其很多优点而备受关注,为了减少DBSCAN的区域查询...
随着信息技术的高速发展,数据量急剧增长,如何从海量的数据中提取有用的信息和知识成为当务之急。数据挖掘就是解决这个问题的新兴领域。聚类分析作为数据挖掘领域中的一个重要课题,受到了越来越多的关注。目前聚类...
针对目前聚类算法不能有效的处理模糊边界点的问题,提出了一种基于真实核心点的RDBSCAN聚类算法。提出真实核心点的概念,首先在密度聚类过程中的核心点进一步处理分类,把影响聚类效果的伪核心点剔除,将剩下...
計畫編號:NSC95-2119-M032-002研究期間:200612~200707研究經費:240,000[[abstract]]本計畫主要是探討長期追蹤資料(longitudinal data)的...
K-means 演算法是一個十分普及的分類演算法,它廣泛的運用在各種工程以及科學領域上,像是影像分割(Image segmentation)、圖形識別(Pattern classification)與...
The system is representing hierarchical multilevel approach of clustering and explores dynamic model...
これまでに, データベースに対する検索システムは, 精度, 再現度, 速度ともにめざましく進歩した. 検索は生活のあらゆるレベルに浸透し, コモディティ化したため, 検索に対する要求も性能面はもちろん...
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数...
传统K-means算法的聚类数k值事先无法确定,而且算法是随机性地选取初始聚类中心点,这样容易造成聚类结果不稳定,且准确率较低。基于SSE用来选取聚类个数k值,基于聚类中心点所在的周围区域相对比较密集...
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hierarch...
数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering...
传统属性空间的密度聚类算法仅考虑对象属性取值相似度,网络空间密度聚类算法仅关注对象间关系紧密度.针对两类算法的不足,提出一种兼顾属性距离及关系强度的密度聚类算法.在构建兼顾属性距离及关系强度的网络之后...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
引入序关系保持的思想,即层次聚类的簇间距离度量应该能够最大限度地维护样本点闻的原始距离排序关系.定义了样本点对序关系的概念和序关系损失度量,证明了序关系损失度量可用做聚类的目标准则函数和聚类结果质量的...
To deal with the hierarchy coding data structure widely existed in application, this paper proposes ...
聚类是数据挖掘领域中最活跃的研究分支之一,聚类技术在其他的科学领域也有广泛的应用。迄今为止已经提出了大量的聚类算法,其中基于密度的DBSCAN算法因其很多优点而备受关注,为了减少DBSCAN的区域查询...
随着信息技术的高速发展,数据量急剧增长,如何从海量的数据中提取有用的信息和知识成为当务之急。数据挖掘就是解决这个问题的新兴领域。聚类分析作为数据挖掘领域中的一个重要课题,受到了越来越多的关注。目前聚类...
针对目前聚类算法不能有效的处理模糊边界点的问题,提出了一种基于真实核心点的RDBSCAN聚类算法。提出真实核心点的概念,首先在密度聚类过程中的核心点进一步处理分类,把影响聚类效果的伪核心点剔除,将剩下...
計畫編號:NSC95-2119-M032-002研究期間:200612~200707研究經費:240,000[[abstract]]本計畫主要是探討長期追蹤資料(longitudinal data)的...
K-means 演算法是一個十分普及的分類演算法,它廣泛的運用在各種工程以及科學領域上,像是影像分割(Image segmentation)、圖形識別(Pattern classification)與...
The system is representing hierarchical multilevel approach of clustering and explores dynamic model...
これまでに, データベースに対する検索システムは, 精度, 再現度, 速度ともにめざましく進歩した. 検索は生活のあらゆるレベルに浸透し, コモディティ化したため, 検索に対する要求も性能面はもちろん...
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数...
传统K-means算法的聚类数k值事先无法确定,而且算法是随机性地选取初始聚类中心点,这样容易造成聚类结果不稳定,且准确率较低。基于SSE用来选取聚类个数k值,基于聚类中心点所在的周围区域相对比较密集...