随着现有数据体量的迅速增长,超大规模中高维数据集的聚类问题变得越来越重要;而现有的子空间聚类算法大多是单机串行执行,处理此类问题效率极低.讨论了利用MapReduce对这类数据集进行并行聚类的方法,提出了基于MapRe-duce的抽样-忽略子空间聚类算法(sample-ignore subspace clustering using MapReduce,SISCMR).该算法将串行聚类算法用作插件,具有很好的通用性.在人造和真实数据集上进行了大量实验,其中最大为0.2 TB的数据集在128个核心的集群中仅用不到10 min就完成了聚类,验证了该算法良好的聚类质量、近线性的可扩展性和高效的聚类性能,证明了基于MapReduce的并行聚类的可行性.With the data volume we create growing fast,the problem of subspace clustering of very large scale moderate-to-high dimensional dataset becomes highly important.But most subspace clustering methods can't efficiently solve this problem due to serial processing on single machine.Thus,Sample-Ignore Subspace Clustering using MapReduce(SISCMR) was proposed that can effectively solve this question.SISCMR has a great ad...
Data clustering is an important data mining technology that plays a crucial role in numerous scienti...
Abstract The traditional methods of clustering are unable to cope with the exploding volume of data ...
聚类是数据挖掘领域中最活跃的研究分支之一,聚类技术在其他的科学领域也有广泛的应用。迄今为止已经提出了大量的聚类算法,其中基于密度的DBSCAN算法因其很多优点而备受关注,为了减少DBSCAN的区域查询...
Finding clusters in high dimensional data is a challenging research problem. Subspace clustering alg...
MapReduce是由Google提出的并行计算框架,具备高可扩展性、高可用性和良好的容错性,现已广泛应用于处理大规模数据。连接操作是大数据分析中的一个常见运算,随着数据规模的进一步增大,如何有效处理...
Finding clusters in high dimensional data is a challenging research problem. Subspace clustering alg...
Finding clusters in high dimensional data is a challenging research problem. Subspace clustering alg...
Subspace clustering aims to find all clusters in all subspaces of a high-dimensional data space. We ...
Abstract—Clustering is considered as one of the most important tasks in data mining. The goal of clu...
隨著資料維度以及資料量增加,以全部資料維度為主的分群方法仍有很大的改善空間。因此,近來子空間分群的方法愈來愈受到重視。在本篇論文中,我們提出一個創新的子空間探勘方法,它同時能看到所有頻繁子空間的全貌。...
随着信息技术的高速发展,数据量急剧增长,如何从海量的数据中提取有用的信息和知识成为当务之急。数据挖掘就是解决这个问题的新兴领域。聚类分析作为数据挖掘领域中的一个重要课题,受到了越来越多的关注。目前聚类...
Clustering problems have numerous applications and are becoming more challenging as the size of the ...
MapReduce是一个目前应用广泛的并行计算框架,如何解决Reduce节点的负载平衡问题是MapReduce程序执行效率的一个重要研究方向.基于抽样的划分是一种比较有效的数据划分方法,为了使得抽样方...
聚类是在假设数据具有某种群聚结构的前提下根据观察到的无标记样本发现数据的最优划分.现有的聚类算法通常简单地导出假设结构和给定先验下最优或较优的聚类结果,体现为算法对样本分布拟合度的迭代最优化,即算法有...
针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing...
Data clustering is an important data mining technology that plays a crucial role in numerous scienti...
Abstract The traditional methods of clustering are unable to cope with the exploding volume of data ...
聚类是数据挖掘领域中最活跃的研究分支之一,聚类技术在其他的科学领域也有广泛的应用。迄今为止已经提出了大量的聚类算法,其中基于密度的DBSCAN算法因其很多优点而备受关注,为了减少DBSCAN的区域查询...
Finding clusters in high dimensional data is a challenging research problem. Subspace clustering alg...
MapReduce是由Google提出的并行计算框架,具备高可扩展性、高可用性和良好的容错性,现已广泛应用于处理大规模数据。连接操作是大数据分析中的一个常见运算,随着数据规模的进一步增大,如何有效处理...
Finding clusters in high dimensional data is a challenging research problem. Subspace clustering alg...
Finding clusters in high dimensional data is a challenging research problem. Subspace clustering alg...
Subspace clustering aims to find all clusters in all subspaces of a high-dimensional data space. We ...
Abstract—Clustering is considered as one of the most important tasks in data mining. The goal of clu...
隨著資料維度以及資料量增加,以全部資料維度為主的分群方法仍有很大的改善空間。因此,近來子空間分群的方法愈來愈受到重視。在本篇論文中,我們提出一個創新的子空間探勘方法,它同時能看到所有頻繁子空間的全貌。...
随着信息技术的高速发展,数据量急剧增长,如何从海量的数据中提取有用的信息和知识成为当务之急。数据挖掘就是解决这个问题的新兴领域。聚类分析作为数据挖掘领域中的一个重要课题,受到了越来越多的关注。目前聚类...
Clustering problems have numerous applications and are becoming more challenging as the size of the ...
MapReduce是一个目前应用广泛的并行计算框架,如何解决Reduce节点的负载平衡问题是MapReduce程序执行效率的一个重要研究方向.基于抽样的划分是一种比较有效的数据划分方法,为了使得抽样方...
聚类是在假设数据具有某种群聚结构的前提下根据观察到的无标记样本发现数据的最优划分.现有的聚类算法通常简单地导出假设结构和给定先验下最优或较优的聚类结果,体现为算法对样本分布拟合度的迭代最优化,即算法有...
针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing...
Data clustering is an important data mining technology that plays a crucial role in numerous scienti...
Abstract The traditional methods of clustering are unable to cope with the exploding volume of data ...
聚类是数据挖掘领域中最活跃的研究分支之一,聚类技术在其他的科学领域也有广泛的应用。迄今为止已经提出了大量的聚类算法,其中基于密度的DBSCAN算法因其很多优点而备受关注,为了减少DBSCAN的区域查询...