R*树是目前公认查询效果很好的R树变体,但是其构造代价较原始R树增加数倍,对于插入删除和更新频繁的空间数据效果不好.为此,本文提出一种基于惰性聚类分裂技术的R树动态实现方法(LR树).惰性聚类分裂技术是在对象插入节点导致溢出时不立即进行分裂,而是尝试将其插入到邻近的未满节点中,直到邻近节点均已满时,再利用聚类技术进行节点分裂,在邻近节点和分裂节点之间重组入口项.LR树在确保查询性能的前提下,大大降低了构造代价,并且大幅提高了索引结构的空间利用率.最后的分析和实验证明了LR树的高效性.国家自然科学基金中文核心期刊要目总览(PKU)中国科技核心期刊(ISTIC)中国科学引文数据库(CSCD)04102-103,1253
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
对大型复杂系统进行聚类分析能够改善软件维护的效率和效果,同时也是获取可复用构件的基础.提出一种基于需求层次凝聚的程序聚类方法来解决这个问题.该方法利用存在于需求描述中的语义信息获取问题域的高层逻辑,结...
移动通信技术和无限定位技术的发展积累了海量的、动态增长的时空数据.利用数据挖掘技术从移动用户的时空行为轨迹当中挖掘用户移动序列模式,在移动通信、交通管理、基于位置服务等领域有着广泛的应用前景.由于移动...
聚类是在假设数据具有某种群聚结构的前提下根据观察到的无标记样本发现数据的最优划分.现有的聚类算法通常简单地导出假设结构和给定先验下最优或较优的聚类结果,体现为算法对样本分布拟合度的迭代最优化,即算法有...
Discusses options for lazy evaluation in parallel systems used in different tools. Proposed several ...
一般にWeb検索システムは仮想的・平均的なユーザにとって有益な情報を提供できるよう設計されている。しかし、現実にシステムを利用するのは多様な個々のユーザであり、求める情報の傾向もそれぞれに異なる。検索...
聚类结果的有效性由结构有效性、算法有效性和先验知识有效性3个方面的因素决定.忽略先验知识和假设结构的有效性孤立地提升聚类算法的有效性很可能产生无效的聚类结果.现有聚类方法通常只是简单地导出假设结构下最...
計畫編號:NSC95-2119-M032-002研究期間:200612~200707研究經費:240,000[[abstract]]本計畫主要是探討長期追蹤資料(longitudinal data)的...
查询优化在大型检索系统中是十分必要的.查询优化包括静态形式、结合词集的形式和动态自动聚类形式.文章概要分析了AlltheWeb、Teoma、Vivisimo、GuideBeam等动态自动聚类的特点和机...
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hierarch...
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法....
聚类是数据挖掘领域中最活跃的研究分支之一,聚类技术在其他的科学领域也有广泛的应用。迄今为止已经提出了大量的聚类算法,其中基于密度的DBSCAN算法因其很多优点而备受关注,为了减少DBSCAN的区域查询...
传统的数据挖掘技术如分类、聚类、关联和异常点发现等技术与OLAP技术的结合通常采用的方法是分类、聚类、关联和异常点发现的结果即为任务的终点和目标.然而事实上,在实际需求中用户不仅仅需要分类、聚类等数据...
The system is representing hierarchical multilevel approach of clustering and explores dynamic model...
数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
对大型复杂系统进行聚类分析能够改善软件维护的效率和效果,同时也是获取可复用构件的基础.提出一种基于需求层次凝聚的程序聚类方法来解决这个问题.该方法利用存在于需求描述中的语义信息获取问题域的高层逻辑,结...
移动通信技术和无限定位技术的发展积累了海量的、动态增长的时空数据.利用数据挖掘技术从移动用户的时空行为轨迹当中挖掘用户移动序列模式,在移动通信、交通管理、基于位置服务等领域有着广泛的应用前景.由于移动...
聚类是在假设数据具有某种群聚结构的前提下根据观察到的无标记样本发现数据的最优划分.现有的聚类算法通常简单地导出假设结构和给定先验下最优或较优的聚类结果,体现为算法对样本分布拟合度的迭代最优化,即算法有...
Discusses options for lazy evaluation in parallel systems used in different tools. Proposed several ...
一般にWeb検索システムは仮想的・平均的なユーザにとって有益な情報を提供できるよう設計されている。しかし、現実にシステムを利用するのは多様な個々のユーザであり、求める情報の傾向もそれぞれに異なる。検索...
聚类结果的有效性由结构有效性、算法有效性和先验知识有效性3个方面的因素决定.忽略先验知识和假设结构的有效性孤立地提升聚类算法的有效性很可能产生无效的聚类结果.现有聚类方法通常只是简单地导出假设结构下最...
計畫編號:NSC95-2119-M032-002研究期間:200612~200707研究經費:240,000[[abstract]]本計畫主要是探討長期追蹤資料(longitudinal data)的...
查询优化在大型检索系统中是十分必要的.查询优化包括静态形式、结合词集的形式和动态自动聚类形式.文章概要分析了AlltheWeb、Teoma、Vivisimo、GuideBeam等动态自动聚类的特点和机...
为了识别犯罪嫌疑人伪造和篡改的虚假身份,利用树编辑距离计算个体属性相似性,证明了树编辑距离的相关数学性质,对属性应用层次编码方法,提出了一种新的基于树编辑距离的层次聚类算法HCTED(Hierarch...
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法....
聚类是数据挖掘领域中最活跃的研究分支之一,聚类技术在其他的科学领域也有广泛的应用。迄今为止已经提出了大量的聚类算法,其中基于密度的DBSCAN算法因其很多优点而备受关注,为了减少DBSCAN的区域查询...
传统的数据挖掘技术如分类、聚类、关联和异常点发现等技术与OLAP技术的结合通常采用的方法是分类、聚类、关联和异常点发现的结果即为任务的终点和目标.然而事实上,在实际需求中用户不仅仅需要分类、聚类等数据...
The system is representing hierarchical multilevel approach of clustering and explores dynamic model...
数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
对大型复杂系统进行聚类分析能够改善软件维护的效率和效果,同时也是获取可复用构件的基础.提出一种基于需求层次凝聚的程序聚类方法来解决这个问题.该方法利用存在于需求描述中的语义信息获取问题域的高层逻辑,结...
移动通信技术和无限定位技术的发展积累了海量的、动态增长的时空数据.利用数据挖掘技术从移动用户的时空行为轨迹当中挖掘用户移动序列模式,在移动通信、交通管理、基于位置服务等领域有着广泛的应用前景.由于移动...