PCCS是为了帮助Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档,而使用的一种对Web文档进行快速聚类的部分聚类方法:首先对一部分文档进行聚类,然后根据聚类结果形成分类模型对其余的文档进行分类.采用交互式的一次改进一个聚类摘选的聚类方法快速地创建一个聚类摘选集,将其余的文档使用Nal ¨ ve-Bayes分类器进行划分.为了提高聚类与分类的效率,提出了一种混合特征选取方法以减少文档表示的维数:重新计算文档中各特征的熵,从中选取具有最大熵值的前若干个特征;或者基于持久分类模型中的特征集来进行特征选取.实验证明,部分聚类方法能够快速、准确地根据文档主题内容组织Web文档,使用户在更高的主题层次上来查看搜索引擎返回的结果,从以主题相似的文档所形成的集簇中选择相关文档.国家重点基础研究发展计划(973计划)中文核心期刊要目总览(PKU)中国科学引文数据库(CSCD)04415-4213
低速分散式阻斷服務攻擊是一種具有隱蔽地攻擊性的網際網路攻擊手法。其中一種又稱之為脈衝分散式阻斷服務攻擊,這種攻擊的原理為利用 TCP 擁塞控制的弱點,只需要傳輸少於傳統的洪水型分散式阻斷服務攻擊的惡意...
В статье представлено описание программной системы, которая позволяет выполнять кластеризац...
聚类结果的有效性由结构有效性、算法有效性和先验知识有效性3个方面的因素决定.忽略先验知识和假设结构的有效性孤立地提升聚类算法的有效性很可能产生无效的聚类结果.现有聚类方法通常只是简单地导出假设结构下最...
数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering...
一般にWeb検索システムは仮想的・平均的なユーザにとって有益な情報を提供できるよう設計されている。しかし、現実にシステムを利用するのは多様な個々のユーザであり、求める情報の傾向もそれぞれに異なる。検索...
情報処理学会DICOMOシンポジウム高移動頻度環境への対応能力を向上させる代表的な手法としてクラスタリングが用いられるが,従来のアルゴリズムでは効率的な経路構築が実現可能となるものの,長経路通信によっ...
文本聚类技术是一门很热门且有前景的技术,由于具有无监督学习的特性,在文本挖掘领域文本聚类的核心思想相对来说比较简单易懂。文本聚类可分为三个大部分:文本预处理、文本表示模型以及聚类算法设计,其中文本表示...
ハイパースペクトル画像は,従来のマルチスペクトル画像と比較して,高周波数分解能であることから,対象物の分光スペクトル分布をより詳細に取得できる.そのため,従来よりも精ちな画像分類が可能と期待される.一...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
DBSCAN是一個頗負盛名的密度分群演算法,它的特色是可以在充滿雜訊的環境中找到具有任意形狀的群體。然而當資料的規模愈來愈大時,因為單一的電腦很難在效能上有所提升,DBSCAN無法有效率地處理這大量的...
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
[[abstract]]本計畫內容延續上一年度計畫,除平行化自動展開開局庫、設計更精良的審局函數之外,並將叢集計算技術應用於電腦象棋程式,將平行化搜尋技術加入目前的象棋程式中,並配合未來硬體發展之趨勢...
针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing...
Рассмотрена новая реализация FKM известного алгоритма k-medoids, основанная на общеизвестной PAM-реа...
頻繁に通信を行う並列アプリケーションの性能向上にとって,ネットワークを考慮した最適化が非常に重要である.そのためにはLAN内であっても複数スイッチの構成情報を得る必要がある.しかしホストが頻繁に増減す...
低速分散式阻斷服務攻擊是一種具有隱蔽地攻擊性的網際網路攻擊手法。其中一種又稱之為脈衝分散式阻斷服務攻擊,這種攻擊的原理為利用 TCP 擁塞控制的弱點,只需要傳輸少於傳統的洪水型分散式阻斷服務攻擊的惡意...
В статье представлено описание программной системы, которая позволяет выполнять кластеризац...
聚类结果的有效性由结构有效性、算法有效性和先验知识有效性3个方面的因素决定.忽略先验知识和假设结构的有效性孤立地提升聚类算法的有效性很可能产生无效的聚类结果.现有聚类方法通常只是简单地导出假设结构下最...
数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering...
一般にWeb検索システムは仮想的・平均的なユーザにとって有益な情報を提供できるよう設計されている。しかし、現実にシステムを利用するのは多様な個々のユーザであり、求める情報の傾向もそれぞれに異なる。検索...
情報処理学会DICOMOシンポジウム高移動頻度環境への対応能力を向上させる代表的な手法としてクラスタリングが用いられるが,従来のアルゴリズムでは効率的な経路構築が実現可能となるものの,長経路通信によっ...
文本聚类技术是一门很热门且有前景的技术,由于具有无监督学习的特性,在文本挖掘领域文本聚类的核心思想相对来说比较简单易懂。文本聚类可分为三个大部分:文本预处理、文本表示模型以及聚类算法设计,其中文本表示...
ハイパースペクトル画像は,従来のマルチスペクトル画像と比較して,高周波数分解能であることから,対象物の分光スペクトル分布をより詳細に取得できる.そのため,従来よりも精ちな画像分類が可能と期待される.一...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
DBSCAN是一個頗負盛名的密度分群演算法,它的特色是可以在充滿雜訊的環境中找到具有任意形狀的群體。然而當資料的規模愈來愈大時,因為單一的電腦很難在效能上有所提升,DBSCAN無法有效率地處理這大量的...
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
[[abstract]]本計畫內容延續上一年度計畫,除平行化自動展開開局庫、設計更精良的審局函數之外,並將叢集計算技術應用於電腦象棋程式,將平行化搜尋技術加入目前的象棋程式中,並配合未來硬體發展之趨勢...
针对广泛存在的层次编码型数据类型,提出了层次距离的新概念,证明了相关的数学性质,并在此基础上提出并实现了新的基于层次距离计算的聚类算法HDCA(Hierarchy Distance Computing...
Рассмотрена новая реализация FKM известного алгоритма k-medoids, основанная на общеизвестной PAM-реа...
頻繁に通信を行う並列アプリケーションの性能向上にとって,ネットワークを考慮した最適化が非常に重要である.そのためにはLAN内であっても複数スイッチの構成情報を得る必要がある.しかしホストが頻繁に増減す...
低速分散式阻斷服務攻擊是一種具有隱蔽地攻擊性的網際網路攻擊手法。其中一種又稱之為脈衝分散式阻斷服務攻擊,這種攻擊的原理為利用 TCP 擁塞控制的弱點,只需要傳輸少於傳統的洪水型分散式阻斷服務攻擊的惡意...
В статье представлено описание программной системы, которая позволяет выполнять кластеризац...
聚类结果的有效性由结构有效性、算法有效性和先验知识有效性3个方面的因素决定.忽略先验知识和假设结构的有效性孤立地提升聚类算法的有效性很可能产生无效的聚类结果.现有聚类方法通常只是简单地导出假设结构下最...