现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好.国家自然科学基金; 中国博士后科学基金; 四川省青年科技基金; 国家高技术研究发展计划(863计划); 北京市自然科学基金中文核心期刊要目总览(PKU)中国科技核心期刊(ISTIC)中国科学引文数据库(CSCD)081354-13633
针对目前聚类算法不能有效的处理模糊边界点的问题,提出了一种基于真实核心点的RDBSCAN聚类算法。提出真实核心点的概念,首先在密度聚类过程中的核心点进一步处理分类,把影响聚类效果的伪核心点剔除,将剩下...
ハイパースペクトル画像は,従来のマルチスペクトル画像と比較して,高周波数分解能であることから,対象物の分光スペクトル分布をより詳細に取得できる.そのため,従来よりも精ちな画像分類が可能と期待される.一...
基於屬性相似度將樣本進行分群的技術已經被廣泛應用在許多領域,如模式識別,特徵提取和惡意行為偵測。由於此技術的重要性,很多人已經將各種分群技術利用分散式框架進行再製,例如K-means搭配Hadoop在...
文本聚类技术是一门很热门且有前景的技术,由于具有无监督学习的特性,在文本挖掘领域文本聚类的核心思想相对来说比较简单易懂。文本聚类可分为三个大部分:文本预处理、文本表示模型以及聚类算法设计,其中文本表示...
信息时代的发展让越来越多的新闻事件充斥人们的生活,对于一件特定的新闻事件,目前已有很多算法可以帮助人们进行事件追踪和发现.提出一种CDW算法,帮助读者对于一件具有多个版本描述的新闻事件进行多个不同版本...
随着计算机行业和互联网的高速发展,人们使用计算机产生的数据也与日俱增。特别是最近的几年时间,使用计算机产生的数据量呈现出爆炸式增长。巨大的数据量给人们带来了新的挑战。巨大的数据如何存储、如何从巨大的数...
В статье представлено описание программной системы, которая позволяет выполнять кластеризац...
[[abstract]]在本研究中, 我們示範了一個基於自動分群為基礎的特徵合併程序, 這個合併程序藉由自動分群進行特徵轉換, 並使用合併程序產生新的特徵. 這個新的特徵處理流程相較於傳統的分類來說,...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
分析了目录识别研究的现状,在总结当前技术优缺点的基础上,提出了一种适应性和效率兼顾的目录识别方法.根据图书目录具有风格一致性的特点,利用聚类技术发现目录装饰性内容,生成具有自适应性的目录布局模型,然后...
İnsanoğlu doğası gereği nesneleri gruplandırmaya yatkın bir varlıktır. Örneğin yaşadığımız evler oda...
本論文之目標在於解決資料分群 (data clustering) 問題,為資料探勘領域中的經典問題之一。不同於以往使用特徵矩陣傳統解法,本論文考慮每筆資料兩兩之間的相似程度的資料矩陣作為分群之依據。為...
傳統圖書推薦系統依據讀者過去的借閱紀錄,推薦相關書籍給讀者,也可以藉由讀者所屬社群的資訊,推薦讀者從沒有借閱過的書籍。然而,讀者的閱讀興趣會隨著時間改變,借閱時間越近的圖書越能反應讀者當前興趣,每筆閱...
文本分类作为一项重要的数据挖掘技术,在国内广泛地应用于词义辨析、文本组织与管理、信息过滤、Web网页文档分类、数字图书馆、信息检索等众多领域,因此提高文本分类的精确度和效率有重要的研究意义。文本分类主...
针对目前聚类算法不能有效的处理模糊边界点的问题,提出了一种基于真实核心点的RDBSCAN聚类算法。提出真实核心点的概念,首先在密度聚类过程中的核心点进一步处理分类,把影响聚类效果的伪核心点剔除,将剩下...
ハイパースペクトル画像は,従来のマルチスペクトル画像と比較して,高周波数分解能であることから,対象物の分光スペクトル分布をより詳細に取得できる.そのため,従来よりも精ちな画像分類が可能と期待される.一...
基於屬性相似度將樣本進行分群的技術已經被廣泛應用在許多領域,如模式識別,特徵提取和惡意行為偵測。由於此技術的重要性,很多人已經將各種分群技術利用分散式框架進行再製,例如K-means搭配Hadoop在...
文本聚类技术是一门很热门且有前景的技术,由于具有无监督学习的特性,在文本挖掘领域文本聚类的核心思想相对来说比较简单易懂。文本聚类可分为三个大部分:文本预处理、文本表示模型以及聚类算法设计,其中文本表示...
信息时代的发展让越来越多的新闻事件充斥人们的生活,对于一件特定的新闻事件,目前已有很多算法可以帮助人们进行事件追踪和发现.提出一种CDW算法,帮助读者对于一件具有多个版本描述的新闻事件进行多个不同版本...
随着计算机行业和互联网的高速发展,人们使用计算机产生的数据也与日俱增。特别是最近的几年时间,使用计算机产生的数据量呈现出爆炸式增长。巨大的数据量给人们带来了新的挑战。巨大的数据如何存储、如何从巨大的数...
В статье представлено описание программной системы, которая позволяет выполнять кластеризац...
[[abstract]]在本研究中, 我們示範了一個基於自動分群為基礎的特徵合併程序, 這個合併程序藉由自動分群進行特徵轉換, 並使用合併程序產生新的特徵. 這個新的特徵處理流程相較於傳統的分類來說,...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
分析了目录识别研究的现状,在总结当前技术优缺点的基础上,提出了一种适应性和效率兼顾的目录识别方法.根据图书目录具有风格一致性的特点,利用聚类技术发现目录装饰性内容,生成具有自适应性的目录布局模型,然后...
İnsanoğlu doğası gereği nesneleri gruplandırmaya yatkın bir varlıktır. Örneğin yaşadığımız evler oda...
本論文之目標在於解決資料分群 (data clustering) 問題,為資料探勘領域中的經典問題之一。不同於以往使用特徵矩陣傳統解法,本論文考慮每筆資料兩兩之間的相似程度的資料矩陣作為分群之依據。為...
傳統圖書推薦系統依據讀者過去的借閱紀錄,推薦相關書籍給讀者,也可以藉由讀者所屬社群的資訊,推薦讀者從沒有借閱過的書籍。然而,讀者的閱讀興趣會隨著時間改變,借閱時間越近的圖書越能反應讀者當前興趣,每筆閱...
文本分类作为一项重要的数据挖掘技术,在国内广泛地应用于词义辨析、文本组织与管理、信息过滤、Web网页文档分类、数字图书馆、信息检索等众多领域,因此提高文本分类的精确度和效率有重要的研究意义。文本分类主...
针对目前聚类算法不能有效的处理模糊边界点的问题,提出了一种基于真实核心点的RDBSCAN聚类算法。提出真实核心点的概念,首先在密度聚类过程中的核心点进一步处理分类,把影响聚类效果的伪核心点剔除,将剩下...
ハイパースペクトル画像は,従来のマルチスペクトル画像と比較して,高周波数分解能であることから,対象物の分光スペクトル分布をより詳細に取得できる.そのため,従来よりも精ちな画像分類が可能と期待される.一...
基於屬性相似度將樣本進行分群的技術已經被廣泛應用在許多領域,如模式識別,特徵提取和惡意行為偵測。由於此技術的重要性,很多人已經將各種分群技術利用分散式框架進行再製,例如K-means搭配Hadoop在...