信息时代的发展让越来越多的新闻事件充斥人们的生活,对于一件特定的新闻事件,目前已有很多算法可以帮助人们进行事件追踪和发现.提出一种CDW算法,帮助读者对于一件具有多个版本描述的新闻事件进行多个不同版本的发现.这个算法将文档集映射到话题层,通过提取每个话题的流行词,以得到文档集中具有高区分度的特征.然后根据这些特征对文档集进行聚类,最后得到事件的多个版本.通过在2个实际数据集上进行实验,实验结果表明,该算法与以往的相关算法相比是十分有效的.国家自然科学基金资助项目中文核心期刊要目总览(PKU)中国科技核心期刊(ISTIC)04307-314
[[abstract]]在本研究中, 我們示範了一個基於自動分群為基礎的特徵合併程序, 這個合併程序藉由自動分群進行特徵轉換, 並使用合併程序產生新的特徵. 這個新的特徵處理流程相較於傳統的分類來說,...
基於屬性相似度將樣本進行分群的技術已經被廣泛應用在許多領域,如模式識別,特徵提取和惡意行為偵測。由於此技術的重要性,很多人已經將各種分群技術利用分散式框架進行再製,例如K-means搭配Hadoop在...
多文本摘要的目标是对给定的查询和多篇文本(文本集),创建一个简洁明了的摘要,要求该摘要能够表达这些文本的关键内容,同时和给定的查询相关。一个给定的文本集通常包含一些主题,而且每个主题由一类句子来表示,...
文本聚类技术是一门很热门且有前景的技术,由于具有无监督学习的特性,在文本挖掘领域文本聚类的核心思想相对来说比较简单易懂。文本聚类可分为三个大部分:文本预处理、文本表示模型以及聚类算法设计,其中文本表示...
随着计算机行业和互联网的高速发展,人们使用计算机产生的数据也与日俱增。特别是最近的几年时间,使用计算机产生的数据量呈现出爆炸式增长。巨大的数据量给人们带来了新的挑战。巨大的数据如何存储、如何从巨大的数...
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法....
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
一般にWeb検索システムは仮想的・平均的なユーザにとって有益な情報を提供できるよう設計されている。しかし、現実にシステムを利用するのは多様な個々のユーザであり、求める情報の傾向もそれぞれに異なる。検索...
对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果.该文提出了一种新的思路...
В статье представлено описание программной системы, которая позволяет выполнять кластеризац...
これまでに, データベースに対する検索システムは, 精度, 再現度, 速度ともにめざましく進歩した. 検索は生活のあらゆるレベルに浸透し, コモディティ化したため, 検索に対する要求も性能面はもちろん...
本稿では複合名詞に着目したWeb検索結果のクラスタリング手法を提案する.本手法では検索結果のタイトルと要約を利用し,階層的で一つの検索結果が複数のクラスタに含まれることを認めるクラスタリングを行う.本...
[[abstract]]物種演化中大規模的演化事件,基因重組,改變了染色體上基因的順序。通常兩個親源接近的真核生物,有許多基因內容相同但順序的不同的染色體片段,稱為基因群組。基因群組可能是共同祖先演化...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
Описан подход к решению проблемы выделения информативных признаков в задаче классификации текстовых ...
[[abstract]]在本研究中, 我們示範了一個基於自動分群為基礎的特徵合併程序, 這個合併程序藉由自動分群進行特徵轉換, 並使用合併程序產生新的特徵. 這個新的特徵處理流程相較於傳統的分類來說,...
基於屬性相似度將樣本進行分群的技術已經被廣泛應用在許多領域,如模式識別,特徵提取和惡意行為偵測。由於此技術的重要性,很多人已經將各種分群技術利用分散式框架進行再製,例如K-means搭配Hadoop在...
多文本摘要的目标是对给定的查询和多篇文本(文本集),创建一个简洁明了的摘要,要求该摘要能够表达这些文本的关键内容,同时和给定的查询相关。一个给定的文本集通常包含一些主题,而且每个主题由一类句子来表示,...
文本聚类技术是一门很热门且有前景的技术,由于具有无监督学习的特性,在文本挖掘领域文本聚类的核心思想相对来说比较简单易懂。文本聚类可分为三个大部分:文本预处理、文本表示模型以及聚类算法设计,其中文本表示...
随着计算机行业和互联网的高速发展,人们使用计算机产生的数据也与日俱增。特别是最近的几年时间,使用计算机产生的数据量呈现出爆炸式增长。巨大的数据量给人们带来了新的挑战。巨大的数据如何存储、如何从巨大的数...
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法....
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
一般にWeb検索システムは仮想的・平均的なユーザにとって有益な情報を提供できるよう設計されている。しかし、現実にシステムを利用するのは多様な個々のユーザであり、求める情報の傾向もそれぞれに異なる。検索...
对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果.该文提出了一种新的思路...
В статье представлено описание программной системы, которая позволяет выполнять кластеризац...
これまでに, データベースに対する検索システムは, 精度, 再現度, 速度ともにめざましく進歩した. 検索は生活のあらゆるレベルに浸透し, コモディティ化したため, 検索に対する要求も性能面はもちろん...
本稿では複合名詞に着目したWeb検索結果のクラスタリング手法を提案する.本手法では検索結果のタイトルと要約を利用し,階層的で一つの検索結果が複数のクラスタに含まれることを認めるクラスタリングを行う.本...
[[abstract]]物種演化中大規模的演化事件,基因重組,改變了染色體上基因的順序。通常兩個親源接近的真核生物,有許多基因內容相同但順序的不同的染色體片段,稱為基因群組。基因群組可能是共同祖先演化...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
Описан подход к решению проблемы выделения информативных признаков в задаче классификации текстовых ...
[[abstract]]在本研究中, 我們示範了一個基於自動分群為基礎的特徵合併程序, 這個合併程序藉由自動分群進行特徵轉換, 並使用合併程序產生新的特徵. 這個新的特徵處理流程相較於傳統的分類來說,...
基於屬性相似度將樣本進行分群的技術已經被廣泛應用在許多領域,如模式識別,特徵提取和惡意行為偵測。由於此技術的重要性,很多人已經將各種分群技術利用分散式框架進行再製,例如K-means搭配Hadoop在...
多文本摘要的目标是对给定的查询和多篇文本(文本集),创建一个简洁明了的摘要,要求该摘要能够表达这些文本的关键内容,同时和给定的查询相关。一个给定的文本集通常包含一些主题,而且每个主题由一类句子来表示,...