对检索结果进行聚类能够方便用户从搜索结果中快速地找到自己需要的信息,当前已有各种聚类方法和系统被广泛使用,但是,现有大部分方法由于聚类标签的可读性和描述性较差,难以达到预期效果.该文提出了一种新的思路,注重于如何在聚类之前就产生好的标签,在生成了标签的基础上,再进行检索结果聚类.对于搜索引擎返回的结果,我们先统一建立一棵后缀树,然后计算后缀树中各个短语的得分,选取得分最高的若干短语作为候选标签.得到标签后,将搜索引擎返回的各个结果项分配到它所包含的标签对应的分类中,形成最后的聚类.实验表明,我们的方法是比较有效的.国家资助项目; 国家高技术研究发展计划(863计划)中文核心期刊要目总览(PKU)中国科技核心期刊(ISTIC)中国科学引文数据库(CSCD)0283-882
传统的数据挖掘技术如分类、聚类、关联和异常点发现等技术与OLAP技术的结合通常采用的方法是分类、聚类、关联和异常点发现的结果即为任务的终点和目标.然而事实上,在实际需求中用户不仅仅需要分类、聚类等数据...
В статье представлено описание программной системы, которая позволяет выполнять кластеризац...
该文提出了一种基于维基百科和模式聚类的方法,旨在从开放文本中抽取高准确率的中文关系实体对.首次使用从人工标注知识体系知网到维基百科实体映射的方式获取关系实例,并且充分利用了维基百科的结构化特性,该方法...
本稿では複合名詞に着目したWeb検索結果のクラスタリング手法を提案する.本手法では検索結果のタイトルと要約を利用し,階層的で一つの検索結果が複数のクラスタに含まれることを認めるクラスタリングを行う.本...
これまでに, データベースに対する検索システムは, 精度, 再現度, 速度ともにめざましく進歩した. 検索は生活のあらゆるレベルに浸透し, コモディティ化したため, 検索に対する要求も性能面はもちろん...
信息时代的发展让越来越多的新闻事件充斥人们的生活,对于一件特定的新闻事件,目前已有很多算法可以帮助人们进行事件追踪和发现.提出一种CDW算法,帮助读者对于一件具有多个版本描述的新闻事件进行多个不同版本...
一般にWeb検索システムは仮想的・平均的なユーザにとって有益な情報を提供できるよう設計されている。しかし、現実にシステムを利用するのは多様な個々のユーザであり、求める情報の傾向もそれぞれに異なる。検索...
本論文主要是使用彩色聲譜圖來呈現哮鳴的時頻特徵,並利用k群聚演算法來偵測哮鳴。k群聚演算法主要執行的是分群的工作,其中,群聚組數必須人為先做設定,經過測試後,k值選擇設定成三,三可以在彩色聲譜圖中,對...
文献や World Wide Web(WWW)等には,既に多数のソフトウェアパターン(以下パターン)が存在する.パターンを用いることにより,分析や設計時に頻繁に生じる問題の解決を効率的に行うことができ...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
文本聚类技术是一门很热门且有前景的技术,由于具有无监督学习的特性,在文本挖掘领域文本聚类的核心思想相对来说比较简单易懂。文本聚类可分为三个大部分:文本预处理、文本表示模型以及聚类算法设计,其中文本表示...
ハイパースペクトル画像は,従来のマルチスペクトル画像と比較して,高周波数分解能であることから,対象物の分光スペクトル分布をより詳細に取得できる.そのため,従来よりも精ちな画像分類が可能と期待される.一...
本研究ではクラスタリングを利用して動詞の類義語を獲得する方法について検討している.先行研究において,同時に2つの要素のクラスタを考慮しながらクラスタリングする同時共起クラスタリングを適用して,ベクトル...
随着计算机行业和互联网的高速发展,人们使用计算机产生的数据也与日俱增。特别是最近的几年时间,使用计算机产生的数据量呈现出爆炸式增长。巨大的数据量给人们带来了新的挑战。巨大的数据如何存储、如何从巨大的数...
传统的数据挖掘技术如分类、聚类、关联和异常点发现等技术与OLAP技术的结合通常采用的方法是分类、聚类、关联和异常点发现的结果即为任务的终点和目标.然而事实上,在实际需求中用户不仅仅需要分类、聚类等数据...
В статье представлено описание программной системы, которая позволяет выполнять кластеризац...
该文提出了一种基于维基百科和模式聚类的方法,旨在从开放文本中抽取高准确率的中文关系实体对.首次使用从人工标注知识体系知网到维基百科实体映射的方式获取关系实例,并且充分利用了维基百科的结构化特性,该方法...
本稿では複合名詞に着目したWeb検索結果のクラスタリング手法を提案する.本手法では検索結果のタイトルと要約を利用し,階層的で一つの検索結果が複数のクラスタに含まれることを認めるクラスタリングを行う.本...
これまでに, データベースに対する検索システムは, 精度, 再現度, 速度ともにめざましく進歩した. 検索は生活のあらゆるレベルに浸透し, コモディティ化したため, 検索に対する要求も性能面はもちろん...
信息时代的发展让越来越多的新闻事件充斥人们的生活,对于一件特定的新闻事件,目前已有很多算法可以帮助人们进行事件追踪和发现.提出一种CDW算法,帮助读者对于一件具有多个版本描述的新闻事件进行多个不同版本...
一般にWeb検索システムは仮想的・平均的なユーザにとって有益な情報を提供できるよう設計されている。しかし、現実にシステムを利用するのは多様な個々のユーザであり、求める情報の傾向もそれぞれに異なる。検索...
本論文主要是使用彩色聲譜圖來呈現哮鳴的時頻特徵,並利用k群聚演算法來偵測哮鳴。k群聚演算法主要執行的是分群的工作,其中,群聚組數必須人為先做設定,經過測試後,k值選擇設定成三,三可以在彩色聲譜圖中,對...
文献や World Wide Web(WWW)等には,既に多数のソフトウェアパターン(以下パターン)が存在する.パターンを用いることにより,分析や設計時に頻繁に生じる問題の解決を効率的に行うことができ...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
文本聚类技术是一门很热门且有前景的技术,由于具有无监督学习的特性,在文本挖掘领域文本聚类的核心思想相对来说比较简单易懂。文本聚类可分为三个大部分:文本预处理、文本表示模型以及聚类算法设计,其中文本表示...
ハイパースペクトル画像は,従来のマルチスペクトル画像と比較して,高周波数分解能であることから,対象物の分光スペクトル分布をより詳細に取得できる.そのため,従来よりも精ちな画像分類が可能と期待される.一...
本研究ではクラスタリングを利用して動詞の類義語を獲得する方法について検討している.先行研究において,同時に2つの要素のクラスタを考慮しながらクラスタリングする同時共起クラスタリングを適用して,ベクトル...
随着计算机行业和互联网的高速发展,人们使用计算机产生的数据也与日俱增。特别是最近的几年时间,使用计算机产生的数据量呈现出爆炸式增长。巨大的数据量给人们带来了新的挑战。巨大的数据如何存储、如何从巨大的数...
传统的数据挖掘技术如分类、聚类、关联和异常点发现等技术与OLAP技术的结合通常采用的方法是分类、聚类、关联和异常点发现的结果即为任务的终点和目标.然而事实上,在实际需求中用户不仅仅需要分类、聚类等数据...
В статье представлено описание программной системы, которая позволяет выполнять кластеризац...
该文提出了一种基于维基百科和模式聚类的方法,旨在从开放文本中抽取高准确率的中文关系实体对.首次使用从人工标注知识体系知网到维基百科实体映射的方式获取关系实例,并且充分利用了维基百科的结构化特性,该方法...