随着计算机行业和互联网的高速发展,人们使用计算机产生的数据也与日俱增。特别是最近的几年时间,使用计算机产生的数据量呈现出爆炸式增长。巨大的数据量给人们带来了新的挑战。巨大的数据如何存储、如何从巨大的数据量中发掘出人们感兴趣的知识,都是需要解决的问题。虽然大数据给人们带来了挑战,但是机遇与挑战并存。从巨大的数据量中挖掘出对公司有用的信息,将极大地提高公司的竞争力。当前,越来越多的企业和科研机构加入到大数据的研究行列中来,特别是文本数据挖掘方面的大数据研究。 文本聚类是一个比较热门的领域,是文本挖掘领域一个重要的分支成分。与文本分类技术不同,文本聚类技术是一种无监督的学习方法,是对文本数据的聚类...With the rapid development of the computer industry and Internet, the data which generated by the use of computer is also growing. Especially in recent years, the data generated by using of computer has shown an explosive growth. New challenges have come along with the huge amount of data. How to store such a huge data, how to explore from such a huge amount of data to discover useful information ...学位:工程硕士院系专业:航空航天学院_工程硕士(控制工程)学号:2322013115335
随着高性能计算机的应用和发展,并行应用程序所使用的处理器数越来越多,进程间的通信量也不断增多,这对应用程序的性能有很大影响。在采用一种快速傅里叶变换HFFT对曙光5000A进行性能测试时发现,MPI集...
本研究通过对短时记忆的编码或提取阶段进行注意分散来探讨范畴群集的定位问题。以大学生为被试,应用双作业进行分散注意条件下的记忆实验,并与集中注意条件下的记忆实验进行比较。识记材料均为双范畴词表。结果表现...
Исследуются методы оценки качества тематических моделей, способные обеспечить их устойчивое применен...
文本聚类技术是一门很热门且有前景的技术,由于具有无监督学习的特性,在文本挖掘领域文本聚类的核心思想相对来说比较简单易懂。文本聚类可分为三个大部分:文本预处理、文本表示模型以及聚类算法设计,其中文本表示...
信息时代的发展让越来越多的新闻事件充斥人们的生活,对于一件特定的新闻事件,目前已有很多算法可以帮助人们进行事件追踪和发现.提出一种CDW算法,帮助读者对于一件具有多个版本描述的新闻事件进行多个不同版本...
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法....
В статье представлено описание программной системы, которая позволяет выполнять кластеризац...
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
一般にWeb検索システムは仮想的・平均的なユーザにとって有益な情報を提供できるよう設計されている。しかし、現実にシステムを利用するのは多様な個々のユーザであり、求める情報の傾向もそれぞれに異なる。検索...
随着计算机技术的发展及互联网的广泛应用,各行各业积累了大量的应用数据。如何对这样海量的数据进行高效而精准的学习成为亟待解决的难题,引起了学术界和工业界的广泛关注。面对这样的难题,前人提出了一系列分布式...
摘要 随着互联网对生活的影响不断增加,人们面临着越来越汹涌的网络数据洪流的冲击,这股数据洪流中占比最大的就是文本数据。如何处理海量文本数据,是人们亟待解决的一个问题。在文本挖掘领域,文本相似度计算技术...
ハイパースペクトル画像は,従来のマルチスペクトル画像と比較して,高周波数分解能であることから,対象物の分光スペクトル分布をより詳細に取得できる.そのため,従来よりも精ちな画像分類が可能と期待される.一...
基於屬性相似度將樣本進行分群的技術已經被廣泛應用在許多領域,如模式識別,特徵提取和惡意行為偵測。由於此技術的重要性,很多人已經將各種分群技術利用分散式框架進行再製,例如K-means搭配Hadoop在...
文本分类作为一项重要的数据挖掘技术,在国内广泛地应用于词义辨析、文本组织与管理、信息过滤、Web网页文档分类、数字图书馆、信息检索等众多领域,因此提高文本分类的精确度和效率有重要的研究意义。文本分类主...
近年智慧型手機與網路的普及,使得社群網站與線上串流音樂蓬勃發展。臉書(Facebook)用戶截至去年止每月總體平均用戶高達18.6億人 ,粉絲專頁成為公司企業特別關注的行銷手段。粉絲專頁上的貼文能夠在...
随着高性能计算机的应用和发展,并行应用程序所使用的处理器数越来越多,进程间的通信量也不断增多,这对应用程序的性能有很大影响。在采用一种快速傅里叶变换HFFT对曙光5000A进行性能测试时发现,MPI集...
本研究通过对短时记忆的编码或提取阶段进行注意分散来探讨范畴群集的定位问题。以大学生为被试,应用双作业进行分散注意条件下的记忆实验,并与集中注意条件下的记忆实验进行比较。识记材料均为双范畴词表。结果表现...
Исследуются методы оценки качества тематических моделей, способные обеспечить их устойчивое применен...
文本聚类技术是一门很热门且有前景的技术,由于具有无监督学习的特性,在文本挖掘领域文本聚类的核心思想相对来说比较简单易懂。文本聚类可分为三个大部分:文本预处理、文本表示模型以及聚类算法设计,其中文本表示...
信息时代的发展让越来越多的新闻事件充斥人们的生活,对于一件特定的新闻事件,目前已有很多算法可以帮助人们进行事件追踪和发现.提出一种CDW算法,帮助读者对于一件具有多个版本描述的新闻事件进行多个不同版本...
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法....
В статье представлено описание программной системы, которая позволяет выполнять кластеризац...
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
一般にWeb検索システムは仮想的・平均的なユーザにとって有益な情報を提供できるよう設計されている。しかし、現実にシステムを利用するのは多様な個々のユーザであり、求める情報の傾向もそれぞれに異なる。検索...
随着计算机技术的发展及互联网的广泛应用,各行各业积累了大量的应用数据。如何对这样海量的数据进行高效而精准的学习成为亟待解决的难题,引起了学术界和工业界的广泛关注。面对这样的难题,前人提出了一系列分布式...
摘要 随着互联网对生活的影响不断增加,人们面临着越来越汹涌的网络数据洪流的冲击,这股数据洪流中占比最大的就是文本数据。如何处理海量文本数据,是人们亟待解决的一个问题。在文本挖掘领域,文本相似度计算技术...
ハイパースペクトル画像は,従来のマルチスペクトル画像と比較して,高周波数分解能であることから,対象物の分光スペクトル分布をより詳細に取得できる.そのため,従来よりも精ちな画像分類が可能と期待される.一...
基於屬性相似度將樣本進行分群的技術已經被廣泛應用在許多領域,如模式識別,特徵提取和惡意行為偵測。由於此技術的重要性,很多人已經將各種分群技術利用分散式框架進行再製,例如K-means搭配Hadoop在...
文本分类作为一项重要的数据挖掘技术,在国内广泛地应用于词义辨析、文本组织与管理、信息过滤、Web网页文档分类、数字图书馆、信息检索等众多领域,因此提高文本分类的精确度和效率有重要的研究意义。文本分类主...
近年智慧型手機與網路的普及,使得社群網站與線上串流音樂蓬勃發展。臉書(Facebook)用戶截至去年止每月總體平均用戶高達18.6億人 ,粉絲專頁成為公司企業特別關注的行銷手段。粉絲專頁上的貼文能夠在...
随着高性能计算机的应用和发展,并行应用程序所使用的处理器数越来越多,进程间的通信量也不断增多,这对应用程序的性能有很大影响。在采用一种快速傅里叶变换HFFT对曙光5000A进行性能测试时发现,MPI集...
本研究通过对短时记忆的编码或提取阶段进行注意分散来探讨范畴群集的定位问题。以大学生为被试,应用双作业进行分散注意条件下的记忆实验,并与集中注意条件下的记忆实验进行比较。识记材料均为双范畴词表。结果表现...
Исследуются методы оценки качества тематических моделей, способные обеспечить их устойчивое применен...