[[abstract]]在本研究中, 我們示範了一個基於自動分群為基礎的特徵合併程序, 這個合併程序藉由自動分群進行特徵轉換, 並使用合併程序產生新的特徵. 這個新的特徵處理流程相較於傳統的分類來說,展現了更好的分類效能. 在本研究的印證實驗中, 我們依據各個原始單獨特徵本身的資料分佈,提出了偵測最佳群數的估計公式, 依此方式進行自動分群. 這個估計最佳群數的公式是依據分群狀態的多項特性, 如群內密度與群間距離, 輔以特別的比率調和計算, 用以比較各種群聚分布下的優劣. 然後依此結果進行後續的特徵合併與隱性主題分析, 最後得到較佳的分群結果. 根據本研究的實驗結果, 我們發現本論文所提出的處理流程, 相較於傳統的分類器效能有著更好的接受器操作特性(ROC). In this work, we demonstrate a feature combination process based on automatic clustering. This procedure delivers a better classification result than the traditional classification models. In our experiment, we detect the best cluster number for each feature based on the distribution off feature data with a specially designed cluster number decision formula called HCV function. This function estimates the best in...
本稿では複合名詞に着目したWeb検索結果のクラスタリング手法を提案する.本手法では検索結果のタイトルと要約を利用し,階層的で一つの検索結果が複数のクラスタに含まれることを認めるクラスタリングを行う.本...
計畫編號:NSC95-2119-M032-002研究期間:200612~200707研究經費:240,000[[abstract]]本計畫主要是探討長期追蹤資料(longitudinal data)的...
随着信息技术的高速发展,数据量急剧增长,如何从海量的数据中提取有用的信息和知识成为当务之急。数据挖掘就是解决这个问题的新兴领域。聚类分析作为数据挖掘领域中的一个重要课题,受到了越来越多的关注。目前聚类...
针对基于密度的聚类算法不能自动处理密度分布不均匀的数据问题,提出一种基于不均匀密度的自动聚类算法.该算法既保持了一般基于密度算法的优点,也能有效地处理分布不均匀的数据.实验结果表明,该算法是有效的.国...
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法....
本論文設計了一個結合主題模型的非參數文本分群模型。我們的模型假設群的數量是直接從數據中習得的。模型同時對優化文本表達和非參數分群兩個任務進行優化。非參數分群的部分使用的是狄利克雷過程混合模型,文本表達...
文本聚类技术是一门很热门且有前景的技术,由于具有无监督学习的特性,在文本挖掘领域文本聚类的核心思想相对来说比较简单易懂。文本聚类可分为三个大部分:文本预处理、文本表示模型以及聚类算法设计,其中文本表示...
针对目前聚类算法不能有效的处理模糊边界点的问题,提出了一种基于真实核心点的RDBSCAN聚类算法。提出真实核心点的概念,首先在密度聚类过程中的核心点进一步处理分类,把影响聚类效果的伪核心点剔除,将剩下...
これまでに, データベースに対する検索システムは, 精度, 再現度, 速度ともにめざましく進歩した. 検索は生活のあらゆるレベルに浸透し, コモディティ化したため, 検索に対する要求も性能面はもちろん...
[[abstract]]群集分析是一種探討如何將分析對象區分為多個相似群體的邏輯程序,通常被統 計學家用來對資料做簡化的工作與分類,其主要是在探討如何將資料或是物件做分 群。除了過去傳統的分群法像是K...
数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering...
Исследуются методы оценки качества тематических моделей, способные обеспечить их устойчивое применен...
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
信息时代的发展让越来越多的新闻事件充斥人们的生活,对于一件特定的新闻事件,目前已有很多算法可以帮助人们进行事件追踪和发现.提出一种CDW算法,帮助读者对于一件具有多个版本描述的新闻事件进行多个不同版本...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
本稿では複合名詞に着目したWeb検索結果のクラスタリング手法を提案する.本手法では検索結果のタイトルと要約を利用し,階層的で一つの検索結果が複数のクラスタに含まれることを認めるクラスタリングを行う.本...
計畫編號:NSC95-2119-M032-002研究期間:200612~200707研究經費:240,000[[abstract]]本計畫主要是探討長期追蹤資料(longitudinal data)的...
随着信息技术的高速发展,数据量急剧增长,如何从海量的数据中提取有用的信息和知识成为当务之急。数据挖掘就是解决这个问题的新兴领域。聚类分析作为数据挖掘领域中的一个重要课题,受到了越来越多的关注。目前聚类...
针对基于密度的聚类算法不能自动处理密度分布不均匀的数据问题,提出一种基于不均匀密度的自动聚类算法.该算法既保持了一般基于密度算法的优点,也能有效地处理分布不均匀的数据.实验结果表明,该算法是有效的.国...
现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法....
本論文設計了一個結合主題模型的非參數文本分群模型。我們的模型假設群的數量是直接從數據中習得的。模型同時對優化文本表達和非參數分群兩個任務進行優化。非參數分群的部分使用的是狄利克雷過程混合模型,文本表達...
文本聚类技术是一门很热门且有前景的技术,由于具有无监督学习的特性,在文本挖掘领域文本聚类的核心思想相对来说比较简单易懂。文本聚类可分为三个大部分:文本预处理、文本表示模型以及聚类算法设计,其中文本表示...
针对目前聚类算法不能有效的处理模糊边界点的问题,提出了一种基于真实核心点的RDBSCAN聚类算法。提出真实核心点的概念,首先在密度聚类过程中的核心点进一步处理分类,把影响聚类效果的伪核心点剔除,将剩下...
これまでに, データベースに対する検索システムは, 精度, 再現度, 速度ともにめざましく進歩した. 検索は生活のあらゆるレベルに浸透し, コモディティ化したため, 検索に対する要求も性能面はもちろん...
[[abstract]]群集分析是一種探討如何將分析對象區分為多個相似群體的邏輯程序,通常被統 計學家用來對資料做簡化的工作與分類,其主要是在探討如何將資料或是物件做分 群。除了過去傳統的分群法像是K...
数据的规模越来越大,要求数据挖掘算法有很高的执行效率.基于密度的聚类是聚类分析中的一种,其主要优点是发现任意形状的聚类和对噪音数据不敏感.提出了一种新的基于参考点和密度的CURD(clustering...
Исследуются методы оценки качества тематических моделей, способные обеспечить их устойчивое применен...
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
信息时代的发展让越来越多的新闻事件充斥人们的生活,对于一件特定的新闻事件,目前已有很多算法可以帮助人们进行事件追踪和发现.提出一种CDW算法,帮助读者对于一件具有多个版本描述的新闻事件进行多个不同版本...
在移动通信网络环境中,如何合理地组织和存储移动对象的配置信息,从而有效地降低查询和更新代价是位置管理中的一个重要问题.将数据挖掘应用到移动计算环境中是一项具有挑战性的研究课题,具有广阔的应用前景.区域...
本稿では複合名詞に着目したWeb検索結果のクラスタリング手法を提案する.本手法では検索結果のタイトルと要約を利用し,階層的で一つの検索結果が複数のクラスタに含まれることを認めるクラスタリングを行う.本...
計畫編號:NSC95-2119-M032-002研究期間:200612~200707研究經費:240,000[[abstract]]本計畫主要是探討長期追蹤資料(longitudinal data)的...
随着信息技术的高速发展,数据量急剧增长,如何从海量的数据中提取有用的信息和知识成为当务之急。数据挖掘就是解决这个问题的新兴领域。聚类分析作为数据挖掘领域中的一个重要课题,受到了越来越多的关注。目前聚类...