碩士資訊工程學系[[abstract]]近年來每日資料的產生量成爆炸性的成長,面對如此巨量的資料,利用資料探勘中的叢集法,可以將資料分成數個相似的子集合,再從這些子集合中發現一些隱藏的知識,已廣泛被運用到各領域的資料。然而目前大部份傳統的叢集法都將焦點擺在純數值型資料或純類別型資料,但由真實世界所收集的資料大都混合數值型與類別型屬性,若想直接將傳統叢集演算法應用在混合型資料是困難的。因此本文將提出一個根據「伴隨發生」理論對混合屬性資料分群的方法,此方法找出資料中類別型屬性值間共同出現的關係,再利用這些關係把類別型屬性轉換為數值型屬性,當屬性已全部轉為數值型,資料還能以多階層分群與新增屬性等技巧改進後的傳統叢集演算法分群。由實驗結果得知,此提出的方法的確可解決運用現有叢集演算法到混合資料中的問題,而且比k-prototypes、SPSS Clementine提供更好的叢集品質。 Clustering is considered an important tool for data mining. The goal of data clustering is aimed at dividing the huge data into several groups that objects have a high degree of similarity to each other in the same group, and extracting hidden patterns from data. Many clustering algorithms have been developed in diverse domains. However, most of the trad...
これまでに, データベースに対する検索システムは, 精度, 再現度, 速度ともにめざましく進歩した. 検索は生活のあらゆるレベルに浸透し, コモディティ化したため, 検索に対する要求も性能面はもちろん...
檢測某些地區是否有較高的疾病發生率,亦即群集(Cluster)現象,是近年來空間統計(Spatial Statistics)在流行病學的主要應用之一,常見的偵測方法包括SaTScan (Kulldor...
文本聚类技术是一门很热门且有前景的技术,由于具有无监督学习的特性,在文本挖掘领域文本聚类的核心思想相对来说比较简单易懂。文本聚类可分为三个大部分:文本预处理、文本表示模型以及聚类算法设计,其中文本表示...
本論文之目標在於解決資料分群 (data clustering) 問題,為資料探勘領域中的經典問題之一。不同於以往使用特徵矩陣傳統解法,本論文考慮每筆資料兩兩之間的相似程度的資料矩陣作為分群之依據。為...
基於屬性相似度將樣本進行分群的技術已經被廣泛應用在許多領域,如模式識別,特徵提取和惡意行為偵測。由於此技術的重要性,很多人已經將各種分群技術利用分散式框架進行再製,例如K-means搭配Hadoop在...
計畫編號:NSC95-2119-M032-002研究期間:200612~200707研究經費:240,000[[abstract]]本計畫主要是探討長期追蹤資料(longitudinal data)的...
Для кластерного анализа разнородных данных предложен метод построения коллективного решения с учетом...
[[abstract]] 資料探勘的過程中,資料的遺漏或缺失可能會使得探勘的結果產生異常與偏誤,導致組織決策判斷錯誤,進而造成企業經營績效的損失。因此該如何精準地估計並填補這些遺漏資訊,正是資料探勘...
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
K-means 演算法是一個十分普及的分類演算法,它廣泛的運用在各種工程以及科學領域上,像是影像分割(Image segmentation)、圖形識別(Pattern classification)與...
本稿では複合名詞に着目したWeb検索結果のクラスタリング手法を提案する.本手法では検索結果のタイトルと要約を利用し,階層的で一つの検索結果が複数のクラスタに含まれることを認めるクラスタリングを行う.本...
本稿では複合名詞に着目したWeb検索結果のクラスタリング手法を提案する.本手法では検索結果のタイトルと要約を利用し,階層的で一つの検索結果が複数のクラスタに含まれることを認めるクラスタリングを行う.本...
[[abstract]] 資料探勘是由大量資料中挖掘出隠藏知識的重要技術,目前企業或政府各方面決策幾乎是以歷史資料探勘結果分析為基礎,故資料庫的完整性則十分的重要。若是資料庫中出現過多的遺漏值,則容...
碩士資訊工程學系[[abstract]]分群法(clustering)及關聯性法則探勘(association rules mining)是資料探勘領域中兩種重要的方法。分群法主要用來分析尚未整理以及...
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数...
これまでに, データベースに対する検索システムは, 精度, 再現度, 速度ともにめざましく進歩した. 検索は生活のあらゆるレベルに浸透し, コモディティ化したため, 検索に対する要求も性能面はもちろん...
檢測某些地區是否有較高的疾病發生率,亦即群集(Cluster)現象,是近年來空間統計(Spatial Statistics)在流行病學的主要應用之一,常見的偵測方法包括SaTScan (Kulldor...
文本聚类技术是一门很热门且有前景的技术,由于具有无监督学习的特性,在文本挖掘领域文本聚类的核心思想相对来说比较简单易懂。文本聚类可分为三个大部分:文本预处理、文本表示模型以及聚类算法设计,其中文本表示...
本論文之目標在於解決資料分群 (data clustering) 問題,為資料探勘領域中的經典問題之一。不同於以往使用特徵矩陣傳統解法,本論文考慮每筆資料兩兩之間的相似程度的資料矩陣作為分群之依據。為...
基於屬性相似度將樣本進行分群的技術已經被廣泛應用在許多領域,如模式識別,特徵提取和惡意行為偵測。由於此技術的重要性,很多人已經將各種分群技術利用分散式框架進行再製,例如K-means搭配Hadoop在...
計畫編號:NSC95-2119-M032-002研究期間:200612~200707研究經費:240,000[[abstract]]本計畫主要是探討長期追蹤資料(longitudinal data)的...
Для кластерного анализа разнородных данных предложен метод построения коллективного решения с учетом...
[[abstract]] 資料探勘的過程中,資料的遺漏或缺失可能會使得探勘的結果產生異常與偏誤,導致組織決策判斷錯誤,進而造成企業經營績效的損失。因此該如何精準地估計並填補這些遺漏資訊,正是資料探勘...
[[abstract]]文件探勘是資料探勘加上一些基礎的語言學所構成的。文件探勘運用的技術,幾乎都與詞彙的頻率與出現篇數有關,但這兩項資訊在資料探勘中卻極少用到。目前在文件聚類的研究中,已經發展出許多...
K-means 演算法是一個十分普及的分類演算法,它廣泛的運用在各種工程以及科學領域上,像是影像分割(Image segmentation)、圖形識別(Pattern classification)與...
本稿では複合名詞に着目したWeb検索結果のクラスタリング手法を提案する.本手法では検索結果のタイトルと要約を利用し,階層的で一つの検索結果が複数のクラスタに含まれることを認めるクラスタリングを行う.本...
本稿では複合名詞に着目したWeb検索結果のクラスタリング手法を提案する.本手法では検索結果のタイトルと要約を利用し,階層的で一つの検索結果が複数のクラスタに含まれることを認めるクラスタリングを行う.本...
[[abstract]] 資料探勘是由大量資料中挖掘出隠藏知識的重要技術,目前企業或政府各方面決策幾乎是以歷史資料探勘結果分析為基礎,故資料庫的完整性則十分的重要。若是資料庫中出現過多的遺漏值,則容...
碩士資訊工程學系[[abstract]]分群法(clustering)及關聯性法則探勘(association rules mining)是資料探勘領域中兩種重要的方法。分群法主要用來分析尚未整理以及...
传统k-means算法由于初始聚类中心的选择是随机的,因此会使聚类结果不稳定。针对这个问题,提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类,然后不断从对象数...
これまでに, データベースに対する検索システムは, 精度, 再現度, 速度ともにめざましく進歩した. 検索は生活のあらゆるレベルに浸透し, コモディティ化したため, 検索に対する要求も性能面はもちろん...
檢測某些地區是否有較高的疾病發生率,亦即群集(Cluster)現象,是近年來空間統計(Spatial Statistics)在流行病學的主要應用之一,常見的偵測方法包括SaTScan (Kulldor...
文本聚类技术是一门很热门且有前景的技术,由于具有无监督学习的特性,在文本挖掘领域文本聚类的核心思想相对来说比较简单易懂。文本聚类可分为三个大部分:文本预处理、文本表示模型以及聚类算法设计,其中文本表示...