海量資料近年來無論在業界或學界中都是非常熱門的話題,其資料的特性不僅數量龐大、來源紛雜,同時資料會不停地新增成長,基於這些特性而使得這些資料比起過往的資料內容更加難以分析,原有的資料探勘方式應用在海量資料時有非常大的可能遭遇到無法適用的狀況,特別是在執行時間上極有可能因為海量資料的特性而不能夠即時有效的產生分析結果,甚至可能因為資料的物件或屬性的數量過大造成完全無法取得結果。 在本篇研究中,我們使用基於關聯性規則的分類法作為資料探勘的分類方式,在不改動原有資料探勘方法的前提下,透過資料的選擇、前處理以及產生分類器結果後的評估、整合來解決所遭遇到的海量資料問題。 我們提出的方法分為兩個部分,首先是在初始狀態下對資料進行有目的的啟發式抽樣方法,使得抽樣出來的資料能夠足以代表整個海量資料的母體,再針對屬性的部分計算各個屬性分別的鑑別力與重要性,從中選擇出重要的屬性來做為後續資料探勘所用。針對資料分布型態的不同,我們可以視需求使用適當的方法調整抽樣的比率,使得某些特定的稀有分類資料能夠有相對應的分類規則能夠使用。第二部分則是特別處理資料成長增加的問題,首先使用初始狀態的方式分別對舊有資料以及新進資料進行抽樣並建立分類器,再透過新進資料與舊有資料的整合,將舊有與新進的分類器合併,重新驗證分類器中的規則,刪除不必要的規則並將其餘規則重新排序,成為最終調整過後的分類器並得以得以應用在資料上。 本研究所提出的方法應用在海量資料下的資料探勘時,透過實驗的結果能夠得知產生的結果與使用所有資料時能夠有相似的準確率,但能夠有效的減少所需要的執行時間,使得分析結果能夠迅速的產生,並將其結果應用在其他資料上。Big data has been a greatly popular topic a...
隨著雲端應用環境的成熟發展,許多個人化資料將儲存於雲端上,未來擁有大量的儲存空間來儲存使用者的數位影像檔案是指日可待的。本論文主要利用影像的紋理特徵變化的特性,提出差值影像與特徵分類兩個重要的sche...
在這個電腦科技迅速成長的時代,數位多媒體資訊儲存以及搜尋技術成為各大公司兵家必爭的事業版圖,因此各種不同的數位音樂格式也相繼產生。但由於數位音樂資料格式制定的差異,使得音樂資料在檔案類型轉換時必須要做...
近年來,三維定位的相關應用已被廣泛的研究。在過去,影像的擷取頻率並沒有調變的機制,因此,在長時間下因為影像的高擷取頻率,常使得即時三維定位的計算量以及所耗費在儲存影像的記憶體空間變的非常龐大。然而,當...
本論文探討分析師行為面課題,以其所發佈之股票推薦與盈餘預測應具資訊內涵。本研究考量股票特性及行為偏誤,以探索分析師對於資訊處理及分析的能力。本篇論文之兩部分分別研究:為何在精明市場參與者主導的市場上,...
近年來隨著科技產品的數位化,越來越多的東西需要影像處理的技巧,不管是在相機、手機、投影機、印表機、液晶電視、LCD…等,都需要將影像或影片美好的表現出來或紀錄下來。另外,自動影像辨識也是影像處理領域中...
自我組織特徵映射圖(Self-Organizing Map, SOM)是一種運用非監督式的類神經網路,自我組織特徵映射圖能夠將高維度的資料藉由映射的方式對映至二維或一維的座標空間上,以利資料分群及視覺...
長久以來,在學校中發展的研究成果應用在實務界一值有許多的困難之處,一方面是學校的研究向來是較為基礎以及探索未知的領域,而在實務界中的研究則關注此研究是否能被應用,應用的價值是否符合公司以及股東之利益,...
近年來,差分合成孔徑雷達干涉技術已經成為地球科學研究上一項利於觀測地表變形的工具。透過所獲取的大量影像,有助於我們更能夠連續性的觀測地表變形。但是,雷達訊號隨著空間基線的增大和時間的增長,降低雷達訊號...
當地震發生時,不同的地址狀況會使傳達的地震波產生改變,並產生放大或縮小的作用,而當地震波經過土層及岩盤時,波的性質會因為經過不同的土層而有所改變,可能改變的性質有頻率、振幅等等。在地震工程中,我們可以...
本篇論文主要探討超短脈衝雷射光在非線性光纖中傳播時會發生的現象。在非線性光纖光學中,此現象已被研究多年,近來隨著超短脈衝雷射的成熟以及光子晶體光纖的研發,利用此現象所產生的光源更邁入實用化的階段,不論...
DNA序列查詢與非siRNA目標序列查詢,都是將查詢序列與生物序列資料庫中所有序列做比對,將與查詢序列差異在一定範圍內的資料庫序列找出,兩者都是生物資訊中序列相似性查詢的重要工具。由於序列資料庫中的序...
免疫檢測的工作原理主要是基於在生理環境中蛋白質配位體與受體間的專一性鍵結反應,此為在設計生物感測器上的一種自然特性。 本論文以有限元素軟體在三維的模型下分析一種常見的蛋白質(C-反應蛋白質)在生物...
不平衡分類是指數據集具有不均勻的類別分佈。若不考慮數據集的不平衡問題,大多數分類方法對於多數類的預測有較高的準確率,而少數類的準確率則明顯較低。本研究第一項工作是提出一個有效的演算法,此演算法結合反向...
在自然語言處理中,做統計計算時資源是最重要的,現今有很多現成的語料及被驗証過的語言模型幾乎是隨手可得,而以語料庫為基礎的各種不同的研究中,總是會面臨到語料庫是否可以反應出最新詞彙相關性意義的麻煩。因為...
本論文主要研究超音波陣列系統的孔徑信號(aperture domain data)相關之成像方法與信號處理技術。一般系統廣泛運用的波束形成技術為延遲-加總法,此方法可藉由調整各頻道的時間延遲和權重而使...
隨著雲端應用環境的成熟發展,許多個人化資料將儲存於雲端上,未來擁有大量的儲存空間來儲存使用者的數位影像檔案是指日可待的。本論文主要利用影像的紋理特徵變化的特性,提出差值影像與特徵分類兩個重要的sche...
在這個電腦科技迅速成長的時代,數位多媒體資訊儲存以及搜尋技術成為各大公司兵家必爭的事業版圖,因此各種不同的數位音樂格式也相繼產生。但由於數位音樂資料格式制定的差異,使得音樂資料在檔案類型轉換時必須要做...
近年來,三維定位的相關應用已被廣泛的研究。在過去,影像的擷取頻率並沒有調變的機制,因此,在長時間下因為影像的高擷取頻率,常使得即時三維定位的計算量以及所耗費在儲存影像的記憶體空間變的非常龐大。然而,當...
本論文探討分析師行為面課題,以其所發佈之股票推薦與盈餘預測應具資訊內涵。本研究考量股票特性及行為偏誤,以探索分析師對於資訊處理及分析的能力。本篇論文之兩部分分別研究:為何在精明市場參與者主導的市場上,...
近年來隨著科技產品的數位化,越來越多的東西需要影像處理的技巧,不管是在相機、手機、投影機、印表機、液晶電視、LCD…等,都需要將影像或影片美好的表現出來或紀錄下來。另外,自動影像辨識也是影像處理領域中...
自我組織特徵映射圖(Self-Organizing Map, SOM)是一種運用非監督式的類神經網路,自我組織特徵映射圖能夠將高維度的資料藉由映射的方式對映至二維或一維的座標空間上,以利資料分群及視覺...
長久以來,在學校中發展的研究成果應用在實務界一值有許多的困難之處,一方面是學校的研究向來是較為基礎以及探索未知的領域,而在實務界中的研究則關注此研究是否能被應用,應用的價值是否符合公司以及股東之利益,...
近年來,差分合成孔徑雷達干涉技術已經成為地球科學研究上一項利於觀測地表變形的工具。透過所獲取的大量影像,有助於我們更能夠連續性的觀測地表變形。但是,雷達訊號隨著空間基線的增大和時間的增長,降低雷達訊號...
當地震發生時,不同的地址狀況會使傳達的地震波產生改變,並產生放大或縮小的作用,而當地震波經過土層及岩盤時,波的性質會因為經過不同的土層而有所改變,可能改變的性質有頻率、振幅等等。在地震工程中,我們可以...
本篇論文主要探討超短脈衝雷射光在非線性光纖中傳播時會發生的現象。在非線性光纖光學中,此現象已被研究多年,近來隨著超短脈衝雷射的成熟以及光子晶體光纖的研發,利用此現象所產生的光源更邁入實用化的階段,不論...
DNA序列查詢與非siRNA目標序列查詢,都是將查詢序列與生物序列資料庫中所有序列做比對,將與查詢序列差異在一定範圍內的資料庫序列找出,兩者都是生物資訊中序列相似性查詢的重要工具。由於序列資料庫中的序...
免疫檢測的工作原理主要是基於在生理環境中蛋白質配位體與受體間的專一性鍵結反應,此為在設計生物感測器上的一種自然特性。 本論文以有限元素軟體在三維的模型下分析一種常見的蛋白質(C-反應蛋白質)在生物...
不平衡分類是指數據集具有不均勻的類別分佈。若不考慮數據集的不平衡問題,大多數分類方法對於多數類的預測有較高的準確率,而少數類的準確率則明顯較低。本研究第一項工作是提出一個有效的演算法,此演算法結合反向...
在自然語言處理中,做統計計算時資源是最重要的,現今有很多現成的語料及被驗証過的語言模型幾乎是隨手可得,而以語料庫為基礎的各種不同的研究中,總是會面臨到語料庫是否可以反應出最新詞彙相關性意義的麻煩。因為...
本論文主要研究超音波陣列系統的孔徑信號(aperture domain data)相關之成像方法與信號處理技術。一般系統廣泛運用的波束形成技術為延遲-加總法,此方法可藉由調整各頻道的時間延遲和權重而使...
隨著雲端應用環境的成熟發展,許多個人化資料將儲存於雲端上,未來擁有大量的儲存空間來儲存使用者的數位影像檔案是指日可待的。本論文主要利用影像的紋理特徵變化的特性,提出差值影像與特徵分類兩個重要的sche...
在這個電腦科技迅速成長的時代,數位多媒體資訊儲存以及搜尋技術成為各大公司兵家必爭的事業版圖,因此各種不同的數位音樂格式也相繼產生。但由於數位音樂資料格式制定的差異,使得音樂資料在檔案類型轉換時必須要做...
近年來,三維定位的相關應用已被廣泛的研究。在過去,影像的擷取頻率並沒有調變的機制,因此,在長時間下因為影像的高擷取頻率,常使得即時三維定位的計算量以及所耗費在儲存影像的記憶體空間變的非常龐大。然而,當...