不平衡分類是指數據集具有不均勻的類別分佈。若不考慮數據集的不平衡問題,大多數分類方法對於多數類的預測有較高的準確率,而少數類的準確率則明顯較低。本研究第一項工作是提出一個有效的演算法,此演算法結合反向排序K鄰近法(TRkNN)和合成少數類樣本的增量技術(SMOTE),以克服UCI資料庫中不平衡數據集的問題。為了研究此演算法,本研究也將其應用於不同的分類方法,如邏輯回歸、C4.5、SVM和BPNN。此外,還採用不同的距離度量來分類相同的UCI數據集。經驗結果表明,歐幾里德距離和曼哈頓距離不僅具有更高的準確率,而且還有比切比雪夫距離和餘弦距離更快的計算效率。因此,基於TRkNN和SMOTE的演算法可以廣泛用於處理不平衡數據集,如何選擇合適的距離度量可以作為未來研究的參考。 對癌症預測的研究已經應用多種機器學習演算法,如類神經網絡,基因演算法和粒子群演算法,以找出分類疾病或癌症的關鍵屬性或傳統的統計預測模型,有效地區別不同類型的癌症,從而建立可以提早發現和治療的預測模型。其中以現有患者的資料作為訓練集來建立模型以預測新病患樣本的分類準確度。這個問題在資料探勘領域引起了相當大的關注,學者們提出了各種方法(例如,隨機抽樣和特徵選取)來解決類別不平衡並實現重新平衡的類別分佈,從而提高分類器的有效性。雖然重新採樣方法可以快速處理不平衡樣本的問題,但它們更重視多數類中的數據,忽略少數類中潛在的重要數據,從而限制分類的有效性。根據在不平衡醫學數據集中發現的模式,本研究第二項工作是使用合成少數類樣本的增量技術來改善不平衡數據集的問題。此外,這項研究還使用三個UCI醫療數據集來比較基於機器學習、軟計算和仿生計算之各種方法的重新採樣性能。The imbalanced classification m...