[[abstract]]監督式學習(supervised learning)是利用已知類別的訓練資料(training data)來建立分類器(classifier),並以此作為分類新資料的基準。類別不平衡的資料指的是在資料中隸屬於某一類別的資料特別多,導致資料類別的分布呈現偏斜(skew)的分布。在處理分類的問題時,若不考慮類別不平衡這樣的一個現象,將會使得分類器的結果表現不好;而傳統的分類方法,都是以分類結果的整體正確率(accuracy)或類似的標準為基準做最佳化而發展出來的,但是,這些方法卻無法正確辨識出稀少卻較為重要的類別。在這篇文章中,我們的重點是在於回顧因應類別不平衡資料分類問題而發展出來的監督式學習方法,討論類別不平衡資料出現的情境與分類上造成的困難與挑戰,並介紹幾類目前在統計與機器學習理論下大家的對策,接著討論適合用於此情境下評估分類器表現的指標,最後討論未來可能的發展方向與新衍生出的問題,如:多類別的分類問題(multi-class classifications)、多標籤(multi-label classifications)的分類問題及海量資料(big data)的分類問題等。 Supervised learning tries to classify samples based on labeled training data. Class-imbalanced problems mean that the sample size of the some class dominates over others resulting in a skewed class distribution. Therefore, using traditional...