[[abstract]]背景動機:近年來網路上文本數據急遽增加,分析文本成為各產業的趨勢,現有的深度學習能靠著文本和標籤進行分類預測,但標籤通常以人工方式進行標註,大量的數據以人工標籤方式並不切實際。另外,深度學習網路皆由多層神經網路層組成,訓練龐大數據相當耗時,然而在沒有這麼多標籤的情況下要建立實時且準確的標註模型非常困難。目的:為解決上述問題,本研究以小樣本建立標註模型,分別以兩個面向解決此問題,分別是數據建模前的提前篩選以及深度學習之小樣本模型,設立兩項目標:1.使用抽樣策略,減少模型訓練時所需樣本數量2.使用小樣本建立標註模型時,選擇最佳的深度學習法作為建模方法。方法:本研究收集了2019-2020社群網站PTT Prozac版上文章作為數據,並以該文章分類作為模型訓練時的標籤,刪除了兩個標籤以外的文章,另外,文章最大字數只擷取至512個字元,字數超過的文章只保留前512個字元。數據經篩選後留下了1680筆文章,將其拆分為訓練數據840筆和測試數據840筆。處理文章以文本表徵呈現使用了BERT作為萃取工具,將一篇文章以768維度表示,在訓練模型前,處理過後的樣本透過六種選擇策略(熵、吉尼係數、分群、熵+吉尼係數、熵+吉尼係數+分群、隨機)分別以不同數量進行樣本的篩選,最後在遷移學習、主動學習、多任務學習以及元學習上建立標註模型,所有模型的優化函數為Adam,損失函數為交叉熵,學習率3e-6,批次大小8,以上數值在每個模型中迭代10次。並以準確度、F1分數、召回率以及精確度做為評估標準。因此每種標註模型將會產生120種結果,協助判別各種組合在小樣本上的優勢與劣勢。結果:以方法進行實驗產生的120種數值表示,事先進行數據選擇的準確度,能夠比隨機抽樣高上3個百分點,並且使用...