本論文的主要貢獻在於提出一個基於主題分析的語言模型調適法,這個方法主要是使用潛藏狄式配置(Latent Dirichlet Allocation, LDA)。我們使用機率式潛藏語意分析(Probabilistic Latent Semantic Analysis, PLSA)自動地把一個具有不同性質的文字語料加以聚成許多個潛藏主題,然後用這些結果當作我們LDA模型的初始化模型。我們用最後的LDA模型一句一句地建造主題式的文字語料,這些主題式語料則用來估計主題式的語言模型。當我們用語言模型調適進行N-best重新評分時,我們把這些主題式的語言模型以內插法跟一個背景(也就是非主題式的)語言模型結合在一起。本論文共提出幾個機制,可以讓主題推論的結果更強健,比較不會被辨識錯誤扭曲,我們也用詮釋資料做片段分割,進行節目層的語言模型調適。最後在多來源的美國國防部GALE計劃中文資料上的結果顯示比其他最新的語言模型調適方法更有效。We present a novel topic mixture-based language model adaptation approach that uses Latent Dirichlet Allocation (LDA). We use Probabilistic Latent Semantic Analysis (PLSA) to automatically cluster a heterogeneous training corpus, and then train an LDA model using the resultant topic-document assignments. Using this LDA model, we const...
本研究探討兒童早期中文「比」字比較句的副詞使用策略,是否建立在規則的使用上,或只是單純的類比過程。規則理論假設兒童先建立基本的「比」字比較句結構,再將副詞放入該結構『Y [比X] +___+述語』中;...
学位の種別: 課程博士審査委員会委員 : (主査)東京大学准教授 陳 昱, 東京大学教授 飛原 英治, 東京大学教授 奥田 洋司, 東京大学教授 大橋 弘忠, 京都大学准教授 井上 康博Univers...
在網路社群的快速發展的同時,個人化語言模型在相關領域的應用 上也佔了一席之地。其中基於類神經網路的語言模型在最近的研究與 應用上也更為廣泛且勝過傳統的統計語言模型。為了解決資料稀疏對 於語言模型的學習...
「詞素」是構成「詞」的基本單位,為語言中具有意義的最小單位。「詞素覺識」指的是察覺及操弄語詞內在結構關係之能力,許多語言學家認為其與閱讀理解有很大的關係。中文詞彙中有76%的詞為複合詞(compoun...
數學表達式之語意分析 (STME)的目標是為數學式中的每個符號標記上其隱含的語意。本研究提出一個解決STME的新方法,此方法僅需要一個數學規則庫 (文法庫)作為預備知識,而不倚賴額外的自然語言資訊,也...
這篇論文提出了一個十位元250百萬赫茲的電流切換式數位類比轉換器,它使用的是雙倍區段化的架構,其中包含了五位元的高位元,中間兩位元的高位元以及最後用來當成控制二進制電流源的三位元。這樣的設計不僅可以保...
本研究針對線傳控制汽車發展一套自評煞車控制系統,目標是優化車輛的牽引力和循跡控制性能。該控制系統以雙啟發規劃法(dual heuristic dynamic programming)為基礎,搭配自組型...
近年來關於遠距教學和訓練之進化可以根據一些特性分為遠距學習(d-Learning)、數位學習(e-Learning)以及行動學習(m-Learning)。 本篇論文主要是研究如何利用SVG和J...
本論文係針對使用於多機器人系統之無線網路通訊與編隊控制系統,提出一套具有自動安排連結、自我檢測、斷線修復能力之智慧通訊系統架構。對於以上三種能力,分別提出所需條件、動作流程,最後各自又以實驗做驗證。配...
部落格是近年來在網際網路上發展的網路服務之一。使用者可以透過簡單的操作方式發佈各種類型的資訊,將資訊擴散到不同的部落格內。透過清楚的時間記錄,資訊擴散的方向與先後順序可以被清楚的定義出來,透過部落格上...
학위논문 (석사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2013. 2. 김종권.Classifying network traffic according to the applica...
由 Aho 和 Corasick 所提出的演算法 (簡稱 AC 演算法) 可以很有效率地在一段文字中搜尋多個關鍵字所在的位置,因而被廣泛地使用於完全字串比對。然而,AC 演算法在運作時,只能一次處理一...
The increasing growth of the mobile applications industry attributes to the popularity of the smartp...
Recent modern data set, such as genomic data and image data, often generate huge amount of informati...
利用視覺化方法(visualization techniques)來呈現多維度資訊(multi-dimensional information)能幫助使用者更有效地瀏覽,這些方法包含了sliding ...
本研究探討兒童早期中文「比」字比較句的副詞使用策略,是否建立在規則的使用上,或只是單純的類比過程。規則理論假設兒童先建立基本的「比」字比較句結構,再將副詞放入該結構『Y [比X] +___+述語』中;...
学位の種別: 課程博士審査委員会委員 : (主査)東京大学准教授 陳 昱, 東京大学教授 飛原 英治, 東京大学教授 奥田 洋司, 東京大学教授 大橋 弘忠, 京都大学准教授 井上 康博Univers...
在網路社群的快速發展的同時,個人化語言模型在相關領域的應用 上也佔了一席之地。其中基於類神經網路的語言模型在最近的研究與 應用上也更為廣泛且勝過傳統的統計語言模型。為了解決資料稀疏對 於語言模型的學習...
「詞素」是構成「詞」的基本單位,為語言中具有意義的最小單位。「詞素覺識」指的是察覺及操弄語詞內在結構關係之能力,許多語言學家認為其與閱讀理解有很大的關係。中文詞彙中有76%的詞為複合詞(compoun...
數學表達式之語意分析 (STME)的目標是為數學式中的每個符號標記上其隱含的語意。本研究提出一個解決STME的新方法,此方法僅需要一個數學規則庫 (文法庫)作為預備知識,而不倚賴額外的自然語言資訊,也...
這篇論文提出了一個十位元250百萬赫茲的電流切換式數位類比轉換器,它使用的是雙倍區段化的架構,其中包含了五位元的高位元,中間兩位元的高位元以及最後用來當成控制二進制電流源的三位元。這樣的設計不僅可以保...
本研究針對線傳控制汽車發展一套自評煞車控制系統,目標是優化車輛的牽引力和循跡控制性能。該控制系統以雙啟發規劃法(dual heuristic dynamic programming)為基礎,搭配自組型...
近年來關於遠距教學和訓練之進化可以根據一些特性分為遠距學習(d-Learning)、數位學習(e-Learning)以及行動學習(m-Learning)。 本篇論文主要是研究如何利用SVG和J...
本論文係針對使用於多機器人系統之無線網路通訊與編隊控制系統,提出一套具有自動安排連結、自我檢測、斷線修復能力之智慧通訊系統架構。對於以上三種能力,分別提出所需條件、動作流程,最後各自又以實驗做驗證。配...
部落格是近年來在網際網路上發展的網路服務之一。使用者可以透過簡單的操作方式發佈各種類型的資訊,將資訊擴散到不同的部落格內。透過清楚的時間記錄,資訊擴散的方向與先後順序可以被清楚的定義出來,透過部落格上...
학위논문 (석사)-- 서울대학교 대학원 : 전기·컴퓨터공학부, 2013. 2. 김종권.Classifying network traffic according to the applica...
由 Aho 和 Corasick 所提出的演算法 (簡稱 AC 演算法) 可以很有效率地在一段文字中搜尋多個關鍵字所在的位置,因而被廣泛地使用於完全字串比對。然而,AC 演算法在運作時,只能一次處理一...
The increasing growth of the mobile applications industry attributes to the popularity of the smartp...
Recent modern data set, such as genomic data and image data, often generate huge amount of informati...
利用視覺化方法(visualization techniques)來呈現多維度資訊(multi-dimensional information)能幫助使用者更有效地瀏覽,這些方法包含了sliding ...
本研究探討兒童早期中文「比」字比較句的副詞使用策略,是否建立在規則的使用上,或只是單純的類比過程。規則理論假設兒童先建立基本的「比」字比較句結構,再將副詞放入該結構『Y [比X] +___+述語』中;...
学位の種別: 課程博士審査委員会委員 : (主査)東京大学准教授 陳 昱, 東京大学教授 飛原 英治, 東京大学教授 奥田 洋司, 東京大学教授 大橋 弘忠, 京都大学准教授 井上 康博Univers...
在網路社群的快速發展的同時,個人化語言模型在相關領域的應用 上也佔了一席之地。其中基於類神經網路的語言模型在最近的研究與 應用上也更為廣泛且勝過傳統的統計語言模型。為了解決資料稀疏對 於語言模型的學習...