資訊擷取是從自然語言文本中辨識出特定的主題或事件的描述,進而萃取出相關主題或事件元素中的對應資訊,再將其擷取之結果彙整至資料庫中,便能將自然語言文件轉換成結構化的核心資訊。然而資訊擷取技術的結果會有錯誤情況發生,若單只依靠人工檢查及更正錯誤的方式進行,將會是耗費大量人力及時間的工作。 在本研究論文中,我們提出字串圖形結構與字串特徵值兩種錯誤資料偵測方法。前者是透過圖形結構比對各資料內字元及字元間關聯,接著由公式計算出每筆資料的比對分數,藉由分數高低可判斷是否為錯誤資料;後者則是利用字串特徵值,來描述字串外表特徵,再透過SVM和C4.5機器學習分類方法歸納出決策樹,進而分類正確與錯誤二元資料。而此兩種偵測方法的差異在於前者隱含了圖學理論之節點位置與鄰點概念,直接比對原始字串內容;後者則是將原始字串轉換成特徵數值,進行分類等動作。 在實驗方面,我們以「總統府人事任免公報」之資訊擷取成果資料庫作為測試資料。實驗結果顯示,本研究所提出的錯誤偵測方法可以有效偵測出不合格的值組,不但能節省驗證資料所花費的成本,甚至可確保高資料品質的資訊擷取成果產出,促使資訊擷取技術更廣泛的實際應用。Given a targeted subject and a text collection, information extraction techniques provide the capability to populate a database in which each record entry is a subject instance documented in the text collection. However, even with the state-of-the-art IE te...
主管罵人的現象在職場中屢見不鮮,但責罵並非都是意圖傷人的惡劣舉動。若從華人文化脈絡觀之,嚴加責備被視為一種督促或鞭策的作法,目的在於借助外塑的力量,透過引發恥感來達到約束與規範個體行動的效果。然而,在...
幸福感是一個多面向的概念,目前的幸福感測量仍是基於研究者自身的學術理念,在不同的哲學觀點下,提出不同的幸福成分或類別。本研究認為若能透過一個客觀的幸福感來源結構分析,將可觀察到一些更為基本的特徵或屬性...
本文主要分为4部分。1、光电混合神经网络系统衍射误差的仿真研究。 本文介绍了3种类型的光电混合神经网络系统,重点研究了衍射引起的误差对系统输出的影响。根据衍射、光学信,r}、处理和神经网络理论,采用实...
「關係抽取」(Relation Extraction)意指從文本中學習有語意關係的詞對(Concept Pair),例如(台北,台灣)的關係是「...位於...」。此論文探討藉由關係抽取以擴增常識知識...
[[abstract]]高雄港貨櫃裝卸量於1999年排名世界第三,自動化貨櫃碼辨識系統對港口貨櫃進出口管理絕對有相當程度的幫助,為使貨櫃管理更自動化,本研究即利用數位影像處理技術來辨識貨櫃碼,以節省人...
隨著網路的普及,消費者將許多自身經驗撰寫成產品評論放上網站,使得消費者與廠商之間的資訊不對稱得以下降,同時產生了讓廠商無法忽視的口碑效應。根據兩項針對超過兩千名美國成年人的研究,有81%的網路使用者曾...
中文繁簡在字體或電腦編碼上明顯不同之外,在部份詞彙的用法也有不同,這些用法不同的詞彙卻有相同意義的詞彙稱為繁簡體中的等義詞,這些等義詞在雙方文化交流時可能會造成一些障礙,例如人們互相對話、文件書籍翻譯...
機器翻譯系統憑藉其速度快、成本低、專業術語一致等優勢始終受到推崇,但其譯文品質卻備受爭議,無法與人工譯文相媲美。所以瞭解機器譯文與人工譯文之間的差異就顯得尤為重要。通過比較可以瞭解機器翻譯在哪些方面差...
個人情報保護のため削除部分あり壬午事変に対し清が積極的に介入したことで、朝鮮をめぐる日清対抗は顕在化した。これ以後の日本の朝鮮政策について通説は、清との対決を覚悟しての朝鮮への勢力拡大を日本は決意し、...
此博士論文,針對奈米結構缺陷的電子顯微鏡成像與電性特徵之關聯性,發展了二種技術,一個是全新地偵測缺陷工具,一個是特別精心設計的晶片。這兩種技術的實驗細節都完整地呈現於內文中。前者,即是可移動奈米碳管懸...
互聯網金融是一個比較新興的概念,也是一個充滿未知,充滿想像空間的概念,其興起有其獨特的背景。這些背景中,有些是全球性的,有些則為中國大陸所特有。 本文藉由相關的一些文獻回顧,並結合一些數據分析趨勢,以...
在中文語言學的範疇內,中文詞彙字可分類成實詞與虛詞兩類。虛詞不能獨立構成句子,只能配合實詞以完成語法結構。因此虛詞的用法常成為語言學家的研究對象以及判斷語句結構的重要依據之一。發展自動判斷虛詞的工具,...
近年來,各國皆開始提倡環保概念,但卻很少人注意到,其實在虛擬世界中也需要環保。使用者在虛擬世界中,使用著看似免費的網路資源,肆無忌憚的上傳內容、讓垃圾郵件占據電子信箱空間。然而,為了提供虛擬世界的資訊...
本論文提供了一個句子重組試題編製的環境,協助教師編製句子重組試題,同時學生也能夠在此編製環境中練習句子重組試題。 句子重組試題即是要求學生把試題給的一組詞彙組合成特定詞序的正確語句之題型,該試...
在機器人自動導航中,含測距器的輪型行動機器人是相常泛用的平台之一。常見的使用方式,是利用一些理論或演算法來給予輪型行動機器人速度的指令,並接受其感測器回傳的資訊,以做為下一刻速度控制的參考值。而實際操...
主管罵人的現象在職場中屢見不鮮,但責罵並非都是意圖傷人的惡劣舉動。若從華人文化脈絡觀之,嚴加責備被視為一種督促或鞭策的作法,目的在於借助外塑的力量,透過引發恥感來達到約束與規範個體行動的效果。然而,在...
幸福感是一個多面向的概念,目前的幸福感測量仍是基於研究者自身的學術理念,在不同的哲學觀點下,提出不同的幸福成分或類別。本研究認為若能透過一個客觀的幸福感來源結構分析,將可觀察到一些更為基本的特徵或屬性...
本文主要分为4部分。1、光电混合神经网络系统衍射误差的仿真研究。 本文介绍了3种类型的光电混合神经网络系统,重点研究了衍射引起的误差对系统输出的影响。根据衍射、光学信,r}、处理和神经网络理论,采用实...
「關係抽取」(Relation Extraction)意指從文本中學習有語意關係的詞對(Concept Pair),例如(台北,台灣)的關係是「...位於...」。此論文探討藉由關係抽取以擴增常識知識...
[[abstract]]高雄港貨櫃裝卸量於1999年排名世界第三,自動化貨櫃碼辨識系統對港口貨櫃進出口管理絕對有相當程度的幫助,為使貨櫃管理更自動化,本研究即利用數位影像處理技術來辨識貨櫃碼,以節省人...
隨著網路的普及,消費者將許多自身經驗撰寫成產品評論放上網站,使得消費者與廠商之間的資訊不對稱得以下降,同時產生了讓廠商無法忽視的口碑效應。根據兩項針對超過兩千名美國成年人的研究,有81%的網路使用者曾...
中文繁簡在字體或電腦編碼上明顯不同之外,在部份詞彙的用法也有不同,這些用法不同的詞彙卻有相同意義的詞彙稱為繁簡體中的等義詞,這些等義詞在雙方文化交流時可能會造成一些障礙,例如人們互相對話、文件書籍翻譯...
機器翻譯系統憑藉其速度快、成本低、專業術語一致等優勢始終受到推崇,但其譯文品質卻備受爭議,無法與人工譯文相媲美。所以瞭解機器譯文與人工譯文之間的差異就顯得尤為重要。通過比較可以瞭解機器翻譯在哪些方面差...
個人情報保護のため削除部分あり壬午事変に対し清が積極的に介入したことで、朝鮮をめぐる日清対抗は顕在化した。これ以後の日本の朝鮮政策について通説は、清との対決を覚悟しての朝鮮への勢力拡大を日本は決意し、...
此博士論文,針對奈米結構缺陷的電子顯微鏡成像與電性特徵之關聯性,發展了二種技術,一個是全新地偵測缺陷工具,一個是特別精心設計的晶片。這兩種技術的實驗細節都完整地呈現於內文中。前者,即是可移動奈米碳管懸...
互聯網金融是一個比較新興的概念,也是一個充滿未知,充滿想像空間的概念,其興起有其獨特的背景。這些背景中,有些是全球性的,有些則為中國大陸所特有。 本文藉由相關的一些文獻回顧,並結合一些數據分析趨勢,以...
在中文語言學的範疇內,中文詞彙字可分類成實詞與虛詞兩類。虛詞不能獨立構成句子,只能配合實詞以完成語法結構。因此虛詞的用法常成為語言學家的研究對象以及判斷語句結構的重要依據之一。發展自動判斷虛詞的工具,...
近年來,各國皆開始提倡環保概念,但卻很少人注意到,其實在虛擬世界中也需要環保。使用者在虛擬世界中,使用著看似免費的網路資源,肆無忌憚的上傳內容、讓垃圾郵件占據電子信箱空間。然而,為了提供虛擬世界的資訊...
本論文提供了一個句子重組試題編製的環境,協助教師編製句子重組試題,同時學生也能夠在此編製環境中練習句子重組試題。 句子重組試題即是要求學生把試題給的一組詞彙組合成特定詞序的正確語句之題型,該試...
在機器人自動導航中,含測距器的輪型行動機器人是相常泛用的平台之一。常見的使用方式,是利用一些理論或演算法來給予輪型行動機器人速度的指令,並接受其感測器回傳的資訊,以做為下一刻速度控制的參考值。而實際操...
主管罵人的現象在職場中屢見不鮮,但責罵並非都是意圖傷人的惡劣舉動。若從華人文化脈絡觀之,嚴加責備被視為一種督促或鞭策的作法,目的在於借助外塑的力量,透過引發恥感來達到約束與規範個體行動的效果。然而,在...
幸福感是一個多面向的概念,目前的幸福感測量仍是基於研究者自身的學術理念,在不同的哲學觀點下,提出不同的幸福成分或類別。本研究認為若能透過一個客觀的幸福感來源結構分析,將可觀察到一些更為基本的特徵或屬性...
本文主要分为4部分。1、光电混合神经网络系统衍射误差的仿真研究。 本文介绍了3种类型的光电混合神经网络系统,重点研究了衍射引起的误差对系统输出的影响。根据衍射、光学信,r}、处理和神经网络理论,采用实...