汉语分词在汉语文本处理过程中是一个特殊而重要的组成部分。传统的基于词典的分词算法存在很大的缺陷,无法对未登录词进行很好的处理。基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理不尽如人意。文章提出一种基于上下文信息提取的概率分词算法,能够将切分文本的上下文信息加入到分词概率模型中,以指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在封闭和开放测试环境中分别取得了比较好的效果。Chinese segmentation is a special and important issue in Chinese texts processing.The traditional segmentation methods based on an existing dictionary have an obvious defect when they are used to segment texts which may contain words unknown to the dictionary.And the probabilistic methods those consider the probabilistic model of the training set only also do a bad job on the texts of a specific domain.In this paper,a probabilistic segmentation method based on extracting context information was proposed,which adds the context information of ...
为定量估计与提高基于时间分割的手写输入系统用户绩效 ,推导了用户绩效的静态与动态模型。实验一检验与修正了这两个模型 ,并获得整合模型。实验二证明该整合模型能对不同训练水平用户的绩效有较高的解释率。...
为定量估计与提高基于时间分割的手写输入系统用户绩效 ,推导了用户绩效的静态与动态模型。实验一检验与修正了这两个模型 ,并获得整合模型。实验二证明该整合模型能对不同训练水平用户的绩效有较高的解释率。应用...
本文结合藏文各类形态特征,首次提出了一种基于格助词和接续特征(BCCF,Based on Case-auxiliary word and Continuous Feature)的书面藏文自动分词方案....
提出了相对词频的概念,据此建立了语境计算模型,利用歧义字段前后语境信息对组合型分词歧义进行消解.对高频出现的5个组合型分词歧义进行实验,平均准确率达到95%以上,证明该方法对于消解组合型分词歧义具有良...
分词是汉语自然语言处理研究中非常重要的一个环节,在早先的研究中,最大熵模型和条件随机场(CRF)模型已经广泛运用到汉语自动分词的工作中.最大间隔马尔可夫网(M3N)模型是近年来由B.Taskar等~(...
该文探讨了无指导条件下的中文分词,这对构建语言无关的健壮分词系统大有裨益.互信息与HDP(Hierarchical Dirichlet Process)是无指导情况下常用的分词模型,该文将两者结合,并...
[[abstract]]學習華語文需具備斷詞的能力,由於華語句子的書寫形式不像拼音文字的書寫形式會使用空格,因此,華語句子中的詞彙並不具凸顯性,而造成華語學習者理解詞彙的困難。 本研究旨在建置一華語常...
为定量估计与提高基于空间分割的手写输入系统用户绩效 ,运用Fitts定律及离散变量的数学期望等方法推导了用户绩效的数学模型。实验验证了该模型在具体界面中能较好地拟合用户在 8次 (8× 2 4字 )训...
This paper presents a human-computer interaction learning model for segmenting Chinese texts dependi...
The Chinese language is written without using spaces or other word delimiters. Although a text may b...
The Chinese language is written without using spaces or other word delimiters. Although a text may b...
This paper describes the system that we use for Chinese segmentation task in the 3rd CIPS-SIGHAN bak...
La thèse a deux objectifs : le premier est de développer un analyseur qui permet d'analyser automati...
International audienceIn this paper, we present an unsupervised segmentation system tested on Mandar...
Textual information written in Chinese now represents a huge knowledge repository. The first step of...
为定量估计与提高基于时间分割的手写输入系统用户绩效 ,推导了用户绩效的静态与动态模型。实验一检验与修正了这两个模型 ,并获得整合模型。实验二证明该整合模型能对不同训练水平用户的绩效有较高的解释率。...
为定量估计与提高基于时间分割的手写输入系统用户绩效 ,推导了用户绩效的静态与动态模型。实验一检验与修正了这两个模型 ,并获得整合模型。实验二证明该整合模型能对不同训练水平用户的绩效有较高的解释率。应用...
本文结合藏文各类形态特征,首次提出了一种基于格助词和接续特征(BCCF,Based on Case-auxiliary word and Continuous Feature)的书面藏文自动分词方案....
提出了相对词频的概念,据此建立了语境计算模型,利用歧义字段前后语境信息对组合型分词歧义进行消解.对高频出现的5个组合型分词歧义进行实验,平均准确率达到95%以上,证明该方法对于消解组合型分词歧义具有良...
分词是汉语自然语言处理研究中非常重要的一个环节,在早先的研究中,最大熵模型和条件随机场(CRF)模型已经广泛运用到汉语自动分词的工作中.最大间隔马尔可夫网(M3N)模型是近年来由B.Taskar等~(...
该文探讨了无指导条件下的中文分词,这对构建语言无关的健壮分词系统大有裨益.互信息与HDP(Hierarchical Dirichlet Process)是无指导情况下常用的分词模型,该文将两者结合,并...
[[abstract]]學習華語文需具備斷詞的能力,由於華語句子的書寫形式不像拼音文字的書寫形式會使用空格,因此,華語句子中的詞彙並不具凸顯性,而造成華語學習者理解詞彙的困難。 本研究旨在建置一華語常...
为定量估计与提高基于空间分割的手写输入系统用户绩效 ,运用Fitts定律及离散变量的数学期望等方法推导了用户绩效的数学模型。实验验证了该模型在具体界面中能较好地拟合用户在 8次 (8× 2 4字 )训...
This paper presents a human-computer interaction learning model for segmenting Chinese texts dependi...
The Chinese language is written without using spaces or other word delimiters. Although a text may b...
The Chinese language is written without using spaces or other word delimiters. Although a text may b...
This paper describes the system that we use for Chinese segmentation task in the 3rd CIPS-SIGHAN bak...
La thèse a deux objectifs : le premier est de développer un analyseur qui permet d'analyser automati...
International audienceIn this paper, we present an unsupervised segmentation system tested on Mandar...
Textual information written in Chinese now represents a huge knowledge repository. The first step of...
为定量估计与提高基于时间分割的手写输入系统用户绩效 ,推导了用户绩效的静态与动态模型。实验一检验与修正了这两个模型 ,并获得整合模型。实验二证明该整合模型能对不同训练水平用户的绩效有较高的解释率。...
为定量估计与提高基于时间分割的手写输入系统用户绩效 ,推导了用户绩效的静态与动态模型。实验一检验与修正了这两个模型 ,并获得整合模型。实验二证明该整合模型能对不同训练水平用户的绩效有较高的解释率。应用...
本文结合藏文各类形态特征,首次提出了一种基于格助词和接续特征(BCCF,Based on Case-auxiliary word and Continuous Feature)的书面藏文自动分词方案....