该文探讨了无指导条件下的中文分词,这对构建语言无关的健壮分词系统大有裨益.互信息与HDP(Hierarchical Dirichlet Process)是无指导情况下常用的分词模型,该文将两者结合,并改进了采样算法.不考虑标点符号,在两份大小不同的测试语料上获得的F值为0.693与0.741,相比baseline的HDP分别提升了5.8%和3.9%.该文还用该模型进行了半指导分词,实验结果比常用的CRF有指导分词提升了2.6%.国家自然科学基金资助项目; 国家社会科学基金资助项目; 国家科技支撑计划子课题资助项目; 国家863计划项目资助中文核心期刊要目总览(PKU)中国科技核心期刊(ISTIC)中国科学引文数据库(CSCD)061-5,442
通过大型语料库对<汉语水平词汇与汉字等级大纲>中的离合词逐个进行考察,得到大量有效数据,发现了离合词家族的一些词汇语义规律.离合词中,大部分是表示人的普通的日常生活行为的词.统计发现,离合...
在本論文,我們建構一個基於中英平行語料的中文斷詞系統,並透過該系統對不同領域的語料斷詞。提供我們的系統不同領域的中英平行語料後,系統可以自動化地產生品質不錯的訓練語料,以節省透過人工斷詞方式取得訓練語...
目的:考察不同的词切分标识方式对阅读工效的影响。方法:实验采用单因素被试内设计,五种词切分标识方式分别为词阴影、词下划线、词斜线、词空格和无标识;被试为21名大学本科生。结果:被试在5种词切分标识方式...
[[abstract]]學習華語文需具備斷詞的能力,由於華語句子的書寫形式不像拼音文字的書寫形式會使用空格,因此,華語句子中的詞彙並不具凸顯性,而造成華語學習者理解詞彙的困難。 本研究旨在建置一華語常...
This paper proposes a refined Hierarchical Dirichlet Process (HDP) model for unsupervised Chinese wo...
大量的认知科学研究表明,词在阅读认知加工过程中起着非常重要的作用。因此在阅读中一个重要的过程就是把词从文本中切分出来。有别于英文等拼音文字,中文文本的词之间没有空格分隔。在没有空格辅助的条件下,中文阅...
本文提出了一种统计和规则相结合的语块抽取方法.本文使用Nagao串频统计算法进行基于词语的串频统计,进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤,得到候选语块,取...
以专用词典为切分工具,建立以概念为基础的、具有主题分类特点的类目结构是中文信息动态自动聚类的一种适用方式.该文探索了基于控制词集的中文信息动态自动聚类技术,包括专用控制词集的构建,动态有限环境下的自动...
分词是汉语自然语言处理研究中非常重要的一个环节,在早先的研究中,最大熵模型和条件随机场(CRF)模型已经广泛运用到汉语自动分词的工作中.最大间隔马尔可夫网(M3N)模型是近年来由B.Taskar等~(...
汉语分词在汉语文本处理过程中是一个特殊而重要的组成部分。传统的基于词典的分词算法存在很大的缺陷,无法对未登录词进行很好的处理。基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理不尽如...
In this paper, we propose a joint model for unsupervised Chinese word segmentation (CWS). Inspired b...
In this paper, we propose a joint model for unsupervised Chinese word segmentation (CWS). Inspired b...
In this paper, we propose a joint model for unsupervised Chinese word segmentation (CWS). Inspired b...
提出了相对词频的概念,据此建立了语境计算模型,利用歧义字段前后语境信息对组合型分词歧义进行消解.对高频出现的5个组合型分词歧义进行实验,平均准确率达到95%以上,证明该方法对于消解组合型分词歧义具有良...
词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用.该文研究了基于大规模语料库的汉语词义相似度计算方法,...
通过大型语料库对<汉语水平词汇与汉字等级大纲>中的离合词逐个进行考察,得到大量有效数据,发现了离合词家族的一些词汇语义规律.离合词中,大部分是表示人的普通的日常生活行为的词.统计发现,离合...
在本論文,我們建構一個基於中英平行語料的中文斷詞系統,並透過該系統對不同領域的語料斷詞。提供我們的系統不同領域的中英平行語料後,系統可以自動化地產生品質不錯的訓練語料,以節省透過人工斷詞方式取得訓練語...
目的:考察不同的词切分标识方式对阅读工效的影响。方法:实验采用单因素被试内设计,五种词切分标识方式分别为词阴影、词下划线、词斜线、词空格和无标识;被试为21名大学本科生。结果:被试在5种词切分标识方式...
[[abstract]]學習華語文需具備斷詞的能力,由於華語句子的書寫形式不像拼音文字的書寫形式會使用空格,因此,華語句子中的詞彙並不具凸顯性,而造成華語學習者理解詞彙的困難。 本研究旨在建置一華語常...
This paper proposes a refined Hierarchical Dirichlet Process (HDP) model for unsupervised Chinese wo...
大量的认知科学研究表明,词在阅读认知加工过程中起着非常重要的作用。因此在阅读中一个重要的过程就是把词从文本中切分出来。有别于英文等拼音文字,中文文本的词之间没有空格分隔。在没有空格辅助的条件下,中文阅...
本文提出了一种统计和规则相结合的语块抽取方法.本文使用Nagao串频统计算法进行基于词语的串频统计,进一步分别利用统计方法、语块边界过滤规则对2-gram到10-gram语块进行过滤,得到候选语块,取...
以专用词典为切分工具,建立以概念为基础的、具有主题分类特点的类目结构是中文信息动态自动聚类的一种适用方式.该文探索了基于控制词集的中文信息动态自动聚类技术,包括专用控制词集的构建,动态有限环境下的自动...
分词是汉语自然语言处理研究中非常重要的一个环节,在早先的研究中,最大熵模型和条件随机场(CRF)模型已经广泛运用到汉语自动分词的工作中.最大间隔马尔可夫网(M3N)模型是近年来由B.Taskar等~(...
汉语分词在汉语文本处理过程中是一个特殊而重要的组成部分。传统的基于词典的分词算法存在很大的缺陷,无法对未登录词进行很好的处理。基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理不尽如...
In this paper, we propose a joint model for unsupervised Chinese word segmentation (CWS). Inspired b...
In this paper, we propose a joint model for unsupervised Chinese word segmentation (CWS). Inspired b...
In this paper, we propose a joint model for unsupervised Chinese word segmentation (CWS). Inspired b...
提出了相对词频的概念,据此建立了语境计算模型,利用歧义字段前后语境信息对组合型分词歧义进行消解.对高频出现的5个组合型分词歧义进行实验,平均准确率达到95%以上,证明该方法对于消解组合型分词歧义具有良...
词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用.该文研究了基于大规模语料库的汉语词义相似度计算方法,...
通过大型语料库对<汉语水平词汇与汉字等级大纲>中的离合词逐个进行考察,得到大量有效数据,发现了离合词家族的一些词汇语义规律.离合词中,大部分是表示人的普通的日常生活行为的词.统计发现,离合...
在本論文,我們建構一個基於中英平行語料的中文斷詞系統,並透過該系統對不同領域的語料斷詞。提供我們的系統不同領域的中英平行語料後,系統可以自動化地產生品質不錯的訓練語料,以節省透過人工斷詞方式取得訓練語...
目的:考察不同的词切分标识方式对阅读工效的影响。方法:实验采用单因素被试内设计,五种词切分标识方式分别为词阴影、词下划线、词斜线、词空格和无标识;被试为21名大学本科生。结果:被试在5种词切分标识方式...