词义知识获取是词义知识库建设、词义消歧等任务的基础和起点,目前该工作基本依赖人类专家的智慧和洞察力,在大规模文本处理上缺乏意义计算的客观性和一致性.该文以汉语的中高频形容词为样本,深入挖掘词义特征并采用有参数初始化过程的EM迭代算法,实现了从真实文本中自动发现并区分词语词义的过程.该词义区分算法选取易获取的词形特征、基于大规模语料的搭配特征、基于网络语料的属性-宿主关系特征,替代以往难以获取的句法结构特征,并进一步利用HowNet优化了词形特征的选择.该工作可以应用于信息检索等领域,能够对现有词典起到修改和补充的作用,该思路亦可扩展到其他汉语词类上去.国家重点基础研究发展规划(973计划); 国家自然科学基金; 国家社会科学基金; 全国优秀博士学位论文作者专项资助项目中文核心期刊要目总览(PKU)中国科技核心期刊(ISTIC)中国科学引文数据库(CSCD)0619-252
历史语料证明了“实词虚化”是汉语词汇的总体发展方向。量词的泛化往往是由于量词的词义发生了虚化,使其获得更大的修饰范围。量词“粒”的泛化是新马华语的特有现象,其泛化的程度是其他使用汉语的地区所不能及的。...
历史语料证明了“实词虚化”是汉语词汇的总体发展方向。量词的泛化往往是由于量词的词义发生了虚化,使其获得更大的修饰范围。量词“粒”的泛化是新马华语的特有现象,其泛化的程度是其他使用汉语的地区所不能及的。...
文章扼要评述了汉语学界高名凯、吕叔湘、朱德熙、沈家煊等四位学者有代表性的关于汉语词类特点的观点,在此基础上以汉语事实分析说明了汉语词类的真正特点,明确指出:汉语词类与句法成分一对多对应,动词、形容词能...
本文提出了"主观词"的概念,并探讨主观词存在的心理现实性以及主观词的加工特征。包括3项研究:研究1考察了普通大学生对双字结构的词汇辨别情况,发现他们倾向于将短语和词主观判断为词,即...
<左传>"今京不度,非制也"中的"制"和"度"虽然可以看作同义词...
词义消歧长期以来一直是自然语言处理中的热点和难题,集成方法被认为是机器学习研究的四大趋势之一.系统研究了9种集成学习方法在汉语词义消歧中的应用.9种集成方法分别是乘法规则、均值、最大值、最小值、多数投...
目的:运用事件相关电位(ERPs)技术探讨汉词再认新旧效应的性别差异及其脑机制.方法:30名大学生(男女各半)参与汉词再认测验,同时记录EEG,离线处理数据后比较男女被试诱发出的ERPs主要成分及其新...
词义消歧研究在自然语言处理的许多应用领域中具有重要的理论和实践意义,在机器翻译中更是如此,它直接关系到译文质量的提高.但目前已有的词义消歧系统基本上都面临着消歧知识获取的瓶颈问题,要真正有效地提高词义...
进行了三个跨通道启动词汇判断实验,探讨汉语听觉词汇加工中声调信息对语义激活的制约作用.实验一和二使用具有相同音段信息、但不同声调信息的双音节合成词(如"条约"和&a...
目的:对汉语名词、动词和形容词的情感信息进行多维度评定和验证,建立标准化的汉语情绪词库.方法:通过招募广告征集到被试124名,选取30位被试分别对250个双字名词进行愉悦度、唤醒度、优势度、趋向度和熟...
目的:编制中文情绪形容词检测表(CMACL)并对其信效度进行初步研究.方法:1010被试(平均年龄21.0±7.4岁)作为总体样本完成CMACL初测版本测试,在平衡性别后被随机分为两...
上古汉语形容词作状语(状位形容词)极易与形容词作谓语、副词作状语相纠缠,研究状位形容词,首先要将它和这二者鉴别开来。状位形容词与形容词作谓语的鉴别属于句法结构问题,可以使用"转换法"...
目的:对汉语名词、动词和形容词的情感信息进行多维度评定和验证,建立标准化的汉语情绪词库.方法:通过招募广告征集到被试124名,选取30位被试分别对250个双字名词进行愉悦度、唤醒度、优势度、趋向度和熟...
本文探讨了面向汉语信息处理的词语义项区分应该遵守的原则和方法.先界定了作为计算机自动词义消歧对象的多义词的范围;然后指出面对大规模真实文本,词语义项区分应具有可操作性,即应具有完备性和离散性;最后论证...
个语言对使用这个语言人的思想和世界观有很大的影响。如果一个语言区分性别,它一定也包含一种特定的性别意识。有的语言很明显地包含性别意识,比方说德语是一种典型“有性别的语言”。可是有的语言虽然一般来说被视...
历史语料证明了“实词虚化”是汉语词汇的总体发展方向。量词的泛化往往是由于量词的词义发生了虚化,使其获得更大的修饰范围。量词“粒”的泛化是新马华语的特有现象,其泛化的程度是其他使用汉语的地区所不能及的。...
历史语料证明了“实词虚化”是汉语词汇的总体发展方向。量词的泛化往往是由于量词的词义发生了虚化,使其获得更大的修饰范围。量词“粒”的泛化是新马华语的特有现象,其泛化的程度是其他使用汉语的地区所不能及的。...
文章扼要评述了汉语学界高名凯、吕叔湘、朱德熙、沈家煊等四位学者有代表性的关于汉语词类特点的观点,在此基础上以汉语事实分析说明了汉语词类的真正特点,明确指出:汉语词类与句法成分一对多对应,动词、形容词能...
本文提出了"主观词"的概念,并探讨主观词存在的心理现实性以及主观词的加工特征。包括3项研究:研究1考察了普通大学生对双字结构的词汇辨别情况,发现他们倾向于将短语和词主观判断为词,即...
<左传>"今京不度,非制也"中的"制"和"度"虽然可以看作同义词...
词义消歧长期以来一直是自然语言处理中的热点和难题,集成方法被认为是机器学习研究的四大趋势之一.系统研究了9种集成学习方法在汉语词义消歧中的应用.9种集成方法分别是乘法规则、均值、最大值、最小值、多数投...
目的:运用事件相关电位(ERPs)技术探讨汉词再认新旧效应的性别差异及其脑机制.方法:30名大学生(男女各半)参与汉词再认测验,同时记录EEG,离线处理数据后比较男女被试诱发出的ERPs主要成分及其新...
词义消歧研究在自然语言处理的许多应用领域中具有重要的理论和实践意义,在机器翻译中更是如此,它直接关系到译文质量的提高.但目前已有的词义消歧系统基本上都面临着消歧知识获取的瓶颈问题,要真正有效地提高词义...
进行了三个跨通道启动词汇判断实验,探讨汉语听觉词汇加工中声调信息对语义激活的制约作用.实验一和二使用具有相同音段信息、但不同声调信息的双音节合成词(如"条约"和&a...
目的:对汉语名词、动词和形容词的情感信息进行多维度评定和验证,建立标准化的汉语情绪词库.方法:通过招募广告征集到被试124名,选取30位被试分别对250个双字名词进行愉悦度、唤醒度、优势度、趋向度和熟...
目的:编制中文情绪形容词检测表(CMACL)并对其信效度进行初步研究.方法:1010被试(平均年龄21.0±7.4岁)作为总体样本完成CMACL初测版本测试,在平衡性别后被随机分为两...
上古汉语形容词作状语(状位形容词)极易与形容词作谓语、副词作状语相纠缠,研究状位形容词,首先要将它和这二者鉴别开来。状位形容词与形容词作谓语的鉴别属于句法结构问题,可以使用"转换法"...
目的:对汉语名词、动词和形容词的情感信息进行多维度评定和验证,建立标准化的汉语情绪词库.方法:通过招募广告征集到被试124名,选取30位被试分别对250个双字名词进行愉悦度、唤醒度、优势度、趋向度和熟...
本文探讨了面向汉语信息处理的词语义项区分应该遵守的原则和方法.先界定了作为计算机自动词义消歧对象的多义词的范围;然后指出面对大规模真实文本,词语义项区分应具有可操作性,即应具有完备性和离散性;最后论证...
个语言对使用这个语言人的思想和世界观有很大的影响。如果一个语言区分性别,它一定也包含一种特定的性别意识。有的语言很明显地包含性别意识,比方说德语是一种典型“有性别的语言”。可是有的语言虽然一般来说被视...
历史语料证明了“实词虚化”是汉语词汇的总体发展方向。量词的泛化往往是由于量词的词义发生了虚化,使其获得更大的修饰范围。量词“粒”的泛化是新马华语的特有现象,其泛化的程度是其他使用汉语的地区所不能及的。...
历史语料证明了“实词虚化”是汉语词汇的总体发展方向。量词的泛化往往是由于量词的词义发生了虚化,使其获得更大的修饰范围。量词“粒”的泛化是新马华语的特有现象,其泛化的程度是其他使用汉语的地区所不能及的。...
文章扼要评述了汉语学界高名凯、吕叔湘、朱德熙、沈家煊等四位学者有代表性的关于汉语词类特点的观点,在此基础上以汉语事实分析说明了汉语词类的真正特点,明确指出:汉语词类与句法成分一对多对应,动词、形容词能...