期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
现代汉语词汇历时检索系统的建设与应用 被引量:21
1
作者 荀恩东 饶高琦 +1 位作者 谢佳莉 黄志娥 《中文信息学报》 CSCD 北大核心 2015年第3期169-176,共8页
词汇是语言系统中最具活力的子系统。在语言演化的过程中,词汇的历时变化是语言学、历史学、社会学等多学科所关注的信息。我们收集了时间跨度约为60年的同质新闻语料。基于自然语言处理技术我们开发了现代汉语词汇历时检索系统。基于... 词汇是语言系统中最具活力的子系统。在语言演化的过程中,词汇的历时变化是语言学、历史学、社会学等多学科所关注的信息。我们收集了时间跨度约为60年的同质新闻语料。基于自然语言处理技术我们开发了现代汉语词汇历时检索系统。基于该平台可以利用频率、累积和与累积频率等方法从微观和宏观的角度上对词汇的语义、语用等方面进行研究。 展开更多
关键词 历时信息 词汇演化 历时计算 语料库
下载PDF
基于点关联测度矩阵分解的中英跨语言词嵌入方法 被引量:2
2
作者 于东 赵艳 +1 位作者 韦林煊 荀恩东 《中文信息学报》 CSCD 北大核心 2017年第1期58-65,74,共9页
研究基于矩阵分解的词嵌入方法,提出统一的描述模型,并应用于中英跨语言词嵌入问题。以双语对齐语料为知识源,提出跨语言关联词计算方法和两种点关联测度的计算方法:跨语言共现计数和跨语言点互信息。分别设计目标函数学习中英跨语言词... 研究基于矩阵分解的词嵌入方法,提出统一的描述模型,并应用于中英跨语言词嵌入问题。以双语对齐语料为知识源,提出跨语言关联词计算方法和两种点关联测度的计算方法:跨语言共现计数和跨语言点互信息。分别设计目标函数学习中英跨语言词嵌入。从目标函数、语料数据、向量维数等角度进行实验,结果表明,在中英跨语言文档分类中以前者作为点关联测度最高得到87.04%的准确率;在中英跨语言词义相似度计算中,后者作为点关联测度得到更好的性能,同时在英—英词义相似度计算中的性能略高于主流的英语词嵌入。 展开更多
关键词 点关联测度 词嵌入 跨语言 矩阵分解
下载PDF
基于BCC的离合词离析形式自动识别研究 被引量:2
3
作者 臧娇娇 荀恩东 《中文信息学报》 CSCD 北大核心 2017年第1期75-83,93,共10页
该文从中文信息处理角度对动宾型离合词自动识别进行研究。通过分析离合词在实际语料中的使用特点以及离合词离析成分在大规模语料库中的表现形式,从离合词内部入手,形式化地表示离合词的离析形式,总结自动识别的规则,设计基于规则的自... 该文从中文信息处理角度对动宾型离合词自动识别进行研究。通过分析离合词在实际语料中的使用特点以及离合词离析成分在大规模语料库中的表现形式,从离合词内部入手,形式化地表示离合词的离析形式,总结自动识别的规则,设计基于规则的自动识别算法。经过优化后,该算法在20亿字的语料中达到了91.6%的正确率。离合词语素构词能力强,分词与词性标注错误,规则的不完整性,语料本身的错误,以及人工标注的疏漏等是影响实验结论的主要因素。 展开更多
关键词 离合词 BCC 离析形式 自动识别
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部