-
题名现代汉语词汇历时检索系统的建设与应用
被引量:21
- 1
-
-
作者
荀恩东
饶高琦
谢佳莉
黄志娥
-
机构
北京语言大学大数据与教育技术研究所
北京语言大学语言科学院
厦门国家会计学院
福州应用技术大学人文学院
-
出处
《中文信息学报》
CSCD
北大核心
2015年第3期169-176,共8页
-
基金
国家自然科学基金(61300081
61170162)
+1 种基金
国家语委项目(YB125-42)
国家高技术研究(863)发展计划(2015AA015409)
-
文摘
词汇是语言系统中最具活力的子系统。在语言演化的过程中,词汇的历时变化是语言学、历史学、社会学等多学科所关注的信息。我们收集了时间跨度约为60年的同质新闻语料。基于自然语言处理技术我们开发了现代汉语词汇历时检索系统。基于该平台可以利用频率、累积和与累积频率等方法从微观和宏观的角度上对词汇的语义、语用等方面进行研究。
-
关键词
历时信息
词汇演化
历时计算
语料库
-
Keywords
diachronic information
lexicon evolution
diachronic computing
corpus
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于点关联测度矩阵分解的中英跨语言词嵌入方法
被引量:2
- 2
-
-
作者
于东
赵艳
韦林煊
荀恩东
-
机构
北京语言大学大数据与教育技术研究所
北京语言大学信息科学学院
-
出处
《中文信息学报》
CSCD
北大核心
2017年第1期58-65,74,共9页
-
基金
国家自然科学基金(61300081)
国家高技术研究发展计划(863)(2015AA015409)
中央高校基本科研业务费专项资金资助项目(北京语言大学科研项目:16YJ030002)
-
文摘
研究基于矩阵分解的词嵌入方法,提出统一的描述模型,并应用于中英跨语言词嵌入问题。以双语对齐语料为知识源,提出跨语言关联词计算方法和两种点关联测度的计算方法:跨语言共现计数和跨语言点互信息。分别设计目标函数学习中英跨语言词嵌入。从目标函数、语料数据、向量维数等角度进行实验,结果表明,在中英跨语言文档分类中以前者作为点关联测度最高得到87.04%的准确率;在中英跨语言词义相似度计算中,后者作为点关联测度得到更好的性能,同时在英—英词义相似度计算中的性能略高于主流的英语词嵌入。
-
关键词
点关联测度
词嵌入
跨语言
矩阵分解
-
Keywords
pointwise relevant measurement
word embedding
cross-lingual
matrix factorization
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于BCC的离合词离析形式自动识别研究
被引量:2
- 3
-
-
作者
臧娇娇
荀恩东
-
机构
北京语言大学大数据与教育技术研究所
-
出处
《中文信息学报》
CSCD
北大核心
2017年第1期75-83,93,共10页
-
基金
国家高技术研究发展计划(863计划)(2015AA015409)
-
文摘
该文从中文信息处理角度对动宾型离合词自动识别进行研究。通过分析离合词在实际语料中的使用特点以及离合词离析成分在大规模语料库中的表现形式,从离合词内部入手,形式化地表示离合词的离析形式,总结自动识别的规则,设计基于规则的自动识别算法。经过优化后,该算法在20亿字的语料中达到了91.6%的正确率。离合词语素构词能力强,分词与词性标注错误,规则的不完整性,语料本身的错误,以及人工标注的疏漏等是影响实验结论的主要因素。
-
关键词
离合词
BCC
离析形式
自动识别
-
Keywords
separable words
BCC
separable forms
automatic recognition
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
-