-
题名使用无监督学习改进中文分词
被引量:8
- 1
-
-
作者
沈翔翔
李小勇
-
机构
上海交通大学信息安全工程学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2017年第4期744-748,共5页
-
文摘
针对互联网语料中的未登录词问题,提出一种基于无监督学习的中文分词改进算法.使用基准分词器对未标注的语料进行分词,选择适合于未登录词发现的模型进行无监督训练得到词向量,并使用词向量结果贪心地发现未登录词,修正分词结果.在传统中文语料上与互联网语料上,比较了基于字典的字符串匹配模型与基于字符标注的机器学习模型的分词效果.实验结果表明,改进算法可以提升中文分词效果,在互联网语料上的提升效果尤为明显.改进算法在PKU语料上取得了最多1.1%的F值提升,在MSR语料上取得了最多1.2%的F值提升,在互联网语料上取得了最多5%的F值提升.
-
关键词
中文分词
词向量
无监督学习
未登陆词
分词优化
互联网语料
-
Keywords
Chinese word segmentation ( CWS )
word embeddings
unsupervised learning
out-of-vocabulary ( OOV ) words
CWS optimization
intemet corpus
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名网络语料库在英语写作教学中的应用
被引量:4
- 2
-
-
作者
李寒冰
杨梅
-
机构
中国防卫科技学院
吉林大学
-
出处
《长春师范学院学报》
2007年第1期135-137,共3页
-
基金
吉林省哲学社会科学基金"十一五"规划基金项目(2006052)
-
文摘
在教学中引入电脑语料库是当今国内外英语教育发展的新趋势。基于语料库的数据驱动学习为学生提供真实的学习环境和有效的探索语言的手段,可以提高学生的学习自主性,从而改进写作教学的效果,并对推进我国英语教学有一定积极意义。
-
关键词
因特网资源
语料库
英语写作教学
-
Keywords
intemet resources
corpus
EFL writing
-
分类号
H315
[语言文字—英语]
-