-
题名使用无监督学习改进中文分词
被引量:8
- 1
-
-
作者
沈翔翔
李小勇
-
机构
上海交通大学信息安全工程学院
-
出处
《小型微型计算机系统》
CSCD
北大核心
2017年第4期744-748,共5页
-
文摘
针对互联网语料中的未登录词问题,提出一种基于无监督学习的中文分词改进算法.使用基准分词器对未标注的语料进行分词,选择适合于未登录词发现的模型进行无监督训练得到词向量,并使用词向量结果贪心地发现未登录词,修正分词结果.在传统中文语料上与互联网语料上,比较了基于字典的字符串匹配模型与基于字符标注的机器学习模型的分词效果.实验结果表明,改进算法可以提升中文分词效果,在互联网语料上的提升效果尤为明显.改进算法在PKU语料上取得了最多1.1%的F值提升,在MSR语料上取得了最多1.2%的F值提升,在互联网语料上取得了最多5%的F值提升.
-
关键词
中文分词
词向量
无监督学习
未登陆词
分词优化
互联网语料
-
Keywords
Chinese word segmentation ( cws )
word embeddings
unsupervised learning
out-of-vocabulary ( OOV ) words
cws optimization
intemet corpus
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-