期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于最近邻的主动学习分词方法 被引量:1
1
作者 梁喜涛 顾磊 《计算机科学》 CSCD 北大核心 2015年第6期228-232,261,共6页
分词是中文自然语言处理中的一项关键基础技术。为了解决训练样本不足以及获取大量标注样本费时费力的问题,提出了一种基于最近邻规则的主动学习分词方法。使用新提出的选择策略从大量无标注样本中选择最有价值的样本进行标注,再把标注... 分词是中文自然语言处理中的一项关键基础技术。为了解决训练样本不足以及获取大量标注样本费时费力的问题,提出了一种基于最近邻规则的主动学习分词方法。使用新提出的选择策略从大量无标注样本中选择最有价值的样本进行标注,再把标注好的样本加入到训练集中,接着使用该集合来训练分词器。最后在PKU数据集、MSR数据集和山西大学数据集上进行测试,并与传统的基于不确定性的选择策略进行比较。实验结果表明,提出的最近邻主动学习方法在进行样本选择时能够选出更有价值的样本,有效降低了人工标注的代价,同时还提高了分词结果的准确率。 展开更多
关键词 中文分词 主动学习 不确定性取样 最近邻规则
下载PDF
基于分层选择策略的主动学习分词方法
2
作者 梁喜涛 顾磊 《计算机应用研究》 CSCD 北大核心 2015年第5期1353-1356,共4页
为了克服训练样本不足、获取大量标注样本费时费力的问题,在基于不确定选择策略的基础上,提出了一种新的基于分层选择策略的主动学习方法。使用新提出的选择策略从大量无标注的样本中选择最有价值的样例,进行标注后加入到训练集中来训... 为了克服训练样本不足、获取大量标注样本费时费力的问题,在基于不确定选择策略的基础上,提出了一种新的基于分层选择策略的主动学习方法。使用新提出的选择策略从大量无标注的样本中选择最有价值的样例,进行标注后加入到训练集中来训练分词器。最后在PKU、MSR和山西大学数据集上进行测试,并与不确定选择策略进行比较。结果表明提出的分层选择策略在相同大小的训练语料下可以获得更高的分词准确率,同时还降低了人工标注的代价。 展开更多
关键词 中文分词 主动学习 不确定性取样 分层取样策略
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部