-
题名基于最近邻的主动学习分词方法
被引量:1
- 1
-
-
作者
梁喜涛
顾磊
-
机构
南京邮电大学计算机学院
-
出处
《计算机科学》
CSCD
北大核心
2015年第6期228-232,261,共6页
-
基金
国家自然科学基金(61302157)
教育部人文社会科学研究青年基金(12YJC870008)
+1 种基金
江苏省教育厅高校哲学社会科学基金(2013SJB870004)
江苏省社科研究文化精品课题(12SWC-030)资助
-
文摘
分词是中文自然语言处理中的一项关键基础技术。为了解决训练样本不足以及获取大量标注样本费时费力的问题,提出了一种基于最近邻规则的主动学习分词方法。使用新提出的选择策略从大量无标注样本中选择最有价值的样本进行标注,再把标注好的样本加入到训练集中,接着使用该集合来训练分词器。最后在PKU数据集、MSR数据集和山西大学数据集上进行测试,并与传统的基于不确定性的选择策略进行比较。实验结果表明,提出的最近邻主动学习方法在进行样本选择时能够选出更有价值的样本,有效降低了人工标注的代价,同时还提高了分词结果的准确率。
-
关键词
中文分词
主动学习
不确定性取样
最近邻规则
-
Keywords
Chinese word segmentation
Active learning
Uncertainty sampling
Nearest neighbor rule
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于分层选择策略的主动学习分词方法
- 2
-
-
作者
梁喜涛
顾磊
-
机构
南京邮电大学计算机学院
-
出处
《计算机应用研究》
CSCD
北大核心
2015年第5期1353-1356,共4页
-
基金
国家自然科学基金资助项目(61302157)
国家教育部人文社会科学研究青年基金资助项目(12YJC870008)
+1 种基金
江苏省教育厅高校哲学社会科学基金资助项目(2013SJB870004)
江苏省社科研究文化精品课题(12SWC-030)
-
文摘
为了克服训练样本不足、获取大量标注样本费时费力的问题,在基于不确定选择策略的基础上,提出了一种新的基于分层选择策略的主动学习方法。使用新提出的选择策略从大量无标注的样本中选择最有价值的样例,进行标注后加入到训练集中来训练分词器。最后在PKU、MSR和山西大学数据集上进行测试,并与不确定选择策略进行比较。结果表明提出的分层选择策略在相同大小的训练语料下可以获得更高的分词准确率,同时还降低了人工标注的代价。
-
关键词
中文分词
主动学习
不确定性取样
分层取样策略
-
Keywords
Chinese word segmentation
active learning
uncertainty sampling
stratified sampling strategy
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
TP311.1
[自动化与计算机技术—控制科学与工程]
-