-
题名多维领域知识下的《诗经》自动分词研究
被引量:12
- 1
-
-
作者
王姗姗
王东波
黄水清
何琳
-
机构
南京农业大学
-
出处
《情报学报》
CSSCI
CSCD
北大核心
2018年第2期183-193,共11页
-
基金
国家社会科学基金重大项目"基于<汉学引得丛刊>的典籍知识库构建及人文计算研究"(15ZDB127)
南京农业大学中央高校基本科研业务费人文社科基金"基于<汉学引得丛刊>的古文本体研究"(SKCX2017004)
-
文摘
《诗经》位居古文经学派"五经"之首,蕴含丰富。随着人文计算的广泛应用,本文结合《汉学引得丛刊》中《毛诗引得》的领域知识,采用机器学习的方法研究《诗经》的自动分词。基于《诗经》手工分词的语料,采用《广韵》字表和统计分析相结合的方法,得到23组融合不同特征知识的特征模板,训练产生机器学习分词模型。对每个分词模型进行性能测试,分析发现词性特征对《诗经》分词效果的影响最大,且分词模型的调和平均值F值最高可达到97.42%。最后,采用《毛诗引得》领域词表对测试性能最佳的分词模型进行长词校正的模型后处理,得到了融合《毛诗引得》专家词汇知识的《诗经》分词语料。本文融入多维领域知识实现《诗经》自动分词的研究模式不仅对先秦诗歌体的相关研究起借鉴意义,而且对先秦典籍的自动分词研究具有启发性,《诗经》分词语料作为先秦典籍语料库的一部分,对进一步实现先秦典籍的知识挖掘有较强的辅助作用。
-
关键词
《毛诗引得》
《诗经》
条件随机场模型
特征模板模型后处理
-
Keywords
Mao Shi Index
The Book of Songs
conditional random fields
feature template
post-processing
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-