期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
面向本体学习的中文专利术语抽取研究 被引量:18
1
作者 王昊 王密平 苏新宁 《情报学报》 CSSCI 北大核心 2016年第6期573-585,共13页
本文提出了一个无或少训练语料环境下抽取中文专利术语的解决方案。以"钢铁冶金"领域专利文本为例,首先总结了该领域中文术语的基本特征,进而建立了基于字角色标注的机器学习术语识别模型,并通过循环迭代方式重复条件随机场... 本文提出了一个无或少训练语料环境下抽取中文专利术语的解决方案。以"钢铁冶金"领域专利文本为例,首先总结了该领域中文术语的基本特征,进而建立了基于字角色标注的机器学习术语识别模型,并通过循环迭代方式重复条件随机场的学习过程,最大限度避免因核心词汇库代替人工带来的标注不准确不充分问题;在此基础上,进一步依据合成规则构造新术语,并经过领域专家确认后添加至核心词汇库中。经过实验论证,基于字角色标注的基本术语抽取F1值高于94%,而基于合成规则的复杂术语抽取准确率也可达到75%。在7597件专利的题名和摘要文本中,最终可获得中文基本术语244672个,合成术语61536个,为领域本体的构建奠定了基础。 展开更多
关键词 中文专利术语 机器学习 条件随机场 字角色标注 循环迭代 合成规则 本体学习
下载PDF
中文专利术语层次关系解析研究 被引量:7
2
作者 吴志祥 王昊 王密平 《情报学报》 CSSCI CSCD 北大核心 2017年第4期401-410,共10页
对非结构化专利文本中的领域术语进行抽取以及语义关系的解析是挖掘蕴藏在专利文献中的丰富知识,并进行深入应用的前提。本文在领域专利术语有效抽取的基础上,探讨并实现较大规模术语层次关系的解析,构建了含有层次关系的领域知识本体... 对非结构化专利文本中的领域术语进行抽取以及语义关系的解析是挖掘蕴藏在专利文献中的丰富知识,并进行深入应用的前提。本文在领域专利术语有效抽取的基础上,探讨并实现较大规模术语层次关系的解析,构建了含有层次关系的领域知识本体。着重研究了基于位置加权的术语语义空间构建方法,基于主成分分析降维技术进行术语分布可视化以辅助聚类类目的确定方法以及术语层次关系结构中非重复性类目标签的抽取方法。本文工作尽可能实现了较大规模中文专利术语层次关系解析的自动化进行,为术语非层次关系解析以及基于术语语义关系解析的深入应用打下基础。 展开更多
关键词 中文专利术语 位置加权 PCA降维 类目标签抽取 术语层次关系 本体学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部