期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
面向非结构化文本的开放式实体属性抽取
被引量:
11
1
作者
曾道建
来斯惟
+2 位作者
张元哲
刘康
赵军
《江西师范大学学报(自然科学版)》
CAS
北大核心
2013年第3期279-283,305,共6页
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取...
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性.
展开更多
关键词
属性抽取
非结构化
信息框
百度百科
下载PDF
职称材料
中文维基百科的实体分类研究
被引量:
1
2
作者
徐志浩
惠浩添
+1 位作者
钱龙华
朱巧明
《中文信息学报》
CSCD
北大核心
2015年第5期91-97,124,共8页
维基百科实体分类对自然语言处理和机器学习具有重要的作用。该文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来...
维基百科实体分类对自然语言处理和机器学习具有重要的作用。该文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来提高实体分类性能。在人工标注的语料库上的实验表明,这些额外特征有效地提高了ACE分类体系上的实体分类性能,总体F1值达到96%,同时在扩展实体分类上也取得了较好的效果,总体F1值达95%。
展开更多
关键词
维基百科
实体分类
半结构化信息
信息框
下载PDF
职称材料
基于Wiki技术的标准术语库的设计与实现
被引量:
2
3
作者
王莉
梁冰
+2 位作者
郝春云
朱晓华
白海燕
《数字图书馆论坛》
2011年第3期44-51,共8页
Wiki在知识协作方面的便利性,使其逐渐成为人类历史上一种崭新的、高效率的知识积累方式。文章提出基于Wiki技术构建标准术语数据库建设方案,旨在集合大众力量进行知识共建;同时,利用Wiki自定义信息模板功能,在wiki用户界面下模拟...
Wiki在知识协作方面的便利性,使其逐渐成为人类历史上一种崭新的、高效率的知识积累方式。文章提出基于Wiki技术构建标准术语数据库建设方案,旨在集合大众力量进行知识共建;同时,利用Wiki自定义信息模板功能,在wiki用户界面下模拟实现了数据的结构化存储与查询,以及自动抽取批量发布的功能,并在实际应用中取得了良好效果,对充分发挥标准术语的知识价值、促进标准的宣贯具有积极作用。建设实践中数据质量通过术语描述规范和术语提交审订流程控制,文章对其闻可能涉及的知识产权风险进行了说明。
展开更多
关键词
标准术语
标准术语数据库
WIKI
MediaWiki
信息模板
知识产权
下载PDF
职称材料
基于序列到序列模型的文本到信息框生成的研究
被引量:
1
4
作者
鲍军威
周明
赵铁军
《智能计算机与应用》
2019年第3期1-5,10,共6页
本文展示了一种序列到序列的模型(Seq2Seq)来基于文本生成信息框(Infobox),信息框指的是一组"属性-值"对。该模型以端到端的方式工作,可利用一个编码器将一个文本段落表示成一个隐向量序列,然后通过解码器来生成信息框。本文...
本文展示了一种序列到序列的模型(Seq2Seq)来基于文本生成信息框(Infobox),信息框指的是一组"属性-值"对。该模型以端到端的方式工作,可利用一个编码器将一个文本段落表示成一个隐向量序列,然后通过解码器来生成信息框。本文在WIKIBIO数据集上进行实验。研究提出的序列到序列模型取得了58.2的F1值,该结果比流水线式的基准方法显著提升了21.0个百分点。实验结果表明,本模型具有以生成序列的方式来生成"属性-值"对的能力。引入注意力与拷贝机制可以提升模型的准确率。更重要的是,研究观察到该拷贝机制有能力从输入文本中拷贝稀有词来生成目标端信息框中的"值"。
展开更多
关键词
文本到信息框生成
序列到序列模型
注意力机制
拷贝机制
下载PDF
职称材料
题名
面向非结构化文本的开放式实体属性抽取
被引量:
11
1
作者
曾道建
来斯惟
张元哲
刘康
赵军
机构
中国科学院自动化所模式识别国家重点实验室
出处
《江西师范大学学报(自然科学版)》
CAS
北大核心
2013年第3期279-283,305,共6页
基金
国家自然科学基金(61070106)
国家"973"计划(2012CB316300)
清华信息科学与技术国家实验室(筹)基金资助项目
文摘
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性.
关键词
属性抽取
非结构化
信息框
百度百科
Keywords
attribute-value extraction
unstructured text
infobox
Baidu encyclopedia
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
中文维基百科的实体分类研究
被引量:
1
2
作者
徐志浩
惠浩添
钱龙华
朱巧明
机构
苏州大学自然语言处理实验室
苏州大学计算机科学与技术学院
出处
《中文信息学报》
CSCD
北大核心
2015年第5期91-97,124,共8页
基金
国家自然科学基金(61373096
90920004)
江苏省高校自然科学研究重大项目(11KJA520003)
文摘
维基百科实体分类对自然语言处理和机器学习具有重要的作用。该文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来提高实体分类性能。在人工标注的语料库上的实验表明,这些额外特征有效地提高了ACE分类体系上的实体分类性能,总体F1值达到96%,同时在扩展实体分类上也取得了较好的效果,总体F1值达95%。
关键词
维基百科
实体分类
半结构化信息
信息框
Keywords
Wikipedia
named entities classification
semi-structured data
infobox
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Wiki技术的标准术语库的设计与实现
被引量:
2
3
作者
王莉
梁冰
郝春云
朱晓华
白海燕
机构
中国科学技术信息研究所
出处
《数字图书馆论坛》
2011年第3期44-51,共8页
基金
中央级公益科研院基本科研业务费专项资金中国科学技术信息研究所2010年度预研基金项目“信息与文献标准术语协作计划”(项目编号:YY-2010014)研究成果之一.
文摘
Wiki在知识协作方面的便利性,使其逐渐成为人类历史上一种崭新的、高效率的知识积累方式。文章提出基于Wiki技术构建标准术语数据库建设方案,旨在集合大众力量进行知识共建;同时,利用Wiki自定义信息模板功能,在wiki用户界面下模拟实现了数据的结构化存储与查询,以及自动抽取批量发布的功能,并在实际应用中取得了良好效果,对充分发挥标准术语的知识价值、促进标准的宣贯具有积极作用。建设实践中数据质量通过术语描述规范和术语提交审订流程控制,文章对其闻可能涉及的知识产权风险进行了说明。
关键词
标准术语
标准术语数据库
WIKI
MediaWiki
信息模板
知识产权
Keywords
Standard terms, Standard terminological database, Wiki, Mediawiki,
infobox
template, Intellectual property
分类号
F270 [经济管理—企业管理]
下载PDF
职称材料
题名
基于序列到序列模型的文本到信息框生成的研究
被引量:
1
4
作者
鲍军威
周明
赵铁军
机构
哈尔滨工业大学计算机科学与技术学院
微软亚洲研究院
出处
《智能计算机与应用》
2019年第3期1-5,10,共6页
文摘
本文展示了一种序列到序列的模型(Seq2Seq)来基于文本生成信息框(Infobox),信息框指的是一组"属性-值"对。该模型以端到端的方式工作,可利用一个编码器将一个文本段落表示成一个隐向量序列,然后通过解码器来生成信息框。本文在WIKIBIO数据集上进行实验。研究提出的序列到序列模型取得了58.2的F1值,该结果比流水线式的基准方法显著提升了21.0个百分点。实验结果表明,本模型具有以生成序列的方式来生成"属性-值"对的能力。引入注意力与拷贝机制可以提升模型的准确率。更重要的是,研究观察到该拷贝机制有能力从输入文本中拷贝稀有词来生成目标端信息框中的"值"。
关键词
文本到信息框生成
序列到序列模型
注意力机制
拷贝机制
Keywords
text-to-
infobox
sequence-to-sequence model
attention mechanism
copying mechanism
分类号
TP393.01 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
面向非结构化文本的开放式实体属性抽取
曾道建
来斯惟
张元哲
刘康
赵军
《江西师范大学学报(自然科学版)》
CAS
北大核心
2013
11
下载PDF
职称材料
2
中文维基百科的实体分类研究
徐志浩
惠浩添
钱龙华
朱巧明
《中文信息学报》
CSCD
北大核心
2015
1
下载PDF
职称材料
3
基于Wiki技术的标准术语库的设计与实现
王莉
梁冰
郝春云
朱晓华
白海燕
《数字图书馆论坛》
2011
2
下载PDF
职称材料
4
基于序列到序列模型的文本到信息框生成的研究
鲍军威
周明
赵铁军
《智能计算机与应用》
2019
1
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部