期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
面向非结构化文本的开放式实体属性抽取 被引量:11
1
作者 曾道建 来斯惟 +2 位作者 张元哲 刘康 赵军 《江西师范大学学报(自然科学版)》 CAS 北大核心 2013年第3期279-283,305,共6页
从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取... 从非结构化文本中抽取给定实体的属性及属性值,将属性抽取看作是一个序列标注问题.为避免人工标注训练语料,充分利用百度百科信息框(Infobox)已有的结构化内容,对非结构化文本回标自动产生训练数据.在得到训练语料后,结合中文特点,选取多维度特征训练序列标注模型,并利用上下文信息进一步提高系统性能,进而在非结构化文本中抽取出实体的属性及属性值.实验结果表明:该方法在百度百科多个类别中均有效;同时,该方法可以直接扩展到类似的非结构化文本中抽取属性. 展开更多
关键词 属性抽取 非结构化 信息框 百度百科
下载PDF
结合全局特征的命名实体属性值抽取 被引量:5
2
作者 刘倩 伍大勇 +2 位作者 刘悦 程学旗 庞琳 《计算机研究与发展》 EI CSCD 北大核心 2016年第4期941-948,共8页
关注非结构化文本中命名实体属性值的抽取问题.当前主流有监督属性值抽取方法仅使用局部特征,抽取效果有限,开展了利用文本全局特征改善属性值抽取的研究.通过适用于中文属性值抽取的全局特征,用局部特征以外的有价值信息提高抽取效果.... 关注非结构化文本中命名实体属性值的抽取问题.当前主流有监督属性值抽取方法仅使用局部特征,抽取效果有限,开展了利用文本全局特征改善属性值抽取的研究.通过适用于中文属性值抽取的全局特征,用局部特征以外的有价值信息提高抽取效果.据此,提出结合全局特征的感知机学习算法,该算法能够方便地融合文本全局特征,并将全局特征和局部特征统一结合到模型学习过程中,使模型具有更好的特征表示能力.实验结果表明,所提出方法的整体抽取效果高于仅使用局部特征的CRF模型和平均感知机模型.该方法适用于开放领域的属性值获取,具有较好的泛化能力. 展开更多
关键词 实体属性 属性值抽取 命名实体 全局特征 平均感知机
下载PDF
基于元性质的数量型属性值自动提取系统的实现 被引量:4
3
作者 卢汉 曹存根 王石 《计算机研究与发展》 EI CSCD 北大核心 2010年第10期1741-1748,共8页
实体属性值抽取是信息抽取的重要组成部分.针对数量型属性类型多样以及取值易变的问题,设计实现了一种基于元性质的数量型属性值自动抽取系统.对系统的结构、功能框架以及相关核心技术,包括提取文本的选择、候选值的提取及评估、结果的... 实体属性值抽取是信息抽取的重要组成部分.针对数量型属性类型多样以及取值易变的问题,设计实现了一种基于元性质的数量型属性值自动抽取系统.对系统的结构、功能框架以及相关核心技术,包括提取文本的选择、候选值的提取及评估、结果的自动验证等进行了详细讨论.通过对百度百科的五大类9个子类实体数量型属性值的抽取,平均准确率和召回率分别达到71%和89%,高于基于简单搜索的方法和传统的基于词汇-句模的方法.该方法适用于开放领域的数量型属性值获取,易于获取单值属性的精确取值. 展开更多
关键词 属性值抽取 数量型属性 属性元性质 锚文本 层次分析
下载PDF
中文专利属性值对抽取技术及应用 被引量:1
4
作者 孙东普 朱鸣华 林鸿飞 《计算机工程与科学》 CSCD 北大核心 2016年第4期800-806,共7页
专利信息抽取是专利分析的基础,属性及属性值的识别与抽取是专利信息抽取所要解决的关键问题。目前,在中文专利信息抽取领域针对属性和属性值同步抽取的研究较少。本文以中文专利摘要作为实验语料,运用统计学习知识,提出一种基于条件随... 专利信息抽取是专利分析的基础,属性及属性值的识别与抽取是专利信息抽取所要解决的关键问题。目前,在中文专利信息抽取领域针对属性和属性值同步抽取的研究较少。本文以中文专利摘要作为实验语料,运用统计学习知识,提出一种基于条件随机场的抽取方法。该方法将属性和属性值视为命名实体,利用语料训练得到条件随机场模型,从而实现对属性和属性值的抽取;再利用挖掘的关联规则完成属性与属性值匹配。实验结果的准确率、召回率和F值分别是80.8%、81.2%和81.0%,其表明该方法能够高效同步抽取属性和属性值。同时,在抽取结果的基础上,本文完成了对专利的分析和同类专利的比较,体现了本方法的实用价值。 展开更多
关键词 属性抽取 属性值抽取 中文专利 条件随机场
下载PDF
一种基于WWW的Ontology属性值自动提取方法 被引量:1
5
作者 赵庆亮 穗志方 《中文信息学报》 CSCD 北大核心 2008年第6期69-74,共6页
属性值是描述Ontology中类的重要信息,但是当前关于属性值的自动提取的研究并不多。该文提出一种基于WWW的Ontology属性值自动提取方法。论文首先提出了一种在小规模属性值种子集的基础上,包含属性值的句子的选择与属性值提取互动的方... 属性值是描述Ontology中类的重要信息,但是当前关于属性值的自动提取的研究并不多。该文提出一种基于WWW的Ontology属性值自动提取方法。论文首先提出了一种在小规模属性值种子集的基础上,包含属性值的句子的选择与属性值提取互动的方法。这种方法利用互联网信息的冗余性,自动抽取并扩充目标属性值集合。然后,为避免人工构造属性值种子集,提出种子集自动生成的方法。我们设计实验来计算提取结果的正确率和召回率,此外,我们还通过将填充后的Ontology信息用于网页正文提取任务来展示Ontology自动扩充结果的有效性。 展开更多
关键词 计算机应用 中文信息处理 因特网 互动方法 属性值提取
下载PDF
基于机器阅读理解模型与众包验证的属性值抽取方法 被引量:1
6
作者 冯桫 刘井平 +1 位作者 蒋海云 肖仰华 《计算机工程》 CAS CSCD 北大核心 2021年第5期97-103,共7页
由于互联网语料的高噪音特性,传统的属性值抽取方法存在人工成本增加及训练集缺乏等问题。提出一种新的实体属性值抽取方法。利用机器阅读理解模型,从互联网语料中抽取出高质量的候选属性值,通过高效的众包验证机制调整各候选属性值的权... 由于互联网语料的高噪音特性,传统的属性值抽取方法存在人工成本增加及训练集缺乏等问题。提出一种新的实体属性值抽取方法。利用机器阅读理解模型,从互联网语料中抽取出高质量的候选属性值,通过高效的众包验证机制调整各候选属性值的权重,得到最终抽取结果。实验结果表明,与OpenTag、QANET等模型相比,该机器阅读理解模型有效提升了候选属性值抽取的准确性,抽取准确率提升10%左右,同时通过众包验证方法,能够以较低的众包成本提高属性值抽取的整体性能。 展开更多
关键词 属性值抽取 机器阅读理解模型 知识图谱 众包 序列标注
下载PDF
触发词与属性值对联合抽取方法研究 被引量:2
7
作者 汪瀛寰 薛婵 +1 位作者 包先雨 吴共庆 《计算机工程与应用》 CSCD 北大核心 2020年第9期168-174,共7页
传统的属性值对抽取方法通常应用于短文本,且仅限于抽取字符串属性。提出一种触发词与属性值对的联合抽取方法,不仅能够通过识别触发词确定长文本中的信息语句,从而确定二元语义属性的取值,而且能够考虑触发词、字符串属性和属性值的相... 传统的属性值对抽取方法通常应用于短文本,且仅限于抽取字符串属性。提出一种触发词与属性值对的联合抽取方法,不仅能够通过识别触发词确定长文本中的信息语句,从而确定二元语义属性的取值,而且能够考虑触发词、字符串属性和属性值的相互依赖关系,基于条件随机场构建联合标记模型,提高字符串属性值对的抽取性能。实验结果显示,与传统方法相比,所提出的方法能够抽取二元语义属性值对,并且对字符串属性的抽取准确率、召回率和F值分别提高15.3%、15.5%和15.5%,同时抽取所用平均时间降低76.29%。 展开更多
关键词 条件随机场 序列标注 属性值对抽取 触发词扩展
下载PDF
网页中商品“属性—值”关系的自动抽取方法研究 被引量:7
8
作者 唐伟 洪宇 +2 位作者 冯艳卉 姚建民 朱巧明 《中文信息学报》 CSCD 北大核心 2013年第1期21-29,38,共10页
商品属性及其对应值的自动挖掘,对于基于Web的商品市场需求分析、商品推荐、售后服务等诸多领域有重要的应用价值。该文提出一种基于网页标题的模板构建方法,从结构化网页中抽取完整的商品"属性—值"关系。该方法包含四个关... 商品属性及其对应值的自动挖掘,对于基于Web的商品市场需求分析、商品推荐、售后服务等诸多领域有重要的应用价值。该文提出一种基于网页标题的模板构建方法,从结构化网页中抽取完整的商品"属性—值"关系。该方法包含四个关键技术:1)利用商品网页标题构建领域相关的属性词包;2)基于预设分隔符细化文本节点;3)结合领域商品属性词包获取种子"属性—值"关系;4)结合网页布局信息和字符信息来筛选与构建模板。该文的实验基于相机和手机两个领域展开,获得94.68%的准确率和90.57%的召回率。 展开更多
关键词 商品"属性-值"关系抽取 WEB数据挖掘 模板构建
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部