期刊文献+
共找到72篇文章
< 1 2 4 >
每页显示 20 50 100
Web数据抽取技术研究进展 被引量:13
1
作者 张成洪 古晓洪 白延红 《计算机科学》 CSCD 北大核心 2004年第2期129-131,151,共4页
由于Web上存在着大量有用而复杂的信息,近年来学术界和企业界开发了许多从Web中抽取数据的方法和工具。本文总结了Web数据抽取技术的研究进展和从Web中抽取数据的主要原理、过程、方法和抽取规则,并讨论了未来的研究方向。
关键词 Web 网页 数据抽取 分布式数据库系统 数据模型 数据管理
下载PDF
基于DOM的Web信息抽取 被引量:12
2
作者 崔继馨 张鹏 杨文柱 《河北农业大学学报》 CAS CSCD 北大核心 2005年第3期90-93,共4页
为解决因Web信息量巨大且具有动态性、不规则性,Web信息查询和Web信息集成存在很大困难,研究了对HTML格式的Web文档的信息抽取,提出了一种基于DOM的Web信息抽取方法。该方法通过附加语义、样本学习生成基于DOM路径的抽取规则,利用遍历DO... 为解决因Web信息量巨大且具有动态性、不规则性,Web信息查询和Web信息集成存在很大困难,研究了对HTML格式的Web文档的信息抽取,提出了一种基于DOM的Web信息抽取方法。该方法通过附加语义、样本学习生成基于DOM路径的抽取规则,利用遍历DOM树实现信息抽取。本方法可用于Web查询,也可用于信息集成系统中包装器的构造。 展开更多
关键词 DOM 包装器 抽取规则 信息抽取
下载PDF
基于Agent和XML的Web页面信息抽取研究与设计 被引量:6
3
作者 孟宪福 狄慧 《计算机工程与设计》 CSCD 2004年第8期1411-1414,共4页
在以前相关研究的基础上,提出了一个建立在Agent和XML基础上的Web页面信息抽取的原型系统。在这个原型系统里,利用Agent的自治能力和合作能力来协助用户对抽取请求进行公式化表述和结合知识库学习抽取规则等。另外,系统还用XML语言描述... 在以前相关研究的基础上,提出了一个建立在Agent和XML基础上的Web页面信息抽取的原型系统。在这个原型系统里,利用Agent的自治能力和合作能力来协助用户对抽取请求进行公式化表述和结合知识库学习抽取规则等。另外,系统还用XML语言描述抽取请求和抽取规则,在其中加入一些语义信息,这些语义信息可被有效利用,从而提高抽取的精确性。 展开更多
关键词 抽取规则 WEB页面 信息抽取 原型系统 XML语言 请求 知识库 合作能力 自治能力 求和
下载PDF
民国南海文献知识元内容抽取规则研究 被引量:5
4
作者 孙浩洋 沈固朝 《情报杂志》 CSSCI 北大核心 2022年第12期132-139,共8页
[研究目的]南海问题的深入研究,需要从海量历史文献中快速获得知识描述,实现由文献向语句描述的内容抽取,因此引入最小知识描述单位--知识元,并研究其抽取规则,为南海维权信息内容抽取提供新思路,以方便研究者快速浏览文献知识。[研究方... [研究目的]南海问题的深入研究,需要从海量历史文献中快速获得知识描述,实现由文献向语句描述的内容抽取,因此引入最小知识描述单位--知识元,并研究其抽取规则,为南海维权信息内容抽取提供新思路,以方便研究者快速浏览文献知识。[研究方法]基于民国南海文献总结知识元分类,归纳不同属性类型知识元句法规则,提炼形成规则模板,匹配文本与知识元描述规则,人工干预确定知识元内容,实现知识元的内容抽取。[研究结论]匹配结果发现,内容描述规则能较好地实现知识元抽取,满足研究者对知识元内容的阅览需求。 展开更多
关键词 知识元 知识元分类 知识元抽取 知识元描述规则 抽取规则 提炼规则 南海文献
下载PDF
微波辐射条件下两种煤的萃取规律 被引量:7
5
作者 鞠彩霞 李凤刚 +2 位作者 宗志敏 张洪 魏贤勇 《辽宁工程技术大学学报(自然科学版)》 CAS 北大核心 2013年第5期615-618,共4页
针对去除兖州煤和神府煤中的含氧化合物同时富集芳烃与脂肪烃类化合物的问题.通过在微波辐射条件下采用不同溶剂分别萃取的方法加以研究,力图寻找一条比较简捷、实用而且萃取效果较好的方法.分别以二硫化碳、丙酮和四氢呋喃(THF)作为溶... 针对去除兖州煤和神府煤中的含氧化合物同时富集芳烃与脂肪烃类化合物的问题.通过在微波辐射条件下采用不同溶剂分别萃取的方法加以研究,力图寻找一条比较简捷、实用而且萃取效果较好的方法.分别以二硫化碳、丙酮和四氢呋喃(THF)作为溶剂,在微波辐射条件下对兖州煤和神府煤各自进行了萃取,并利用气相色谱/质谱联用(GC/MS)技术对萃取物进行了分析.结果表明:兖州煤和神府煤在微波辐射条件下的变化规律不同,可初步确定在微波辐射条件下除去煤中含氧化合物的萃取路线.总结出了两种煤溶剂萃取规律,并研究微波与煤炭间的相互作用机理,探讨了微波萃取机理. 展开更多
关键词 兖州煤 神府煤 萃取规律 微波辐射 GC MS 二硫化碳 丙酮 四氢呋喃
下载PDF
基于规则的动物卫生事件舆情信息抽取研究 被引量:6
6
作者 丁晟春 王莉 刘梦露 《计算机应用与软件》 北大核心 2018年第9期56-62,共7页
为了能够快速地在海量信息中获取有效信息,监视国内外动物卫生变化动态,提高动物卫生领域舆情监测研究人员的工作效率,在总结待抽取属性项的描述规律以及出现位置和方向的基础上,使用正则表达式构建抽取规则,实现动物卫生事件舆情信息... 为了能够快速地在海量信息中获取有效信息,监视国内外动物卫生变化动态,提高动物卫生领域舆情监测研究人员的工作效率,在总结待抽取属性项的描述规律以及出现位置和方向的基础上,使用正则表达式构建抽取规则,实现动物卫生事件舆情信息中时间、地点、疫病名称、动物数量、应对措施等内容的抽取。对抽取效果较差的动物数量属性项提出基于节点关系比较的抽取方法,实现多个数值间的关系判断,提高动物数量属性项的抽取效果。实验证明该方法具有较好的适用性。 展开更多
关键词 动物卫生 信息抽取 抽取规则 节点关系比较
下载PDF
从私有过程提取公共过程构建业务协同的方法 被引量:5
7
作者 莫启 代飞 +5 位作者 朱锐 笪建 林雷蕾 李彤 谢仲文 郑明 《计算机研究与发展》 EI CSCD 北大核心 2017年第9期1892-1908,共17页
业务过程协同允许组织之间彼此进行通信、交互和协作以完成特定的业务目标.为了确保实施的正确性和一致性,需要对业务过程协同进行建模和分析.针对从私有过程(组织所拥有的完整流程)中抽取公共过程(组织参与协同的流程)以构建业务过程协... 业务过程协同允许组织之间彼此进行通信、交互和协作以完成特定的业务目标.为了确保实施的正确性和一致性,需要对业务过程协同进行建模和分析.针对从私有过程(组织所拥有的完整流程)中抽取公共过程(组织参与协同的流程)以构建业务过程协同,首先定义业务过程模型以表示组织的私有过程,该模型由内部视图和公共视图组合而成,且内部视图是自由选择网结构;进而将业务过程模型抽象为4种基本块,即顺序块、选择块、并发块及迭代块;针对这4种基本块提出各自的抽取规则集以获得组织的公共过程,并从理论上证明了这些规则集能够保持协同中接口一致性,从而确保了每一次抽取是上下文无关的.通过对协同制造中供应链进行建模并与现有的、典型的方法进行对比分析,结果表明:相对于已有的工作,在考虑隐私保护原则的情况下,所提方法能够更加有效地对业务过程协同进行建模和分析. 展开更多
关键词 业务过程协同 异步消息通信 业务过程模型 基本块 抽取规则集 接口一致性
下载PDF
卫生计生监督“双随机”信息系统设计与实现 被引量:5
8
作者 王晖 胡帅 《中国卫生监督杂志》 2016年第3期232-241,共10页
"双随机"抽查是随机抽取检查对象、随机选派执法检查人员的抽查机制,是国务院明确要求各级政府部门积极探索推广的一种新型监管模式。本文就卫生计生监督领域建立"双随机"抽查机制,运用信息化手段,按照随机抽取事... "双随机"抽查是随机抽取检查对象、随机选派执法检查人员的抽查机制,是国务院明确要求各级政府部门积极探索推广的一种新型监管模式。本文就卫生计生监督领域建立"双随机"抽查机制,运用信息化手段,按照随机抽取事项清单,建立了检查对象名录库和执法检查人员名录库,对"双随机"抽查做到全程留痕,实现责任可追溯。现将抽取规则和信息系统设计做一小结,以期为各地监督机构开展"双随机"工作提供参考资料。 展开更多
关键词 “双随机”抽查机制 抽取规则 信息
下载PDF
基于XML的电力营销数据智能抽取方法研究 被引量:3
9
作者 余向前 《自动化仪表》 CAS 2023年第1期92-95,100,共5页
电力信息化的发展使得电力营销系统中的数据量不断增加,导致在数据抽取过程中的数据转换能力较差,从而造成抽取结果召回率偏高的情况。针对这一情况,利用可扩展标记语言(XML)的转换能力,设计了新的电力营销数据智能抽取方法。将电力营... 电力信息化的发展使得电力营销系统中的数据量不断增加,导致在数据抽取过程中的数据转换能力较差,从而造成抽取结果召回率偏高的情况。针对这一情况,利用可扩展标记语言(XML)的转换能力,设计了新的电力营销数据智能抽取方法。将电力营销数据规范为小范围数据链形式,并应用超文本敏感标题搜索(HITS)算法获取数据源。设定XML数据转换工具,利用XML定位描述符实现数据区域定位。在设定数据抽取规则与抽取内容的基础上,结合数据映射技术实现对电力营销数据的抽取。在性能测试过程中,将测试环境设定为平稳运行与数据入侵2种。通过对比结果可知,基于XML的抽取方法的召回率保持在7%以下,抽取耗时保持在800 ms以下,其值优于传统方法,充分证明了该方法的有效性。 展开更多
关键词 可扩展标记语言 电力营销数据 信息安全 数据抽取 数据转换 数据区域定位 抽取规则 数据映射 召回率
下载PDF
舆情搜索引擎中网页信息的采集与抽取研究 被引量:3
10
作者 王兰成 《情报学报》 CSSCI 北大核心 2011年第10期1022-1027,共6页
网络舆情搜索引擎与通常的网络信息搜索不同,其最终结果要深入到站点和页面内部采集与抽取有效数据,给情报界提出了许多新的研究内容和方法。在对网页信息抽取的模板和页面分析两种方式、基于自然语言处理、包装器归纳和Ontology抽取... 网络舆情搜索引擎与通常的网络信息搜索不同,其最终结果要深入到站点和页面内部采集与抽取有效数据,给情报界提出了许多新的研究内容和方法。在对网页信息抽取的模板和页面分析两种方式、基于自然语言处理、包装器归纳和Ontology抽取方法的分析基础上,使用基于包装器归纳方式并在规则生成模块中采用专家模式,设计一种基于样本学习的新闻抽取方法,通过人工分析网页源代码制定和修改抽取规则,然后根据抽取规则进行信息自动抽取,以提高舆情搜索引擎的精度和质量。 展开更多
关键词 网络舆情 抽取规则 新闻网页 信息抽取
下载PDF
基于词性分析的产品评价信息挖掘 被引量:4
11
作者 冯秀珍 郝鹏 《计算机工程与设计》 CSCD 北大核心 2013年第1期283-288,共6页
在对语料库中表达产品特征及相应评价的词的词性进行分析的基础上,确定了表达产品特征及评价最为常见的词性和词性的重要程度顺序,提出了一种产品特征及其相应评价的信息抽取规则,并根据规则建立评价语句的语义倾向的计算公式。实验结... 在对语料库中表达产品特征及相应评价的词的词性进行分析的基础上,确定了表达产品特征及评价最为常见的词性和词性的重要程度顺序,提出了一种产品特征及其相应评价的信息抽取规则,并根据规则建立评价语句的语义倾向的计算公式。实验结果表明,该方法在产品特征抽取及其相应评价的语义倾向判断上具有很高的准确性。通过对产品特征及其相应的评价信息进行挖掘可以为企业新产品的开发和产品的推荐提供重要的参考价值,是进行下一步生产决策的重要的理论依据。 展开更多
关键词 抽取规则 分词 语义倾向 同义词替换 信息挖掘
下载PDF
基于XML的Web信息采集系统设计与实现 被引量:3
12
作者 王磊 《齐齐哈尔大学学报(自然科学版)》 2017年第2期25-28,共4页
设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入My SQL数据库中。通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率... 设计基于XML的Web信息采集系统,抽取出HTML页面中半结构化数据后,将清洗、解析后的数据置入My SQL数据库中。通过将类型相似页面的节点信息和字段描述配置于XML文件中,改进了网页对应独立抽取模板的方法,有效地提高了Web信息采集的效率和准确性。实验结果表明,基于XML的Web信息采集系统能够满足信息抽取的需求。 展开更多
关键词 WEB信息采集 抽取规则 XML
下载PDF
基于框架语义标注的自由文本信息抽取研究 被引量:2
13
作者 牛之贤 白鹏洲 段富 《计算机工程与应用》 CSCD 北大核心 2008年第25期143-145,151,共4页
信息抽取是从自由文本语料库构建数据库,实现信息自动收集的有效途径之一。提出了一种以框架语义标注为基础构建信息抽取规则的信息抽取方法。基于框架语义标注的信息抽取是用统一的方法来指导信息抽取过程。这种方法具有较细的处理粒度... 信息抽取是从自由文本语料库构建数据库,实现信息自动收集的有效途径之一。提出了一种以框架语义标注为基础构建信息抽取规则的信息抽取方法。基于框架语义标注的信息抽取是用统一的方法来指导信息抽取过程。这种方法具有较细的处理粒度,对语义规则性强的领域有一定的普遍适用性。设计了基于框架语义的BAIE(图书内容简介信息抽取)系统,并对图书的内容简介试行信息抽取。抽取结果表明,基于框架语义的信息抽取方式有一定的可行性和适用性。 展开更多
关键词 信息抽取 框架语义 抽取规则
下载PDF
基于GF-2影像的梯田田坎自动提取研究 被引量:2
14
作者 唐磊 周波 +2 位作者 马涛 田晋华 张富 《人民黄河》 CAS 北大核心 2021年第3期116-119,共4页
田坎系数测算精度直接影响粮食总产量统计、梯田区土壤侵蚀量测算的准确度,为解决传统的遥感影像目视解译方法提取梯田及田坎精确度不稳定且耗时较长的问题,基于GF-2影像和面向对象的技术方法,确定了各地类最优分割尺度和空间、光谱、... 田坎系数测算精度直接影响粮食总产量统计、梯田区土壤侵蚀量测算的准确度,为解决传统的遥感影像目视解译方法提取梯田及田坎精确度不稳定且耗时较长的问题,基于GF-2影像和面向对象的技术方法,确定了各地类最优分割尺度和空间、光谱、纹理等特征参数,建立各土地利用类型提取规则并进行自动提取,其中梯田提取精度为82.55%、Kappa系数达到0.75,田坎面积自动提取精度为68.83%,进而计算的田坎系数为0.153,比实地测量的田坎系数0.151大0.002。阴坡田坎阴影和田坎上林草的投影会导致提取的田坎面积增大,对此可结合后期人工修正,进一步提高精度。 展开更多
关键词 梯田 田坎系数 GF-2遥感影像 自动提取 提取规则
下载PDF
航班信息抽取规则的自动生成技术 被引量:2
15
作者 张志远 徐涛 冯霞 《计算机工程》 CAS CSCD 北大核心 2011年第6期65-67,共3页
在基于包装器的Web信息提取工作中,抽取规则占有重要的地位。由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作。为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,... 在基于包装器的Web信息提取工作中,抽取规则占有重要的地位。由于网页经常改版,使得抽取规则需要不断更新,且手工生成抽取规则是一项费时费力的工作。为此,提出一种自动生成抽取规则的方法,通过扫描HTML源码,生成带语义信息的TABLE树,用以识别网页中的数据表格,并在此基础上利用贪心算法自动生成抽取规则。实验结果表明,该方法具有较高的准确率和F指数,且对于识别出的表格具有较高的规则生成率。 展开更多
关键词 WEB信息提取 抽取规则 语义TABLE树 贪心算法
下载PDF
基于领域本体的微博用户信息抽取方法 被引量:1
16
作者 余伟 陶皖 +1 位作者 徐京 刘成满 《长江大学学报(自科版)(上旬)》 CAS 2015年第4期36-40,4,共5页
传统基于本体的Web页面信息抽取以单个信息项为最小抽取单位,抽取出的实体语义关联性较差和抽取准确率不理想。针对上述问题,以微博领域本体为基础,提出了一种两层次匹配的用户信息抽取方法:将微博中具有语义关联的不同层次的用户信息... 传统基于本体的Web页面信息抽取以单个信息项为最小抽取单位,抽取出的实体语义关联性较差和抽取准确率不理想。针对上述问题,以微博领域本体为基础,提出了一种两层次匹配的用户信息抽取方法:将微博中具有语义关联的不同层次的用户信息划分成对应信息块,以信息块作为最小抽取单位分别抽取其中包含的用户各属性信息(包含个人信息、关注的好友信息和所发文本微博信息)。试验结果证明,与传统信息抽取方法相比,设计的抽取规则算法能够有效地提高信息的准确率和召回率,对微博页面结构复杂以及信息量大的Web网页有良好的抽取效果。 展开更多
关键词 领域本体 两层次匹配 信息抽取 微博 抽取规则
下载PDF
基于模板法的网页英语试卷自动抽取技术的研究 被引量:1
17
作者 熊惠荟 欧阳君 《计算机与数字工程》 2009年第4期50-52,共3页
为解决在线考试系统中建立海量数据库的问题,采用基于模板法的Web信息抽取方法,提取相似网页中的正文内容。并根据包含英文试卷的网页特点,制定正文抽取规则,最终可获得完整的英语试卷及其答案。实验结果表明,该方法具有较高的准确率和... 为解决在线考试系统中建立海量数据库的问题,采用基于模板法的Web信息抽取方法,提取相似网页中的正文内容。并根据包含英文试卷的网页特点,制定正文抽取规则,最终可获得完整的英语试卷及其答案。实验结果表明,该方法具有较高的准确率和提取速度。 展开更多
关键词 WEB 信息抽取 DOM抽取规则 模板
下载PDF
Web信息抽取和展现系统的设计与实现 被引量:1
18
作者 彭祥礼 朱小军 查志勇 《电力信息化》 2012年第2期23-26,共4页
随着计算机网络技术的高速发展,如何高效准确地识别和获取Web信息变得至关重要。文章介绍了一个完整的Web信息抽取和展现系统,其总体架构由Web网站集、抽取规则库、内容定制模块和内容展现模块4部分组成。该系统支持用户通过可视化交互... 随着计算机网络技术的高速发展,如何高效准确地识别和获取Web信息变得至关重要。文章介绍了一个完整的Web信息抽取和展现系统,其总体架构由Web网站集、抽取规则库、内容定制模块和内容展现模块4部分组成。该系统支持用户通过可视化交互式界面定制信息抽取规则,实现了用户个性化抽取规则的存储。在数据项定位方式上采用基于DOM树和分层区域划分的方法,结合父子结点信息进行数据校验,既可以快速定位到信息抽取的目标区域,又能有效保证抽取方法的精度。 展开更多
关键词 WEB信息抽取 抽取规则 HTML DOM树
下载PDF
基于抽取规则和本体映射的领域XML语义集成 被引量:1
19
作者 李华昱 张培颖 肖晗 《河北科技大学学报》 CAS 2016年第4期416-422,共7页
油气井工程领域中存在大量的XML文档,传统的XML集成方案无法提供面向语义的信息查询,导致数据利用率不高。针对油气井XML文档WeXML语义集成与查询应用需求,提出一种基于抽取规则和本体映射的语义集成方法。首先定义一系列类、属性抽取规... 油气井工程领域中存在大量的XML文档,传统的XML集成方案无法提供面向语义的信息查询,导致数据利用率不高。针对油气井XML文档WeXML语义集成与查询应用需求,提出一种基于抽取规则和本体映射的语义集成方法。首先定义一系列类、属性抽取规则,分别将WeXML Schema中的元素、属性映射为WeOWL本体中的类和属性;然后,利用实例转换算法将WeXML文档转换为本体实例数据;由于WeOWL提供有限的局部语义模型,需要在两者之间建立语义映射,并借助WeOWL中的术语对全局语义模型中的类和属性进行解释,进而提供面向领域全局本体的语义查询。通过构建WeXML数据语义集成原型系统,对提出的转换规则、转换算法和映射规则进行了验证。 展开更多
关键词 计算机信息管理系统 抽取规则 本体映射 领域XML 语义集成
下载PDF
农业Web信息获取系统的研究与设计
20
作者 张英 《农业网络信息》 2009年第8期42-45,共4页
互联网有着浩瀚的信息,如何高效、准确获取想要的信息是一个重要的问题,本文将信息获取技术分两个部分来进行,即资源发现模块和信息抽取模块,并基于此构建了一个信息自动获取平台。对于资源发现模块,主要在如何能够从广度和深度两个方... 互联网有着浩瀚的信息,如何高效、准确获取想要的信息是一个重要的问题,本文将信息获取技术分两个部分来进行,即资源发现模块和信息抽取模块,并基于此构建了一个信息自动获取平台。对于资源发现模块,主要在如何能够从广度和深度两个方面去发现资源提出了一种新的搜索算法,同时利用了多Agent技术实现了分布式的资源发现。对于信息抽取模块,提出了一种新的抽取规则表示方法,提高了在信息抽取过程中规则的适应性。 展开更多
关键词 信息获取 信息抽取 多AGENT 资源发现 抽取规则
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部