期刊文献+
共找到23篇文章
< 1 2 >
每页显示 20 50 100
基于多知识的Web网页信息抽取方法 被引量:10
1
作者 朱明 黄云 蔡庆生 《小型微型计算机系统》 CSCD 北大核心 2001年第9期1058-1061,共4页
从 Web网页中自动抽取所需要的信息内容 ,是互联网信息智能搜取的一个重要研究课题 .为有效解决网页信息抽取所需的信息描述知识获取问题 ,这里提出了一种基于多知识的 Web网页信息抽取方法 (简称 MKIE方法 ) .该方法将网页信息抽取所... 从 Web网页中自动抽取所需要的信息内容 ,是互联网信息智能搜取的一个重要研究课题 .为有效解决网页信息抽取所需的信息描述知识获取问题 ,这里提出了一种基于多知识的 Web网页信息抽取方法 (简称 MKIE方法 ) .该方法将网页信息抽取所需的知识分为二类 .一类是描绘网页内容本身表示特点 ,以及识别各网页信息对象的确定模式知识 ;另一类则描述网页信息记录块 ,以及各网页信息对象的非确定模式知识 .MKIE方法根据前一类知识 ,动态分析获得后一类知识 ;并利用这两类知识 ,最终完成从信息内容类似但其表现形式各异的网页中 ,抽取出所需要的信息 .美大学教员论文网页信息抽取实验结果表明 。 展开更多
关键词 WEB 网页 信息抽取 知识 互联网
下载PDF
Web信息的自主抽取方法 被引量:15
2
作者 许建潮 侯锟 《计算机工程与应用》 CSCD 北大核心 2005年第14期185-189,198,共6页
提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够... 提出了基于表格结构及列表结构的W eb页面信息自主抽取的方法。可根据用户对信息的需求自主地从相关页面中抽取信息并将抽取信息按关系模型进行重组存放在数据库中,对表格结构信息源仅需标注一页网页,即可获取抽取知识,通过自学习能够较好地适应网页信息的动态变化,实现信息的自动抽取。对列表结构信息源信息,通过对DOM树结构的分析,动态获得信息块在DOM层次结构中的路径,根据信息对象基本的抽取知识,获得信息对象值。采用自学习的方法以适应网页信息的动态变化。 展开更多
关键词 WEB 半结构化数据 信息抽取 WRAPPER
下载PDF
基于多层模式的多记录网页信息抽取方法 被引量:5
3
作者 朱明 王军 王俊普 《计算机工程》 CAS CSCD 北大核心 2001年第9期40-42,共3页
为有效解决网页信息抽取所需知识的获取问题,提出了一种基于多层模式的网页信息抽取方法(简称HPIE方法)。将网页信息抽取知识分为若干层,由抽象到具体逐层描述信息识别模式知识。HPIE方法能够利用各抽取对象之间存在的相互... 为有效解决网页信息抽取所需知识的获取问题,提出了一种基于多层模式的网页信息抽取方法(简称HPIE方法)。将网页信息抽取知识分为若干层,由抽象到具体逐层描述信息识别模式知识。HPIE方法能够利用各抽取对象之间存在的相互联系,以及抽取过程与结果所形成的新学习样本,不断完善多层模式的知识内容,并帮助最终从多个信息内容类似但其描述格式各异的HTML网页中,抽取出所需的多记录信息内容。有关多个(美国大学教员)论文目录网页的抽取实验结果表明,HPIE方法具有较强的网页信息自适应抽取能力。 展开更多
关键词 半结构化数据 信息抽取 模式识别 网页 计算机网络
下载PDF
对Web网页的查询及信息提取 被引量:3
4
作者 孙及园 林锦贤 《福州大学学报(自然科学版)》 CAS CSCD 2000年第3期93-97,共5页
比较Web查询与传统数据库查询的区别 ,提出一种对Web查询计算的新模型 ,基于这一模型 ,可针对网页结构和内容进行查询 ,再根据HTML的特点 ,从网页中提取数据库数据 .
关键词 WWW 半结构数据 WEB查询 信息提取 网页 数据库
原文传递
基于面向值的映像方法在XML数据存储中的应用 被引量:2
5
作者 陈和平 高丽 杨玲贤 《武汉科技大学学报》 CAS 2005年第2期197-200,共4页
对当前XML数据存储技术研究与应用现状进行了简要介绍,重点就面向值的映像方法在XML数据存储中的应用进行了详细探讨,并给出了相应的存储系统体系结构和实现方法。
关键词 半结构化信息 XML存储 面向值 存储映像
下载PDF
基于改进HMM的半结构化文本信息抽取算法研究 被引量:5
6
作者 孙师尧 妙全兴 《电子科技》 2014年第10期111-114,118,共5页
在分析半结构化文本特点与隐马尔可夫模型的基础上,提出了一种新的基于隐马尔可夫模型的信息抽取算法,并与传统的基于单一隐马尔可夫模型的信息抽取算法进行了比较分析。实验结果表明,所提算法在精确度上有明显优化,特别在状态特征不明... 在分析半结构化文本特点与隐马尔可夫模型的基础上,提出了一种新的基于隐马尔可夫模型的信息抽取算法,并与传统的基于单一隐马尔可夫模型的信息抽取算法进行了比较分析。实验结果表明,所提算法在精确度上有明显优化,特别在状态特征不明显的情况下仍能保持良好的精确度。将该算法应用于半结构化文本的信息抽取中,具有较好的可行性和有效性。 展开更多
关键词 隐马尔可夫模型 半结构化 信息抽取
下载PDF
科创项目信息提取系统设计
7
作者 柏斌 《现代信息科技》 2024年第7期19-24,共6页
文章分析讨论了半结构化信息管理技术的发展状况和应用情况,在梳理和总结半结构化文本信息抽取载体类型、内容和技术方法的基础上,设计了科创项目信息提取系统。该系统数据源以科研院所/创业团队提供的商业策划书为主,采用B/S架构,以基... 文章分析讨论了半结构化信息管理技术的发展状况和应用情况,在梳理和总结半结构化文本信息抽取载体类型、内容和技术方法的基础上,设计了科创项目信息提取系统。该系统数据源以科研院所/创业团队提供的商业策划书为主,采用B/S架构,以基础设置、数据层、应用层和用户层四层逻辑构架为基础,通过业务逻辑后台、文件解析模块、项目关键信息抽取服务三大功能模块,实现对科创项目策划书文本数据采集、关键信息提取、数据存储以及数据服务的高效管理。实践结果表明,该系统功能达到了预期设计目标,运行稳定、高效。 展开更多
关键词 半结构化信息 科创项目 信息提取系统
下载PDF
基于DOM的半结构化网页信息抽取算法 被引量:2
8
作者 李卫东 《河北省科学院学报》 CAS 2009年第1期21-24,共4页
为从不同的半结构化网页中自动提取数据记录,提出了基于DOM和记录子树最大相似度发现记录模式的思想,对信息噪声有较强的过滤功能,在记录模式存在一定差异的情况下也能正确识别记录。在此基础上,实现了多记录网页自动抽取的IESS算法,该... 为从不同的半结构化网页中自动提取数据记录,提出了基于DOM和记录子树最大相似度发现记录模式的思想,对信息噪声有较强的过滤功能,在记录模式存在一定差异的情况下也能正确识别记录。在此基础上,实现了多记录网页自动抽取的IESS算法,该系统可以从多个学术论文检索网站中自动获取结果网页,并自动抽取其中的记录。对常见论文检索网站的实验表明了该系统具有较好的有效性和准确性。 展开更多
关键词 DOM 信息抽取 半结构化 信息集成
下载PDF
基于隐马尔可夫模型的半结构化文本信息抽取研究
9
作者 蒲治宇 《数字通信世界》 2024年第6期84-85,93,共3页
随着互联网和信息技术的快速发展,大量的文本数据在互联网上被生成和存储,这些文本数据包含了丰富的信息。然而,大部分文本数据都是半结构化的,即数据的组织结构不完整或不规则,不适合直接进行分析和处理。因此,半结构化文本信息抽取成... 随着互联网和信息技术的快速发展,大量的文本数据在互联网上被生成和存储,这些文本数据包含了丰富的信息。然而,大部分文本数据都是半结构化的,即数据的组织结构不完整或不规则,不适合直接进行分析和处理。因此,半结构化文本信息抽取成为了一个重要的研究领域,文章基于隐马尔科夫模型对半结构化文本信息的抽取进行研究。 展开更多
关键词 半结构化文本 信息抽取 隐马尔科夫模型
下载PDF
国家标准《文件管理元数据原则》中文件管理元数据的结构化信息与半结构化信息的理解 被引量:3
10
作者 张正强 《档案学研究》 CSSCI 北大核心 2011年第6期31-36,共6页
论文对国家标准《文件管理元数据原则》中文件管理元数据的结构化信息与半结构化信息的定义、由来及其如何理解进行了探讨,并对作为典型的结构化信息的《都柏林核心元数据集》进行了辨析,同时,对文件管理元数据的半结构化信息进行了辨析... 论文对国家标准《文件管理元数据原则》中文件管理元数据的结构化信息与半结构化信息的定义、由来及其如何理解进行了探讨,并对作为典型的结构化信息的《都柏林核心元数据集》进行了辨析,同时,对文件管理元数据的半结构化信息进行了辨析,最后指出了文件管理元数据的结构化信息与半结构化信息的意义所在。 展开更多
关键词 文件管理元数据 结构化信息 半结构化信息
原文传递
基于RDF的语义网格数据建模与检索 被引量:2
11
作者 师雪霖 赵英 《计算机应用》 CSCD 北大核心 2008年第9期2324-2327,共4页
语义网格所需要处理的信息通常为半结构化数据,如何以合理的模型表示这些半结构化数据并实现高效查询处理,是语义网格要解决的核心问题之一。提出了一种基于资源描述框架(RDF)的半结构化数据表示模型,并设计了相应的信息检索机制。最后... 语义网格所需要处理的信息通常为半结构化数据,如何以合理的模型表示这些半结构化数据并实现高效查询处理,是语义网格要解决的核心问题之一。提出了一种基于资源描述框架(RDF)的半结构化数据表示模型,并设计了相应的信息检索机制。最后介绍了一个基于化工计算网格平台的,实现了化工领域知识共享与检索的化工语义网格架构的设计与实现。 展开更多
关键词 语义网格 资源描述框架 半结构化数据 信息检索
下载PDF
机器学习下半结构化文本信息抽取仿真
12
作者 朱小龙 邱林 《计算机仿真》 北大核心 2023年第2期540-544,共5页
为了在海量信息源中抽取特定信息,将高维信息转换为低维信息,降低信息抽取难度,提出基于机器学习的半结构化文本信息抽取算法。利用自编码网络对文本信息实行降维处理,将高维的文本信息转变为低维信息,降低信息抽取的复杂度;在单词相似... 为了在海量信息源中抽取特定信息,将高维信息转换为低维信息,降低信息抽取难度,提出基于机器学习的半结构化文本信息抽取算法。利用自编码网络对文本信息实行降维处理,将高维的文本信息转变为低维信息,降低信息抽取的复杂度;在单词相似度和文本相似度的基础上,对文本信息实行聚类处理,将机器学习中的隐马尔可夫模型应用在不同的文本信息类别中,实现半结构化文本信息的抽取。仿真结果表明,所提算法的信息抽取精度高、召回率高、准确率高、抽取效率高。 展开更多
关键词 机器学习 自编码网络 信息聚类 隐马尔可夫模型 半结构化文本 信息抽取
下载PDF
基于自监督学习的维基百科家庭关系抽取 被引量:1
13
作者 朱苏阳 惠浩添 +1 位作者 钱龙华 张民 《计算机应用》 CSCD 北大核心 2015年第4期1013-1016,1020,共5页
传统有监督的关系抽取方法需要大量人工标注的训练语料,而半监督方法则召回率较低,对此提出了一种基于自监督学习来抽取人物家庭关系的方法。该方法首先将中文维基百科的半结构化信息——家庭关系三元组映射到自由文本中,从而自动生成... 传统有监督的关系抽取方法需要大量人工标注的训练语料,而半监督方法则召回率较低,对此提出了一种基于自监督学习来抽取人物家庭关系的方法。该方法首先将中文维基百科的半结构化信息——家庭关系三元组映射到自由文本中,从而自动生成已标注的训练语料;然后,使用基于特征的关系抽取方法从中文维基百科的文本中获取人物间的家庭关系。在一个人工标注的家庭关系网络测试集上的实验结果表明,该方法优于自举方法,其F1指数达到77%,说明自监督学习可以较为有效地抽取人物家庭关系。 展开更多
关键词 自监督学习 维基百科 半结构化信息 关系抽取
下载PDF
半结构化时间序列中异常数据挖掘算法仿真 被引量:1
14
作者 杨柳 《计算机仿真》 北大核心 2020年第10期230-234,共5页
在复杂多变网络环境下,传统算法不能有效地挖掘出异常数据,准确率较低,严重威胁网络正常数据安全。提出一种基于半结构化时间序列的异常数据挖掘算法。首先通过临近算法对半结构化时间序列的数据进行特征提取,整合为特征数据序列并做信... 在复杂多变网络环境下,传统算法不能有效地挖掘出异常数据,准确率较低,严重威胁网络正常数据安全。提出一种基于半结构化时间序列的异常数据挖掘算法。首先通过临近算法对半结构化时间序列的数据进行特征提取,整合为特征数据序列并做信息熵值计算,获得数据熵值的空间信号,其次采用线性斜率算法将空间信号做降维处理,并使用分段聚合符号变换对降维后的信号做符号转换,识别出正常数据与异常数据,最后采用频繁项集算法挖掘出异常数据。实验表明,半结构化时间序列方法计算简单,能够有效挖掘出异常数据,准确率较高,具有良好的鲁棒性,实现高效挖掘异常数据,保障网络正常数据的安全。 展开更多
关键词 半结构化 时间序列 异常数据 数据挖掘算法 信息熵值
下载PDF
半结构化的Deep Web信息抽取技术
15
作者 朱晴 姜利群 张言辉 《电脑知识与技术(过刊)》 2010年第15期4312-4313,共2页
当今随着互联网技术的飞速发展,DeepWeb的信息量也在以惊人的速度迅猛增长,对其进行信息抽取具有十分重要意义。该文针对Web页面半结构化的特点,提出了基于XML的信息自动抽取方法,设计了抽取的流程,并对抽取规则进行了优化。
关键词 DEEP WEB 半结构化 信息抽取技术 XML
下载PDF
半结构化病历文档信息抽取应用 被引量:5
16
作者 苏韶生 余元龙 +4 位作者 程敏婷 张淑娟 缪一雄 林玉卿 邹雨珊 《中国数字医学》 2012年第9期102-104,共3页
电子病历正在全国普及和发展,电子病历的信息量也在以惊人的速度迅猛增长,对其半结构化病历文档进行信息抽取具有十分重要意义。研究目的是加强非结构化病历文档理解,针对半结构化病历文档的特点,介绍一种信息抽取工具及其信息抽取流程... 电子病历正在全国普及和发展,电子病历的信息量也在以惊人的速度迅猛增长,对其半结构化病历文档进行信息抽取具有十分重要意义。研究目的是加强非结构化病历文档理解,针对半结构化病历文档的特点,介绍一种信息抽取工具及其信息抽取流程,最后,以肿瘤病人信息抽取为案例进行实证应用研究。 展开更多
关键词 电子病历 半结构化病历 信息抽取 肿瘤信息登记
下载PDF
飞机标准件号的多级筛选智能匹配技术 被引量:3
17
作者 杜宝江 孟玉杰 +2 位作者 朱晨旗 丁咸海 程建建 《机械设计与研究》 CSCD 北大核心 2013年第6期43-46,共4页
飞机是使用大量标准件进行装配的典型产品,以商用飞机设计过程中使用的标准件为研究对象,在分析基于WEB的飞机标准件库的基础上,创建了一个向导式的标准件号多级筛选系统,提出了一种半结构化的信息检索方法,以实现飞机标准件号在设计过... 飞机是使用大量标准件进行装配的典型产品,以商用飞机设计过程中使用的标准件为研究对象,在分析基于WEB的飞机标准件库的基础上,创建了一个向导式的标准件号多级筛选系统,提出了一种半结构化的信息检索方法,以实现飞机标准件号在设计过程中的智能检索匹配,进而规范和简化设计人员选取标准件号的过程。实践表明文中提出的飞机标准件号多级筛选智能匹配技术解决了手动添加大量标准件信息的缺陷,大大提高了飞机设计的效率。 展开更多
关键词 飞机标准件 多级筛选 半结构化信息检索 匹配技术
原文传递
基于逻辑定义的Web信息抽取与集成
18
作者 潘惠勇 高丽平 薛惠忠 《中原工学院学报》 CAS 2005年第2期53-56,共4页
 针对Web上的数据不能被计算机或应用程序所理解的问题,设计并实现了一种Web信息抽取工具,通过采用抽取过程逻辑定义与抽取过程执行模块相分离的设计方法,提高应用系统的灵活性、维护性,使得从Web上抽取的信息更加符合用户需求,达到了...  针对Web上的数据不能被计算机或应用程序所理解的问题,设计并实现了一种Web信息抽取工具,通过采用抽取过程逻辑定义与抽取过程执行模块相分离的设计方法,提高应用系统的灵活性、维护性,使得从Web上抽取的信息更加符合用户需求,达到了自动灵活地从Web上的海量数据中抽取有价值信息的效果. 展开更多
关键词 半结构化 WEB信息抽取 数据集成
下载PDF
异构信息源集成技术 被引量:13
19
作者 宋瀚涛 《北京理工大学学报》 EI CAS CSCD 北大核心 2002年第5期533-536,共4页
异构信息源集成技术提供统一接口 ,使各种基于因特网的应用能迅速、准确地提取所需信息 ,为用户屏蔽各种信息源的异构性 .这种异构信息源的集成技术从传统的结构化的异构数据库扩大到半结构化的大量 Web页面信息及无结构的信息 .对集成... 异构信息源集成技术提供统一接口 ,使各种基于因特网的应用能迅速、准确地提取所需信息 ,为用户屏蔽各种信息源的异构性 .这种异构信息源的集成技术从传统的结构化的异构数据库扩大到半结构化的大量 Web页面信息及无结构的信息 .对集成技术的方法 ,如数据模型、Web信息、描述语言 XML、主流软件开发技术及信息智能搜索、查询重写、查询分析等进行了分析 ,给出了半结构化异构信息源集成的系统架构 ,并指出该项技术未来发展趋势 . 展开更多
关键词 异构信息源 信息集成 半结构化信息 信息智能搜索 查询重写 查询分析 异构数据库
下载PDF
基于Web的快速信息抽取 被引量:12
20
作者 张绍华 薛文玲 李天柱 《计算机应用》 CSCD 北大核心 2001年第7期18-19,31,共3页
介绍了一种基于Web的信息抽取的快速实现方法 ,该方法将信息抽取划分为两个阶段 ,在每个阶段采用不同的数据模型。
关键词 半结构数据 信息抽取 装配器 WEB 数据模型 信息处理
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部