基于DOM树与模板的自适应网络信息抽取方法被引量：2

ADAPTIVE NETWORK INFORMATION EXTRACTION BASED ON DOM TREE AND TEMPLATES

下载PDF

导出

摘要针对论坛型网站的特性,包括标签的重复出现和文本内容的特定模式等,提出一种基于DOM树与模板的自适应信息抽取算法。以拥有共同父节点的邻近结构的相似子树为基础,提出生成候选集以及候选集过滤细分的抽取规则生成方法。该算法能很好地适应论坛网页结构的变化,当网页结构改变后自动生成新的抽取规则。实验结果表明,在多个不同论坛型网站页面及相应改版页面上,该方法能够有效生成抽取规则以实现Web论坛信息抽取,并获得比现有信息抽取方法更好的性能。 Aiming at the characteristics of forum pages,including the repeated tags and specific patterns of text,we propose an adaptive information extraction algorithm based on DOM trees and templates.Based on similar subtrees with common parent nodes,we proposed an extraction rule generation method that could generate,filter,and segment candidate sets.The algorithm adapted to the changes in the structure of forum pages,and automatically generated new extraction rules when the structure change.The results prove that this method can effectively generate extraction rules for the information extraction of forums and achieve better performance than traditional ones on different forums pages and corresponding revised pages.

作者柏志安廖健曾剑平 Bai Zhian;Liao Jian;Zeng Jianping(Computer Center,Ruijin Hospital Shanghai Jiao Tong University School of Medicine,Shanghai 200025,China;School of Computer Science,Fudan University,Shanghai 200433,China)

机构地区上海交通大学医学院附属瑞金医院信息中心复旦大学计算机科学技术学院

出处《计算机应用与软件》北大核心 2022年第8期15-20,81,共7页 Computer Applications and Software

关键词信息抽取自适应 DOM树模板 Information extraction Adaptive DOM tree Template

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献14

1孙璐,陈军华,廉德胜.一种基于视觉特征的Deep Web信息抽取方法[J].计算机与数字工程,2016(6):1107-1111. 被引量：4
2陈茂榕..领域依赖的Web信息抽取系统设计与实现[D].东南大学,2016:
3木妮娜.玉素甫,古丽娜.玉素甫.重复模式识别算法及在Web信息抽取和聚类分析中的应用[J].计算机科学,2017,44(B11):39-45. 被引量：1
4刘丽娟,张胤,杨一.基于本体思想的网页信息抽取方法[J].计算机与现代化,2015(9):90-94. 被引量：5
5吴共庆,刘鹏程,胡骏,胡学钢.基于块密度加权标签路径特征的Web新闻在线抽取[J].中国科学：信息科学,2017,47(8):1078-1094. 被引量：3
6李志义,沈之锐.基于重复模式识别的网页信息抽取研究[J].情报科学,2019,37(3):88-92. 被引量：6
7刘志强,都云程,施水才.基于改进的隐马尔科夫模型的网页新闻关键信息抽取[J].数据分析与知识发现,2019,3(3):120-128. 被引量：9
8赵朗..基于深度学习的Web信息抽取研究与实现[D].浙江大学,2017:
9马晓慧,李泓莹.一种DOM树标签路径和行块密度结合的Web信息抽取方法[J].智能计算机与应用,2017,7(4):13-16. 被引量：4
10王海艳,曹攀.基于节点属性与正文内容的海量Web信息抽取方法[J].通信学报,2016,37(10):9-17. 被引量：12

二级参考文献110

1潘泉,于昕,程咏梅,张洪才.信息融合理论的基本方法与进展[J].自动化学报,2003,29(4):599-615. 被引量：183
2王镝,王国仁,吴青泉,陈白尘,赵毅,毛克明.DNA序列中基于后继数组索引的LPR查找算法[J].计算机研究与发展,2006,43(z3):195-199. 被引量：4
3荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报（自然科学版）,2004,32(z1):84-87. 被引量：21
4王芳,陈海建.深入解析Web主题爬虫的关键性原理[J].微型电脑应用,2011(7):32-34. 被引量：8
5林建敏,谢康林.基于PAT-array和模糊聚类的文本聚类方法[J].计算机工程,2004,30(12):126-127. 被引量：6
6李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
7李卫,刘建毅,何华灿,王枞.基于主题的智能Web信息采集系统的研究与实现[J].计算机应用研究,2006,23(2):163-166. 被引量：15
8崔世起,刘群,孟遥,于浩,西野文人.基于大规模语料库的新词检测[J].计算机研究与发展,2006,43(5):927-932. 被引量：32
9胡吉祥,许洪波,刘悦,程学旗.重复串特征提取算法及其在文本聚类中的应用[J].计算机工程,2007,33(2):65-67. 被引量：6
10高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6

共引文献45

1王浩.彩色图像视觉目标区域轨迹点跟踪方法[J].周口师范学院学报,2020(2):129-133.
2陈平,匡尧,陈婧.基于BERT-wwm-ext多特征文本表示的经济事件主体抽取方法研究[J].武汉电力职业技术学院学报,2020(2):45-50. 被引量：1
3郭晓宇,彭浩.基于本体的网页数据抽取技术的探讨[J].中国多媒体与网络教学学报（电子版）,2020(19):4-5.
4李建平.手法治疗骶髂关节错缝52例[J].按摩与导引,2000,16(3):52-53.
5何云钢,曹宝香.基于DOM树和DBSCAN算法的Web信息提取[J].电子技术（上海）,2015,42(6):88-92. 被引量：1
6宋硕.基于Web信息抽取技术的企业情报分析系统的研究[J].数字技术与应用,2016,34(2):91-92. 被引量：1
7茹蓓,陈建彪.基于朴素贝叶斯方法的Web数据噪音分类研究[J].内江科技,2016,37(7):36-37.
8刘华春,王星捷.网络舆情信息提取技术研究与实现[J].计算机技术与发展,2016,26(9):8-11. 被引量：4
9阳广元.国内基于本体的信息抽取研究现状与热点分析[J].图书馆理论与实践,2017,0(5):38-43. 被引量：1
10王嵘冰,党小婉,徐红艳,冯勇.基于模板的Deep Web实体识别信息抽取方法研究[J].辽宁大学学报（自然科学版）,2017,44(2):97-104.

同被引文献12

1向馗,蒋静坪.时间序列的符号化方法研究[J].模式识别与人工智能,2007,20(2):154-161. 被引量：23
2朱静,曾红卫.GUI回归测试的测试脚本修复技术研究[J].计算机应用研究,2016,33(1):136-140. 被引量：3
3王曙燕,王璇,孙家泽.基于XPath路径的Web应用测试脚本修复[J].计算机应用研究,2017,34(5):1393-1396. 被引量：6
4彭艳兵,谢馨庭.基于单DOM树特征预分类的自适应Web信息抽取方法[J].电子设计工程,2017,25(19):56-59. 被引量：4
5张弛,高建华.一种基于主题判定的网页元素XPath定位器生成方法[J].小型微型计算机系统,2019,40(4):872-878. 被引量：4
6夏克付,章晓勤.基于Selenium自动化测试框架的数据驱动技术研究及应用[J].齐齐哈尔大学学报（自然科学版）,2019,35(6):18-22. 被引量：17
7周胜利,徐啸炀.基于网络流量的用户网络行为被害性分析模型[J].电信科学,2021,37(2):125-134. 被引量：2
8孙明玮,司维超,董琪.基于多维度数据的网络服务质量的综合评估研究[J].计算机科学,2021,48(S01):246-249. 被引量：1
9张高峰,鲍旭丹,刘敬,夏雪晗,郑利平.WEID:一种基于信息量差加权集成的Android恶意软件检测方法[J].计算机应用与软件,2022,39(9):332-338. 被引量：3
10孟媛,秦云川,蔡宇辉,李肯立.一种用于RPA系统的DOM对象快速搜索与定位算法[J].计算机科学,2022,49(10):252-257. 被引量：4

引证文献2

1陈俊生,彭莉芬.一种用于Web UI自动化测试脚本修复的网页元素重定位方法[J].长春师范大学学报,2023,42(8):54-59.
2杨雪,李国军,徐博.基于网络流量分析的自适应用户行为识别技术[J].浙江警察学院学报,2023(6):97-114.

1Yan Yang,Jia‐ju Fu,Tang Tang,Shuai Niu,Li‐Bing Zhang,Jia‐nan Zhangb,Jin‐Song Hu.Regulating surface In–O in In@InO_(x) core‐shell nanoparticles for boosting electrocatalytic CO_(2) reduction to formate[J].Chinese Journal of Catalysis,2022,43(7):1674-1679. 被引量：2
2王金威.基于大数据分析的高校云招聘信息个性化推送研究[J].安徽电子信息职业技术学院学报,2022,21(4):25-31. 被引量：2

计算机应用与软件

2022年第8期

浏览历史

内容加载中请稍等...

基于DOM树与模板的自适应网络信息抽取方法被引量：2

参考文献14

二级参考文献110

共引文献45

同被引文献12

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于DOM树与模板的自适应网络信息抽取方法 被引量：2

参考文献14

二级参考文献110

共引文献45

同被引文献12

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于DOM树与模板的自适应网络信息抽取方法被引量：2