网页正文信息抽取新方法被引量：4

下载PDF

导出

摘要随着社会的快速发展与互联网时代的到来,Web页面上所包含的信息已经是包罗万象,而面对如此海量的信息资源,我们要如何有效快速的检索并提取对我们有价值的信息资源已经成为对Web研究的一个重要命题。而基于信息抽取方法只能够处理一种特定的信息资源,并且对网页的依懒性较强,因此,在此提出一种将标点符号与HTML树结构相结合,作为网页识别正文内容的分析方法。其后通过对标点符号进行数据统计从而确定部分的正文信息,再根据正文信息的结构来确定其他信息内容。经此实验该提取方法能够有效的提取网页正文并屏蔽网页噪音。而且其普及性和准确性都比较高,在此本文将对网页正文提取信息进行探索。

作者史瑞芳

机构地区山西传媒学院

出处《通讯世界》 2015年第10期210-211,共2页 Telecom World

关键词网页正文信息抽取 HTML树方法

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1黄玲,陈龙.基于网页分块的正文信息提取方法[J].计算机应用,2008,28(S2):326-328. 被引量：13
2张帅.网页正文信息抽取方法探讨[J].科技致富向导,2012(26):89-89. 被引量：1
3宋明秋,张瑞雪,吴新涛,李文立.网页正文信息抽取新方法[J].大连理工大学学报,2009,49(4):594-597. 被引量：20
4邵振凯.网页信息提取技术[J].计算机技术与发展,2013,23(9):36-38. 被引量：1

二级参考文献29

1常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
2王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
3蒲强,李鑫,刘启和,杨国纬.一种Web主题文本通用提取方法[J].计算机应用,2007,27(6):1394-1396. 被引量：5
4黄文蓓,杨静,顾君忠.基于分块的网页正文信息提取算法研究[J].计算机应用,2007,27(B06):24-26. 被引量：32
5任仲晟,薛永生.基于页面标签的Web结构化数据抽取[J].计算机科学,2007,34(10):133-136. 被引量：8
6Ji H,Deng H,Han J.Uncertainty Reduction for KnowledgeDiscovery and Information Extraction on the World Wide Web[J].Proceedings of the IEEE(2012,100(9):2658-2674. 被引量：1
7Zhang Li,Li Meng,Dong Nannan,et al.An Improved DOM-based Algorithm for Web Information Extraction [ J].Journal ofinformation and computational science,2011,8(7):1113-1121. 被引量：1
8Lin Shian-Hua,Chu Kuan-Pak,Chiu Chun-Ming,et al.Auto-matic sitemaps generation:Exploring website structures usingblock extraction and hyper link analysis [ J].Expert Systemswith Application,2011,38(4):3944-3958. 被引量：1
9FU YAN,YANG DONG-QING,TANG SHI-WEI.Using XPath todiscover informative content blocks of Web pages. 3rd Interna-tional Conference on Semantics:Knowledge and Grid . 2007 被引量：1
10KANG J,CHOI J.Detecting informative Web page blocks for effi-cient information extraction using visual block segmentation. 2007 International Symposium on Information Technology Conver-gence . 2007 被引量：1

共引文献31

1宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
2熊子奇,张晖,林茂松.基于相似度的中文网页正文提取算法[J].西南科技大学学报,2010,25(1):80-84. 被引量：3
3王楠.一种实现Web数据到XML文档的转换算法[J].大连海事大学学报,2010,36(3):76-78.
4胡凌云,胡桂兰,徐勇,李龙澍.基于Web的新闻文本分类技术的研究[J].安徽大学学报（自然科学版）,2010,34(6):66-70. 被引量：7
5李文立,王乐超,宋春雷.基于HTML树和模板的文献信息提取方法研究[J].计算机应用研究,2010,27(12):4615-4617. 被引量：7
6常红要,朱征宇,陈烨,张鹏,曾丽芳.基于HTML标记用途分析的网页正文提取技术[J].计算机工程与设计,2010,31(24):5187-5191. 被引量：15
7张瑞雪,宋明秋,公衍磊.逆序解析DOM树及网页正文信息提取[J].计算机科学,2011,38(4):213-215. 被引量：15
8于成龙.中文网页信息抽取技术及分类算法研究[J].山东理工大学学报（自然科学版）,2011,25(3):108-110.
9胥桂仙,向春丞,翁彧,赵小兵,杨国胜.基于栏目的藏文网页文本自动分类方法[J].中文信息学报,2011,25(4):20-23. 被引量：7
10殷彬,杨会志.灵活结构网页的正文提取[J].计算机技术与发展,2011,21(9):111-113. 被引量：3

同被引文献24

1汪建伟,杨冬青,高军,王腾蛟.一种基于分类算法的网页信息提取方法[J].计算机科学,2008,35(3):91-93. 被引量：11
2李元彬.数据挖掘技术在工程项目成本预测中的应用[J].四川兵工学报,2009,30(1):146-148. 被引量：6
3李恒训,张华平,刘金刚.WWW论坛采集关键技术研究[J].微计算机信息,2010,26(24):106-107. 被引量：1
4黄洪,刘增良,余达太,周绍华.一种具有免疫特征的智能数据分类分级模型[J].兵工学报,2010,31(12):1567-1572. 被引量：3
5陈晓云,宋伟国,苗胜法.基于DOM的中文人物WEB信息提取[J].微计算机信息,2010,26(36):15-17. 被引量：2
6龚真平.基于HTMLParser的Web文献信息提取[J].软件导刊,2011,10(2):14-15. 被引量：3
7高辉,王沙沙,傅彦.Web舆情的长期趋势预测方法[J].电子科技大学学报,2011,40(3):440-445. 被引量：30
8张云雷,周军,刘海霞.一种基于DOM的Web关键信息提取方法[J].现代计算机（中旬刊）,2011(6):3-6. 被引量：3
9沈竞,蒋侨.DSTFA分布式短文本过滤算法[J].四川兵工学报,2011,32(10):151-153. 被引量：2
10赵晓峰,凌天斌,彭波,王转妮.一种基于网页源文件的信息提取算法[J].计算机与现代化,2012(2):38-39. 被引量：1

引证文献4

1程乔,王映华,李冉,李友建.基于互联网+舆情数据发掘支撑网络优化新思路的研究[J].广西通信技术,2020(1):1-7.
2郑步青,邹红霞,王琳,王桢.网络舆情主动感知技术探析[J].兵器装备工程学报,2017,38(8):131-135. 被引量：2
3郭培铭.基于文献特征提取网页信息的算法研究[J].现代计算机,2019,25(2):37-40.
4关志广,程乔.基于NLP的文本挖掘技术在提升电信客户满意度中的应用[J].无线互联科技,2023,20(5):117-119. 被引量：1

二级引证文献3

1童丁琛.公共事件网络舆情监管的意义与策略——以房屋拆迁为例[J].科技资讯,2017,15(34):220-220.
2李月洁,柳长安,刘星平,贾聪.基于Hadoop的互联网隐式文本感知技术[J].现代电子技术,2018,41(6):121-124.
3钟琳.NLP技术在智能语音质检中的应用[J].电声技术,2024,48(3):57-59.

1胡必云,黄因生,谢荣传.基于语义的Web信息检索[J].计算机技术与发展,2006,16(10):71-73. 被引量：10
2胡罗凯.一种基于MapReduce和Oracle的本体查询方法[J].湖北第二师范学院学报,2013,30(2):19-22.
3朱明,王军,王俊普.Web网页识别中的特征选择问题研究[J].计算机工程,2000,26(8):35-37. 被引量：29
4张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报（职教与经济研究）,2007(2):58-62.
5张伟,田俊华,陈娟.基于Spring MVC的分布式Web研究[J].咸阳师范学院学报,2007,22(6):55-57. 被引量：3
6吴秀清,韩彬斌.基于Bayes算法的Web网页识别[J].计算机工程,2000,26(3):6-7. 被引量：3
7沙泓州,刘庆云,柳厅文,周舟,郭莉,方滨兴.恶意网页识别研究综述[J].计算机学报,2016,39(3):529-542. 被引量：40
8花老师,花宝宝.海景摄影[J].世界发明,2005(9):90-93.
9张建军.展望未来存储,“鲨鱼”震撼出击——IBM亮出SAN杀手锏[J].中国经济和信息化,1999,0(30):33-33.
10吴晓芳.提高数据中心软件质量探析[J].金融科技时代,2016,24(12):61-63.

通讯世界

2015年第10期

浏览历史

内容加载中请稍等...

网页正文信息抽取新方法被引量：4

参考文献4

二级参考文献29

共引文献31

同被引文献24

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

网页正文信息抽取新方法 被引量：4

参考文献4

二级参考文献29

共引文献31

同被引文献24

引证文献4

二级引证文献3

相关作者

相关机构

相关主题

浏览历史

网页正文信息抽取新方法被引量：4