计算Web页面信息熵的方法被引量：1

Method for calculating entropy of web information block

下载PDF

导出

摘要为有效解决Web信息抽取中的主题漂移问题,提出了一种能更准确地反映Web页面信息熵的计算方法——混合熵。该方法把需要计算信息熵的信息块放在多页面网站环境中进行讨论,通过考虑页面内信息对信息熵计算的影响,并同时考虑由模版生成的页面间相同的信息分布的影响,从而保证了信息熵的计算的准确度。用该方法解决信息抽取中信息块的信息熵计算问题,并将仿真结果与其它算法进行比较,结果表明了该方法计算的信息熵的准确度及主题相关信息块与主题无关信息块之间的区分度优于其它方法。 To solve the topic drift problem in web information extraction effectively, a new computation of entropy based on web page is proposed. The information within local page and same information distribution between websites are considered completely to greatly guarantee improving the precision. Calculating entropy of web information block in web information extraction is used to verify this algorithm and the result of simulation, which is compared to other well-known algorithms, indicated that this algorithm is better than several other algorithms in both precision of calculating entropy and distinguishing between related information blocks and unrelated information blocks.

作者朱红灿陈能华周永红

机构地区湘潭大学公共管理学院

出处《计算机工程与设计》 CSCD 北大核心 2010年第1期114-117,共4页 Computer Engineering and Design

基金国家社科基金项目(08CTQ007)

关键词信息熵信息抽取信息块模版特征词 information entropy information extraction information block template term

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Hung-Yu Kao, Jan-Ming Ho, Ming-Syan Chen. WISDOM: Web Intrap age informative structure mining based on document object model[J].IEEE Transactions on Knowledge and Data Engineering,2005,17(5):614-630. 被引量：1
2朱红灿,龙朝阳.基于熵的新闻网页抽取方法的研究[J].现代图书情报技术,2007(4):48-51. 被引量：2
3贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
4李慧,沈洁,张舒,顾天竺,吴颜,陈晓红.基于页面分块与信息熵的评论发现及抽取[J].计算机应用研究,2007,24(2):269-271. 被引量：4
5王胜,朱明.基于最大熵马尔可夫模型的地址信息抽取[J].计算机工程与应用,2005,41(21):192-194. 被引量：7
6姜柄圭,张秦龙,谌贻荣,常宝宝.面向机器辅助翻译的汉语语块自动抽取研究[J].中文信息学报,2007,21(1):9-16. 被引量：12
7朱红灿,肖子昂.基于聚类的Web链接抽取[J].网络安全技术与应用,2009(3):75-77. 被引量：1

二级参考文献42

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2贺智平,徐学洲,李爱玲.一种基于信息熵的Web页面主题信息抽取方法[J].计算机工程与应用,2007,43(4):164-166. 被引量：6
3朱红灿,邹凯.基于机器学习的Web链接的抽取[J].情报理论与实践,2007,30(2):252-255. 被引量：2
4Berger A L,S A Della Pietra,V J Della Pietra. A Maximum Entropy Approach to Natural Language Processing[J].Computational Linguistics,1996;22(1):39～71 被引量：1
5Darroch J N,Ratcliff D.Generlized iterative scaling for log-linear models[C].In: The Annals of Mathematical Statistics, 1972 ; 43 (5):1470～1480 被引量：1
6McCallum A,D Freitag,F Pereira. Maximum Entropy Markov Models for Information Extraction and Segmentation[C].In:Machine Learning:Proceedings of the Seventeenth International Conference(ICML 2000),Stanford, California, 2000: 591 ～598 被引量：1
7Leek T R.Information extraction using hidden Markov models[D].Master′s thesis.UC San Diego,1997 被引量：1
8Yamron J,Carp I,Gillick L et al.A hidden Markov model approach to text segmentation and event tracking[C].In:Proceedings of ICASSP′98,IEEE, Volume: 1,1998: 333～336 被引量：1
9Makoto Nagao,Shinsuke Mori.A new method of N-gram statistics for large number of n and automatic extraction of words and phrases from large text data of Japanese[A].In:Proceedings of ACL-1994[C],1994. 被引量：1
10Xueqiang Lv,Le Zhang and Junfeng Hu.Statistical Substring Reduction in Linear Time[A].In:Proceedings of IJCNLP-2004[C],2004. 被引量：1

共引文献25

1张雪英,闾国年,叶鹏.大数据地理信息系统:框架、技术与挑战[J].现代测绘,2020(6):1-8. 被引量：8
2王昊.基于层次模式匹配的命名实体识别模型[J].现代图书情报技术,2007(5):62-68. 被引量：8
3郑彦宁,化柏林,张新民.信息检索与信息抽取差异性探析[J].图书情报工作,2007,51(10):17-20. 被引量：1
4朱红灿,肖子昂.基于聚类的Web链接抽取[J].网络安全技术与应用,2009(3):75-77. 被引量：1
5孟军,刘秋水,王秀坤.节点频度和语义距离相结合的网页正文信息抽取[J].计算机工程与应用,2009,45(1):140-143. 被引量：3
6吴诗贤,张必兰.体验评价文章抽取模型研究[J].现代图书情报技术,2009(4):88-92. 被引量：2
7詹宏伟.语料库中语块提取的工具与方法[J].外语教学,2011,32(2):23-26. 被引量：15
8叶娜,张桂平,韩亚冬,蔡东风.基于用户行为模型的计算机辅助翻译方法[J].中文信息学报,2011,25(3):98-103. 被引量：3
9徐金安.理性主义与经验主义相结合的机器翻译研究策略[J].计算机科学,2011,38(6):223-229. 被引量：5
10张春娜,李轶然.基于混沌粒子群的模糊C-均值聚类算法[J].计算机工程与设计,2013,34(3):1039-1043. 被引量：1

同被引文献6

1秦喜艳,陆伟,姜捷璞.信息检索中的相关性判断和系统评价述评[J].图书情报知识,2009,26(4):89-94. 被引量：11
2王知津,范淑杰,王丽娜.竞争情报搜集与利用中的信息资产[J].图书馆学研究,2011(4):2-6. 被引量：2
3陆伟,刘屹,孟睿,陈英杰.基于域加权聚类算法的网络舆情热点话题探测[J].数字图书馆论坛,2011(8):50-56. 被引量：2
4张清海.唯有“精准”才能有效——对竞争情报支撑企业决策的再认识[J].竞争情报,2014,10(3):8-10. 被引量：2
5李涛,张景肖.基于BT-SVM模型组合的动态加权多分类算法研究[J].统计与信息论坛,2019,34(1):20-24. 被引量：3
6张谦,高章敏,刘嘉勇.基于Word2vec的微博短文本分类研究[J].信息网络安全,2017(1):57-62. 被引量：51

引证文献1

1黄莉峥,刘嘉勇,郑荣锋,李孟铭.一种基于暗网的威胁情报主动获取框架[J].信息安全研究,2020,6(2):131-138. 被引量：7

二级引证文献7

1范晓霞,周安民,郑荣锋,李孟铭.基于深度学习的暗网市场命名实体识别研究[J].信息安全研究,2021,7(1):37-43. 被引量：2
2王蕾.网络安全威胁下情报质量提高方法研究[J].信息技术与信息化,2021(1):206-208. 被引量：2
3董尹,刘千里,胡雅萍,宋继伟,赵小康.公开源情报开发与利用现状:基于技术和安全视角[J].情报理论与实践,2021,44(6):189-198. 被引量：7
4崔琳,杨黎斌,何清林,王梦涵,马建峰.基于开源信息平台的威胁情报挖掘综述[J].信息安全学报,2022,7(1):1-26. 被引量：13
5张弛,张梦迪,胡晴.暗网空间威胁信息获取技术研究[J].计算机与网络,2023,49(4):55-59.
6蔺子卿,朱亚运.面向电力网络战的威胁情报感知研究[J].云南民族大学学报（自然科学版）,2023,32(5):626-635.
7叶帅辰.社交媒体中开源网络威胁情报挖掘技术分析[J].无线互联科技,2024,21(3):117-123.

1党宏广,赵丽飞.谈政府网站的安全性管理[J].经济技术协作信息,2008(22):61-61.
2刘三星,罗红金.肇庆市职教公共实训中心综合网站建设研究和实践[J].信息与电脑（理论版）,2014,0(1):172-174.
3范自柱,周尚超.基于形状熵的图像检索方法[J].计算机应用研究,2007,24(9):309-311.
4范自柱,刘二根,徐保根.互信息在图像检索中的应用[J].电子科技大学学报,2007,36(6):1311-1314. 被引量：6
5张维东,张凯,董青,孙维华.利用决策树进行数据挖掘中的信息熵计算[J].计算机工程,2001,27(3):71-72. 被引量：30
6邓传军,黄爱生.有关嵌入式web技术的研究[J].北京工业职业技术学院学报,2006,5(2):98-101. 被引量：2
7全国第2届语义Wleb与本体论学术研讨会（SWON 2007）征文通知[J].软件学报,2006,17(12):2536-2536.
8海中帆.构建网站环境[J].电子商务世界,2006(5):48-49. 被引量：1
9李波,禹继国.基于层次模型的高校网站环境优化研究[J].软件导刊,2010,9(7):20-23.
10蒋莉莉.基于主观信任的Web服务访问控制[J].中国西部科技,2008,7(10):45-46.

计算机工程与设计

2010年第1期

浏览历史

内容加载中请稍等...

计算Web页面信息熵的方法被引量：1

参考文献7

二级参考文献42

共引文献25

同被引文献6

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

计算Web页面信息熵的方法 被引量：1

参考文献7

二级参考文献42

共引文献25

同被引文献6

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

计算Web页面信息熵的方法被引量：1