基于海量冗余网页过滤的Web挖掘技术研究被引量：2

Web Mining Technology Research Based on the Mass Redundant Web Filter

下载PDF

导出

摘要智能教学系统通过搜索网页关键词获取教学资源时,由于存在许多具有相同关键词的垃圾网页的影响,使得教学资源较难从海量网页信息中快速挖掘出来,传统的关键词查找方法受垃圾网页的影响使得搜索量过大,造成智能教学资源获取的及时性不高。为此,提出Web信息抽取技术应用在智能教学资源挖掘中。根据教学资源获取要求批量获取相关Web网页,利用Xpath语言结合搜索请求和网页主题信息块特征对Web网页进行清洗,然后根据Web文本特征模型挖掘出教学所需的资源。仿真实验表明,这种方法能够有效克服垃圾网页地干扰,快速完成教学资源地挖掘,取得了满意的结果。 Research intelligent teaching system of teaching resources fast mining.When intelligent teaching system through the web keywords to search the teaching resources,because there are many with the same key words of garbage the influence of the web page,which is hard to teaching resources from huge web information quickly dug out.The traditional ways to search keywords by the municipal waste the influence of web search volume is too large,cause intelligent teaching resources of the gain of timeliness is not high.In order to solve this problem,this paper puts forward Web information extraction technology used in intelligent teaching resource mining.According to the teaching requirements for access to resources related Web page batch,Xpath language is used to union search requests and Web page subject information piece features on the Web page for cleaning,and then based on the Web text characteristic model dig out the teaching resources needed.The simulation experiment shows that this method can effectively avoid the interference of garbage web page,complete the teaching resources of the fast mining,and satisfactory results were obtained.

作者赵玺

机构地区北京联合大学师范学院

出处《科技通报》北大核心 2013年第4期21-22,25,共3页 Bulletin of Science and Technology

关键词智能教学垃圾网页信息抽取 intelligent teaching garbage web page information extraction

分类号 TP30 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献5

1Ying Han, Fang Li, KeBin Liu et ol. Template Based Chinese News Event Summarization [C]//. The proceeding of 2nd International Conference on Semantics Knowledge and Grid(SKG'06), 2006: 53-54. 被引量：1
2娄德成,姚天昉.汉语句子语义极性分析和观点抽取方法的研究[J].计算机应用,2006,26(11):2622-2625. 被引量：64
3蒋云霞.基于层次分析法的工程管理专业方向选择分析[J].科技通报,2011,27(4):601-604. 被引量：3
4史西兵,王浩鸣.隐马尔可夫模型解决信息抽取问题的仿真研究[J].计算机仿真,2010,27(5):132-135. 被引量：5
5G Salton, A Wong, C S Yang. A Vector Space Model for Automatic Indexing [J].Communication of the ACM, 2010, 18(11): 613-620. 被引量：1

二级参考文献15

1宋永发,袁永博,吴智敏.国内重点高等院校工程管理专业本科教学计划比较研究[J].高等建筑教育,2004,13(3):1-4. 被引量：20
2孙春玲,尹贻林,严玲.专业协会对工程管理学科人才培养的介入机制研究[J].高等工程教育研究,2005,53(5):78-81. 被引量：25
3E Riloff, R Jones. Learning dictionaries for information extraction by multi - level bootstrapping [ C ]. Proceedings of the Sixteenth National Conference on Artilicial Intelligence, Orlando: AAAI Press, 1999. 811 - 816. 被引量：1
4N Kushmerick. Wrapper induction:Efficiency and expressiveness [ J ]. Artificial Intelligence, 2000,118 ( 12 ) : 15 - 68. 被引量：1
5Kristie Seymore, Andrew McCallum, Ronal Rosenfel. Learning hidden Markov model structure for information extraction [ C ]. Proceedings of the AAAI' 99 Workshop on Machine Learning for Information Extraction, Orlando: AAAI Press, 1999.37 - 42. 被引量：1
6Dayne Frietag, Andrew McCallum. Information extraction with HMMs and shrinkage [ C ]. Proceedings of the AAAI' 99 Workshop on Machine Learning for Information Extraction, Orlando: AAAI Press, 1999.31 - 36. 被引量：1
7Lawrence E Rabiner. A tutorial on hidden Markov models and selected application in speech recognition [ C ]. Proceedings of the IEEE, 1989,77(2) :257 -286. 被引量：1
8TURNEY PD, LITTMAN ML. Measuring praise and criticism: inference of semantic orientation from association[ J]. ACM Transactions on Information System, 2003, 21(4): 315 -346. 被引量：1
9YI J, NIBLACK W. Sentiment mining in WebFountain[ A]. Proceedings of the 21st International Conference on Data Engineering( ICDE 2005) [ C]. Washington, DC, USA: IEEE Computer Society Press, 2005. 1073 - 1083. 被引量：1
10TURNEY PD. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classification of reviews[ A]. Proceedings of the Association for Computational Linguistics 40th Anniversary Meeting[C]. Philadelphia, PA, USA, 2002. 417-424. 被引量：1

共引文献69

1申晓晔,封化民,毋非.基于语义的Web新闻内容倾向性分析框架[J].郑州大学学报（理学版）,2009,41(1):33-35.
2赵俊芹,杨丹,余淼,陈林.评论信息抽取技术在网络贸易系统平台上的应用[J].计算机科学,2008,35(4):292-293.
3姚天昉,程希文,徐飞玉,汉思·乌思克尔特,王睿.文本意见挖掘综述[J].中文信息学报,2008,22(3):71-80. 被引量：106
4潘宇,林鸿飞.基于语义极性分析的餐馆评论挖掘[J].计算机工程,2008,34(17):208-210. 被引量：24
5伍星,何中市,黄永文.产品评论挖掘研究综述[J].计算机工程与应用,2008,44(36):37-41. 被引量：29
6李娟,张全,贾宁.中文词语倾向性分析处理[J].计算机工程与应用,2009,45(2):131-133. 被引量：5
7吴诗贤,张必兰.体验评价文章抽取模型研究[J].现代图书情报技术,2009(4):88-92. 被引量：2
8李娟,张全,贾宁,臧翰芬.基于模板的中文人物评论意见挖掘[J].计算机应用研究,2010,27(3):833-836. 被引量：4
9谈国新,方一.突发公共事件网络舆情监测指标体系研究[J].华中师范大学学报（人文社会科学版）,2010,49(3):66-70. 被引量：111
10崔大志,刘影,李媛.论网络社区评论情感语义的模糊化[J].大连海事大学学报（社会科学版）,2010,9(3):113-115. 被引量：1

同被引文献18

1曹洪欣,徐维.基于循证医学的电子病历资源整合与挖掘的宏观模型构建[J].图书馆理论与实践,2010(9):43-45. 被引量：7
2林光旭.基于USP理论技术路线的核心文化资源的发掘[J].中华文化论坛,2011(4):163-168. 被引量：1
3陈永当,王钰鑫,鲍志强,任慧娟.基于用户访问信息的数据挖掘方法及其算法[J].计算机工程与应用,2012,48(15):133-137. 被引量：3
4周艳,李萍,吴雷.基于云平台的图书馆数据挖掘技术研究[J].现代情报,2012,32(7):46-49. 被引量：4
5刘东慧,姜薇.基于事件本体的Web不良信息挖掘[J].山东大学学报（工学版）,2012,42(5):35-40. 被引量：2
6王兰成,刘晓亮.网上数字档案大数据分析中的知识挖掘技术研究[J].浙江档案,2013(10):14-19. 被引量：36
7刘晓燕,阮平南,李非凡.基于专利的技术创新网络演化动力挖掘[J].中国科技论坛,2014(3):136-141. 被引量：17
8尤建新,孟银薇.基于Web数据挖掘的网站知识获取及应用——以大众点评网为例[J].上海大学学报（自然科学版）,2014,20(3):261-273. 被引量：6
9徐昊,谢文阁.一种隐式关联页面的挖掘方法[J].计算机系统应用,2014,23(9):167-169. 被引量：1
10陈昊,谭晓风.基于第二代测序技术的基因资源挖掘[J].植物生理学报,2014,50(8):1089-1095. 被引量：12

引证文献2

1韩丽屏.基于Web挖掘的教学资源信息智能分析方法研究[J].无线互联科技,2018,15(3):77-79. 被引量：1
2王玉贤.基于经典算法的大数据网络流量资源挖掘模型构建[J].自动化与仪器仪表,2021(9):152-155.

二级引证文献1

1程红林,党向盈.“互联网+”时代下共享教育资源库建设[J].软件工程与应用,2020,9(3):244-250. 被引量：4

1石爱萍.一种基于语义距离的关键词获取方法[J].计算机与现代化,2010(12):18-20.
2曹毅,贺卫红.基于内容过滤的电子商务推荐系统研究[J].计算机技术与发展,2009,19(6):182-185. 被引量：16
3欧阳.数据挖掘技术在移动通信中的应用[J].广西师范学院学报（自然科学版）,2005,22(4):40-44. 被引量：1
4汤小文,蔡庆生.数据挖掘在电信业中的应用[J].计算机工程,2004,30(6):36-37. 被引量：25
5车向东.基于教学资源获取智能化的校园数字化建设[J].自动化与仪器仪表,2016(8):134-136. 被引量：1
6吴剑兰.基于Python的新浪微博爬虫研究[J].无线互联科技,2015,12(6):93-94. 被引量：6
7李瑾.基于二部图的P2P资源挖掘方法[J].电子世界,2012(13):7-8.
8李水莲.数据库资源挖掘流程的自动控制[J].计算机光盘软件与应用,2014,17(3):152-152. 被引量：1
9王春枝,纪利群.利用XML实现异构数据库间互访[J].微型机与应用,2002,21(8):13-14. 被引量：25
10王宝勋,刘秉权,孙承杰,王晓龙.网络问答资源挖掘综述[J].智能计算机与应用,2012,2(6):54-58.

科技通报

2013年第4期

浏览历史

内容加载中请稍等...

基于海量冗余网页过滤的Web挖掘技术研究被引量：2

参考文献5

二级参考文献15

共引文献69

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于海量冗余网页过滤的Web挖掘技术研究 被引量：2

参考文献5

二级参考文献15

共引文献69

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于海量冗余网页过滤的Web挖掘技术研究被引量：2