中文RSS信息自动检索与分类研究被引量：6

Research on Automatic Retrieval and Classification for Chinese RSS Information

下载PDF

导出

摘要设计并实现了RSS垂直爬虫算法,利用广度优先算法聚焦于RSS源进行自动采集,并在文本分词基础上,针对RSS源进行词语权重计算方法的改进及词语过滤,利用VSM方法实现RSS自动分类。实验结果表明,RSS系统在较低的负载下,能以较高的效率和正确率实现中文RSS信息自动检索与分类,从而有效进行RSS信息聚合管理。 This paper presents a web crawler fitting for RSS which uses breadth-first algorithm and focuses on RSS to carry out automatically collection.And based on word segment,it improves the method to calculate word weight,works on word filtering,and implements automatically classification aiming at RSS using VSM.Experimental result shows that the system achieves to retrieve and classify Chinese RSS information with lower system cost and higher accuracy.And it can take manage of RSS information syndication effectively.

作者李庆诚左珊珊董振华张金

机构地区南开大学信息技术科学学院

出处《计算机工程》 CAS CSCD 北大核心 2011年第6期79-81,90,共4页 Computer Engineering

基金天津市软件产业发展专项基金资助项目(07FZRJFX01300)

关键词 RSS 信息检索爬虫中文文本分类向量空间模型 Really Simple Syndication（RSS） information retrieval crawler Chinese text classification VSM

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1戴明陆..基于RSS的内容聚合在学术领域的应用研究[D].吉林大学,2009:
2周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009,36(8):26-29. 被引量：95
3白鹤,汤迪斌,王劲林.分布式多主题网络爬虫系统的研究与实现[J].计算机工程,2009,35(19):13-16. 被引量：20
4李荣陆..文本分类及其相关技术研究[D].复旦大学,2005:
5石志伟,刘涛,吴功宜.一种快速高效的文本分类方法[J].计算机工程与应用,2005,41(29):180-183. 被引量：15

二级参考文献57

1余锦,史树明.分布式网页排序算法及其传输模式分析[J].计算机工程与应用,2004,40(29):182-187. 被引量：1
2钱榕,徐新华,郑莹,杨炳儒.智能专题化信息搜集Crawler[J].计算机工程,2006,32(3):57-59. 被引量：4
3沈贺丹,潘亚楠,邵良杉.关于搜索引擎的研究综述[J].计算机技术与发展,2006,16(4):147-149. 被引量：17
4蒋宗礼,赵钦,肖华,王蕊.高性能并行爬行器[J].计算机工程与设计,2006,27(24):4762-4766. 被引量：7
5张三峰,吴国新.一种面向动态异构网络的容错非对称DHT方法[J].计算机研究与发展,2007,44(6):905-913. 被引量：1
6中国互联网络发展状况统计报告[EB/OL].http://tech.qq.com/a/20080724/000277.htm.2008-9-27. 被引量：7
7Arasu A, Cho J. Searching the Web[J]. ACM Transactions on Internet Technology, 2001,1 (1) : 2-43. 被引量：1
8Dean J, Ghemawat S. MapReduce: Simplified Data Processing on Large Clusters[A]//Proceedings of the 6th Conference on Symposium on Opear-ting Systems Design & Implementation[C]. San Francisco, CA, 2004: 10-10. 被引量：1
9Ghemawat S, Gobioff H, Leung Shun-Tak. The Google File System[A]//Proeeedings of the 19th ACM Symposium on Operating Systems Principles[C]. 2003:20-43. 被引量：1
10Pike R, Dorward S, Griesemer R. Interpreting the Data:Parallel Analysis with Sawzall [J]. Scientific Programming Journal, 2005,13:277-298. 被引量：1

共引文献127

1王芳,陈海建.深入解析Web主题爬虫的关键性原理[J].微型电脑应用,2011(7):32-34. 被引量：8
2丁彦蕊,蔡宇杰,孙俊,须文波.基于SVM和KNN的蛋白质耐热性分类[J].计算机工程与应用,2007,43(16):228-230. 被引量：2
3康楠,金蓓弘,李京.面向Blog的兴趣挖掘和推荐系统[J].计算机工程,2008,34(2):72-74. 被引量：5
4魏善岭,傅英亮,鲁明羽.一种用于互动型不良信息过滤的贝叶斯改进方案[J].广西师范大学学报（自然科学版）,2009,27(3):134-137. 被引量：1
5金婵鸣,徐东平.搜索引擎系统中网页抓取模块研究[J].现代计算机,2010,16(3):36-39.
6陈娜.基于分类技术的Blog用户兴趣挖掘[J].科学之友（中）,2010(2):155-156.
7彭赓,范明钰.基于改进网络爬虫技术的SQL注入漏洞检测[J].计算机应用研究,2010,27(7):2605-2607. 被引量：19
8池勇敏,郝泳涛.分布式主题爬虫的设计与实现[J].计算机应用与软件,2010,27(12):135-138. 被引量：3
9王海龙,胡景芝,赵朋朋,崔志明.基于搜索引擎的Deep Web数据源发现[J].计算机工程,2011,37(5):77-79. 被引量：1
10张旭,张振江,刘云.BBS舆情系统爬虫模块的研究[J].铁路计算机应用,2010,19(12):18-21. 被引量：7

同被引文献41

1曲淑敏.RSS技术在个性学术文献检索中的应用[J].图书馆学研究（应用版）,2010(2):65-67. 被引量：4
2江璜.关注RSS安全问题[J].计算机安全,2006(1):74-75. 被引量：3
3马洪朋,李星,倪庆剑,邢汉承.一种网络虚拟化存储系统的设计与实现[J].计算机工程与科学,2006,28(10):25-28. 被引量：12
4范振钧.基于ASP.net的三层结构实现方法研究[J].计算机科学,2007,34(4):289-291. 被引量：110
5龙银香.基于HTML标签的信息隐藏模型[J].计算机应用研究,2007,24(5):137-140. 被引量：8
6刘譞哲,黄罡,梅宏.用户驱动的服务聚合方法及其支撑框架[J].软件学报,2007,18(8):1883-1895. 被引量：28
7Huang Huajun,Zhong Shaohong,Sun Xingming.Steganalysis of Information Hidden in Webpage Based on Higher-order Statistics[C] //Proceedings of International Symposium on Electronic Commerce and Security.Guangzhou,China:[s.n.] ,2008:957-960. 被引量：1
8MAGUIRE T, SNELLING D. Web services service group 1.2[ M]. London: OASIS, 2006:1 -42. 被引量：1
9LIU X Z, HUANG G, MEI H. Discovering homogeneous Web serv- ice community in the user-centric Web environment [ J]. IEEE Transactions on Service Computing, 2009, 2(2) : 167 - 181. 被引量：1
10SHENG Q Z, BENATALLAH B, MAAMAR Z, et al. Configurable composition and adaptive provisioning of Web services [ J]. IEEE Transactions on Services Computing, 2009, 2( 1):34 -49. 被引量：1

引证文献6

1胡敏.企业工商注册信息自动搜集软件的性能设计与实现[J].商情,2011(39):179-179.
2戚银城,孙卓,谢林燕.基于新闻类RSS文档的信息隐藏系统[J].计算机工程,2012,38(5):129-132.
3王政嘉,李征,王健.基于RSS技术的移动化农业信息服务系统研究[J].河北农业科学,2012,16(1):99-102. 被引量：1
4胡强,杜玉越.面向服务簇的服务体系结构及服务发现[J].计算机应用,2013,33(8):2163-2166. 被引量：5
5鲁震霆,刘磊.企业工商注册信息自动搜集软件的性能设计与实现[J].信息通信,2015,28(9):161-162.
6张龙昌,褚庆,杨艳红.三网融合下数字图书馆云服务平台架构研究[J].计算机与数字工程,2015,43(11):1974-1980. 被引量：4

二级引证文献10

1关茜,岳建伟,刘方,陈云浩,宫阿都.改进的RSS信息推送技术在农地流转中的应用[J].遥感信息,2015,30(1):129-133.
2叶生方,姚喜.一种基于语义的Web服务发现策略[J].信息技术与信息化,2014(1):131-134.
3胡强.面向服务簇的服务流程构建[J].计算机应用,2014,34(6):1783-1787. 被引量：1
4宁玉辉,杨栋,杜玉越.基于服务簇的Web服务绑定方法[J].山东科技大学学报（自然科学版）,2014,33(4):94-98.
5洪晓松.具有自供电功能的无线载荷测试仪的设计[J].信息技术与信息化,2015(10):40-42.
6黄承海.融合网络资源的机顶盒应用[J].电子技术与软件工程,2016(16):17-18.
7张秀琦,田皓月.基于云计算的数字化教育资源共享平台的研究[J].电子设计工程,2017,25(5):29-32. 被引量：17
8钟声.医院机构图书馆和个人图书馆探讨[J].现代医院,2018,18(9):1286-1289. 被引量：3
9Jing Sha,Yuyue Du,Liang Qi.A User Requirement Oriented Web Service Discovery Approach Based on Logic and Threshold Petri Net[J].IEEE/CAA Journal of Automatica Sinica,2019,6(6):1528-1542. 被引量：7
10滕飞.基于Spring MVC的大数据交易集市平台[J].计算机系统应用,2022,31(3):85-94. 被引量：4

1王术,付关友,朱征宇.面向个性化服务的网页特征描述[J].计算机工程与设计,2005,26(3):651-653. 被引量：3
2郑文艳.Flash在深度和广度优先遍历算法教学中的应用[J].软件导刊,2013,12(11):62-64.
3张玥杰,连理,吴立德.一种新型的跨语言信息检索技术[J].计算机科学,2002,29(8):66-72. 被引量：2
4贾峰.基于C#的RSS阅读器设计与实现[J].现代计算机,2012,18(11):67-69.
5景宝华.基于NHibernate的网摘与RSS系统设计与开发[J].电脑与电信,2015(12):73-74. 被引量：1
6杨万应,章勇,黄涛,谢峰森.基于SNMP协议的多线程网络拓扑发现算法的研究[J].中国电子商情（通信市场）,2011(3):83-87. 被引量：1
7赵小华,马建芬.文本分类算法中词语权重计算方法的改进[J].电脑知识与技术,2009,0(12X):10626-10628. 被引量：9
8初建崇,刘培玉,王卫玲.Web文档中词语权重计算方法的改进[J].计算机工程与应用,2007,43(19):192-194. 被引量：14
9张文杰,余志雄.基于v-SVR算法的隧道地表沉降预测方法研究与应用[J].广东土木与建筑,2008,15(11):53-54.
10卢良进,万健,徐向华.基于P2P的RSS内容分发系统研究与实现[J].杭州电子科技大学学报（自然科学版）,2008,28(2):61-64. 被引量：1

计算机工程

2011年第6期

浏览历史

内容加载中请稍等...

中文RSS信息自动检索与分类研究被引量：6

参考文献5

二级参考文献57

共引文献127

同被引文献41

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

中文RSS信息自动检索与分类研究 被引量：6

参考文献5

二级参考文献57

共引文献127

同被引文献41

引证文献6

二级引证文献10

相关作者

相关机构

相关主题

浏览历史

中文RSS信息自动检索与分类研究被引量：6