Web文本挖掘系统及其关键技术研究被引量：11

The Key Technical Research of Text Mining System Based on Web

下载PDF

导出

摘要随着网络信息的迅猛发展,信息量日益增加,怎样从海量的Internet上获取有用信息,WEB文本挖掘系统是挖掘技术的重要应用方向,它是指在给定的分类体系下,根据网页的内容自动判别内容类别的过程,论文对文本中所涉及的关键技术,包括K-最近邻参照法模型、基于隐马尔科夫模型(HMM)的信息抽取、机器学习方法,进行了研究和探讨,并且给出了基于信息抽取的文本挖掘系统的设计实现和下一步的研究重点。 With the development of network technology,the spread of internet become more and more quick.There are many types of complicated data in the information ocean.How to acquire useful knowledge quickly from the information ocean is the very difficult.The Text Mining based on Web is a new research field which can solve the problem effectively .This paper gives a research to several key techniques about Text Mining,including K-Nearest Neighbor Model, Information Extraction (IE) based on Hide in Markov Model (HMM), Machine Learning.It also describes a text mining model based on IE,and gives the results.

作者钟艳花余伟红余永权

机构地区广东工业大学计算机学院广东江门电子技术研究所

出处《计算机工程与应用》 CSCD 北大核心 2003年第34期167-169,196,共4页 Computer Engineering and Applications

关键词 WEB文本挖掘 K-最近邻参照法信息抽取隐马尔科夫模型(HMM) Text mining based on Web,K-Nearest Neighbor,Information Extraction,Hide in Markov Model (HMM)

分类号 TP311.131 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1唐菁,沈记全,杨炳儒.基于Web的文本挖掘系统的研究与实现[J].计算机科学,2003,30(1):60-62. 被引量：22
2徐宝文,张卫丰.数据挖掘技术在Web预取中的应用研究[J].计算机学报,2001,24(4):430-436. 被引量：116
3张维明主编,邓苏等编著..数据仓库原理与应用[M].北京:电子工业出版社,2002:245.
4周雪忠,吴朝晖.文本知识发现:基于信息抽取的文本挖掘[J].计算机科学,2003,30(1):63-66. 被引量：32
5陈莉,焦李成.Internet/Web数据挖掘研究现状及最新进展[J].西安电子科技大学学报,2001,28(1):114-119. 被引量：77

二级参考文献10

1Park J，IEEE Trans Knowledge and Data Engineering，1997年，9卷，5期，813页被引量：1
2Corinna Cortes,Vladimir Vapnik. Support-Vector Networks[J] 1995,Machine Learning(3):273～297 被引量：1
3陈滢,徐宏炳,王能斌.WWW分布数据源研究——数据模型和查询语言[J].软件学报,1998,9(8):566-573. 被引量：11
4周斌,吴泉源,高洪奎.用户访问模式数据挖掘的模型与算法研究[J].计算机研究与发展,1999,36(7):870-875. 被引量：31
5邹涛,王继成,朱华宇,金翔宇,张福炎.WWW上的信息挖掘技术及实现[J].计算机研究与发展,1999,36(8):1019-1024. 被引量：120
6张卫丰,徐宝文.Web搜索引擎框架研究[J].计算机研究与发展,2000,37(3):376-378. 被引量：48
7张卫丰,徐宝文,周晓宇.Web页面中元素间交互技术研究[J].计算机工程,2000,26(8):62-64. 被引量：8
8张卫丰,徐宝文,周晓宇.Web页面中计数器技术研究[J].小型微型计算机系统,2000,21(10):1096-1099. 被引量：7
9韩客松,王永成.文本挖掘、数据挖掘和知识管理——二十一世纪的智能信息处理[J].情报学报,2001,20(1):100-104. 被引量：64
10张卫丰,徐宝文,许蕾,陈振强,赵凯华.利用Agent个性化搜索结果[J].小型微型计算机系统,2001,22(6):724-727. 被引量：20

共引文献228

1张辉,何庆勇,惠小珊,但文超,孟培培.蒲辅周先生治疗湿证用药规律的数据挖掘研究[J].世界科学技术-中医药现代化,2021,23(9):3195-3201. 被引量：1
2许又泉,李仁发,申寿云.E-Learning中个性化信息服务用户模型的研究[J].计算机时代,2007(1):68-69. 被引量：3
3周密,董其军.基于用户信息活动的智能数字图书馆研究[J].图书馆学研究,2002(8):59-62. 被引量：3
4秦鸿.基于Web的数据挖掘[J].电子科技大学学报,2002,31(S1):56-59. 被引量：7
5何文才,张琼,余菲,都婧,焦黎冰.基于树状SVM的网页分类与信息安全过滤系统研究[J].网络安全技术与应用,2008(8):27-29.
6许亮,李明,梁素田,侯耕.数据挖掘技术在电子商务中的应用[J].甘肃科学学报,2002,14(S1):17-20. 被引量：1
7董玉德,王志诚,王明保,李道伦.基于WEB课件中动态题库的设计与开发[J].安徽纺织职业技术学院学报,2003,2(1):1-5.
8刘洪涛,张平,黄智兴,程静,刘革平.用户浏览行为数据采集方法综述[J].西南科技大学学报,2004,19(2):45-49. 被引量：6
9杨创新.一种基于主题的Web预取算法研究[J].机电工程技术,2004,33(6):35-36.
10张丽,郭成城,晏蒲柳.基于结构相关性Markov模型的Web网页预取方法[J].计算机工程与应用,2004,40(21):163-166. 被引量：3

同被引文献62

1周建华.基于模糊C均值聚类的动态取证分析技术[J].微计算机信息,2008(3):297-299. 被引量：3
2李佟鸿,麦永浩.数据挖掘在网络取证中的应用方法研究[J].信息网络安全,2008(8):54-56. 被引量：3
3刘立平,易华容,何文斌.一种基于向量空间模型的文本聚类方法[J].株洲师范高等专科学校学报,2004,9(5):23-25. 被引量：4
4高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量：36
5王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
6徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
7朱霞,殷凯,黄树成.Web访问挖掘中事务聚类研究[J].常州工学院学报,2004,17(6):45-49. 被引量：3
8郭莉,张吉,谭建龙.基于后缀树模型的文本实时分类系统的研究和实现[J].中文信息学报,2005,19(5):16-23. 被引量：12
9刘晓鹏,邢长征.基于WEB文本数据挖掘的研究[J].计算机与数字工程,2005,33(9):75-79. 被引量：10
10薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报,2005,19(4):59-63. 被引量：63

引证文献11

1孙辉,陈晓云,马志新.基于语句-词条矩阵的聚簇式动态增长聚类算法[J].清华大学学报（自然科学版）,2005,45(S1):1814-1817. 被引量：1
2徐宏斌,王燕.一种改进的静态取证数据挖掘算法[J].计算机时代,2009(4):7-8.
3李向伟,仇德成.数据挖掘技术在Web中的应用研究[J].电脑知识与技术,2006,1(1):3-4. 被引量：2
4邵良杉,付曙光,薛立军.企业核心竞争力的Web挖掘[J].辽宁工程技术大学学报（自然科学版）,2007,26(1):125-128. 被引量：1
5周洁.关于实现Web内容挖掘方法的研究[J].武汉科技大学学报,2007,30(2):182-184. 被引量：3
6陈爽,陈福,杜天苍.一种启发式网络信息采集系统设计与实现[J].北京石油化工学院学报,2007,15(4):38-42.
7李国慧.Web数据挖掘研究[J].电脑知识与技术,2008(2):592-594. 被引量：2
8袁赟,张英杰.基于投影聚类算法的Web文本挖掘证券投资系统[J].邵阳学院学报（自然科学版）,2009,6(4):61-65. 被引量：1
9李烯,徐朝军.基于分块和统计相结合的新闻正文抽取[J].情报理论与实践,2010,33(1):117-120. 被引量：4
10李俊华.基于Web文本挖掘的高校教师个人主页系统研究与开发[J].大理学院学报（综合版）,2011,10(4):26-29. 被引量：4

二级引证文献18

1葛淑杰.基于数据挖掘技术的CRM系统中客户行为[J].辽宁工程技术大学学报（自然科学版）,2007,26(2):253-256. 被引量：4
2陈晓云,王步钰,马友忠,孙辉.基于LSSWM模型的交并式动态扩展聚类算法[J].广西师范大学学报（自然科学版）,2007,25(2):135-139.
3李欣.开放式空间数据挖掘集成系统的设计与实现[J].测绘与空间地理信息,2008,31(4):23-27. 被引量：5
4褚俐.谈Web数据挖掘技术及其应用[J].闽西职业技术学院学报,2009,11(1):103-106.
5王启.论信息技术在信息资源管理及其发展中的作用[J].深圳信息职业技术学院学报,2009,7(1):89-92.
6童红斌.基于B2C电子商务系统的网络信息挖掘模型研究[J].科技信息,2009(33).
7巫莉莉,张波,李涛.Web数据挖掘在远程教育个性化中的应用研究[J].微型电脑应用,2010,26(2):59-61. 被引量：2
8柳刚,吴德萍.Web Proxy在高校图书馆数字资源中的应用[J].电脑编程技巧与维护,2010(22):100-102.
9戴云,梁志茂,李义君.《仪器分析》双语课程网络平台构建及其应用[J].大理学院学报（综合版）,2013,12(4):74-77.
10周春娜,庞夫星.基于Web内容挖掘的企业知识管理研究[J].价值工程,2013,32(27):146-147.

1于秀丽,王阳,齐幸辉.基于朴素贝叶斯的垂直搜索引擎分类器设计[J].无线电工程,2015,45(11):13-16. 被引量：2
2刘晓鹏,邢长征.基于WEB文本数据挖掘的研究[J].计算机与数字工程,2005,33(9):75-79. 被引量：10
3豌豆荚4.0版发布确立“移动内容搜索”核心战略[J].数字家庭,2014(2):16-17.
4赵刚.装备质量与可靠性信息报告系统建设构想[J].科技视界,2014(8):86-86.
5贺丹丹,丁兴富,咸汝平.交互白板内置资源库的应用评估[J].中小学信息技术教育,2005(5):15-16. 被引量：2

计算机工程与应用

2003年第34期

浏览历史

内容加载中请稍等...

Web文本挖掘系统及其关键技术研究被引量：11

参考文献5

二级参考文献10

共引文献228

同被引文献62

引证文献11

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

Web文本挖掘系统及其关键技术研究 被引量：11

参考文献5

二级参考文献10

共引文献228

同被引文献62

引证文献11

二级引证文献18

相关作者

相关机构

相关主题

浏览历史

Web文本挖掘系统及其关键技术研究被引量：11