Web访问挖掘中数据预处理的改进被引量：3

Improving Data Preparation Model in Web Usage Mining

下载PDF

导出

摘要在分析现有的Web访问挖掘数据预处理模型和会话识别算法的基础上,提出了一种改进的Web访问挖掘数据预处理模型并对基于时间和引用的启发式会话识别算法进行了改进。实验证明,改进的Web访问挖掘数据预处理模型和会话识别算法非常适合于当前搜索引擎广泛使用下的Web访问挖掘数据预处理。 An improved model of data preparation in WUM and an advanced time-referer-based heuristic algorithm in session distinguishing are proposed. Existing model of data preparation in WUM and methods in session distinguishing are analyzed and their disadvantages are pointed out. Experiments show that the proposed model and algorithm are adaptable to data preparation in WUM with agent.

作者黄志强贾宇波

机构地区浙江理工大学信息电子学院

出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2007年第2期69-73,共5页 Journal of Guangxi Normal University:Natural Science Edition

基金浙江省教育厅基金资助项目(0404121-F) 浙江理工大学科学基金资助项目(111251A4Y04002)

关键词数据挖掘 Web访问挖掘数据预处理 data mining Web usage mining data preparation

分类号 TP311 [自动化与计算机技术—计算机软件与理论] TP393 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献7

1EICHMANN D.Ethical Web agents[J].Computer Networks and ISDN Systems,1995,28(1/2):127-136. 被引量：1
2KOSTER M.Robots in the Web:threat or treat?[J].ConneXions,1995,9(4):2-12. 被引量：1
3KOSTER M.Guidelings for robot writers[EB/OL].[2006-10-28].http://www.robotstxt.org/wc/guidelines.html. 被引量：1
4TAN Pang-ning,KUMAR V.Modeling for Web robot navigational patterns[EB/OL].(2000-08-20)[2006-10-28].http://ai.stanford.edu/～ronnyk/WEBKDD2000/papers/ptan.pdf. 被引量：1
5LAVOIE B,NIELSEN H F.Web Characterization Terminology & Definitions Sheet[EB/OL].(1999-05-24)[2006-10-28].http://www.w3.org/1999/05/WCA-terms/. 被引量：1
6欧阳一鸣,汪曦东,郭骏,刘红樱.Web使用挖掘数据预处理中的会话构造[J].计算机工程与应用,2005,41(25):148-151. 被引量：11
7张健沛,刘建东,杨静.基于Web的日志挖掘数据预处理方法的研究[J].计算机工程与应用,2003,39(10):191-193. 被引量：33

二级参考文献17

1[1]R Agrwal,R Srikant. Fast algorithms for mining association rules[C].In:Proc of the 20th VLDB conference,1994 被引量：1
2[2]R Cooley,B Mobasher,J Srivastava. Web mining:Inoformation and pattern disvovery on the World Wide Web[C].In:International Conference on Tools with Artificial Intelligence,Newport Beach,CA, 1997:558～567 被引量：1
3[3]Open Market Inc. Open Market Web reporter. http://www. openmarket.com, 1996 被引量：1
4[4]T Bray,J Paoli,C M Sperberg-McQueen. Extensible markup Language (XML)1.0 W3c recommendation[R].Technical report,W3c,1998 被引量：1
5[5]T Joachims,d Freitag,T Mitchell.Webwatcher:A tour guide for the World Wide Web[C].In:Proc of the 15 th Conference on Artificial Intelligence, Nagoya, Japan, 1997: 770～775 被引量：1
6[6]L E Baum,T Petrie. Statistical inference for probabilistic functions of finite state[J].Ann Math Stat, 1996 被引量：1
7[7]R Agrawal. Data mining:Crossing the chasm[R].Invited talk at the 5th ACM SiGKDD Int conference on Knowledge Discovery and Data Mining, 1996 被引量：1
8[8]Ralph Kimball,Richard Merz.The Data Webhouse Toolkit.John Wiley and Sons,Inc.2000 被引量：1
9[9]Thorsten Joachinms. Text categorization with support vector machines:Learning with many relevant features[C].In:European Conference onMachine Leaning(ECML), 1998 被引量：1
10[10]V Vapnik.The nature of Statistical Learning Theory[M].Springer Verlag,New York, 1995 被引量：1

共引文献41

1王丽娜.Web日志挖掘技术研究[J].光盘技术,2008(4):34-36. 被引量：2
2曹明,闪四清.基于web日志挖掘的数据预处理研究[J].科技资讯,2007,5(4):103-105. 被引量：5
3卢咏,卢云.基于WEB日志挖掘的旅游信息资源网站个性化研究[J].长沙铁道学院学报（社会科学版）,2007,8(4):162-163.
4柳胜国.Web日志挖掘数据预处理方法研究[J].现代图书情报技术,2004(12):55-57. 被引量：2
5党伟升,张力.基于文件服务器日志的测试用例设计[J].计算机工程,2005,31(20):80-81.
6张新香.Web日志挖掘在电子商务中的应用研究[J].计算机系统应用,2006,15(1):52-55. 被引量：10
7方成效,袁可风.Web日志挖掘的数据预处理研究[J].计算机与现代化,2006(4):79-81. 被引量：12
8宋斌,王玲,张宏,赵建.基于Web日志的匿名网络用户聚类研究[J].南京理工大学学报,2006,30(5):583-586. 被引量：3
9郭维,欧阳一鸣,郭骏.Web挖掘中基于交集算法发现用户频繁访问模式[J].合肥工业大学学报（自然科学版）,2006,29(12):1511-1515.
10欧阳一鸣,郭维,郭骏,孙超超.Web挖掘中基于GITC算法发现用户频繁访问模式[J].计算机工程与应用,2007,43(7):191-194. 被引量：1

同被引文献18

1梁循,杨健,陈华,曾月卿.互联网金融信息搜索[J].中国管理科学,2005,13(z1):240-246. 被引量：5
2尹云飞,区玉明,张师超,黄红兵.双重区间值聚类挖掘模型[J].广西师范大学学报（自然科学版）,2004,22(3):15-18. 被引量：3
3梁娟娟,王喜成.利用数据挖掘加强客户关系管理[J].桂林电子工业学院学报,2004,24(6):67-70. 被引量：2
4梁循.数据挖掘:建模、算法、应用和系统[J].计算机技术与发展,2006,16(1):1-4. 被引量：40
5高凯,王永成,肖君.网页去重策略[J].上海交通大学学报,2006,40(5):775-777. 被引量：13
6赵莹莹,韩元杰.基于HITS与MASEL算法的融合算法[J].桂林电子工业学院学报,2006,26(4):251-254. 被引量：2
7雷力.矩阵加权关联规则挖掘算法研究[J].福建电脑,2006(10):103-104. 被引量：3
8王涛伟,杨爱民.加权关联规则研究及其在个性化推荐系统中的应用[J].郑州大学学报（理学版）,2007,39(2):65-69. 被引量：6
9张玉芳,杨柯,熊忠阳.基于关联规则的中文文本分类算法的改进[J].郑州大学学报（理学版）,2007,39(2):114-117. 被引量：6
10钱丽萍,汪立东.基于中心短语及权值的相似度计算[J].郑州大学学报（理学版）,2007,39(2):149-152. 被引量：6

引证文献3

1黄名选,严小卫,张师超.基于文本库的完全加权词间关联规则挖掘算法[J].广西师范大学学报（自然科学版）,2007,25(4):24-27. 被引量：15
2阮进,袁景瑞,梁循.互联网金融新闻搜索的文本消重方法研究[J].西华大学学报（自然科学版）,2008,27(2):1-3.
3彭薇.网站Web日志数据预处理模型的建立[J].企业科技与发展（下半月）,2010(9):28-31. 被引量：1

二级引证文献16

1黄名选,陈燕红,张师超.基于关联规则挖掘的查询扩展模型研究[J].现代图书情报技术,2007(10):47-51. 被引量：7
2黄名选,严小卫,张师超.基于完全加权关联规则的局部反馈查询扩展[J].计算机工程与应用,2008,44(7):190-192. 被引量：3
3黄名选,陈燕红,张师超.基于关联规则挖掘的查询扩展检索性能研究[J].计算机技术与发展,2008,18(10):103-105. 被引量：1
4黄名选,张师超.一种有效的信息检索模型[J].计算机应用研究,2008,25(8):2345-2348. 被引量：1
5黄名选,张师超,严小卫.基于查询行为和关联规则的相关反馈查询扩展[J].计算机工程,2009,35(10):78-79. 被引量：5
6李晓念.完全加权关联规则挖掘及其在数字图书馆中的应用[J].图书馆界,2009(2):68-70. 被引量：1
7蒙韧,李新友,袁鼎荣,邵延振.基于频繁链表的完全加权项频繁集挖掘算法[J].网络安全技术与应用,2009(8):39-41.
8黄名选,严小卫,张师超.基于完全加权关联规则挖掘和查询扩展的信息检索[J].计算机应用与软件,2009,26(8):26-28. 被引量：8
9徐健锋,刘斓,方茁,刘清.粒结构关联度算法在专业辅助选择系统中的应用[J].广西大学学报（自然科学版）,2009,34(5):677-680.
10左欣,李小琳,连伟,王利民.基于数据挖掘的隐性知识显性化及其构建[J].广西师范大学学报（自然科学版）,2010,28(1):77-81. 被引量：2

1陈文仰.基于Web的数据挖掘技术[J].大众科技,2008,10(5):45-46.
2朱霞,殷凯,黄树成.Web访问挖掘中事务聚类研究[J].常州工学院学报,2004,17(6):45-49. 被引量：3
3聂俊,杜友福,樊丽丽.Web挖掘在远程教学系统中的应用[J].电脑知识与技术,2006,0(5):232-234.
4葛玮,罗小亮.Web挖掘技术在远程教学中的应用[J].科技经济市场,2007(A09):97-98.
5李红波,孟欣赏,吴渝,李娜芬.Web访问挖掘中的匿名用户识别算法研究[J].西南师范大学学报（自然科学版）,2015,40(9):78-84. 被引量：5
6熊忠阳,周亚峰.Web访问挖掘的预处理技术的研究[J].计算机技术与发展,2007,17(8):11-14. 被引量：19
7李煊,庄镇泉.Web访问挖掘预处理的用户识别算法[J].计算机工程与应用,2002,38(7):173-176. 被引量：5
8沈晨鸣.基于数据仓库的数据预处理模型的算法研究[J].淮阴工学院学报,2005,14(5):44-46. 被引量：3
9罗艳霞.基于数据仓库的无线网络优化数据预处理[J].电脑编程技巧与维护,2010(24):70-71.
10陆丽娜,杨怡玲,管旭东,魏恒义.Web日志挖掘中的数据预处理的研究[J].计算机工程,2000,26(4):66-67. 被引量：57

广西师范大学学报（自然科学版）

2007年第2期

浏览历史

内容加载中请稍等...

Web访问挖掘中数据预处理的改进被引量：3

参考文献7

二级参考文献17

共引文献41

同被引文献18

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

Web访问挖掘中数据预处理的改进 被引量：3

参考文献7

二级参考文献17

共引文献41

同被引文献18

引证文献3

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

Web访问挖掘中数据预处理的改进被引量：3