基于HTML结构的Web文本主题挖掘研究

Research of Web Text Mining Based on HTML Modal

下载PDF

导出

摘要随着数据挖掘应用的深入,非结构化和半结构化数据的挖掘,将成为下一个数据挖掘应用的热点。文本挖掘是一种典型的非结构化数据挖掘,而Web挖掘则是典型的半结构化数据挖掘。所以将信息处理技术中的汉语分词、信息抽取、语义分析等技术应用到Web挖掘研究技术发展的必然趋势。本文应对Web挖掘的特点,将运用数据抽取进行数据结构转换并把语义分析技术应用到数据抽取的过程中的思想,使数据提取更加准确。 This paper focuses on the key technology in Information Processing of Chinese.And using this technology for web text mining.So will the Chinese word segmentation information processing technologies,information extraction,Semantic Web Mining analysis techniques to study the technical development of an inevitable trend.This paper is response to the characteristics of Web mining deal.Data extraction will be used for data conversion and semantic structure analysis techniques to the data extraction in the course,data extraction more accurate.

作者隋丽萍徐承韬李瑞芳

机构地区沈阳化工学院计算机学院沈阳化工学院信息学院

出处《西安外事学院学报》 2007年第1期102-105,共4页

关键词数据挖掘 WEB 自动分词数据提取语义分析 data mining Web Chinese segment data extraction semantic analysis

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

1隋丽萍,徐承韬,李瑞芳.基于HTML结构的Web文本主题挖掘研究[J].电脑与电信,2007(1):47-51. 被引量：1
2高强,张敬之,耿桦,潘金贵.基于重复模式的Web信息抽取[J].计算机科学,2007,34(4):210-212. 被引量：6
3李智辉,卢苇.Web文本主题挖掘技术研究[J].计算机教育,2005(11):34-36. 被引量：2
4王昱.基于ExtJS的JSON数据交换格式研究[J].现代计算机,2013,19(2):61-62. 被引量：3
5栾虹.HTML文档分类中的词元权重算法[J].山东师范大学学报（自然科学版）,2005,20(2):22-25. 被引量：1
6郭晓,蒋宗礼.基于网页结构与链接关系的中文文本分类方法[J].现代电子技术,2010,33(22):54-56. 被引量：3
7袁占亭,张秋余,李威.数据抽取及语义分析在Web数据挖掘中的应用[J].计算机工程与设计,2005,26(6):1425-1427. 被引量：6
8胡军伟,秦奕青,张伟.正则表达式在Web信息抽取中的应用[J].北京信息科技大学学报（自然科学版）,2011,26(6):86-89. 被引量：39
9崔慧超,刘莉.应用聚类技术分类提取Web页面[J].电脑知识与技术,2010,6(1):212-213.
10宋睿华,马少平,张敏.一种提高Web信息检索精度的分段检索方法[J].广西师范大学学报（自然科学版）,2003,21(A01):151-155. 被引量：2

西安外事学院学报

2007年第1期

浏览历史

内容加载中请稍等...

基于HTML结构的Web文本主题挖掘研究

相关作者

相关机构

相关主题

浏览历史