-
题名基于文字链接比的网页分类的研究
被引量:1
- 1
-
-
作者
高波
张忠能
查志琴
-
机构
上海交通大学计算机科学与工程系
常州工学院计算机工程系常州
常州工学院计算机工程系
-
出处
《计算机工程与应用》
CSCD
北大核心
2004年第27期151-153,共3页
-
文摘
对于Web内容挖掘来说,对挖掘对象进行初步的识别是非常重要的,首先必须把含有具体内容的网页识别出来,才能进一步进行有效的分析。论文提出了链接比的概念,以此来分析网页的特征,然后进行有监督的学习,从而导出相关的规则,再用该规则对新的网页进行分类。
-
关键词
Hub网页
内容网页
链接比
网页分类
-
Keywords
Hub page,content page,link rate,Web page classification
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名WEB到WAP的转换过程中页面去噪问题的研究
- 2
-
-
作者
刘文静
许志伟
何聪慧
-
机构
内蒙古工业大学信息工程学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2012年第4期178-179,199,共3页
-
基金
内蒙古自治区自然科学基金项目(2010MS0913)
内蒙古工业大学科学研究项目(ZS201004)
-
文摘
为了保证WEB到WAP转换结果的完备精练,主要针对转换过程中无用信息去除问题,提出一套页面去噪解决方案。首先根据节点大小位置通过算法判断节点是否为核心内容,在此基础上计算节点链接比,同阈值进行对比,进一步明确节点类型,为了避免误删,对于可能的噪音模块,采用正则表达式检测节点中链接的指向,如绝大多数指向其它网站,则断定该节点为噪音节点。最终通过构建项目实验平台,对该解决方案进行评估,证明该方案的有效性和可靠性。
-
关键词
移动互联网
网页去噪
广告去除
页面结构
链接比
正则表达式
-
Keywords
Mobile internet Web de-noising Removing advertisement Web page structure Link ratio Regular expression
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-