-
题名基于改进决策树算法的网络关键资源页面判定
被引量:11
- 1
-
-
作者
刘奕群
张敏
马少平
-
机构
智能技术与系统国家重点实验室(清华大学)
-
出处
《软件学报》
EI
CSCD
北大核心
2005年第11期1958-1966,共9页
-
基金
国家自然科学基金
国家重点基础研究发展规划(973)
国家教育部科学技术研究重大项目资助~~
-
文摘
关键资源页面是网络信息环境中一种重要的高质量页面,是用户进行网络信息检索的主要目标.决策树算法是机器学习中应用最广的归纳推理算法之一,适用于关键资源页面的判定.然而由于Web数据均一采样的困难性,算法缺乏有足够代表性的反例进行训练.为了解决这个问题,提出一种利用训练样例的统计信息而非个体信息进行学习的改进决策树算法,并利用这种算法实现了独立用户查询的关键资源页面判定.在2003年文本信息检索会议(TextRetrievalConference,简称TREC)标准的评测条件下,基于此种改进决策树算法的大规模网络信息检索实验获得了超过基本算法40%的性能提高.这不仅提供了一种查找Web关键资源页面的有效方式,也给出了提高决策树算法性能的一个可行途径.
-
关键词
网络信息检索
关键资源页面
机器学习
决策树
-
Keywords
Web information retrieval
key resource page
machine learning
decision tree
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于非内容信息的网络关键资源有效定位
被引量:2
- 2
-
-
作者
刘奕群
张敏
马少平
-
机构
清华大学智能技术与系统国家重点实验室
-
出处
《智能系统学报》
2007年第1期45-52,共8页
-
基金
国家重点基础研究(973)资助项目(2004CB318108)
国家自然科学基金资助项目(60223004
+3 种基金
60321002
60303005
60503064)
教育部科学技术研究重点资助项目(104236).
-
文摘
网络信息的爆炸式增长,使得当前任何搜索引擎都只可能索引到Web上一小部分数据,而其中又充斥着大量的低质量信息.如何在用户查询无关的条件下找到Web上高质量的关键资源,是Web信息检索面临的挑战.基于大规模网页统计的方法发现,多种网页非内容特征可以用于关键资源页面的定位,利用决策树学习方法对这些特征进行综合,即可以实现用户查询无关的关键资源页面定位.在文本信息检索会议(TREC)标准评测平台上进行的超过19G文本数据规模的实验表明,这种定位方法能够利用20%左右的页面覆盖超过70%的Web关键信息;在仅为全部页面24%的关键资源集合上的检索结果,比在整个页面集合上的检索有超过60%的性能提高.这说明使用较少的索引量获取较高的检索性能是完全可能的.
-
关键词
网络信息检索
关键资源页面
主题过滤
机器学习
-
Keywords
web information retrieval
key resource page
topic distillation
link structure analysis
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
TP391.3
[自动化与计算机技术—控制科学与工程]
-
-
题名增量式关键资源页面判定树
- 3
-
-
作者
黄天强
胡斌
李峰
卓月明
蔡国民
颜一鸣
-
机构
吉首大学信息管理与工程学院
中南大学信息科学与工程学院
-
出处
《情报学报》
CSSCI
北大核心
2009年第3期469-474,共6页
-
基金
湖南省教育厅科学研究项目(2007C525)
湖南省教育科学规划课题(XJK06BJGl03)
湖南省大学生研究性学习与创新性实验项目.
-
文摘
本文针对互联网上信息的日益海量增长的情况,在评述前期算法的基础上,提出了一种关键资源页面判定树的增量式更新算法。新算法使用Web页面的链接分析方法,选择合适的Web页面属性,并基于反例的统计信息来构造判定树的测试属性值,采用ID5R算法来处理训练样本不断增长的关键资源页面判定的机器学习任务。同时设计了适合于该算法的剪枝策略,它通过引入并实时更新反例样本比率并在其值低于抑制因子时停止分裂的办法,避免了树的过度增长与抗嗓能力差、泛化情况糟糕的情况。实验表明增量式更新算法能更高效地生成关键资源页面判定树。最后讨论了该算法的应用领域。
-
关键词
关键资源页面
判定树
增量式更新
-
Keywords
key resource pages, decision tree, incremental updating
-
分类号
F270
[经济管理—企业管理]
TP393.092
[经济管理—国民经济]
-