-
题名面向网页分类的网页摘要方法
被引量:5
- 1
-
-
作者
鲁明羽
沈抖
郭崇慧
陆玉昌
-
机构
大连海事大学计算机科学与技术学院
清华大学计算机科学与技术系
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2006年第8期1475-1480,共6页
-
基金
国家自然科学基金(No.60473115)
-
文摘
网页分类是网络挖掘的重要研究内容之一.与文本分类相比,网页分类面临的困难更多.去除网页中的噪声信息可以提高网页分类的精度,基于摘要的网页分类方法利用了这一思想.本文对三种传统的网页摘要方法进行了分析和改进,提出了Content Body摘要方法以及基于四种摘要方法的混合摘要方法;在此基础上,进行了大量基于摘要的网页分类实验.实验结果表明,所有的摘要方法都可以提高分类效果,其中混和摘要方法效果最好,可以使分类的F1值得到12.9%的改进.
-
关键词
网页分类
网页摘要
CONTENT
BODY
混合摘要方法
-
Keywords
web-page classification
web-page summarization
content body
ensemble summarization method
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于网络搜索引擎的网络话题分析框架
被引量:2
- 2
-
-
作者
王巍
曾剑平
吴承荣
张世永
-
机构
复旦大学计算机与信息技术系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第3期257-259,262,共4页
-
文摘
为了解网络话题内容组成和演化情况,提出基于有向图的在线分类(OCBDG)方法,并设计一个基于网络搜索引擎的话题分析框架。通过搜索引擎查询话题内容,OCBDG将查询结果分成若干子话题,分析子话题间的关系和演变。结果证明,该方法能够以大约70%的正确率分析出子话题,并能准确、及时地反映话题在网络上任意时间跨度的变化情况。
-
关键词
有向图
分类
网络搜索引擎
网页摘要
快照
-
Keywords
directed graph
classification
Web search engine
Web snippet
snapshot
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于手机终端的网页自动摘要系统的设计
- 3
-
-
作者
魏宁
-
机构
中国空空导弹研究院
-
出处
《黑龙江科技信息》
2011年第21期106-106,224,共2页
-
文摘
重点介绍了基于手机终端的网页自动摘要系统的设计。
-
关键词
手机终端
网页摘要
TF-ISF算法
混合法
聚类法
-
分类号
TN929.53
[电子电信—通信与信息系统]
-
-
题名基于Nutch的搜索引擎网页摘要改进
- 4
-
-
作者
郝光权
李十子
-
机构
华中师范大学
-
出处
《计算机光盘软件与应用》
2011年第4期137-138,共2页
-
文摘
当前,搜索引擎是互联网的一个重要组成部分。其网页摘要采用的是静态网页额摘要,用户不能快速从网页摘要中获取网页内容的主题思想。本文在开源搜索引擎Nutch中运用自动文摘技术生成网页摘要,加快用户确认搜索准确度的速度。
-
关键词
搜索引擎
NUTCH
自动文摘技术
网页摘要
-
Keywords
Search engine
Nuteh,Automatic abstracting teclaniques
Webpage abstract
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名网站内容自动摘要方法及其在高校年鉴编制中的应用
被引量:1
- 5
-
-
作者
马玉庆
刘一翔
张根熹
万宇明
-
机构
上海交通大学电子信息与电气工程学院
-
出处
《微型电脑应用》
2021年第10期168-170,共3页
-
文摘
年鉴编制是高校各院系行政办公室重要职能工作之一。需要行政办公室人员对年度所发生的重要事件进行全面、准确地汇总与分类统计。年鉴编写对于记录教学科研成果以及支持决策有较重要作用。但是,存在耗费人力、专业壁垒问题。研究了网站内容自动分析方法,对网站内容进行挖掘,以自动生成年鉴条目。首先,根据高校教学、科研及专业特点,给出了内容评价指标体系的构建结果;设计了网页内容分析方法,并实现网页爬虫,进行网页内容提取;进而,在关键词评价基础上,对提取的网页内容进行分类,并按照时间形成年鉴词条推荐列表。最后,论文通过原型系统的设计,验证了该文所设计方法的可行性。
-
关键词
网站内容挖掘
网页自动摘要
行政年鉴
高校
-
Keywords
Website content mining
automatic Web abstract
administration yearbook
universities
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-