期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
基于关键词聚类和节点距离的网页信息抽取 被引量:8
1
作者 邓健 郑启伦 +1 位作者 彭宏 林旭东 《计算机科学》 CSCD 北大核心 2007年第4期213-216,共4页
大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要... 大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中。 展开更多
关键词 聚类 信息抽取 机器学习 节点距离
下载PDF
基于提取网站层次结构的网页分类方法 被引量:4
2
作者 邓健 郑启伦 彭宏 《计算机应用》 CSCD 北大核心 2006年第5期1134-1136,共3页
网页自动分类是当前互联网搜索领域一个热点研究课题,目前主要有基于网页文本内容的分类和基于网页间超链接结构的分类。但是这些分类都只利用了网页的信息,没有考虑到网页所在网站提供的信息。文中提出了一种全新的对网站内部拓扑结构... 网页自动分类是当前互联网搜索领域一个热点研究课题,目前主要有基于网页文本内容的分类和基于网页间超链接结构的分类。但是这些分类都只利用了网页的信息,没有考虑到网页所在网站提供的信息。文中提出了一种全新的对网站内部拓扑结构进行简约的算法,提取网站隐含的层次结构,生成层次结构树,从而达到对网站内部网页实现多层次分类的目的,并且已经成功应用到电子商务智能搜索和挖掘系统中。 展开更多
关键词 网页分类 网站层次结构 URL聚类
下载PDF
基于连通图动态分裂的聚类算法 被引量:5
3
作者 邓健 郑启伦 +1 位作者 彭宏 邓维维 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2007年第1期118-122,共5页
当前大部分的聚类算法都难以处理任意形状和大小、存在孤立点和噪音以及密度多变的簇,为此,文中提出了一种基于连通图动态分裂的聚类算法.首先构造数据集的l-连通图,然后采用动态分裂策略对l-连通图进行分割,把数据集分成多个互不相连... 当前大部分的聚类算法都难以处理任意形状和大小、存在孤立点和噪音以及密度多变的簇,为此,文中提出了一种基于连通图动态分裂的聚类算法.首先构造数据集的l-连通图,然后采用动态分裂策略对l-连通图进行分割,把数据集分成多个互不相连的连通图子集,每个连通图子集为一类.实验结果表明,所提出的算法能够有效地解决任意形状和大小、存在孤立点和噪音以及密度多变的簇的聚类问题,具有广泛的适用性. 展开更多
关键词 连通图 聚类算法 动态分裂
下载PDF
基于依存关系的问句理解与问句分类 被引量:2
4
作者 林旭东 彭宏 +1 位作者 林丕源 邓健 《计算机科学》 CSCD 北大核心 2007年第7期208-210,共3页
问句理解是问答系统的首要过程,问句分类是问句理解的主要组成部分,它在问答系统中具有非常重要的作用,因为问句类型有助于在文档中定位和抽取答案。问句分类的目标是基于预期的答案类型,准确地分类问句。本文提出依存关系规则与统计方... 问句理解是问答系统的首要过程,问句分类是问句理解的主要组成部分,它在问答系统中具有非常重要的作用,因为问句类型有助于在文档中定位和抽取答案。问句分类的目标是基于预期的答案类型,准确地分类问句。本文提出依存关系规则与统计方法相结合,实现了基于依存关系的中文问句理解与问句分类机制。实验表明:支持向量机结合依存关系的特征抽取方法,获得了较高问句分类正确率。 展开更多
关键词 问句分类 依存关系 依存关系树 命名实体识别
下载PDF
基于搜索引擎的关键词自动聚类法 被引量:2
5
作者 邓健 郑启伦 +1 位作者 彭宏 邓维维 《计算机科学》 CSCD 北大核心 2007年第3期162-164,共3页
互联网为用户提供了一个丰富的信息平台。然而,当前人们对互联网中海量信息的利用主要通过搜索引擎去查询相关的信息,互联网只是作为一个简单的信息库供用户检索。本文研究通过搜索引擎获得互联网信息并且在此基础上进行更高层次的知识... 互联网为用户提供了一个丰富的信息平台。然而,当前人们对互联网中海量信息的利用主要通过搜索引擎去查询相关的信息,互联网只是作为一个简单的信息库供用户检索。本文研究通过搜索引擎获得互联网信息并且在此基础上进行更高层次的知识挖掘———基于搜索引擎对关键词进行自动聚类。这是一个全新的研究,实验结果表明该方法具有理想的效果和新颖的构思。 展开更多
关键词 知识搜索引擎 知识挖掘 聚类
下载PDF
基于网页布局及关键词组的垂直搜索技术 被引量:3
6
作者 龙波 邓健 陈琼 《现代计算机》 2006年第9期46-49,共4页
提出了基于网页布局及关键词组的垂直搜索技术。在对特定信息进行抽取时,根据Web页面的布局特性,对页面采取分而治之的策略,同时在信息抽取时考虑各块之间的联系,以关键词组确定的关键节点为中心,与其他信息节点组成星形脉络图。实验结... 提出了基于网页布局及关键词组的垂直搜索技术。在对特定信息进行抽取时,根据Web页面的布局特性,对页面采取分而治之的策略,同时在信息抽取时考虑各块之间的联系,以关键词组确定的关键节点为中心,与其他信息节点组成星形脉络图。实验结果表明,该方法具有较强的网页垂直搜索能力。 展开更多
关键词 垂直搜索 信息抽取 网页布局 权值
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部