-
题名基于关键词聚类和节点距离的网页信息抽取
被引量:8
- 1
-
-
作者
邓健爽
郑启伦
彭宏
林旭东
-
机构
华南理工大学计算机科学与工程学院人工智能实验室
-
出处
《计算机科学》
CSCD
北大核心
2007年第4期213-216,共4页
-
基金
广东省科技攻关项目(2005B10101033)(A10202001)
广州市科技攻关项目(2004Z2-D0091)
-
文摘
大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中。
-
关键词
聚类
信息抽取
机器学习
节点距离
-
Keywords
Cluster, Information retrieval, Machine learning, Instance of node
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-
-
题名基于搜索引擎的关键词自动聚类法
被引量:2
- 2
-
-
作者
邓健爽
郑启伦
彭宏
邓维维
-
机构
华南理工大学计算机科学与工程学院人工智能实验室
-
出处
《计算机科学》
CSCD
北大核心
2007年第3期162-164,共3页
-
基金
广东省科技攻关项目(2005B10101033)
(A10202001)
广州市科技攻关项目(2004Z2-D0091)。
-
文摘
互联网为用户提供了一个丰富的信息平台。然而,当前人们对互联网中海量信息的利用主要通过搜索引擎去查询相关的信息,互联网只是作为一个简单的信息库供用户检索。本文研究通过搜索引擎获得互联网信息并且在此基础上进行更高层次的知识挖掘———基于搜索引擎对关键词进行自动聚类。这是一个全新的研究,实验结果表明该方法具有理想的效果和新颖的构思。
-
关键词
知识搜索引擎
知识挖掘
聚类
-
Keywords
Knowledge search engine, Knowledge mining, Clustering
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
-