-
题名海量短语信息文本聚类技术研究
被引量:13
- 1
-
-
作者
王永恒
贾焰
杨树强
-
机构
国防科技大学计算机学院网络研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第14期38-40,共3页
-
基金
国家"863"计划基金资助项目(2004AA112020
2003AA115210
2003AA111020)
-
文摘
信息技术的发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本聚类技术对于从海量短文中自动获取知识具有重要意义。现有的一般文本挖掘方法很难处理TB级的海量数据。由于短文本中的关键词出现次数少,文本挖掘的精度很难保证。该文提出了一种基于频繁词集并结合语义信息的并行聚类算法来解决海量短语信息的聚类问题。实验表明,该方法在处理海量短语信息时具有很好的性能和准确度。
-
关键词
文本挖掘
海量
短语
并行
-
Keywords
text mining
massive
short document
parallel
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于频繁词集聚类的海量短文分类方法
被引量:6
- 2
-
-
作者
王永恒
贾焰
杨树强
-
机构
国防科技大学计算机学院网络研究所
-
出处
《计算机工程与设计》
CSCD
北大核心
2007年第8期1744-1746,1780,共4页
-
基金
国家863高技术研究发展计划基金项目(2004AA112020
2003AA115210
2003AA111020)
-
文摘
信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是对于关键词出现次数少的短文,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据。针对这个问题提出了一个新颖的基于频繁词集聚类的短文分类算法。该算法使用频繁词集聚类来压缩数据,并使用语义信息进行分类。实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法。
-
关键词
文本挖掘
分类
海量
短文
频繁词集
-
Keywords
text mining
classification
massive
short document
frequent term set
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名大规模文本数据库中的短文分类方法
被引量:4
- 3
-
-
作者
王永恒
贾焰
杨树强
-
机构
国防科技大学计算机学院网络研究所
-
出处
《计算机工程与应用》
CSCD
北大核心
2006年第22期5-7,共3页
-
基金
国家863高技术研究发展计划资助项目(编号:2004AA112020
2003AA115210
2003AA111020)
-
文摘
信息技术的飞速发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本分类技术对于从这些海量短文中自动获取知识具有重要意义。但是由于短文中的关键词出现次数少,而且带标签的训练样本又通常数量很少,现有的一般文本挖掘算法很难得到可接受的准确度。一些基于语义的分类方法获得了较好的准确度但又由于其低效性而无法适用于海量数据。文本提出了一个新颖的短文分类算法。该算法基于文本语义特征图,并使用类似kNN的方法进行分类。实验表明该算法在对海量短文进行分类时,其准确度和性能超过其它的算法。
-
关键词
文本挖掘
分类
短文
大规模文本数据库
-
Keywords
text mining,classification,short document,very large text database
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名用户评论的分类获取
被引量:5
- 4
-
-
作者
黄永文
何中市
伍星
-
机构
重庆大学计算机学院
-
出处
《计算机应用》
CSCD
北大核心
2009年第3期846-848,857,共4页
-
基金
重庆市自然科学基金资助项目(2007BB2134)
重庆市高等教育教学改革研究项目(0635207)
-
文摘
对网上获取的用户评论进行标注,并提取出与用户评论内容相关的特征,使用χ2统计提取不同类型评论进行特征选择,使用支持向量机分类方法进行学习,获得分类器,以此对网上时时更新的用户评论进行分类,挖掘出优秀的评论。实验结果显示该方法具有很高的召回率和准确率。
-
关键词
评论挖掘
χ~2统计
支持向量机
短文本分类
-
Keywords
reviews mining
chi-square statistics
Support Vector Machine(SVM)
short document classification
-
分类号
TP391.4
[自动化与计算机技术—计算机应用技术]
-