期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
96
篇文章
<
1
2
…
5
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于向量空间模型的文本聚类算法
被引量:
50
1
作者
姚清耘
刘功申
李翔
《计算机工程》
CAS
CSCD
北大核心
2008年第18期39-41,44,共4页
文本聚类是聚类的一个重要研究分支,是聚类方法在文本处理领域的应用。该文探讨了基于向量空间模型的文本聚类方法,提出了一种文本聚类的改进算法——LP算法。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。...
文本聚类是聚类的一个重要研究分支,是聚类方法在文本处理领域的应用。该文探讨了基于向量空间模型的文本聚类方法,提出了一种文本聚类的改进算法——LP算法。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。实验证明,LP算法有效地减少了聚类所消耗的时间,实用性和灵活性都较高。
展开更多
关键词
向量空间模型
文本聚类
语料库
下载PDF
职称材料
基于潜在语义分析的汉语问答系统答案提取
被引量:
44
2
作者
余正涛
樊孝忠
+1 位作者
郭剑毅
耿增民
《计算机学报》
EI
CSCD
北大核心
2006年第10期1889-1893,共5页
为了解决在汉语问答系统答案提取时,由于词的同义或多义现象而导致的“漏提”或“错提”等问题,提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它利用空间向量模型作为问题和句子的表示方法,借助于潜在语义分析理论,...
为了解决在汉语问答系统答案提取时,由于词的同义或多义现象而导致的“漏提”或“错提”等问题,提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它利用空间向量模型作为问题和句子的表示方法,借助于潜在语义分析理论,对大量问答作句子语料统计分析,构建了一个潜在的词-句子语义空间,从而消除了词之间的相关性,并在语义空间上实现了问题与答案句子相似度计算,有效地解决了词的同义和多义问题.最后结合问题类型和相似度计算结果,对汉语基于事实的简单陈述问题进行了答案句子提取实验.答案提取的MRR值达到了0.47,明显优于空间向量模型.结果说明该方法具有很好的效果.
展开更多
关键词
问答系统
答案提取
相似度
向量空间模型
潜在语义分析
下载PDF
职称材料
潜在语义分析理论及其应用
被引量:
35
3
作者
盖杰
王怡
武港山
《计算机应用研究》
CSCD
北大核心
2004年第3期9-12,20,共5页
潜在语义分析(LatentSemanticAnalysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过...
潜在语义分析(LatentSemanticAnalysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。将着重介绍LSA方法的基本思想、特点、实现方法,以及基于LSA思想的具体应用。
展开更多
关键词
潜在语义分析
上下文
语义
向量空间模型
下载PDF
职称材料
Web挖掘技术研究
被引量:
21
4
作者
张蓉
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第15期4-6,共3页
随着互联网的飞速发展,Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论,设计了一种快速有效的Web文档聚类方法,给出了实际测试结果,验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该...
随着互联网的飞速发展,Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论,设计了一种快速有效的Web文档聚类方法,给出了实际测试结果,验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该系统的协作能力。
展开更多
关键词
WEB挖掘
日志文件
文档聚类
矢量空间模型
关联规则
下载PDF
职称材料
文本分类特征权重改进算法
被引量:
26
5
作者
台德艺
王俊
《计算机工程》
CAS
CSCD
北大核心
2010年第9期197-199,202,共4页
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进ID...
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。
展开更多
关键词
向量空间模型
文本分类
特征权重
特征分布
下载PDF
职称材料
基于语义相似度的论坛话题追踪方法
被引量:
22
6
作者
席耀一
林琛
+2 位作者
李弼程
周杰
许旭阳
《计算机应用》
CSCD
北大核心
2011年第1期93-96,共4页
现有的话题追踪方法大多面向新闻数据,将其应用于论坛时效果不够理想。结合论坛的特点,提出一种基于语义相似度的论坛话题追踪方法。该方法首先通过构建话题和帖子的关键词表建立其文本表示模型,然后利用知网计算两个关键词表的语义相...
现有的话题追踪方法大多面向新闻数据,将其应用于论坛时效果不够理想。结合论坛的特点,提出一种基于语义相似度的论坛话题追踪方法。该方法首先通过构建话题和帖子的关键词表建立其文本表示模型,然后利用知网计算两个关键词表的语义相似度并以此作为帖子与话题的相关程度,最后根据相关程度实现论坛话题追踪。该方法较好地避免了向量空间模型的缺陷。实验表明,该方法能比较有效地解决面向论坛的话题追踪问题。
展开更多
关键词
话题追踪
论坛
关键词
语义相似度
向量空间模型
下载PDF
职称材料
文本分类实现技术
被引量:
15
7
作者
王灏
黄厚宽
田盛丰
《广西师范大学学报(自然科学版)》
CAS
2003年第A01期173-179,共7页
文本分类是文本数据挖掘的重要技术.从文本分类实现过程的各个环节,包括建立文档模型、特征提取、维数约简、选择分类策略几个方面分别给出了目前实用的解决方案,同时对各种算法进行了分类和性能上的定性与定量的比较,最后讨论了国内文...
文本分类是文本数据挖掘的重要技术.从文本分类实现过程的各个环节,包括建立文档模型、特征提取、维数约简、选择分类策略几个方面分别给出了目前实用的解决方案,同时对各种算法进行了分类和性能上的定性与定量的比较,最后讨论了国内文本分类研究中的一些问题和未来的发展.
展开更多
关键词
文本分类
特征提取
维数约简
向量空间模型
相似度
组合模型
下载PDF
职称材料
基于句类特征的作者写作风格分类研究
被引量:
19
8
作者
张运良
朱礼军
+1 位作者
乔晓东
张全
《计算机工程与应用》
CSCD
北大核心
2009年第22期129-131,223,共4页
不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用it...
不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用itc算法对特征项进行权重计算,KNN算法进行分类并利用集成判决技术,形成作者写作风格分类器。本分类器的性能在近现代小说的按作者写作风格的分类和鉴别方面的性能是可以接受的,并有进一步提升的可能。
展开更多
关键词
文本分类
作者写作风格
句类
向量空间模型
概念层次网络(HNC)理论
自然语言理解
下载PDF
职称材料
基于文本加权KNN算法的中文垃圾短信过滤
被引量:
19
9
作者
黄文明
莫阳
《计算机工程》
CAS
CSCD
北大核心
2017年第3期193-199,共7页
针对K最近邻(KNN)算法在文本分类决策规则上由于样本重要性相同而导致分类效果不佳的问题,提出一种基于文本加权的KNN文本分类算法,并将其应用于垃圾短信的分类问题。在提取出特征词之后,考虑到特征词在文本中出现的频率对文本重要性的...
针对K最近邻(KNN)算法在文本分类决策规则上由于样本重要性相同而导致分类效果不佳的问题,提出一种基于文本加权的KNN文本分类算法,并将其应用于垃圾短信的分类问题。在提取出特征词之后,考虑到特征词在文本中出现的频率对文本重要性的影响,引入第1个加权公式,同时针对垃圾短信数据集,采用关联规则算法挖掘出在垃圾短信中频繁出现的共现词组,并以此引入第2个加权公式,最后将引入的2种文本权重计算公式对每个短信文本进行复合加权处理,以区分各个训练样本对于判定隶属类别的影响程度,从而在分类决策规则上作出改进。实验结果表明,与未经过文本加权的KNN算法相比,该算法对垃圾短信和正常短信在分类准确率、召回率、F1值等指标上都有较大的提升。
展开更多
关键词
垃圾过滤
关联规则
特征选择
K最近邻算法
向量空间模型
下载PDF
职称材料
基于自然语言提问的自动答疑系统设计
被引量:
10
10
作者
田俊华
《现代远程教育研究》
2005年第1期48-51,共4页
本文针对传统的基于布尔检索模型的自动答疑系统存在的不足,提出了开发智能型自动答疑系统的设计原则,阐述了该系统涉及的关键技术。在此基础上,作者提出了自己的系统设计架构,并进而提出了系统的优化策略。
关键词
自然语言
中文分词
向量空间模型
自动答疑
下载PDF
职称材料
主题搜索引擎中爬虫搜索策略的研究
被引量:
15
11
作者
史宝明
贺元香
吴崇正
《计算机工程与应用》
CSCD
2014年第2期116-119,128,共5页
为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL...
为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL和无标的待判别URL实现对无标URL的相关性判别,并推导出迭代初值选取对结果的不敏感性。实验结果表明,与传统的网络爬虫算法相关性判别方法相比,提出的方法效率更高。
展开更多
关键词
网络爬虫
主题搜索引擎
搜索策略
向量空间模型
下载PDF
职称材料
Web文本挖掘中数据预处理技术研究
被引量:
13
12
作者
胡静
蒋外文
朱华
《现代计算机》
2009年第3期48-51,共4页
数据预处理是将原始的Web文档转化为适合进行数据挖掘的中间表示形式,在Web文本挖掘过程中起着至关重要的作用。介绍Web文本挖掘的概念及Web文本挖掘的一般流程,对Web文本挖掘中的特征表示、中文分词、特征选择等数据预处理关键技术进...
数据预处理是将原始的Web文档转化为适合进行数据挖掘的中间表示形式,在Web文本挖掘过程中起着至关重要的作用。介绍Web文本挖掘的概念及Web文本挖掘的一般流程,对Web文本挖掘中的特征表示、中文分词、特征选择等数据预处理关键技术进行详尽的分析。
展开更多
关键词
WEB文本挖掘
向量空间模型
中文分词
特征选择
下载PDF
职称材料
微博突发话题检测方法研究
被引量:
13
13
作者
邱云飞
程亮
《计算机工程》
CAS
CSCD
2012年第9期288-290,共3页
话题检测与跟踪模型不能很好地处理随意性强、用语不规范的微博短信息。为此,提出一种基于动态滑动窗口的微博突发话题检测方法。利用窗口提取具有潜在突发性的信息,采用结合语义的归一化词频-反文档频率函数计算特征权重,构建结合语义...
话题检测与跟踪模型不能很好地处理随意性强、用语不规范的微博短信息。为此,提出一种基于动态滑动窗口的微博突发话题检测方法。利用窗口提取具有潜在突发性的信息,采用结合语义的归一化词频-反文档频率函数计算特征权重,构建结合语义的空间向量模型,使用Single-Pass聚类算法思想对其加以改进,生成最终聚类。实验结果表明,该算法能获得较准确的突发话题检测结果。
展开更多
关键词
微博
突发话题
滑动窗口
语义相似度
空间向量模型
话题检测与跟踪
下载PDF
职称材料
专题搜索引擎中信息过滤的研究与实现
被引量:
10
14
作者
李世明
赵恒永
李世友
《计算机工程与设计》
CSCD
北大核心
2006年第8期1392-1394,1397,共4页
在对经典信息过滤算法进行研究分析的基础上,结合网页重要性和主题相关性,给出了专题搜索引擎中信息过滤模块的设计思路和实施策略,并在专业词汇、查询扩展和用户反馈等方面对算法进行了改进和拓展。最后给出了系统的实施方案,并对将来...
在对经典信息过滤算法进行研究分析的基础上,结合网页重要性和主题相关性,给出了专题搜索引擎中信息过滤模块的设计思路和实施策略,并在专业词汇、查询扩展和用户反馈等方面对算法进行了改进和拓展。最后给出了系统的实施方案,并对将来的工作做了展望。
展开更多
关键词
搜索引擎
信息过滤
网页级别
向量空间模型
下载PDF
职称材料
基于类别空间模型的文本分类系统的设计与实现
被引量:
11
15
作者
黄冉
郭嵩山
《计算机应用研究》
CSCD
北大核心
2005年第8期60-63,共4页
从理论和应用的角度对文本信息的分类方法进行研究,提出类别空间模型的概念,用于描述词语和类别之间的关系,并实现了基于类别空间模型的文本分类系统。通过实验表明,该系统有效地提高了文本分类的正确率。
关键词
文本分类
向量空间模型
类别空间模型
下载PDF
职称材料
基于词语关联的文本特征词提取方法
被引量:
10
16
作者
廖浩
李志蜀
+1 位作者
王秋野
张意
《计算机应用》
CSCD
北大核心
2007年第12期3009-3012,共4页
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,文本每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征,而且不能很好地揭...
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,文本每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征,而且不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种新的基于关键词语和词语共现频率的特征选择和权重计算方法。该方法在TF-IDF方法的基础上利用了文本的结构信息,同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了单纯使用TF-IDF权重函数进行计算的一些缺陷,并使文本的特征向量蕴涵了词与词的相关信息。通过采用KNN分类器进行实验,结果显示该方法比传统TF-IDF方法的平均分类准确率有明显提高。
展开更多
关键词
词语关联
词共现率
向量空间模型
特征提取
权重计算
下载PDF
职称材料
搜索引擎PageRank算法的改进
被引量:
9
17
作者
杨劲松
凌培亮
《计算机工程》
CAS
CSCD
北大核心
2009年第22期35-37,共3页
为了解决企业快速决策时信息检索的问题,提出一种改进的PageRank算法。在考虑网页产生时间因素的同时,通过锚文本与网页主题的相似度分析按权重分配网页各正向链接PageRank值,产生的PageRank值更贴合主题搜索引擎的要求,并保持算法的简...
为了解决企业快速决策时信息检索的问题,提出一种改进的PageRank算法。在考虑网页产生时间因素的同时,通过锚文本与网页主题的相似度分析按权重分配网页各正向链接PageRank值,产生的PageRank值更贴合主题搜索引擎的要求,并保持算法的简洁性。实验结果证明该改进算法能有效减少主题漂移现象,恰当提升新网页PageRank值。
展开更多
关键词
搜索引擎
锚文本
向量空间模型
下载PDF
职称材料
基于类别特征向量表示的中文文本分类算法
被引量:
11
18
作者
何建英
陈蓉
+2 位作者
徐淼
刘佳
于中华
《计算机应用研究》
CSCD
北大核心
2008年第2期337-338,344,共3页
采用一种无须分词的中文文本分类方法,以二元汉字串表示文本特征,与需要利用词典分词的分类模型相比,避免了分词的复杂计算;为提高以bi-gram项表示文本特征的分类算法的准确率,提出了基于类别特征向量表示的中文文本分类算法。通过实验...
采用一种无须分词的中文文本分类方法,以二元汉字串表示文本特征,与需要利用词典分词的分类模型相比,避免了分词的复杂计算;为提高以bi-gram项表示文本特征的分类算法的准确率,提出了基于类别特征向量表示的中文文本分类算法。通过实验结果及理论分析,验证了该算法的有效性。
展开更多
关键词
中文文本分类
向量空间模型
评价函数
特征提取
下载PDF
职称材料
基于LDA主题模型的软件缺陷分派方法
被引量:
11
19
作者
黄小亮
郁抒思
关佶红
《计算机工程》
CAS
CSCD
北大核心
2011年第21期46-48,共3页
传统的基于向量空间模型的软件缺陷分派方法,由于存在特征空间维度高、数据稀疏且包含噪音等问题,分派准确率较低。为此,提出一种基于隐含狄利克雷分配(LDA)主题模型的软件缺陷分派方法,将缺陷报告从原始的高维文本单词空间映射到低维...
传统的基于向量空间模型的软件缺陷分派方法,由于存在特征空间维度高、数据稀疏且包含噪音等问题,分派准确率较低。为此,提出一种基于隐含狄利克雷分配(LDA)主题模型的软件缺陷分派方法,将缺陷报告从原始的高维文本单词空间映射到低维语义主题空间,在新的低维主题空间上进行分派。实验结果表明,在使用SVM和KNN分类器时,该方法的分派准确率较高。
展开更多
关键词
软件缺陷分派
隐含狄利克雷分配模型
马尔可夫链蒙特卡洛方法
吉布斯采样
文本分类
向量空间模型
下载PDF
职称材料
基于向量空间模型和专利文献特征的相似专利确定方法
被引量:
11
20
作者
陈芨熙
顾新建
+1 位作者
陈国海
魏江
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2009年第10期1848-1852,1869,共6页
为了确定专利文献的相似性,帮助企业进行专利申请、保护和利用,提出基于向量空间模型(VSM)和专利文献特征的相似专利确定方法.依据专利文献的信息特征构建专利模型树,定义了专利模型树和专利模型树的节点.通过分析专利模型树的节点属性...
为了确定专利文献的相似性,帮助企业进行专利申请、保护和利用,提出基于向量空间模型(VSM)和专利文献特征的相似专利确定方法.依据专利文献的信息特征构建专利模型树,定义了专利模型树和专利模型树的节点.通过分析专利模型树的节点属性值,采用基于向量空间模型的文本分类技术,以专利名称和专利摘要的加权相似度作为专利文献分类的依据,对专利文献进行分类,然后在类内根据专利文献特征的相似性确定相似专利,并根据企业的实际应用需求,分析专利文献要素权重确定的几种方法.应用示例验证了该方法能够有效地进行专利分类和相似专利检索.
展开更多
关键词
专利文献
专利检索
文本分类
向量空间模型
下载PDF
职称材料
题名
基于向量空间模型的文本聚类算法
被引量:
50
1
作者
姚清耘
刘功申
李翔
机构
上海交通大学信息安全工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2008年第18期39-41,44,共4页
基金
国家自然科学基金资助项目(60502032
60402019)
教育部新世纪优秀人才支持计划基金资助项目(NCET-06-0393)
文摘
文本聚类是聚类的一个重要研究分支,是聚类方法在文本处理领域的应用。该文探讨了基于向量空间模型的文本聚类方法,提出了一种文本聚类的改进算法——LP算法。同时,基于语料库的实际聚类效果,就维度确定、特征选择等方面提出优化方案。实验证明,LP算法有效地减少了聚类所消耗的时间,实用性和灵活性都较高。
关键词
向量空间模型
文本聚类
语料库
Keywords
vector space
model
(
vsm
)
text
clustering
corpus
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于潜在语义分析的汉语问答系统答案提取
被引量:
44
2
作者
余正涛
樊孝忠
郭剑毅
耿增民
机构
昆明理工大学信息工程与自动化学院
北京理工大学计算机科学工程系
出处
《计算机学报》
EI
CSCD
北大核心
2006年第10期1889-1893,共5页
基金
教育部博士点基金(20050007023)
国家自然科学基金(60663004)
云南省信息技术基金(2002IT03)资助.
文摘
为了解决在汉语问答系统答案提取时,由于词的同义或多义现象而导致的“漏提”或“错提”等问题,提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它利用空间向量模型作为问题和句子的表示方法,借助于潜在语义分析理论,对大量问答作句子语料统计分析,构建了一个潜在的词-句子语义空间,从而消除了词之间的相关性,并在语义空间上实现了问题与答案句子相似度计算,有效地解决了词的同义和多义问题.最后结合问题类型和相似度计算结果,对汉语基于事实的简单陈述问题进行了答案句子提取实验.答案提取的MRR值达到了0.47,明显优于空间向量模型.结果说明该方法具有很好的效果.
关键词
问答系统
答案提取
相似度
向量空间模型
潜在语义分析
Keywords
question-answering
system
answer
extracting
similarity
vector space
model
(
vsm
)
Latent
Semantic
Analysis
(LSA)
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
潜在语义分析理论及其应用
被引量:
35
3
作者
盖杰
王怡
武港山
机构
南京大学软件新技术国家重点实验室
出处
《计算机应用研究》
CSCD
北大核心
2004年第3期9-12,20,共5页
基金
国家自然科学基金资助项目(60073030)
国家"863"基金资助项目(2001AA110334)
文摘
潜在语义分析(LatentSemanticAnalysis,LSA)是一种用于自动地实现知识提取和表示的理论和方法,它通过对大量的文本集进行统计分析,从中提取出词语的上下文使用含义。在技术上,它同向量空间模型类型类似,都是采用空间向量表示文本,但通过SVD分解等处理,消除了同义词、多义词的影响,提高了后续处理的精度。将着重介绍LSA方法的基本思想、特点、实现方法,以及基于LSA思想的具体应用。
关键词
潜在语义分析
上下文
语义
向量空间模型
Keywords
Latent
Semantic
Analysis(LSA)
Context
Semantic
vector space
model
(
vsm
)
分类号
TP311.12 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
Web挖掘技术研究
被引量:
21
4
作者
张蓉
机构
广东商学院信息科学学院
出处
《计算机工程》
EI
CAS
CSCD
北大核心
2006年第15期4-6,共3页
基金
广东省自然科学基金资助项目(04009947)
文摘
随着互联网的飞速发展,Web挖掘技术已成为数据挖掘技术的一个研究热点。该文对Web挖掘的特点、方法进行了讨论,设计了一种快速有效的Web文档聚类方法,给出了实际测试结果,验证了Web挖掘技术的有效性。提出的Web挖掘技术有效地提高了该系统的协作能力。
关键词
WEB挖掘
日志文件
文档聚类
矢量空间模型
关联规则
Keywords
Web
mining
Log
file
Document
clustering
vector space
model
(
vsm
)
Association
rule
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
文本分类特征权重改进算法
被引量:
26
5
作者
台德艺
王俊
机构
合肥学院机器视觉与智能控制技术重点实验室
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第9期197-199,202,共4页
基金
安徽省高校省级自然科学基金资助项目(KJ2008B120)
文摘
TF-IDF是一种在文本分类领域获得广泛应用的特征词权重算法,着重考虑了词频与逆文档频等因素,但无法把握特征词在类间与类内的分布情况。为提高在同类中频繁出现、类内均匀分布的具有代表性的特征词权重,引入特征词分布集中度系数改进IDF函数、用分散度系数进行加权,提出TF-IIDF-DIC权重函数。实验结果表明,基于TF-IIDF-DIC权重算法的K-NN文本分类宏平均F1值比TF-IDF算法提高了6.79%。
关键词
向量空间模型
文本分类
特征权重
特征分布
Keywords
vector space
model
(
vsm
)
text
categorization
feature
weighting
feature
distribution
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于语义相似度的论坛话题追踪方法
被引量:
22
6
作者
席耀一
林琛
李弼程
周杰
许旭阳
机构
信息工程大学信息工程学院
出处
《计算机应用》
CSCD
北大核心
2011年第1期93-96,共4页
基金
国家863计划项目(2007AA01Z439)
文摘
现有的话题追踪方法大多面向新闻数据,将其应用于论坛时效果不够理想。结合论坛的特点,提出一种基于语义相似度的论坛话题追踪方法。该方法首先通过构建话题和帖子的关键词表建立其文本表示模型,然后利用知网计算两个关键词表的语义相似度并以此作为帖子与话题的相关程度,最后根据相关程度实现论坛话题追踪。该方法较好地避免了向量空间模型的缺陷。实验表明,该方法能比较有效地解决面向论坛的话题追踪问题。
关键词
话题追踪
论坛
关键词
语义相似度
向量空间模型
Keywords
topic
tracking
BBS
key
word
semantic
similarity
vector space
model
(
vsm
)
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
文本分类实现技术
被引量:
15
7
作者
王灏
黄厚宽
田盛丰
机构
北方交通大学计算机与信息技术学院
出处
《广西师范大学学报(自然科学版)》
CAS
2003年第A01期173-179,共7页
基金
铁路数据中心体系结构的研究与设计(2002X039)
文摘
文本分类是文本数据挖掘的重要技术.从文本分类实现过程的各个环节,包括建立文档模型、特征提取、维数约简、选择分类策略几个方面分别给出了目前实用的解决方案,同时对各种算法进行了分类和性能上的定性与定量的比较,最后讨论了国内文本分类研究中的一些问题和未来的发展.
关键词
文本分类
特征提取
维数约简
向量空间模型
相似度
组合模型
Keywords
text
categorization
feature
selection
dimensionality
reduction
vector space
model
(
vsm
)
similarity
combination
model
分类号
TP181 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于句类特征的作者写作风格分类研究
被引量:
19
8
作者
张运良
朱礼军
乔晓东
张全
机构
中国科学技术信息研究所
中国科学院声学研究所
出处
《计算机工程与应用》
CSCD
北大核心
2009年第22期129-131,223,共4页
基金
国家重点基础研究发展规划(973)No.2004CB318104
国家"十一五"科技支撑计划项目资助No.2006BAH03B03~~
文摘
不同作家的作品有自己的特点,这些特点体现在词汇、句型、修辞手法等各个方面,尝试使用句类特征进行作者写作风格分类,进一步可以用于作者的识别。利用向量空间模型,以句类作为特征,并通过混合句类分解等技术对句类向量空间降维,使用itc算法对特征项进行权重计算,KNN算法进行分类并利用集成判决技术,形成作者写作风格分类器。本分类器的性能在近现代小说的按作者写作风格的分类和鉴别方面的性能是可以接受的,并有进一步提升的可能。
关键词
文本分类
作者写作风格
句类
向量空间模型
概念层次网络(HNC)理论
自然语言理解
Keywords
text
classification
authorship
sentence
category
vector space
model
(
vsm
)
Hierarchical
Network
of
Concepts
(
HNC
)
theory
nature
language
processing
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于文本加权KNN算法的中文垃圾短信过滤
被引量:
19
9
作者
黄文明
莫阳
机构
桂林电子科技大学广西可信软件重点实验室
桂林电子科技大学计算机与信息安全学院
出处
《计算机工程》
CAS
CSCD
北大核心
2017年第3期193-199,共7页
基金
广西可信软件重点实验室研究课题(kx201106)
桂林电子科技大学研究生教育创新计划项目(2016YJCX64)
文摘
针对K最近邻(KNN)算法在文本分类决策规则上由于样本重要性相同而导致分类效果不佳的问题,提出一种基于文本加权的KNN文本分类算法,并将其应用于垃圾短信的分类问题。在提取出特征词之后,考虑到特征词在文本中出现的频率对文本重要性的影响,引入第1个加权公式,同时针对垃圾短信数据集,采用关联规则算法挖掘出在垃圾短信中频繁出现的共现词组,并以此引入第2个加权公式,最后将引入的2种文本权重计算公式对每个短信文本进行复合加权处理,以区分各个训练样本对于判定隶属类别的影响程度,从而在分类决策规则上作出改进。实验结果表明,与未经过文本加权的KNN算法相比,该算法对垃圾短信和正常短信在分类准确率、召回率、F1值等指标上都有较大的提升。
关键词
垃圾过滤
关联规则
特征选择
K最近邻算法
向量空间模型
Keywords
spare
filtering
association
rule
feature
selection
K
Nearest
Neighbor
(
KNN
)
algorithm
vector space
model
(
vsm
)
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
基于自然语言提问的自动答疑系统设计
被引量:
10
10
作者
田俊华
机构
南京师范大学
出处
《现代远程教育研究》
2005年第1期48-51,共4页
文摘
本文针对传统的基于布尔检索模型的自动答疑系统存在的不足,提出了开发智能型自动答疑系统的设计原则,阐述了该系统涉及的关键技术。在此基础上,作者提出了自己的系统设计架构,并进而提出了系统的优化策略。
关键词
自然语言
中文分词
向量空间模型
自动答疑
Keywords
natural
language
Chinese
words
vector space
model
(
vsm
)
auto-answer
分类号
G434 [文化科学—教育学]
下载PDF
职称材料
题名
主题搜索引擎中爬虫搜索策略的研究
被引量:
15
11
作者
史宝明
贺元香
吴崇正
机构
兰州文理学院电子信息工程学院
兰州理工大学计算机与通信学院
出处
《计算机工程与应用》
CSCD
2014年第2期116-119,128,共5页
基金
甘肃联合大学科研能力提升计划项目(No.2012YBTS05)
文摘
为了解决传统主题爬虫效率偏低的问题,传统主题爬虫会选择最有价值的链接进行访问,仅简单地计算链接的相关性,却忽视待分析URL之间的相关性关系,致使主题爬虫爬取效率较低。提出一种基于链接模型的相关性判别算法,综合利用有标种子URL和无标的待判别URL实现对无标URL的相关性判别,并推导出迭代初值选取对结果的不敏感性。实验结果表明,与传统的网络爬虫算法相关性判别方法相比,提出的方法效率更高。
关键词
网络爬虫
主题搜索引擎
搜索策略
向量空间模型
Keywords
web
spider
topic-oriented
search
engine
search
strategy
vector space
model
(
vsm
)
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Web文本挖掘中数据预处理技术研究
被引量:
13
12
作者
胡静
蒋外文
朱华
机构
中南大学信息科学与工程学院
出处
《现代计算机》
2009年第3期48-51,共4页
文摘
数据预处理是将原始的Web文档转化为适合进行数据挖掘的中间表示形式,在Web文本挖掘过程中起着至关重要的作用。介绍Web文本挖掘的概念及Web文本挖掘的一般流程,对Web文本挖掘中的特征表示、中文分词、特征选择等数据预处理关键技术进行详尽的分析。
关键词
WEB文本挖掘
向量空间模型
中文分词
特征选择
Keywords
Web
Text
Mining
vector space
model
(
vsm
)
Chinese
Text
Segment
Feature
Selection
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
微博突发话题检测方法研究
被引量:
13
13
作者
邱云飞
程亮
机构
辽宁工程技术大学软件学院
辽宁工程技术大学电子与信息工程学院
出处
《计算机工程》
CAS
CSCD
2012年第9期288-290,共3页
文摘
话题检测与跟踪模型不能很好地处理随意性强、用语不规范的微博短信息。为此,提出一种基于动态滑动窗口的微博突发话题检测方法。利用窗口提取具有潜在突发性的信息,采用结合语义的归一化词频-反文档频率函数计算特征权重,构建结合语义的空间向量模型,使用Single-Pass聚类算法思想对其加以改进,生成最终聚类。实验结果表明,该算法能获得较准确的突发话题检测结果。
关键词
微博
突发话题
滑动窗口
语义相似度
空间向量模型
话题检测与跟踪
Keywords
microblog
sudden
topic
sliding
window
semantic
similarity
vector space
model
(
vsm
)
Topic
Detection
and
Tracking(TDT)
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
专题搜索引擎中信息过滤的研究与实现
被引量:
10
14
作者
李世明
赵恒永
李世友
机构
北京化工大学信息科学与技术学院
中石化催化剂公司齐鲁分公司
出处
《计算机工程与设计》
CSCD
北大核心
2006年第8期1392-1394,1397,共4页
文摘
在对经典信息过滤算法进行研究分析的基础上,结合网页重要性和主题相关性,给出了专题搜索引擎中信息过滤模块的设计思路和实施策略,并在专业词汇、查询扩展和用户反馈等方面对算法进行了改进和拓展。最后给出了系统的实施方案,并对将来的工作做了展望。
关键词
搜索引擎
信息过滤
网页级别
向量空间模型
Keywords
search
engine
information
filtering
PageRank
vector space
model
(
vsm
)
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于类别空间模型的文本分类系统的设计与实现
被引量:
11
15
作者
黄冉
郭嵩山
机构
中山大学信息科技学院计算机科学系
出处
《计算机应用研究》
CSCD
北大核心
2005年第8期60-63,共4页
文摘
从理论和应用的角度对文本信息的分类方法进行研究,提出类别空间模型的概念,用于描述词语和类别之间的关系,并实现了基于类别空间模型的文本分类系统。通过实验表明,该系统有效地提高了文本分类的正确率。
关键词
文本分类
向量空间模型
类别空间模型
Keywords
Text
Classification
vector space
model
(
vsm
)
Class
space
model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于词语关联的文本特征词提取方法
被引量:
10
16
作者
廖浩
李志蜀
王秋野
张意
机构
四川大学计算机学院
出处
《计算机应用》
CSCD
北大核心
2007年第12期3009-3012,共4页
文摘
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,文本每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征,而且不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种新的基于关键词语和词语共现频率的特征选择和权重计算方法。该方法在TF-IDF方法的基础上利用了文本的结构信息,同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了单纯使用TF-IDF权重函数进行计算的一些缺陷,并使文本的特征向量蕴涵了词与词的相关信息。通过采用KNN分类器进行实验,结果显示该方法比传统TF-IDF方法的平均分类准确率有明显提高。
关键词
词语关联
词共现率
向量空间模型
特征提取
权重计算
Keywords
word
relationship
word
co-occurrence
vector space
model
(
vsm
)
feature
selection
term
weighting
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
搜索引擎PageRank算法的改进
被引量:
9
17
作者
杨劲松
凌培亮
机构
同济大学机械工程学院
出处
《计算机工程》
CAS
CSCD
北大核心
2009年第22期35-37,共3页
文摘
为了解决企业快速决策时信息检索的问题,提出一种改进的PageRank算法。在考虑网页产生时间因素的同时,通过锚文本与网页主题的相似度分析按权重分配网页各正向链接PageRank值,产生的PageRank值更贴合主题搜索引擎的要求,并保持算法的简洁性。实验结果证明该改进算法能有效减少主题漂移现象,恰当提升新网页PageRank值。
关键词
搜索引擎
锚文本
向量空间模型
Keywords
search
engine
anchor
text
vector space
model
(
vsm
)
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于类别特征向量表示的中文文本分类算法
被引量:
11
18
作者
何建英
陈蓉
徐淼
刘佳
于中华
机构
四川大学计算机学院
出处
《计算机应用研究》
CSCD
北大核心
2008年第2期337-338,344,共3页
基金
国家自然科学基金资助项目(60073046)
高等学校博士学科点专项科研基金资助项目(20020610007)
四川大学计算机学院青年基金资助项目
文摘
采用一种无须分词的中文文本分类方法,以二元汉字串表示文本特征,与需要利用词典分词的分类模型相比,避免了分词的复杂计算;为提高以bi-gram项表示文本特征的分类算法的准确率,提出了基于类别特征向量表示的中文文本分类算法。通过实验结果及理论分析,验证了该算法的有效性。
关键词
中文文本分类
向量空间模型
评价函数
特征提取
Keywords
Chinese
text
categorization
vector space
model
(
vsm
)
evaluation
function
feature
extraction
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于LDA主题模型的软件缺陷分派方法
被引量:
11
19
作者
黄小亮
郁抒思
关佶红
机构
复旦大学计算机科学技术学院
同济大学计算机科学与技术系
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第21期46-48,共3页
基金
国家自然科学基金资助项目(60873040)
文摘
传统的基于向量空间模型的软件缺陷分派方法,由于存在特征空间维度高、数据稀疏且包含噪音等问题,分派准确率较低。为此,提出一种基于隐含狄利克雷分配(LDA)主题模型的软件缺陷分派方法,将缺陷报告从原始的高维文本单词空间映射到低维语义主题空间,在新的低维主题空间上进行分派。实验结果表明,在使用SVM和KNN分类器时,该方法的分派准确率较高。
关键词
软件缺陷分派
隐含狄利克雷分配模型
马尔可夫链蒙特卡洛方法
吉布斯采样
文本分类
向量空间模型
Keywords
software
bug
triage
Latent
Dirichlet
Allocation(LDA)
model
Markov-Chain
Monte
Carlo(MCMC)
method
Gibbs
sampling
text
classification
vector space
model
(
vsm
)
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于向量空间模型和专利文献特征的相似专利确定方法
被引量:
11
20
作者
陈芨熙
顾新建
陈国海
魏江
机构
浙江大学现代制造工程研究所
浙江大学管理学院
出处
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2009年第10期1848-1852,1869,共6页
基金
国家“十一五”科技支撑计划资助项目(2006BAF01A02)
国家“863”高技术研究发展计划资助项目(2007AA04Z101)
文摘
为了确定专利文献的相似性,帮助企业进行专利申请、保护和利用,提出基于向量空间模型(VSM)和专利文献特征的相似专利确定方法.依据专利文献的信息特征构建专利模型树,定义了专利模型树和专利模型树的节点.通过分析专利模型树的节点属性值,采用基于向量空间模型的文本分类技术,以专利名称和专利摘要的加权相似度作为专利文献分类的依据,对专利文献进行分类,然后在类内根据专利文献特征的相似性确定相似专利,并根据企业的实际应用需求,分析专利文献要素权重确定的几种方法.应用示例验证了该方法能够有效地进行专利分类和相似专利检索.
关键词
专利文献
专利检索
文本分类
向量空间模型
Keywords
patent
documents
patent
retrieve
text
categorization
vector space
model
(
vsm
)
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于向量空间模型的文本聚类算法
姚清耘
刘功申
李翔
《计算机工程》
CAS
CSCD
北大核心
2008
50
下载PDF
职称材料
2
基于潜在语义分析的汉语问答系统答案提取
余正涛
樊孝忠
郭剑毅
耿增民
《计算机学报》
EI
CSCD
北大核心
2006
44
下载PDF
职称材料
3
潜在语义分析理论及其应用
盖杰
王怡
武港山
《计算机应用研究》
CSCD
北大核心
2004
35
下载PDF
职称材料
4
Web挖掘技术研究
张蓉
《计算机工程》
EI
CAS
CSCD
北大核心
2006
21
下载PDF
职称材料
5
文本分类特征权重改进算法
台德艺
王俊
《计算机工程》
CAS
CSCD
北大核心
2010
26
下载PDF
职称材料
6
基于语义相似度的论坛话题追踪方法
席耀一
林琛
李弼程
周杰
许旭阳
《计算机应用》
CSCD
北大核心
2011
22
下载PDF
职称材料
7
文本分类实现技术
王灏
黄厚宽
田盛丰
《广西师范大学学报(自然科学版)》
CAS
2003
15
下载PDF
职称材料
8
基于句类特征的作者写作风格分类研究
张运良
朱礼军
乔晓东
张全
《计算机工程与应用》
CSCD
北大核心
2009
19
下载PDF
职称材料
9
基于文本加权KNN算法的中文垃圾短信过滤
黄文明
莫阳
《计算机工程》
CAS
CSCD
北大核心
2017
19
下载PDF
职称材料
10
基于自然语言提问的自动答疑系统设计
田俊华
《现代远程教育研究》
2005
10
下载PDF
职称材料
11
主题搜索引擎中爬虫搜索策略的研究
史宝明
贺元香
吴崇正
《计算机工程与应用》
CSCD
2014
15
下载PDF
职称材料
12
Web文本挖掘中数据预处理技术研究
胡静
蒋外文
朱华
《现代计算机》
2009
13
下载PDF
职称材料
13
微博突发话题检测方法研究
邱云飞
程亮
《计算机工程》
CAS
CSCD
2012
13
下载PDF
职称材料
14
专题搜索引擎中信息过滤的研究与实现
李世明
赵恒永
李世友
《计算机工程与设计》
CSCD
北大核心
2006
10
下载PDF
职称材料
15
基于类别空间模型的文本分类系统的设计与实现
黄冉
郭嵩山
《计算机应用研究》
CSCD
北大核心
2005
11
下载PDF
职称材料
16
基于词语关联的文本特征词提取方法
廖浩
李志蜀
王秋野
张意
《计算机应用》
CSCD
北大核心
2007
10
下载PDF
职称材料
17
搜索引擎PageRank算法的改进
杨劲松
凌培亮
《计算机工程》
CAS
CSCD
北大核心
2009
9
下载PDF
职称材料
18
基于类别特征向量表示的中文文本分类算法
何建英
陈蓉
徐淼
刘佳
于中华
《计算机应用研究》
CSCD
北大核心
2008
11
下载PDF
职称材料
19
基于LDA主题模型的软件缺陷分派方法
黄小亮
郁抒思
关佶红
《计算机工程》
CAS
CSCD
北大核心
2011
11
下载PDF
职称材料
20
基于向量空间模型和专利文献特征的相似专利确定方法
陈芨熙
顾新建
陈国海
魏江
《浙江大学学报(工学版)》
EI
CAS
CSCD
北大核心
2009
11
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
…
5
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部