期刊文献+
共找到82篇文章
< 1 2 5 >
每页显示 20 50 100
一种用于主题提取的非线性加权方法 被引量:25
1
作者 韩客松 王永成 《情报学报》 CSSCI 北大核心 2000年第6期650-653,共4页
主题提取是文本处理的一项重要工作。本文首先分析了主题抽取中加权方法形成时的一些定量问题 ,然后提出了主题相关词一种非线性加权处理方法 ,对比实验结果显示它不仅是一种比较稳健的方法 ,而且能在一定程度上提高主题提取的正确率。
关键词 主题提取 非线性 加权 主题标引 计算机自动标引
下载PDF
自动文本分类中权值公式的改进 被引量:25
2
作者 寇莎莎 魏振军 《计算机工程与设计》 CSCD 北大核心 2005年第6期1616-1618,共3页
在自动文本分类中,TF-IDF公式是常用的词语权重计算公式,但是TF-IDF公式是一种经验公式,并没有坚实的理论基础,它并不适用于任何情况下。通过信息论和概率证明了,在训练文本同属一个类别时,词语的重要性与词语的文档频率成正比,并对TF-... 在自动文本分类中,TF-IDF公式是常用的词语权重计算公式,但是TF-IDF公式是一种经验公式,并没有坚实的理论基础,它并不适用于任何情况下。通过信息论和概率证明了,在训练文本同属一个类别时,词语的重要性与词语的文档频率成正比,并对TF-IDF进行了改进,得到了改进的权值公式。改进的权值公式与TF-IDF公式进行实验比较,实验结果表明改进的权值公式提高了算法的分类精度。 展开更多
关键词 文本分类 TF-IDF 向量空间 特征项 特征权重
下载PDF
文本索引词项相对权重计算方法与应用 被引量:9
3
作者 蓝海洋 周杰韩 张和明 《计算机工程与应用》 CSCD 北大核心 2003年第15期68-70,共3页
文本索引词权重计算方法决定了文本分类的准确率。该文提出一种文本索引词项相对权重计算方法,即文本索引词项权重根据索引词项在该文本中的出现频率与在整个文本空间出现的平均频率之间的相对值进行计算。该方法能有效地提高索引词对... 文本索引词权重计算方法决定了文本分类的准确率。该文提出一种文本索引词项相对权重计算方法,即文本索引词项权重根据索引词项在该文本中的出现频率与在整个文本空间出现的平均频率之间的相对值进行计算。该方法能有效地提高索引词对文本内容识别的准确性。 展开更多
关键词 知识管理 文本分类 索引词权重
下载PDF
基于信息熵理论的特征权重算法研究 被引量:22
4
作者 郭红钰 《计算机工程与应用》 CSCD 2013年第10期140-146,共7页
文本表示是使用分类算法处理文本时必不可少的环节,文本表示方法的选择对最终的分类精度起着至关重要的作用。针对经典的特征权重计算方法TFIDF(Term Frequency and Inverted Document Frequency)中存在的不足,提出了一种基于信息熵理... 文本表示是使用分类算法处理文本时必不可少的环节,文本表示方法的选择对最终的分类精度起着至关重要的作用。针对经典的特征权重计算方法TFIDF(Term Frequency and Inverted Document Frequency)中存在的不足,提出了一种基于信息熵理论的特征权重算法ETFIDF(Entropy based TFIDF)。ETFIDF不仅考虑特征项在文档中出现的频率及该特征项在训练集中的集中度,而且还考虑该特征项在各个类别中的分散度。实验结果表明,采用ETFIDF计算特征权重可以有效地提高文本分类性能,对ETFIDF与特征选择的关系进行了较详细的理论分析和实验研究。实验结果表明,在文本表示阶段考虑特征与类别的关系可以更为准确地表示文本;如果综合考虑精度与效率两个方面因素,ETFIDF算法与特征选择算法一起采用能够得到更好的分类效果。 展开更多
关键词 信息熵 特征权重 特征选择 文本分类
下载PDF
基于向量空间模型的中文文本层次分类方法研究 被引量:12
5
作者 肖雪 何中市 《计算机应用》 CSCD 北大核心 2006年第5期1125-1126,1133,共3页
在文本分类的类别数量庞大的情况下,层次分类是一种有效的分类途径。针对层次分类的结构特点,考虑到不同的层次对特征选择和分类方法有不同的要求,提出了新的基于向量空间模型的二重特征选择方法FDS以及层次分类算法HTC。二重特征选择... 在文本分类的类别数量庞大的情况下,层次分类是一种有效的分类途径。针对层次分类的结构特点,考虑到不同的层次对特征选择和分类方法有不同的要求,提出了新的基于向量空间模型的二重特征选择方法FDS以及层次分类算法HTC。二重特征选择方法对每一层均进行一次特征选择,并逐层改变特征数量和权重计算方法;HTC算法把分别对粗分和细分更有效的类中心向量法与SVM方法相结合。实验表明,该方法相对于平面分类和一般的层次分类方法,有较高的准确率。 展开更多
关键词 层次分类 向量空间模型 二重特征选择 权重计算
下载PDF
文本分类中特征权重因子的作用研究 被引量:16
6
作者 张爱华 靖红芳 +1 位作者 王斌 徐燕 《中文信息学报》 CSCD 北大核心 2010年第3期97-104,共8页
在传统的基于向量空间的文本分类中,特征权重计算与特征选择过程完全割裂,特征选择函数的得分能反映特征的重要性,却未被纳入权重表示,造成特征表示不精确并影响分类性能。一些改进方法使用特征选择函数等修改TFIDF模型,提高了分类性能... 在传统的基于向量空间的文本分类中,特征权重计算与特征选择过程完全割裂,特征选择函数的得分能反映特征的重要性,却未被纳入权重表示,造成特征表示不精确并影响分类性能。一些改进方法使用特征选择函数等修改TFIDF模型,提高了分类性能,但没有探究各权重因子如何影响分类的性能。该文以词频、逆文档频率及特征选择函数分别作为衡量特征的文档代表性、文档区分性及类别区分性的因子,通过实验测试了它们对分类性能的影响,得到文档代表性因子能使分类效果峰值最高但抵抗噪音特征能力差、文档区分性因子具有抗噪能力但性能不稳定、而类别区分性因子抗噪能力最强且性能最稳定的结论。最后给出权重表示的四点构造原则,并通过实验验证了其对分类性能的优化效果。 展开更多
关键词 计算机应用 中文信息处理 文本分类 权重表示 权重因子作用 VSM
下载PDF
基于关键词语的文本特征选择及权重计算方案 被引量:12
7
作者 刘里 何中市 《计算机工程与设计》 CSCD 北大核心 2006年第6期934-936,共3页
文本的形式化表示一直是文本分类的重要难题。在被广泛采用的向量空间模型中,文本的每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征。提出一种基于关键词语的特征选择及权重计算方案,它利用了文本的结... 文本的形式化表示一直是文本分类的重要难题。在被广泛采用的向量空间模型中,文本的每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征。提出一种基于关键词语的特征选择及权重计算方案,它利用了文本的结构信息同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了TFIDF的缺陷。通过采用支持向量机(SVM)分类器进行实验,结果显示提出的Score权重计算法比传统TFIDF法的平均分类准确率要高5%左右。 展开更多
关键词 文本分类 向量空间模型 特征提取 权重计算 支持向量机
下载PDF
基于词语关联的文本特征词提取方法 被引量:10
8
作者 廖浩 李志蜀 +1 位作者 王秋野 张意 《计算机应用》 CSCD 北大核心 2007年第12期3009-3012,共4页
文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,文本每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征,而且不能很好地揭... 文本的特征描述是文本自动处理的基础工作之一,目前的文本特征描述一般采用加权VSM模型,该模型大都使用统计的和经验的加权算法,文本每一维特征的权重就是其TFIDF值,这种方法难以突出对文本内容起到关键性作用的特征,而且不能很好地揭示文本中词与词的关系。针对此缺点,提出了一种新的基于关键词语和词语共现频率的特征选择和权重计算方法。该方法在TF-IDF方法的基础上利用了文本的结构信息,同时运用互信息理论提取出对文本内容起到关键性作用的词语;权重计算则综合了词语位置、词语关系和词语频率等信息,突出了文本中关键词语的贡献,弥补了单纯使用TF-IDF权重函数进行计算的一些缺陷,并使文本的特征向量蕴涵了词与词的相关信息。通过采用KNN分类器进行实验,结果显示该方法比传统TF-IDF方法的平均分类准确率有明显提高。 展开更多
关键词 词语关联 词共现率 向量空间模型 特征提取 权重计算
下载PDF
文本分类中基于熵的词权重计算方法研究 被引量:11
9
作者 陈科文 张祖平 龙军 《计算机科学与探索》 CSCD 北大核心 2016年第9期1299-1309,共11页
随着文本数据量变得很大且仍在迅猛增加,自动文本分类变得越来越重要。为了提高分类准确率,作为文本特征的词的权重计算方法是文本分类领域的研究热点之一。研究发现,基于信息熵的权重计算方法(熵加权)相对于其他方法更有效,但现有方法... 随着文本数据量变得很大且仍在迅猛增加,自动文本分类变得越来越重要。为了提高分类准确率,作为文本特征的词的权重计算方法是文本分类领域的研究热点之一。研究发现,基于信息熵的权重计算方法(熵加权)相对于其他方法更有效,但现有方法仍然存在问题,比如在某些语料库上相比TF-IDF(term frequency&inverse document frequency),它们可能表现较差。于是将对数词频与一个新的基于熵的类别区分力度量因子相结合,提出了LTF-ECDP(logarithmic term frequency&entropy-based class distinguishing power)方法。通过在Tan Corp、Web KB和20 Newsgroups语料库上使用支持向量机(support vector machine,SVM)进行一系列文本分类实验,验证和比较了8种词权重计算方法的性能。实验结果表明,LTF-ECDP方法比其他熵加权方法和TF-IDF、TF-RF(term frequency&relevance frequency)等著名方法更优越,不仅提高了文本分类准确率,而且在不同数据集上的性能更加稳定。 展开更多
关键词 特征词权重 熵加权 文本分类 类别区分力
下载PDF
融合共现距离和区分度的短文本相似度计算方法 被引量:9
10
作者 刘文 马慧芳 +1 位作者 脱婷 陈海波 《计算机工程与科学》 CSCD 北大核心 2018年第7期1281-1286,共6页
针对短文本内容简短、特征稀疏等特点,提出一种融合共现距离和区分度的短文本相似度计算方法。一方面,该方法在整个短文本语料库中利用两个共现词之间距离计算它们的共现距离相关度。另一方面通过计算共现区分度来提高距离相关度的准确... 针对短文本内容简短、特征稀疏等特点,提出一种融合共现距离和区分度的短文本相似度计算方法。一方面,该方法在整个短文本语料库中利用两个共现词之间距离计算它们的共现距离相关度。另一方面通过计算共现区分度来提高距离相关度的准确度,然后对每个文本中词项进行相关性加权,最后通过词项的权重和词项之间的共现距离相关度计算两个文本的相似度。实验结果表明,本文提出的方法能够提高短文本相似度计算的准确率。 展开更多
关键词 短文本 共现距离相关度 共现区分度 词项加权 相似度计算
下载PDF
动态自适应特征权重的多类文本分类算法研究 被引量:9
11
作者 裴颂文 吴百锋 《计算机应用研究》 CSCD 北大核心 2011年第11期4092-4096,共5页
文本分类是研究文本数据挖掘、信息检索的重要手段,文本特征项权重值的计算是文本分类算法的关键。针对经典的特征权重计算方法 TF-IDF中存在的不足,提出了一种动态自适应特征权重计算方法(DATW)。该算法不仅考虑了特征项在文本中出现... 文本分类是研究文本数据挖掘、信息检索的重要手段,文本特征项权重值的计算是文本分类算法的关键。针对经典的特征权重计算方法 TF-IDF中存在的不足,提出了一种动态自适应特征权重计算方法(DATW)。该算法不仅考虑了特征项在文本中出现的频率及该特征项所属文本在训练集中的数量,而且通过考查特征项的分散度和特征向量梯度差以自适应动态文本的分类。实验结果表明,采用DATW方法计算特征权重可以有效提高文本分类的性能。 展开更多
关键词 文本分类 特征权重 TF-IDF 分散度 梯度差
下载PDF
基于最低词频CHI的特征选择算法研究 被引量:6
12
作者 肖雪 卢建云 +1 位作者 余磊 龚恒 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第6期137-142,共6页
CHI是文本分类中特征选择的重要方法.本文分析了CHI特征选择的特点,针对该方法的不足之处,提出了一种新的基于最低词频CHI的特征选择算法.该方法通过设置最低词频阈值去除了部分低频词,减少了CHI特征选择时低频词带来的干扰.同时本文对... CHI是文本分类中特征选择的重要方法.本文分析了CHI特征选择的特点,针对该方法的不足之处,提出了一种新的基于最低词频CHI的特征选择算法.该方法通过设置最低词频阈值去除了部分低频词,减少了CHI特征选择时低频词带来的干扰.同时本文对传统的TF-IDF特征权重计算方法进行了改进,在特征权重计算里加入改进后的CHI特征选择函数,使文本的表示更合理.通过在均衡语料和非均衡语料上的实验验证,新的方法有效提高了文本分类的效果. 展开更多
关键词 文本分类 向量空间模型 特征选择 χ2统计 低频词 权重计算
下载PDF
基于词频类别相关的特征权重算法 被引量:6
13
作者 张羚 陆余良 杨国正 《计算机应用研究》 CSCD 北大核心 2017年第2期386-391,共6页
在文本分类领域中,目前关于特征权重的研究存在两方面不足:一方面,对于基于文档频率的特征权重算法,其中的文档频率常常忽略特征的词频信息;另一方面,对特征与类别的关系表达不够准确和充分。针对以上不足,提出一种新的基于词频的类别... 在文本分类领域中,目前关于特征权重的研究存在两方面不足:一方面,对于基于文档频率的特征权重算法,其中的文档频率常常忽略特征的词频信息;另一方面,对特征与类别的关系表达不够准确和充分。针对以上不足,提出一种新的基于词频的类别相关特征权重算法(CDF-AICF)。该算法在度量特征权重时,考虑了特征在每个词频下的文档频率。同时,为了准确表达特征与类别的关系,提出了两个新的概念:类别相关文档频率CDF和平均逆类频率AICF,分别用于表示特征对类别的表现力和区分力。最后,通过与其他五个特征权重度量方法相比较,在三个数据集上进行分类实验,结果显示,CDF-AICF的分类性能优于其他五种度量方法。 展开更多
关键词 文本分类 文本表示 特征权重 文档频率 逆类频率
下载PDF
搜索引擎页面排序融合算法 被引量:4
14
作者 吴文昭 《计算机工程与设计》 CSCD 北大核心 2010年第8期1678-1681,共4页
针对PageRank算法不十分关注页面内容而只关注"超链分析"的现状,并存在着用户实际所需要的页面的次序并不靠前的问题,提出了一种搜索引擎页面排序融合算法。该算法通过考虑词项权重、链接分析和用户偏好3个主要方面,得到一个... 针对PageRank算法不十分关注页面内容而只关注"超链分析"的现状,并存在着用户实际所需要的页面的次序并不靠前的问题,提出了一种搜索引擎页面排序融合算法。该算法通过考虑词项权重、链接分析和用户偏好3个主要方面,得到一个URL的权值评价,这样每个待搜集的网页都有自己的权值评价,超链选择程序根据这些权值,从中选出一个或一批权值最大的来搜集,以达到精确检索的目的。 展开更多
关键词 搜索引擎 页面排序 词项权重 链接分析 用户偏好
下载PDF
高校网络舆情安全中主题分类方法研究——以新浪微博数据为例 被引量:5
15
作者 贾隆嘉 张邦佐 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第7期55-62,共8页
【目的】通过一种特征加权方法解决高校新浪微博主题分类研究所面临的高维性和稀疏性问题。【方法】计算特征属于类别的概率,进一步预测文档属于类别的概率,使得特征由基于词的表示转换为基于类别的表示,最终采用支持向量机对转换后的... 【目的】通过一种特征加权方法解决高校新浪微博主题分类研究所面临的高维性和稀疏性问题。【方法】计算特征属于类别的概率,进一步预测文档属于类别的概率,使得特征由基于词的表示转换为基于类别的表示,最终采用支持向量机对转换后的特征矩阵进行分类。【结果】传统tf,tf?idf以及tf?rf三种方法在结合本文提出的方法后,在微平均F1/宏平均F1方面分别提升:7.2%/7.8%,7.5%/7.9%以及6.4%/5.7%。【局限】仅针对主题分类中特征加权方法进行探索,未对主题分类中其他部分展开研究。【结论】在高校网路舆情主题分类中,该方法可以有效地降低特征矩阵维度,同时提升分类能力与分类效率。 展开更多
关键词 网络舆情安全 主题分类 特征加权 机器学习
原文传递
基于向量空间模型的文本分类特征权重算法研究 被引量:4
16
作者 苏力华 朱章华 白文华 《电脑知识与技术(过刊)》 2010年第33期9327-9329,共3页
该文首先讨论了向量空间模型在文本分类中的应用,并且对传统特征权重算法TF-IDF进行了分析。在此基础上,针对TF-IDF只考虑词频因素和文档集因素的不足,结合类间分布信息与TF-IDF为特征项赋权。实验结果表明改进的权重算法提高了分类精度。
关键词 文本分类 向量空间模型 特征权重
下载PDF
改进的KNN文本分类算法 被引量:5
17
作者 杜尔斌 李翔 林祥 《信息安全与通信保密》 2011年第4期38-39,43,共3页
而文本自动分类,作为一种有效的提高文本检索速度和准确率的方法,在电子文本信息管理中起着非常重要的作用。KNN算法作为一种非常简单,但是有效的文本分类算法,被广泛运用。针对传统KNN算法中对特征项的非监督权重分配的不足之处做了改... 而文本自动分类,作为一种有效的提高文本检索速度和准确率的方法,在电子文本信息管理中起着非常重要的作用。KNN算法作为一种非常简单,但是有效的文本分类算法,被广泛运用。针对传统KNN算法中对特征项的非监督权重分配的不足之处做了改进,采取x2统计量方法和信息增益这两种监督权重分配方法,有效地利用了训练集标签信息,提高了KNN算法的精确度。 展开更多
关键词 KNN 文本分类 权重分配
原文传递
基于Web的个性化搜索引擎的研究 被引量:3
18
作者 羊晶璟 鞠时光 王秀红 《计算机工程与设计》 CSCD 北大核心 2008年第20期5206-5208,共3页
分析了传统搜索引擎系统的缺点。设计了一种个性化搜索引擎的体系架构,提出了一种改进的向量空间模型。该模型利用非线性加权的思想来处理特征权值的计算。最后,给出了一种基于改进的向量空间模型的个性化搜索算法,能够针对不同用户提... 分析了传统搜索引擎系统的缺点。设计了一种个性化搜索引擎的体系架构,提出了一种改进的向量空间模型。该模型利用非线性加权的思想来处理特征权值的计算。最后,给出了一种基于改进的向量空间模型的个性化搜索算法,能够针对不同用户提供不同的检索结果。实验结果表明,该结构和算法能够有效地提高搜索引擎的性能,满足用户的个性化需求。 展开更多
关键词 搜索引擎 信息检索 体系架构 向量空间模型 非线性 加权 个性化
下载PDF
基于PCA和kNN混合算法的文本分类方法 被引量:4
19
作者 史淼 刘锋 《电脑知识与技术》 2015年第4期169-171,共3页
随着文本数据的激增,文本分类的高复杂度是一个重要的问题。k近邻(ENN)算法是一个简单、有效,但是计算复杂度很高的分类算法。一般,在使用kNN算法时,使用主成分分析(PCA)进行预处理来减少维数,但是该算法要求投影空间中的所有... 随着文本数据的激增,文本分类的高复杂度是一个重要的问题。k近邻(ENN)算法是一个简单、有效,但是计算复杂度很高的分类算法。一般,在使用kNN算法时,使用主成分分析(PCA)进行预处理来减少维数,但是该算法要求投影空间中的所有向量来执行kNN算法。我们提出一个新的混合算法PCA&kNN,使用一个小的邻居集来执行kNN算法,而不是投影空间中的完整的数据向量,从而减少了计算的复杂性。新的文本被投影到较低维的空间,ENN仅使用每个轴的邻居执行,基于更接近原始空间和投影空间且沿着投影成分的主向量。为了验证该方法的有效性,针对Reuters标准数据集进行实验,实验结果显示,新提出的模型显著优于ENN和标准PCA-ENN混合算法,同时保持了相似的分类精确度。 展开更多
关键词 文本分类 降维 PCAlkNN 混合分类器 加权
下载PDF
基于类别信息和特征熵的文本特征权重计算 被引量:4
20
作者 阿力木江·艾沙 殷晓雨 +1 位作者 库尔班·吾布力 李喆 《计算机应用研究》 CSCD 北大核心 2019年第11期3237-3239,3285,共4页
基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确,即对于类别频率相同的特征无法比较其对类别的区分能力,因此要考虑特征在类内的分布情况。将特征的反类别频率(inverse category frequency,ICF)和类内熵(entropy)相结... 基于类别信息的特征权重计算方法对特征与类别的关系表达不够准确,即对于类别频率相同的特征无法比较其对类别的区分能力,因此要考虑特征在类内的分布情况。将特征的反类别频率(inverse category frequency,ICF)和类内熵(entropy)相结合引入到特征权重计算方案中,构造了两种有监督特征权重计算方案。在维吾尔文文本分类语料上进行的实验结果表明,该方法能够明显改善样本的空间分布状态并提高维吾尔文文本分类的微平均F 1值。 展开更多
关键词 文本分类 文本特征 权重计算 类别频率
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部