期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
文本分类中TF-IDF算法的改进研究 被引量:7
1
作者 吴宗卓 《计算技术与自动化》 2022年第2期84-86,共3页
文本分类中的一个主要问题是如何提高分类准确性。为了提高分类准确性,提出了一种基于TF-IDF的新的加权方法TF-IDF-IF。此方法引入了一个新的参数来表示类内特征,它用来计算一个类中文档中的术语频率。实验使用CHI卡方统计特征选择方法... 文本分类中的一个主要问题是如何提高分类准确性。为了提高分类准确性,提出了一种基于TF-IDF的新的加权方法TF-IDF-IF。此方法引入了一个新的参数来表示类内特征,它用来计算一个类中文档中的术语频率。实验使用CHI卡方统计特征选择方法在数据集中选择1000个特征,然后使用TF-IDF、TF-IDF-CF、LTC和TFC方法在一些常用的分类器如朴素贝叶斯、贝叶斯网络、KNN、SVM中进行实验。实验结果表明,这种方法可以取得很好的效果。 展开更多
关键词 文本分类 特征选择 CHI平方统计 TFIDF 分类准确性
下载PDF
一种基于层次结构的科技论文分类模型 被引量:2
2
作者 姚力群 吴高巍 《计算机工程与应用》 CSCD 北大核心 2004年第6期18-22,共5页
互联网和科学研究的高速发展导致可利用的科技文献的数量急剧增加,为了更有效地利用这些文献、特别是英文文献,迫切需要对它们进行机器自动分类。传统的文本分类算法没有考虑科技文本具有明显层次结构的这一特征,在进行分类时无法达到... 互联网和科学研究的高速发展导致可利用的科技文献的数量急剧增加,为了更有效地利用这些文献、特别是英文文献,迫切需要对它们进行机器自动分类。传统的文本分类算法没有考虑科技文本具有明显层次结构的这一特征,在进行分类时无法达到满意的效果。论文针对这一特征提出了一种基于层次结构的文本分类模型,并对环境类科技论文进行了分类研究。结果表明,该模型能够稳定并有效地提高分类的精度,提高的幅度在1%到24%之间;同时,该模型还具有良好的泛化能力。 展开更多
关键词 科技论文 文本分类 层次结构 精度泛化
下载PDF
对数字化科技论文的自动分类研究 被引量:5
3
作者 李森 马军 +1 位作者 赵嫣 雷景生 《山东大学学报(理学版)》 CAS CSCD 北大核心 2006年第3期14-16,123,共4页
针对科技论文具有半结构化的特点,提出利用科技论文的元数据的多层次分类模型.这里元数据包含论文的标题、关键词集合和摘要等信息.实验证明,若只利用元数据,可以取得与传统的基于全文信息分类方法近似的分类精度;若基于领域知识所产生... 针对科技论文具有半结构化的特点,提出利用科技论文的元数据的多层次分类模型.这里元数据包含论文的标题、关键词集合和摘要等信息.实验证明,若只利用元数据,可以取得与传统的基于全文信息分类方法近似的分类精度;若基于领域知识所产生的分类法,先利用元数据进行粗分类,然后再进行全文分类,所得到的分类精度要高于已知最好算法.因元数据的尺寸远远小于论文全文的尺寸,而粗分类后每类的论文数要远远小于全体论文数,故在分类类别数目较多且分类文本分布较为平均的情况下,可极大地缩短分类的时间. 展开更多
关键词 科技论文 文本分类 层次结构 分类精度 分类效率
下载PDF
基于元数据的科技论文分类方法 被引量:3
4
作者 王昊鹏 王卫东 李森 《山东师范大学学报(自然科学版)》 CAS 2008年第3期41-43,共3页
随着信息技术和互联网的发展,以数字形式存储的科技论文数目急剧增加.如何对这些科技论文进行有效的分类变得十分迫切.本文针对科技论文是一种半结构化的文献这一特点,提出了一种利用论文中有限的元数据对论文进行分类的想法.实验证明,... 随着信息技术和互联网的发展,以数字形式存储的科技论文数目急剧增加.如何对这些科技论文进行有效的分类变得十分迫切.本文针对科技论文是一种半结构化的文献这一特点,提出了一种利用论文中有限的元数据对论文进行分类的想法.实验证明,在只使用文章的元数据描述,如标题、关键词和摘要等信息时,可以取得与传统的基本文本全文信息分类方法近似的分类精度.在对以大量公式、字符为主的类别进行分类时,以元数据进行分类可以取得更加理想的效果.因元数据的尺寸远远小于全文的尺寸,该方法可极大地缩短分类的时间. 展开更多
关键词 科技论文 文体分类 元数据 分类精度
下载PDF
基于支持向量的最近邻文本分类方法 被引量:3
5
作者 古丽娜孜.艾力木江 乎西旦.居马洪 +1 位作者 孙铁利 梁义 《智能系统学报》 CSCD 北大核心 2018年第5期799-807,共9页
文本分类为一个文档自动分配一组预定义的类别或主题。文本分类中,文档的表示对学习机的学习性能有很大的影响。以实现哈萨克语文本分类为目的,根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理。提出基... 文本分类为一个文档自动分配一组预定义的类别或主题。文本分类中,文档的表示对学习机的学习性能有很大的影响。以实现哈萨克语文本分类为目的,根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理。提出基于最近支持向量机的样本距离公式,避免k参数的选定,以SVM与KNN分类算法的特殊组合算法(SV-NN)实现了哈萨克语文本的分类。结合自己构建的哈萨克语文本语料库的语料进行文本分类仿真实验,数值实验展示了提出算法的有效性并证实了理论结果。 展开更多
关键词 词干提取 预处理 支持向量机 文本分类 分类精度
下载PDF
一种基于SV-NN的哈萨克语文本分类方法 被引量:2
6
作者 古丽娜孜.艾力木江 乎西旦.居马洪 +1 位作者 孙铁利 梁义 《东北师大学报(自然科学版)》 CAS CSCD 北大核心 2018年第2期58-65,共8页
根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理.提出基于最近支持向量机的样本距离公式,结合SVM与KNN分类算法实现了哈萨克语文本的分类.结合构建的哈萨克语文本语料库的语料进行文本分类仿真实验,结... 根据哈萨克语语法规则设计实现哈萨克语文本的词干提取,完成哈萨克语文本的预处理.提出基于最近支持向量机的样本距离公式,结合SVM与KNN分类算法实现了哈萨克语文本的分类.结合构建的哈萨克语文本语料库的语料进行文本分类仿真实验,结果表明所提出的算法是有效的. 展开更多
关键词 词干提取 支持向量机 文本分类 分类精度
下载PDF
网页分类技术的研究 被引量:1
7
作者 王晓霞 尹四清 《机械工程与自动化》 2007年第1期75-77,共3页
首先介绍了常用的几种分类算法,在此基础上提出了一种新的分类算法,并对其进行了性能评测。
关键词 分类文档 分类算法 分类精度
下载PDF
基于粗糙集特征加权的文本分类 被引量:1
8
作者 徐欣 黄理灿 赵玉虹 《浙江理工大学学报(自然科学版)》 2011年第4期544-548,共5页
文本分类是当今信息检索和数据挖掘等领域的研究热点,而特征加权是文本分类过程中的重要步骤。为了提高分类质量,文章通过深入分析粗糙集理论和逆文本频率加权的思想,提出了一种基于粗糙集的特征加权方法,从近似分类精度和近似分类质量... 文本分类是当今信息检索和数据挖掘等领域的研究热点,而特征加权是文本分类过程中的重要步骤。为了提高分类质量,文章通过深入分析粗糙集理论和逆文本频率加权的思想,提出了一种基于粗糙集的特征加权方法,从近似分类精度和近似分类质量两个方面考虑特征词对分类的全局作用,将文本的类别属性信息引入到权重中。通过文本分类实验证明,该加权方法有助于提高分类系统的分类效果。 展开更多
关键词 粗糙集理论 特征加权 文本分类 近似分类精度 近似分类质量
下载PDF
结合词性的短文本相似度算法及其在文本分类中的应用 被引量:11
9
作者 黄贤英 李沁东 刘英涛 《电讯技术》 北大核心 2017年第1期78-82,共5页
针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法(GCSSA)。该方法在基于hownet("知网")语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对... 针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法(GCSSA)。该方法在基于hownet("知网")语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。 展开更多
关键词 短文本分类 短文本相似度 词性 hownet语义 分类准确率
下载PDF
基于粗糙集和特征位置重要度的特征加权方法
10
作者 王勋 裴志利 王庆虎 《内蒙古民族大学学报(自然科学版)》 2013年第2期150-153,共4页
文本预处理是文本分类的首要任务,特征加权直接影响文本预处理的质量,本文提出了基于粗糙集和特征位置重要度加权的方法,该方法的主要思想是:在计算传统TF-IDF特征权重的过程中将已有的决策信息和特征的位置信息引入到权重计算中,考虑... 文本预处理是文本分类的首要任务,特征加权直接影响文本预处理的质量,本文提出了基于粗糙集和特征位置重要度加权的方法,该方法的主要思想是:在计算传统TF-IDF特征权重的过程中将已有的决策信息和特征的位置信息引入到权重计算中,考虑可变精度粗糙集模型中的近似分类质量和近似分类精度以及特征位置信息对全局分类的作用.经过多重文本分类实验证明,本文提出的特征加权方法能够明显的提高文本分类的效率. 展开更多
关键词 近似分类质量 近似分类精度 位置信息
下载PDF
Estimating Daily Dew Point Temperature Based on Local and Cross-StationMeteorological Data Using CatBoost Algorithm 被引量:1
11
作者 Fuqi Yao Jinwei Sun Jianhua Dong 《Computer Modeling in Engineering & Sciences》 SCIE EI 2022年第2期671-700,共30页
Accurate estimation of dew point temperature(Tdew)plays a very important role in the fields of water resource management,agricultural engineering,climatology and energy utilization.However,there are few studies on the... Accurate estimation of dew point temperature(Tdew)plays a very important role in the fields of water resource management,agricultural engineering,climatology and energy utilization.However,there are few studies on the applicability of local Tdew algorithms at regional scales.This study evaluated the performance of a new machine learning algorithm,i.e.,gradient boosting on decision trees with categorical features support(Cat Boost)to estimate daily Tdew using limited local and cross-station meteorological data.The random forests(RF)algorithm was also assessed for comparison.Daily meteorological data from 2016 to 2019,including maximum,minimum and average temperature(Tmax,Tmin and Tmean),maximum,minimum and average relative humidity(RHmax,RHmin and RHmean),maximum,minimum and average global solar radiation(Rsmax,Rsmin and Rsmean)from three weather stations in Hunan of China were used to evaluate the CatBoost and RF algorithms.The results showed that both algorithms achieved satisfactory estimation accuracy at the target stations(on average RMSE=1.020℃,R^(2)=0.969,MAE=0.718℃and NRMSE=0.087)in the absence of complete meteorological parameters(with only temperature data as input).The Cat Boost algorithm(on average RMSE=1.900℃and R^(2)=0.835)was better than the RF algorithm(on average RMSE=2.214℃andR^(2)=0.828).The accuracy and stability of the CatBoost and RF algorithms were positively correlated with the number of input parameters,and the three-parameter algorithms achieved higher estimation accuracy than the two-parameter algorithms.The developed methodology is helpful to predict Tdew at regional scale. 展开更多
关键词 Dew point temperature categorical boosting random forests cross-station accuracy
下载PDF
面向分类数据的重叠子空间聚类算法SCCAT 被引量:2
12
作者 张辉荣 唐雁 +2 位作者 何荧 石教开 徐平安 《西南大学学报(自然科学版)》 CAS CSCD 北大核心 2016年第3期171-176,共6页
改进了面向分类数据的重叠子空间聚类算法(ROCAT),提出了面向分类数据的重叠子空间聚类算法(SCCAT).利用数据凝聚力模型(DCC)代替ROCAT的数据压缩模型以提高算法精度;将源数据集分为样本内数据集和样本外数据集,采取对样本内数据聚类,... 改进了面向分类数据的重叠子空间聚类算法(ROCAT),提出了面向分类数据的重叠子空间聚类算法(SCCAT).利用数据凝聚力模型(DCC)代替ROCAT的数据压缩模型以提高算法精度;将源数据集分为样本内数据集和样本外数据集,采取对样本内数据聚类,对样本外数据分类的方法完成聚类来降低算法复杂度.实验结果表明SCCAT在提高算法精度的同时,也降低了算法的时间复杂度和空间复杂度,适用于大规模数据的处理. 展开更多
关键词 分类数据 复杂度 精度 凝聚力
下载PDF
一种改进的K-Modes聚类算法 被引量:1
13
作者 石隽锋 白妙青 《现代电子技术》 北大核心 2015年第4期39-41,45,共4页
传统的K-Modes算法采用0-1简单匹配方法计算对象与类中心(Modes)之间的距离,并将每个对象分配到离它最近的类中去。采用基于频率方法重新计算各类的类中心(Modes)、定义目标函数,然而,对象的归类方法和目标函数的定义没有充分考虑分类... 传统的K-Modes算法采用0-1简单匹配方法计算对象与类中心(Modes)之间的距离,并将每个对象分配到离它最近的类中去。采用基于频率方法重新计算各类的类中心(Modes)、定义目标函数,然而,对象的归类方法和目标函数的定义没有充分考虑分类数据的特点。对此,提出一种改进的K-Modes算法,采用期望熵最小的衡量方法进行归类,并且采用期望熵作为新的目标函数。通过实验将该算法与传统的K-Modes算法进行比较,表明该算法是更有效的。 展开更多
关键词 分类型数据 聚类算法 期望熵 目标函数 聚类精度
下载PDF
磁共振弥散加权成像在口腔鳞癌颈部淋巴结转移中的初步应用 被引量:4
14
作者 司家文 史宏璐 +3 位作者 刘哲 黄圣运 王广斌 张东升 《中国口腔颌面外科杂志》 CAS 2012年第4期311-315,共5页
目的:评价磁共振弥散加权成像(MR-DWI)在口腔鳞状细胞癌(OSCC)颈部转移性淋巴结诊断中的应用价值。方法:结合术后病理结果,分别分析51例OSCC患者的CT检查资料及20例OSCC患者的MR-DWI影像资料,采用SPSS16.0软件包中的χ2检验,比较不同检... 目的:评价磁共振弥散加权成像(MR-DWI)在口腔鳞状细胞癌(OSCC)颈部转移性淋巴结诊断中的应用价值。方法:结合术后病理结果,分别分析51例OSCC患者的CT检查资料及20例OSCC患者的MR-DWI影像资料,采用SPSS16.0软件包中的χ2检验,比较不同检查方法对OSCC颈部转移淋巴结诊断的准确性,确定OSCC患者头颈部MR-DWI扫描的最佳参数设置。结果 :CT、MR-DWI扫描检查淋巴结转移情况与术后病理结果的符合率分别为69.2%和85.0%。MR-DWI取b值为800s/mm2时图像质量最佳,其诊断的敏感度及特异性分别为87.5%和83.3%,CT为76.2%和63.3%。经χ2检查,MR-DWI扫描诊断结果与术后病理诊断结果具有中等相关性,Kappa值=0.694(P<0.005)。结论:OSCC颈部转移淋巴结的MR-DWI影像特征与病理诊断结果具有较好的相关性,且与CT检查相比,MR-DWI能够更准确地预测OSCC颈部淋巴结转移情况。 展开更多
关键词 口腔癌 鳞状细胞癌 颈淋巴结转移 磁共振 扩散加权成像
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部