期刊文献+
共找到282篇文章
< 1 2 15 >
每页显示 20 50 100
一种基于N-Gram技术的中文文献自动分类方法 被引量:18
1
作者 何浩 杨海棠 《情报学报》 CSSCI 北大核心 2002年第4期421-427,共7页
本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n... 本文介绍一种基于n gram技术的、与语言无关的文献分类方法K meansaxiales (KMA) ,及其在中文文献自动分类中的应用。这种方法将文献转换成由n gram(n个连续的字符 )频次构成的向量。为压缩存储空间、提高处理速度 ,我们运用哈希函数将n gram映射为哈希码 ,对文献的分析实际上以哈希码频次为基础运行。采用KMA算法 ,我们对一个中文数据库进行了自动分类的实验研究 ,在比较实验结果的基础上 ,我们对KMA算法初始参数的选择进行了初步探讨。 展开更多
关键词 N-GRAM 汉字切分 哈密码 文献向量 KMA 自动分类 文献分类
下载PDF
基于kNN的快速WEB文档分类 被引量:13
2
作者 李杨 曾海泉 +1 位作者 刘庆华 胡运发 《小型微型计算机系统》 CSCD 北大核心 2004年第4期725-729,共5页
根据测试文档在各个样本类中的分布情况 ,发现了基于 k NN分类的两个有助于减少大量计算的重要性质 ,在此基础上提出了两个重要算法 :排类算法和归类算法 ,从而构建了一个基于 k NN的快速 Web文档分类方法 .理论与实验表明 ,这种方法可... 根据测试文档在各个样本类中的分布情况 ,发现了基于 k NN分类的两个有助于减少大量计算的重要性质 ,在此基础上提出了两个重要算法 :排类算法和归类算法 ,从而构建了一个基于 k NN的快速 Web文档分类方法 .理论与实验表明 ,这种方法可以在不影响原有准确率的条件下 。 展开更多
关键词 文档分类 KNN 快速分类 排类算法
下载PDF
基于机器学习的专利文本分类算法研究综述 被引量:18
3
作者 刘红光 马双刚 刘桂锋 《图书情报研究》 2016年第3期79-86,共8页
总结国内外专利文本分类情况,简要叙述基于机器学习的专利文本分类的一般框架,介绍专利文本分类的文本预处理、特征提取、文本表示、分类器构建及效果评价等过程。将应用于专利文本分类的机器学习算法分为单一分类算法和组合分类算法着... 总结国内外专利文本分类情况,简要叙述基于机器学习的专利文本分类的一般框架,介绍专利文本分类的文本预处理、特征提取、文本表示、分类器构建及效果评价等过程。将应用于专利文本分类的机器学习算法分为单一分类算法和组合分类算法着重探讨:单一分类算法主要有NB算法、ANN算法、Rocchio算法、KNN算法、SVM算法等;组合分类算法主要有两种组合算法,如NB-KNN算法、Rocchio-KNN算法、KNN-SVM算法、SVM-其它算法,还有多种组合算法。指出各种机器学习算法应用在专利文本分类上的优势与不足,从专利文本预处理、特征提取、专利文本表示、分类器的构建、新方法的探索等五个方面对专利文本自动分类技术进行展望。 展开更多
关键词 专利文本 自动分类 机器学习 朴素贝叶斯 支持向量机
下载PDF
基于核方法的XML文档自动分类 被引量:14
4
作者 杨建武 《计算机学报》 EI CSCD 北大核心 2011年第2期353-359,共7页
支持向量机(SVM)方法通过核函数进行空间映射并构造最优分类超平面解决分类器的构造问题,该方法在文本自动分类应用中具有明显优势.XML文档是文本内容信息与结构信息的综合体,作为一种新的数据形式,成为当前的研究热点.文中以结构链接... 支持向量机(SVM)方法通过核函数进行空间映射并构造最优分类超平面解决分类器的构造问题,该方法在文本自动分类应用中具有明显优势.XML文档是文本内容信息与结构信息的综合体,作为一种新的数据形式,成为当前的研究热点.文中以结构链接向量模型为基础,研究了基于支持向量机的XML文档自动分类方法,提出了适合XML文档分类的核函数及其参数的学习方法,从而将XML文档的结构分析与内容分析有机地结合起来.在INEX数据集上的测试结果表明,该方法的分类准确性明显高于INEX评测中所公布各方法的评测结果. 展开更多
关键词 XML文档 文档分类 核函数 支持向量机 文档模型
下载PDF
融合单词贡献度与Word2Vec词向量的文档表示 被引量:15
5
作者 彭俊利 谷雨 +1 位作者 张震 耿小航 《计算机工程》 CAS CSCD 北大核心 2021年第4期62-67,共6页
针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值... 针对现有文档向量表示方法受噪声词语影响和重要词语语义不完整的问题,通过融合单词贡献度与Word2Vec词向量提出一种新的文档表示方法。应用数据集训练Word2Vec模型,计算数据集中词语的贡献度,同时设置贡献度阈值,提取贡献度大于该阈值的单词构建单词集合。在此基础上,寻找文档与集合中共同存在的单词,获取其词向量并融合单词贡献度生成文档向量。实验结果表明,该方法在搜狗中文文本语料库和复旦大学中文文本分类语料库上分类的平均准确率、召回率和F1值均优于TF-IDF、均值Word2Vec、PTF-IDF加权Word2Vec模型等传统方法,同时其对英文文本也能进行有效分类。 展开更多
关键词 单词贡献度 Word2Vec词向量 词嵌入 文档表示 文本分类
下载PDF
基于流形学习和SVM的Web文档分类算法 被引量:14
6
作者 王自强 钱旭 《计算机工程》 CAS CSCD 北大核心 2009年第15期38-40,共3页
为解决Web文档分类问题,提出一种基于流形学习和SVM的Web文档分类算法。该算法利用流形学习算法LPP对训练集中的高维Web文档空间进行非线性降维,从中找出隐藏在高维观测数据中有意义的低维结构,在降维后的低维特征空间中利用乘性更新规... 为解决Web文档分类问题,提出一种基于流形学习和SVM的Web文档分类算法。该算法利用流形学习算法LPP对训练集中的高维Web文档空间进行非线性降维,从中找出隐藏在高维观测数据中有意义的低维结构,在降维后的低维特征空间中利用乘性更新规则的优化SVM进行分类预测。实验结果表明该算法以较少的运行时间获得更高的分类准确率。 展开更多
关键词 文档分类 流形学习 支持向量机
下载PDF
基于扩展角分类神经网络的文档分类方法(英文) 被引量:12
7
作者 陈恩红 张振亚 +1 位作者 合源一幸 王煦法 《软件学报》 EI CSCD 北大核心 2002年第5期871-878,共8页
CC4神经网络是一种三层前馈网络的新型角分类(corner classification)训练算法,原用于元搜索引擎Anvish的文档分类.当各文档之间的规模接近时,CC4神经网络有较好的分类效果.然而当文档之间规模差别较大时,其分类性能较差.针对这一问题,... CC4神经网络是一种三层前馈网络的新型角分类(corner classification)训练算法,原用于元搜索引擎Anvish的文档分类.当各文档之间的规模接近时,CC4神经网络有较好的分类效果.然而当文档之间规模差别较大时,其分类性能较差.针对这一问题,本文意图扩展原始CC4神经网络,达到对文档有效分类的效果.为此,提出了一种基于MDS-NN的数据索引方法,将每一文档映射至k维空间数据点,并尽可能多地保持原始文档之间的距离信息.其次,通过将索引信息变换为CC4神经网络接受的0,1序列,实现对CC4神经网络的扩展,使其能够接受索引信息作为输入.实验结果表明对相互之间规模差别较大的文档,扩展CC4神经网络的性能优于原始CC4神经网络的性能.同时,扩展CC4神经网络的分类精度与文档索引方法有密切关系. 展开更多
关键词 角分类 神经网络 文档分类 数据索引 距离信息
下载PDF
论历史文献中的石刻文献 被引量:11
8
作者 刘心明 《理论学刊》 北大核心 2006年第3期88-91,共4页
自殷商时代算起,到清代末年为止,我国古代石刻文献的制作已有三千多年的历史。石刻文献中蕴藏着丰富的原始资料,具有极高的学术价值。利用石刻文献,既可以补充传世文献的缺略,又可以订正传世文献的讹误。中国的石刻文献,主要有灵石刻辞... 自殷商时代算起,到清代末年为止,我国古代石刻文献的制作已有三千多年的历史。石刻文献中蕴藏着丰富的原始资料,具有极高的学术价值。利用石刻文献,既可以补充传世文献的缺略,又可以订正传世文献的讹误。中国的石刻文献,主要有灵石刻辞、摩崖刻辞、器物刻辞、墓葬刻辞等四个来源。石刻文献的分类工作,应本着“辨章学术、考镜源流”的原则,类目体系的设置应同时具有两方面的作用:一是能够全面而又准确地反映出石刻文献本身所具有的学术价值,二是能够便于人们方便快捷而又充分有效地利用这些资料来从事研究工作。在研究石刻文献的过程中,既要阐释石刻文献的思想内容,也要揭示石刻文献的形制特征与行文惯例。 展开更多
关键词 历史文献 石刻文献 价值 起源 分类 研究方法
下载PDF
基于BERT的长文本分类方法 被引量:7
9
作者 刘博 蒲亦非 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期75-82,共8页
由于预训练模型输入分词数量限制,基于BERT的长文本分类任务效果与长文本分割后的文本段集合的处理及特征融合密切相关,现有的长文本分类研究在融合文本段特征时更关注文本段之间原始的顺序关系,而本文提出了一种基于BERT和集合神经网... 由于预训练模型输入分词数量限制,基于BERT的长文本分类任务效果与长文本分割后的文本段集合的处理及特征融合密切相关,现有的长文本分类研究在融合文本段特征时更关注文本段之间原始的顺序关系,而本文提出了一种基于BERT和集合神经网络的长文本分类模型.该方法以BERT为基础,可处理从同一文本样本分割得到的任意数量文本段,经过BERT后得到文本段特征,再将所有文本段特征输入到具有置换不变性的集合神经网络层中,提取出集合级别特征来优化长文本的特征表达.通过在三个数据上的实验分析,论文在平均分词长度较长的数据集上取得了90.82%的准确率,高出目前最优方法4.37%. 展开更多
关键词 文本分类 BERT 集合神经网络 长文本
下载PDF
基于Word2vec的文档分类方法 被引量:10
10
作者 陈杰 陈彩 梁毅 《计算机系统应用》 2017年第11期159-164,共6页
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征... 文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高. 展开更多
关键词 文档向量 文档特征提取 文档分类 TF-IDF word2vec
下载PDF
支持向量机在文本自动分类中的应用研究 被引量:7
11
作者 田晓宇 梁静国 《情报学报》 CSSCI 北大核心 2006年第2期208-214,共7页
针对数据挖掘中的文本自动分类问题,提出了一种基于支持向量机的分类方法。构造了可用于多个模式类识别的多层级连式SVM模型,该模型可完成对多个模式的分类识别。根据训练样本的分类体系完成对模型的构造之后,即可应用于实际文档的... 针对数据挖掘中的文本自动分类问题,提出了一种基于支持向量机的分类方法。构造了可用于多个模式类识别的多层级连式SVM模型,该模型可完成对多个模式的分类识别。根据训练样本的分类体系完成对模型的构造之后,即可应用于实际文档的自动分类。文中给出了该模型的构造及应用的方法,用两种核函数作为内积回旋方案,以中国期刊网全文数据库部分文档数据为例验证了该方法的有效性。 展开更多
关键词 支持向量机 文本分类 机器学习 模式识别
下载PDF
朴素贝叶斯在文本分类中的应用 被引量:11
12
作者 熊志斌 刘冬 《软件导刊》 2013年第2期49-51,共3页
朴素贝叶斯理论是一种典型机器学习技术,能够应用于文本分类中。运用朴素贝叶斯理论阐述了贝叶斯分类器的样本训练和分类计算的过程,构造了一个文本分类器。试验表明,朴素贝叶斯理论在文本分类中有较好的分类效果。
关键词 中文信息处理 文本分类 机器学习 朴素贝叶斯
下载PDF
通信网络安全防护相关工作综述 被引量:10
13
作者 魏亮 魏薇 《电信网技术》 2011年第3期5-9,共5页
介绍了通信网络安全防护相关工作现状,包括安全防护相关政策文件、技术标准、定级备案、检查等,并对通信网络安全防护下一步工作进行了展望。
关键词 安全防护 政策文件 标准 定级备案 检查
下载PDF
文本分类系统关键技术 被引量:7
14
作者 谢科 张辉 +1 位作者 陈鹏 庞斌 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期123-126,共4页
从自然语言的角度考虑词性选择,同时从统计学角度考虑删除文档频率过低的特征词,从而避免产生维数灾难,通过考查类别本身特征和类别之间的关系来提取类别特征向量,采用传统夹角余弦公式考查文本与类别的相似度,实现一种过程简单,易于理... 从自然语言的角度考虑词性选择,同时从统计学角度考虑删除文档频率过低的特征词,从而避免产生维数灾难,通过考查类别本身特征和类别之间的关系来提取类别特征向量,采用传统夹角余弦公式考查文本与类别的相似度,实现一种过程简单,易于理解且分类效果不错的文本分类系统。 展开更多
关键词 文本分类 夹角余弦 向量空间模型 特征
下载PDF
基于信息度量的图像特征与文本图像分类 被引量:7
15
作者 童莉 平西建 《计算机工程》 CAS CSCD 北大核心 2004年第17期143-145,共3页
作为一种基本图像类型,文本图像在电子商务等方面得到了广泛应用。针对图像数据库中文本图像识别与分类的应用需求,依据文本图像数据与连续色调图像的总体灰度分布差异,该文提出了一种基于图像信息度量(Picture Information Measure,PIM... 作为一种基本图像类型,文本图像在电子商务等方面得到了广泛应用。针对图像数据库中文本图像识别与分类的应用需求,依据文本图像数据与连续色调图像的总体灰度分布差异,该文提出了一种基于图像信息度量(Picture Information Measure,PIM)的图像特征和基于该特征的文本图像分类方法。约2G、800幅网络图像数据库的分析和实验表明,图像的PIM特征可以显著区分文本图像和连续色调图像,识别和分类效果好。 展开更多
关键词 图像检索 文本图像 图像信息度量 识别分类
下载PDF
基于文本内容自动分类的跨学科测度研究 被引量:4
16
作者 吕琦 上官燕红 +1 位作者 张琳 黄颖 《数据分析与知识发现》 CSCD 北大核心 2023年第4期56-67,共12页
【目的】根据文献内容划分学科属性以满足基于单篇文献学科分类的跨学科测度需求。【方法】基于鲁汶-布达佩斯(Leuven-Budapest)学科分类体系,根据15个一级学科的期刊文献摘要信息,选取机器学习、深度学习、预训练语言模型等自动分类领... 【目的】根据文献内容划分学科属性以满足基于单篇文献学科分类的跨学科测度需求。【方法】基于鲁汶-布达佩斯(Leuven-Budapest)学科分类体系,根据15个一级学科的期刊文献摘要信息,选取机器学习、深度学习、预训练语言模型等自动分类领域中使用较广泛的三类方法对期刊文献进行分类,并根据改进后的SCIBERT模型的学科分类结果对15个一级学科进行跨学科测度分析。【结果】改进后的SCIBERT模型自动分类效果最好,平均F1值为81.45%,个别类别的分类效果达到90%以上;15个一级学科中生物医学研究跨学科程度最高为0.38,物理学跨学科程度最低为0.08。【局限】从文本内容视角考量跨学科测度,未结合其他视角引入多维跨学科测度指标进行全面测量,未引入多种方法进行跨学科性测度。【结论】预训练模型在期刊文献的自动分类领域效果最优,深度学习模型次之,机器学习模型的期刊文献自动分类效果最差;利用自动分类的方法面向文献内容进行跨学科测度,拓宽了当前跨学科测度的研究体系,有助于多角度、深层次的理解跨学科研究。 展开更多
关键词 跨学科研究 文本分类 文本挖掘 机器学习 跨学科测度
原文传递
基于主题注意力层次记忆网络的文档情感建模 被引量:8
17
作者 刘广峰 黄贤英 +1 位作者 刘小洋 范海波 《四川大学学报(自然科学版)》 CAS CSCD 北大核心 2019年第5期833-842,共10页
针对文档水平情感分析传统模型存在先验知识依赖以及语义理解不足问题,提出一种基于注意力机制与层次网络特征表示的情感分析模型TWE-ANN.采用基于CBOW方式的word2vec模型针对语料训练词向量,减小词向量间的稀疏度,使用基于Gibbs采样的... 针对文档水平情感分析传统模型存在先验知识依赖以及语义理解不足问题,提出一种基于注意力机制与层次网络特征表示的情感分析模型TWE-ANN.采用基于CBOW方式的word2vec模型针对语料训练词向量,减小词向量间的稀疏度,使用基于Gibbs采样的LDA算法计算出文档主题分布矩阵,继而通过层次LSTM神经网络获取更为完整的文本上下文信息从而提取出深度情感特征,将文档主题分布矩阵作为模型注意力机制提取文档特征,从而实现情感分类.实验结果表明:提出的TWE-ANN模型较TSA、HAN模型分类效果较好,在Yelp2015、IMDB、Amazon数据集上的F值分别提升了1.1%、0.3%、1.8%,在Yelp2015和Amazon数据集上的RMSE值分别提升了1.3%、2.1%. 展开更多
关键词 文档分类 情感分析 层次记忆网络 注意力机制 词向量
下载PDF
基于本体的文档自动分类系统的研究 被引量:6
18
作者 王卫东 王英林 《计算机仿真》 CSCD 2005年第4期183-186,共4页
讨论了基于本体的文档自动分类系统的意义,给出了系统的框架。利用现有的文档自动分类技术,结合领域本体的分类词汇为文档建立索引。研究人工分类、机器学习分类的结合方法,提出基于“分类-使用-调整”逐步求精的分类方法。结合企业知... 讨论了基于本体的文档自动分类系统的意义,给出了系统的框架。利用现有的文档自动分类技术,结合领域本体的分类词汇为文档建立索引。研究人工分类、机器学习分类的结合方法,提出基于“分类-使用-调整”逐步求精的分类方法。结合企业知识管理需求,开发了原型系统,进行了初步验证。 展开更多
关键词 知识管理 企业本体 文档分类 语义检索
下载PDF
版面分割中游程平滑后的图文特征分类 被引量:4
19
作者 张利 朱颖 吴国威 《中国图象图形学报(A辑)》 CSCD 1998年第10期827-831,共5页
游程平滑是版面分割前期常用的一种方法,它将具有较小距离的象素连通在一起形成连通元素。对这些连通元素加以分类是有效划分文本、图象和图形的前提。本文提出了利用几何特征的分类规则以及进一步细分的线结构特征检测方法。
关键词 版面分割 游程平滑 特征分类 图文特征 计算机
下载PDF
基于随机森林算法的网络舆情文本信息分类方法研究 被引量:7
20
作者 吴坚 沙晶 《信息网络安全》 2014年第11期36-40,共5页
面对海量增长的互联网舆情信息,对这些舆情文本信息进行分类成为一项非常有意义的任务。首先,文章给出了文本文档的表示模型及特征选择函数的选取。然后,分析了随机森林算法在分类学习算法中的特点,提出了通过构建一系列的文档决策树来... 面对海量增长的互联网舆情信息,对这些舆情文本信息进行分类成为一项非常有意义的任务。首先,文章给出了文本文档的表示模型及特征选择函数的选取。然后,分析了随机森林算法在分类学习算法中的特点,提出了通过构建一系列的文档决策树来完成文档所属类别的判定。在实验中,收集了大量的网络媒体语料,并设定了训练集和测试集,通过对比测试得到了常见算法(包括k NN、SMO、SVM)与本算法RF的对比量化性能数据,证明了本文提出的算法具有较好的综合分类率和分类稳定性。 展开更多
关键词 网络舆情文本 随机森林算法 文档决策树 文档分类
下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部