期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于全文内容的学术论文研究方法自动分类研究 被引量:25
1
作者 章成志 李卓 储荷婷 《情报学报》 CSSCI CSCD 北大核心 2020年第8期852-862,共11页
对学术论文所采用的研究方法进行自动分类,有助于研究方法使用行为的分析与研究方法的评估,进而为科研人员推荐或选择合适的研究方法提供依据。相比于摘要信息,全文内容包含更多关于研究方法的上下文信息,因此探索基于全文内容的学术论... 对学术论文所采用的研究方法进行自动分类,有助于研究方法使用行为的分析与研究方法的评估,进而为科研人员推荐或选择合适的研究方法提供依据。相比于摘要信息,全文内容包含更多关于研究方法的上下文信息,因此探索基于全文内容的学术论文研究方法自动分类具有重要的意义。本研究以图书情报领域的820篇学术论文全文为研究对象,邀请专家对其研究方法进行标注得到研究方法训练语料;采用多标签分类任务中问题转换法和算法自适应法,将朴素贝叶斯与支持向量机作为问题转换法的底层分类器,构建6种不同的分类模型,同时选用算法自适应法中的ML-KNN模型,分别对论文中使用的研究方法进行自动分类。实验结果表明,相较于学术论文的摘要信息,全文内容在研究方法分类的性能上有较大的提升;朴素贝叶斯算法在问题转换法的分类器链策略中表现最佳,F1值达到0.705;另外结果也表明不同的学术论文研究方法的特征表征能力不同,训练集的规模较少会导致分类的泛化效果差。 展开更多
关键词 研究方法分类 文本分类 全文内容 多标签分类
下载PDF
基于BR和GBDT的电力信息通信客服系统多标签文本分类 被引量:20
2
作者 俞学豪 赵子岩 +3 位作者 马应龙 郑蓉蓉 郗子月 马超 《电力系统自动化》 EI CSCD 北大核心 2021年第11期144-151,共8页
现有电力信息通信(ICT)客服系统主要依靠客服坐席员经验,根据电力ICT系统用户报修信息进行故障类型分类判别,存在在线处理及时性较差、准确性不足的问题。针对上述问题,提出了一种基于集成学习的电力ICT客服系统文本数据的多标签文本分... 现有电力信息通信(ICT)客服系统主要依靠客服坐席员经验,根据电力ICT系统用户报修信息进行故障类型分类判别,存在在线处理及时性较差、准确性不足的问题。针对上述问题,提出了一种基于集成学习的电力ICT客服系统文本数据的多标签文本分类方法,实现对电力ICT系统的复杂故障类型进行自动化、高准确率分类识别。首先,针对电力ICT系统故障类型识别准确率偏低且低效的问题,提出了基于二元相关性(BR)和梯度提升决策树(GBDT)集成学习的多标签分类方法,将BR和GBDT有机结合实现自动化、高准确率的故障多标签分类。其次,针对电力ICT客服文本数据的多标签分类训练集难以获取的问题,提出一种面向电力ICT客服文本数据的多标签训练集自动化构建方法,实现了高效的电力ICT客服文本多标签分类。实验表明,BR-GBDT方法可以高效处理电力ICT系统复杂故障类型的多标签分类任务,分类性能也优于BR+逻辑回归(LR)和多标签k最近邻(ML-kNN)等典型的集成学习多标签分类方法。 展开更多
关键词 电力信息通信(ICT)客服 文本挖掘 多标签分类 集成学习 梯度提升决策树
下载PDF
融合BERT与多尺度CNN的科技政策内容多标签分类研究 被引量:7
3
作者 马雨萌 黄金霞 +1 位作者 王昉 芮啸 《情报杂志》 CSSCI 北大核心 2022年第11期157-163,共7页
[研究目的]为实现科技政策文本内容的自动编码与多主题分类,探索一种融合BERT模型和多尺度CNN模型的多标签分类方法,得到更加丰富的政策语义特征信息。[研究方法]针对科技政策内容句的信息密度大、内涵分布不均衡等特点,通过BERT充分提... [研究目的]为实现科技政策文本内容的自动编码与多主题分类,探索一种融合BERT模型和多尺度CNN模型的多标签分类方法,得到更加丰富的政策语义特征信息。[研究方法]针对科技政策内容句的信息密度大、内涵分布不均衡等特点,通过BERT充分提取政策内容的上下文信息,增强文本的语义特征表示;然后利用多尺度、多通道的CNN-Inception模块提取更多尺度的特征,通过捕获文本的局部特征与组合不同尺度的语句特征,提升模型在多标签分类任务上的性能。[研究结论]对比实验表明,与单一BERT分类模型相比,文中提出的BERT-多尺度CNN模型的召回率与Micro-F1值显著提高,提升了科技政策多标签分类的效果。 展开更多
关键词 科技政策 文本内容分类 多标签分类 BERT模型 多尺度CNN
下载PDF
基于Albert与TextCNN的中文文本分类研究 被引量:2
4
作者 李飞鸽 王芳 黄树成 《软件导刊》 2023年第4期27-31,共5页
互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Al... 互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Albert生成的词向量进行向量拼接,构成一个融合关键词信息的多义词向量。并且,在传统TextCNN基础上根据中文语言特点调整卷积核窗口大小以提取文本数据的深层局部特征。实验表明,ATT模型相较于未加入TF-IDF关键词表、未调整卷积核大小的传统模型,F1值分别提升1.88%和2.26%,为中文文本分类提供了一种新方法。 展开更多
关键词 向量 文本特征提取 多标签 文本分类
下载PDF
一种半监督金融事件多标签分类方法
5
作者 杨卓峰 李旸 李德玉 《数据采集与处理》 CSCD 北大核心 2024年第2期385-394,共10页
随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向。目前,深度学习方法已在文本分类中广泛应用,针对文... 随着数字金融服务业的不断发展,互联网和金融服务系统积累了海量文本数据,对金融文本中描述的金融事件自动分类是金融科技的现实需求,也是自然语言处理和机器学习领域广泛关注的方向。目前,深度学习方法已在文本分类中广泛应用,针对文本数据中的金融事件多标签分类中存在的已标注数据缺少、已有深度学习方法消耗资源大以及现有方法未利用金融事件文本的具体特点等问题,通过采用ALBERT和TextCNN等表示工具,引入主体词注意力机制,提出了一种半监督金融事件多标签分类方法。首先,通过无监督数据增强(Unsupervised data augmentation,UDA)方法缓解标注数据量不足的问题;其次,引入了主体词注意力机制,使用ALBERT动态词向量表征方法对文本中的词进行表示;然后,利用TextCNN对文本进行综合语义表示;最后,分别采用交叉熵和KL散度度量标记数据和无标记数据的损失来训练模型。在金融文本数据集上验证了本文所提方法的有效性。 展开更多
关键词 金融文本 金融事件 多标签分类 半监督方法 注意力机制
下载PDF
Multi-label text classification model based on semantic embedding 被引量:2
6
作者 Yan Danfeng Ke Nan +2 位作者 Gu Chao Cui Jianfei Ding Yiqi 《The Journal of China Universities of Posts and Telecommunications》 EI CSCD 2019年第1期95-104,共10页
Text classification means to assign a document to one or more classes or categories according to content. Text classification provides convenience for users to obtain data. Because of the polysemy of text data, multi-... Text classification means to assign a document to one or more classes or categories according to content. Text classification provides convenience for users to obtain data. Because of the polysemy of text data, multi-label classification can handle text data more comprehensively. Multi-label text classification become the key problem in the data mining. To improve the performances of multi-label text classification, semantic analysis is embedded into the classification model to complete label correlation analysis, and the structure, objective function and optimization strategy of this model is designed. Then, the convolution neural network(CNN) model based on semantic embedding is introduced. In the end, Zhihu dataset is used for evaluation. The result shows that this model outperforms the related work in terms of recall and area under curve(AUC) metrics. 展开更多
关键词 MULTI-label text classification CONVOLUTION NEURAL network SEMANTIC analysis
原文传递
复杂文本多标签分类算法的设计与仿真 被引量:1
7
作者 李楚贞 吴新玲 余育文 《计算机仿真》 北大核心 2022年第5期299-303,共5页
由于已有算法未能通过卷积神经网络进行分类,导致分类结果不准确,分类复杂度提升,容错率下降。结合卷积神经网络,提出一种新的复杂文本多标签分类算法。首先在训练样本集中通过Bootstrap方法进行样本抽取,利用特征选择算法对抽取的特征... 由于已有算法未能通过卷积神经网络进行分类,导致分类结果不准确,分类复杂度提升,容错率下降。结合卷积神经网络,提出一种新的复杂文本多标签分类算法。首先在训练样本集中通过Bootstrap方法进行样本抽取,利用特征选择算法对抽取的特征进行评价。采用投票方法确定评价结果的特征权重,通过特征权重完成特征选择。然后,利用Word2vec工具将复杂文本特征提取结果转换为词向量,同时将句子整理为向量矩阵的形式。利用粒子群算法对卷积神经网络模型进行优化,进而实现复杂文本多标签分类。最终进行仿真测试,结果表明所提算法能够获取高精度的分类结果,降低分类复杂度,提升容错率。 展开更多
关键词 卷积神经网络 复杂文本 多标签分类
下载PDF
基于聚类树的多类标文本分类算法研究 被引量:1
8
作者 郭颂 姚建峰 周鹏 《信阳师范学院学报(自然科学版)》 CAS 北大核心 2017年第1期140-145,共6页
提出一种新的多类标分类算法——多类标聚类树算法.该算法利用文本属性特征及类标信息,通过迭代调用"基于类标信息的聚类算法",将两空间分类树的生长不断划分,直至空间足够简单为止.实验证明,提出的多类标聚类树算法总体上优... 提出一种新的多类标分类算法——多类标聚类树算法.该算法利用文本属性特征及类标信息,通过迭代调用"基于类标信息的聚类算法",将两空间分类树的生长不断划分,直至空间足够简单为止.实验证明,提出的多类标聚类树算法总体上优于其他对比算法,其分类能力强于排序能力. 展开更多
关键词 文本分类 聚类树分类 多类标分类
下载PDF
基于概念语义相关性和LDA的文本标记算法 被引量:1
9
作者 周春 蒋运承 《华南师范大学学报(自然科学版)》 CAS 北大核心 2018年第4期121-128,共8页
为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记.该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表... 为了提高文本标记和分类的效率,提出了基于概念语义相关性和LDA的文本自动标记算法(Text Mark Label,TML),用以代替人工标记的文本分类标记.该算法在概念语义相关性计算的基础上,使用LDA(Latent Dirichlet Allocation)提取文本的主题表示,通过计算文本主题从属于各分类目录的期望从而实现文本自动标记.为验证TML算法的效果,在标准文本分类数据集上使用文本分类器进行有监督文本分类实验.为对比数据集和分类器对分类效果的影响,在3个数据集(WebKB、Reuters-21578、20-News Group)上分别使用3种不同的分类器(Rocchio、KNN、SVM)进行实验.实验结果表明:TML算法有效地提高了文本分类效率及文本标记效率. 展开更多
关键词 概念语义相关性 相似度计算 文本标记 主题模型 文本分类
下载PDF
基于ESVM的科技政策文本标签分类研究 被引量:1
10
作者 吴峰 李银生 +3 位作者 聂永川 范通让 赵文彬 张博 《河北省科学院学报》 CAS 2018年第1期1-10,共10页
文本标签作为一种文本关键词,能够简化科技政策中有效信息的挖掘。本文从科技政策类别角度,将标签类别分为科技投入、知识产权、农村科技和税收四类,针对传统SVM算法的缺点和标签数据不平衡的缺点,结合欧式距离思想,提出一种带有惩罚因... 文本标签作为一种文本关键词,能够简化科技政策中有效信息的挖掘。本文从科技政策类别角度,将标签类别分为科技投入、知识产权、农村科技和税收四类,针对传统SVM算法的缺点和标签数据不平衡的缺点,结合欧式距离思想,提出一种带有惩罚因子的ESVM科技政策文本标签分类方法。最后,对比SVM和ESVM两种分类方法,验证了本文方法在处理科技政策文本标签数据上的有效性。 展开更多
关键词 文本标签分类 科技政策 SVM 不平衡数据
下载PDF
一种基于改进ML-KNN的微博文本分类方法 被引量:1
11
作者 杜亚璞 《信息与电脑》 2018年第7期42-44,共3页
针对传统ML-KNN进行多标签文档分类时,忽略标签之间关联性的问题,笔者提出了一种基于改进的ML-KNN多标签微博短文本分类方法。该方法通过归一化互信息控制每对标签的相关性阈值。针对微博短文本的特征,在计算文本相似度时引入同义词词... 针对传统ML-KNN进行多标签文档分类时,忽略标签之间关联性的问题,笔者提出了一种基于改进的ML-KNN多标签微博短文本分类方法。该方法通过归一化互信息控制每对标签的相关性阈值。针对微博短文本的特征,在计算文本相似度时引入同义词词林进行语义特征扩展。通过数据集的实验测试,笔者所提方法在性能上优于传统的ML-KNN算法。 展开更多
关键词 ML-KNN 微博 短文本 多标签分类
下载PDF
基于学术论文全文的跨语言研究方法自动分类研究 被引量:7
12
作者 田亮 李博闻 章成志 《图书馆建设》 CSSCI 北大核心 2022年第1期75-86,共12页
自动识别学术论文所使用的研究方法对研究方法的评估、方法使用行为分析、方法检索等均具有重要意义。学术论文研究方法的自动分类离不开大量训练语料,但论文研究方法标注成本高昂,探讨如何充分利用现有标注数据对于降低标注成本具有重... 自动识别学术论文所使用的研究方法对研究方法的评估、方法使用行为分析、方法检索等均具有重要意义。学术论文研究方法的自动分类离不开大量训练语料,但论文研究方法标注成本高昂,探讨如何充分利用现有标注数据对于降低标注成本具有重要意义。以图书情报领域为研究对象,首先通过实验比较了基于英文摘要的单语言方法和基于全文的跨语言方法,进而说明了使用跨语言方法的必要性;其次比较了两种跨语言方法在跨语言研究方法分类中的效果;最后对本文提出的一种学术论文全文处理方法进行了验证。实验结果表明,基于学术论文全文的跨语言方法明显优于基于英文摘要的单语言方法,基于机器翻译的方法比基于跨语言预训练模型的方法更优。此外,实验表明针对学术论文全文的长文本处理方法相较于基线方法有明显提升。 展开更多
关键词 研究方法自动分类 跨语言文本分类 多标签分类 学术论文全文内容
原文传递
深层次标签辅助分类任务的层次标签文本分类方法
13
作者 曹渝昆 魏子越 +2 位作者 唐艺嘉 金成坤 李云峰 《计算机工程与应用》 CSCD 北大核心 2024年第10期105-112,共8页
层次标签文本分类是自然语言处理领域中一项具有挑战性的任务,每个文档需要被正确分类到对应具有层次结构的多个标签中。然而在标签集中,由于标签包含的语义信息不充分,同时被归类到深层次标签的文档数量过少,深层次标签训练不充分,导... 层次标签文本分类是自然语言处理领域中一项具有挑战性的任务,每个文档需要被正确分类到对应具有层次结构的多个标签中。然而在标签集中,由于标签包含的语义信息不充分,同时被归类到深层次标签的文档数量过少,深层次标签训练不充分,导致显著的标签训练不平衡问题。基于此,提出了深层次标签辅助分类任务的层次标签文本分类方法(DLAC)。该方法提出了一种深层次标签辅助分类器,在标签语义增强的基础上有效利用文本特征与深层次标签对应的父标签结点(即浅层次标签的丰富特征)来提升深层次标签的分类性能。与11种算法在三个数据集上的对比实验结果表明,模型能够有效提升深层次标签的分类性能,并取得良好效果。 展开更多
关键词 层次标签文本分类 标签层次结构 全局标签分类通道 深层次标签辅助分类通道
下载PDF
考虑标签层级结构的专利文本分类算法研究
14
作者 李永忠 黄种标 吕菲 《信息与电脑》 2023年第20期73-78,共6页
针对海量的中文专利文本,为提高人工分类的效率,减少由分类人员主观知识和客观因素影响导致的错误分类,本研究提出一种融合标签层次结构信息的专利文本分类模型。以2017年中国专利申请数据为实验数据集,针对国际专利分类号的层次结构信... 针对海量的中文专利文本,为提高人工分类的效率,减少由分类人员主观知识和客观因素影响导致的错误分类,本研究提出一种融合标签层次结构信息的专利文本分类模型。以2017年中国专利申请数据为实验数据集,针对国际专利分类号的层次结构信息构建一个全局的层级多标签分类模型,并在专利文本表征中融入专利标签的层次结构信息。实验结果表明,在中文专利文本分类领域融入标签的层次结构信息有助于提升模型性能。 展开更多
关键词 专利文本分类 层级多标签分类 国际专利分类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部