期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
结合BERT和特征投影网络的新闻主题文本分类方法 被引量:18
1
作者 张海丰 曾诚 +3 位作者 潘列 郝儒松 温超东 何鹏 《计算机应用》 CSCD 北大核心 2022年第4期1116-1124,共9页
针对新闻主题文本用词缺乏规范、语义模糊、特征稀疏等问题,提出了结合BERT和特征投影网络(FPnet)的新闻主题文本分类方法。该方法包含两种实现方式:方式1将新闻主题文本在BERT模型的输出进行多层全连接层特征提取,并将最终提取到的文... 针对新闻主题文本用词缺乏规范、语义模糊、特征稀疏等问题,提出了结合BERT和特征投影网络(FPnet)的新闻主题文本分类方法。该方法包含两种实现方式:方式1将新闻主题文本在BERT模型的输出进行多层全连接层特征提取,并将最终提取到的文本特征结合特征投影方法进行提纯,从而强化分类效果;方式2在BERT模型内部的隐藏层中融合特征投影网络进行特征投影,从而通过隐藏层特征投影强化提纯分类特征。在今日头条、搜狐新闻、THUCNews-L、THUCNews-S数据集上进行实验,实验结果表明上述两种方式相较于基线BERT方法在准确率、宏平均F1值上均具有更好的表现,准确率最高分别为86.96%、86.17%、94.40%和93.73%,验证了所提方法的可行性和有效性。 展开更多
关键词 预训练语言模型 文本分类 新闻主题 BERT 特征投影网络
下载PDF
结合卷积神经网络和Topic2Vec的新闻主题演变分析 被引量:10
2
作者 徐月梅 吕思凝 +1 位作者 蔡连侨 张小娅 《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第9期31-41,共11页
【目的】通过对网络新闻报道的主题演化研究,分析新闻主题的内容和情感随时间演变过程,把握媒体舆论方向。【方法】提出一种基于Topic2Vec的词向量表达方式改进新闻主题的语义空间距离,并引入卷积神经网络学习主题–特征词矩阵,实现大... 【目的】通过对网络新闻报道的主题演化研究,分析新闻主题的内容和情感随时间演变过程,把握媒体舆论方向。【方法】提出一种基于Topic2Vec的词向量表达方式改进新闻主题的语义空间距离,并引入卷积神经网络学习主题–特征词矩阵,实现大量新闻主题的聚类,从而描绘相同主题的内容强度和情感演变曲线,判别主题关注事件及关键子主题。【结果】以2015年–2017年美国有线电视新闻网对中国的新闻报道作为实验数据集,实验结果表明该方法能够发现主题及其情感在全局时间跨度的演化趋势。【局限】时间窗口长度对主题演化的效果和可变时间窗口长度机制未能全面涉及。【结论】本文的新闻主题演变模型使同类主题在语义空间更为接近,主题分类准确率比对比模型提升约10%,使得分析新闻主题在全局时间跨度的演化成为可能。 展开更多
关键词 新闻主题 卷积神经网络 主题演变 topic2Vec
原文传递
TTP:一个面向中文新闻网页的主题时间解析器 被引量:7
3
作者 赵旭剑 金培权 岳丽华 《小型微型计算机系统》 CSCD 北大核心 2013年第5期1042-1049,共8页
新闻中与主题相关的时态信息体现了新闻在时间维度的主题特征,在面向新闻信息处理的任务中,主题时间常常被用来构建和分析新闻话题模型,同时还可作为事件线索追踪话题演化.针对目前新闻信息处理研究中新闻主题与主题时间相关性差的问题... 新闻中与主题相关的时态信息体现了新闻在时间维度的主题特征,在面向新闻信息处理的任务中,主题时间常常被用来构建和分析新闻话题模型,同时还可作为事件线索追踪话题演化.针对目前新闻信息处理研究中新闻主题与主题时间相关性差的问题,通过深入分析新闻报道类别与网页结构特征,挖掘新闻主题-时间关系模型,并在此模型基础上提出基于主题权重和无监督学习的主题时间抽取算法,实现了一个面向中文新闻网页的主题时间解析器,自动抽取主题时间并进行时态表达规范化处理.实验表明,该算法较同类方法具有更高的准确率,大大提高了新闻主题与主题时间的相关度,整个系统也取得了比较理想的性能评价. 展开更多
关键词 中文信息处理 主题时间 新闻主题 信息抽取
下载PDF
基于XLNet和多粒度对比学习的新闻主题文本分类方法
4
作者 陈敏 王雷春 +2 位作者 徐瑞 史含笑 徐渺 《郑州大学学报(理学版)》 CAS 北大核心 2025年第2期16-23,共8页
新闻主题文本内容简短却含义丰富,传统方法通常只考虑词粒度或句粒度向量中的一种进行研究,未能充分利用新闻主题文本不同粒度向量之间的关联信息。为深入挖掘文本的词向量和句向量间的依赖关系,提出一种基于XLNet和多粒度特征对比学习... 新闻主题文本内容简短却含义丰富,传统方法通常只考虑词粒度或句粒度向量中的一种进行研究,未能充分利用新闻主题文本不同粒度向量之间的关联信息。为深入挖掘文本的词向量和句向量间的依赖关系,提出一种基于XLNet和多粒度特征对比学习的新闻主题分类方法。首先,利用XLNet对新闻主题文本进行特征提取获得文本中词、句粒度的特征表示和潜在空间关系;然后,通过对比学习R-Drop策略生成不同粒度特征的正负样本对,以一定权重对文本的词向量-词向量、词向量-句向量和句向量-句向量进行特征相似度学习,使模型深入挖掘出字符属性和语句属性之间的关联信息,提升模型的表达能力。在THUCNews、Toutiao和SHNews数据集上进行实验,实验结果表明,与基准模型相比,所提方法在准确率和F 1值上都有更好的表现,在三个数据集上的F 1值分别达到了93.88%、90.08%、87.35%,验证了方法的有效性和合理性。 展开更多
关键词 自然语言处理 文本分类 新闻主题 XLNet 对比学习
一种改进的Supervised-LDA文本模型及其应用 被引量:4
5
作者 许腾腾 黄恒君 《计算机工程》 CAS CSCD 北大核心 2018年第1期69-73,78,共6页
有监督的隐狄里克雷分配(s-LDA)模型在分类时不能处理多标签问题,且存在部分主题未正确分配从而导致分配主题精确度下降。为此,在给予响应变量的基础上加入类别标签,构建一种带标签的有监督的隐狄里克雷分配(sl-LDA)模型。分析s-LDA模... 有监督的隐狄里克雷分配(s-LDA)模型在分类时不能处理多标签问题,且存在部分主题未正确分配从而导致分配主题精确度下降。为此,在给予响应变量的基础上加入类别标签,构建一种带标签的有监督的隐狄里克雷分配(sl-LDA)模型。分析s-LDA模型以及该模型主题分类存在的问题,通过验证sl-LDA模型的分类精度,对sl-LDA模型与s-LDA模型进行新闻主题分类实验。在中文和英文新闻语料库上的实验结果表明,英文语料库分类精度提高约3.80%,中文语料库提高约1.77%。 展开更多
关键词 s-LDA模型 响应变量 新闻主题 主题模型 类别标签
下载PDF
BERT-Single:半监督的话题检测与追踪方法 被引量:3
6
作者 侯博元 崔喆 谢欣冉 《计算机应用》 CSCD 北大核心 2022年第S01期21-27,共7页
针对无监督聚类方法在应用于话题检测与追踪任务时难以学习到深层语义特征及任务相关特征,K均值聚类、潜在狄利克雷分布(LDA)等方法无法用于增量式聚类的问题,提出基于预训练语言模型的BERT-Single半监督算法。首先使用小规模有标注数... 针对无监督聚类方法在应用于话题检测与追踪任务时难以学习到深层语义特征及任务相关特征,K均值聚类、潜在狄利克雷分布(LDA)等方法无法用于增量式聚类的问题,提出基于预训练语言模型的BERT-Single半监督算法。首先使用小规模有标注数据训练预训练语言模型BERT,使BERT模型学习到任务特定的先验知识,生成能够适应话题检测与追踪任务且包含深层语义特征的文本向量;然后利用改进的Single-Pass聚类算法将预训练语言模型学习到的有标签样本信息泛化到无标签数据上,提升模型在话题检测与追踪任务上性能。在构建的数据集上进行实验,结果显示,相较于对比模型,BERT-Single模型精确率至少提升了3个百分点、召回率至少提升了1个百分点、F1值至少提升了3个百分点。BERT-Single模型对于解决话题检测与追踪问题具有较好效果,并能够很好地适应增量式聚类任务。 展开更多
关键词 聚类 半监督学习 话题检测与追踪 预训练语言模型 新闻话题
下载PDF
基于Word2Vec的改进密度峰值新闻话题聚类 被引量:3
7
作者 高鑫 徐建 胡建洪 《计算机与数字工程》 2020年第1期7-12,45,共7页
为了提高新闻话题聚类精度,论文提出一种基于Word2Vec的改进密度峰值聚类算法。首先基于Word2Vec提出一种新闻文本的向量表示方法,然后针对密度峰值聚类算法存在的问题,提出一种基于KNN改进的密度峰值聚类算法。该算法首先基于KNN计算... 为了提高新闻话题聚类精度,论文提出一种基于Word2Vec的改进密度峰值聚类算法。首先基于Word2Vec提出一种新闻文本的向量表示方法,然后针对密度峰值聚类算法存在的问题,提出一种基于KNN改进的密度峰值聚类算法。该算法首先基于KNN计算样本的局部密度,然后通过最小二乘法线性拟合选取初始聚类中心并对剩余样本进行指派形成聚类结果。在搜狐新闻数据集上的实验结果验证了该算法的有效性。 展开更多
关键词 Word2Vec 密度峰值聚类 新闻话题
下载PDF
基于LDA模型的新闻话题分类研究 被引量:1
8
作者 谈成访 汪材印 《电脑知识与技术》 2014年第6期3795-3797,3823,共4页
针对部分网站中新闻话题没有分类或者分类不清等问题,将LDA模型应用到新闻话题的分类中。首先对新闻数据集进行LDA主题建模,根据贝叶斯标准方法选择最佳主题数,采用Gibbs抽样间接计算出模型参数,得到数据集的主题概率分布;然后根... 针对部分网站中新闻话题没有分类或者分类不清等问题,将LDA模型应用到新闻话题的分类中。首先对新闻数据集进行LDA主题建模,根据贝叶斯标准方法选择最佳主题数,采用Gibbs抽样间接计算出模型参数,得到数据集的主题概率分布;然后根据JS距离计算文档之间的语义相似度,得到相似度矩阵;最后利用增量文本聚类算法对新闻文档聚类,将新闻话题分成若干个不同结构的子话题。实验结果显示表明该方法能有效地实现对新闻话题的划分。 展开更多
关键词 LDA 文本聚类 新闻话题 分类 主题
下载PDF
一种分层机制的网络新闻话题融合方法
9
作者 赵旭剑 涂勇 +3 位作者 李波 张晖 杨春明 王耀彬 《电脑知识与技术》 2015年第5X期212-214,共3页
传统的新闻话题融合方法往往将话题表示为一个统一的一层模型进行聚类融合,对于具有多层结构的网络新闻存在模型缺陷,容易忽略子话题的细节特征,影响新闻话题的融合结果。针对该问题,本文提出一种基于分层机制的网络新闻话题融合方法,... 传统的新闻话题融合方法往往将话题表示为一个统一的一层模型进行聚类融合,对于具有多层结构的网络新闻存在模型缺陷,容易忽略子话题的细节特征,影响新闻话题的融合结果。针对该问题,本文提出一种基于分层机制的网络新闻话题融合方法,研究话题的多层表示模型,实现对网络新闻话题的自动聚类。实验表明,本文方法较传统方法具有更高的准确率,能有效识别网络新闻在子话题上的特征差异。 展开更多
关键词 多层表示模型 分层机制 新闻话题 话题融合 话题聚类
下载PDF
面向新闻专题的事件关系图构建方法
10
作者 欧伟明 韩博 +3 位作者 关珍博 杨乐 张建民 杜丹 《计算机与网络》 2023年第4期50-54,共5页
为了能够掌握新闻专题的发展演化过程,又使其具备可解释性,提出一种面向新闻专题事件的事件关系图构建方法。基于事件间的关联关系,通过事件抽取、事件合并和事件关系识别等技术,从专题事件的新闻数据集中抽取出元事件,把指代同一现实... 为了能够掌握新闻专题的发展演化过程,又使其具备可解释性,提出一种面向新闻专题事件的事件关系图构建方法。基于事件间的关联关系,通过事件抽取、事件合并和事件关系识别等技术,从专题事件的新闻数据集中抽取出元事件,把指代同一现实事件的多条元事件数据合并为一条元事件数据,基于模式匹配法识别各元事件间的关系,按照时间顺序和事件间关系将专题事件内各零散的元事件组织起来,构建面向新闻专题的事件关系图,刻画专题事件在整个演化发展过程中各子事件间的因果、转折、条件和顺承等关联关系,实现对专题新闻事件来龙去脉更直观的解释和表达。 展开更多
关键词 新闻专题 事件演化 事件关系 事件抽取 事件合并
下载PDF
改进的最小最大聚类方法在新闻主题来源追踪中的应用
11
作者 周序生 《湖南工业大学学报》 2009年第1期66-70,共5页
在分析新闻文档的特殊结构、内容特点以及常用聚类算法优缺点的基础上,提出了一种基于改进的最小最大聚类方法的主题来龙去脉生成方法。实验结果证明,该方法生成的摘要能有效地覆盖主题的内容,较为准确地体现主题的演变过程。
关键词 新闻主题 多文档自动文摘 IMMC
下载PDF
一种中文微博新闻话题检测的方法 被引量:84
12
作者 郑斐然 苗夺谦 +1 位作者 张志飞 高灿 《计算机科学》 CSCD 北大核心 2012年第1期138-141,共4页
微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复... 微博的迅猛发展带来了另一种社会化的新闻媒体形式。提出一种从微博中挖掘新闻话题的方法,即在线检测微博消息中大量突现的关键字,并将它们进行聚类,从而找到新闻话题。为了提取出新闻主题词,综合考虑短文本中的词频和增长速度而构造复合权值,用以量化词语是新闻词汇的程度;在话题构造中使用了上下文的相关度模型来支撑增量式聚类算法,相比于语义相似度模型,其更能适应该问题的特点。在真实的微博数据上运行的实验表明,本方法可以有效地从大量消息中检测出新闻话题。 展开更多
关键词 微博 新闻 话题检测 聚类
下载PDF
财经新闻的话题会影响股票收益率吗?——基于行业板块的研究 被引量:14
13
作者 龙文 毛元丰 +1 位作者 管利静 崔凌逍 《管理评论》 CSSCI 北大核心 2019年第5期18-27,共10页
研究新闻对股票市场的影响是当前研究的热点之一,本文使用宏观财经新闻的话题来研究财经新闻对股票收益率的影响。本文使用LDA方法对宏观财经新闻的话题进行提取,并研究新闻话题分布对于行业板块股票收益率的影响,实证结果证实了中国股... 研究新闻对股票市场的影响是当前研究的热点之一,本文使用宏观财经新闻的话题来研究财经新闻对股票收益率的影响。本文使用LDA方法对宏观财经新闻的话题进行提取,并研究新闻话题分布对于行业板块股票收益率的影响,实证结果证实了中国股票市场的"媒体效应"。在此基础上,本文探讨了行业收益率和新闻话题之间的关系,并选取了制造业和金融业两个代表性行业,通过财经新闻话题分布的变化来预测两个行业收益率的情况,策略的结果表明通过财经新闻话题分布来构建预测模型可以获得超额的收益率。 展开更多
关键词 财经新闻话题 股票市场 媒体效应 LDA
原文传递
电视新闻专题节目特点及发展趋势探析 被引量:13
14
作者 周琼 《新闻界》 CSSCI 北大核心 2008年第4期147-148,共2页
本文分析电视新闻专题节目的特点、优势以及存在的不足,探求其发展趋势,并提出建设性意见。
关键词 电视新闻 专题节目 特点 发展趋势
下载PDF
多特征融合文本聚类的新闻话题发现模型 被引量:10
15
作者 车蕾 杨小平 《国防科技大学学报》 EI CAS CSCD 北大核心 2017年第3期85-90,共6页
融合新闻命名实体、新闻标题、新闻重要段落、文本语义等多特征影响,提出基于多特征融合文本聚类的新闻话题发现模型。模型根据新闻的多特征影响,提出一种多特征融合文本聚类方法。该方法针对新闻标题、新闻重要段落等特征因素构建向量... 融合新闻命名实体、新闻标题、新闻重要段落、文本语义等多特征影响,提出基于多特征融合文本聚类的新闻话题发现模型。模型根据新闻的多特征影响,提出一种多特征融合文本聚类方法。该方法针对新闻标题、新闻重要段落等特征因素构建向量空间模型及相似度算法,基于潜在狄利克雷分配模型构建主题空间模型及相似度算法,针对命名实体构建命名实体模型及相似度算法,并将三种相似度算法形成最优融合。基于多特征融合文本聚类方法,模型改进了用于新闻话题发现的Single-Pass算法。实验是在真实新闻数据集上开展的,实验结果表明:该模型有效地提高了新闻话题发现的准确率、召回率和综合评价指标,并具有一定的自适应能力。 展开更多
关键词 新闻话题 多特征融合 潜在狄利克雷分配 向量空间模型 主题空间模型
下载PDF
基于话题相似性改进的K-means新闻话题聚类 被引量:7
16
作者 陈龙 徐建 +1 位作者 于亚男 胡建洪 《计算机与数字工程》 2017年第8期1560-1565,共6页
新闻话题聚类在舆情监督、热点话题发现、突发事件实时追踪等领域有着重要的应用。基于K-means的文本聚类算法由于算法简单易实现,时空复杂度低,聚类效果优异等特点被广泛用作新闻话题聚类算法。但传统的K-means算法又具有其局限性,如... 新闻话题聚类在舆情监督、热点话题发现、突发事件实时追踪等领域有着重要的应用。基于K-means的文本聚类算法由于算法简单易实现,时空复杂度低,聚类效果优异等特点被广泛用作新闻话题聚类算法。但传统的K-means算法又具有其局限性,如对初始中心点的选择敏感和用户必须自定义分组K等,导致算法收敛于局部最优而无法得到全局最优解。针对传统的K-means算法中初始聚类中心点随机选择导致聚类结果不稳定的问题,提出了一种改进的K-means算法用于新闻话题检测,该算法基于新闻报道相似性选择初始聚类中心点,保证各新闻话题集群具有很好的区分度。并在此基础上,根据新闻话题覆盖率自动确定话题集群个数K。实验结果表明,改进后的算法能够生成稳定的,高质量的话题集群。 展开更多
关键词 K-MEANS算法 新闻话题检测 舆情监督 文本相似性 话题覆盖率
下载PDF
基于知识增强和提示学习的小样本新闻主题分类方法 被引量:1
17
作者 余新言 曾诚 +2 位作者 王乾 何鹏 丁晓玉 《计算机应用》 CSCD 北大核心 2024年第6期1767-1774,共8页
基于预训练微调的分类方法通常需要大量带标注的数据,导致无法应用于小样本分类任务。因此,针对中文小样本新闻主题分类任务,提出一种基于知识增强和提示学习的分类方法KPL(Knowledge enhancement and Prompt Learning)。首先,利用预训... 基于预训练微调的分类方法通常需要大量带标注的数据,导致无法应用于小样本分类任务。因此,针对中文小样本新闻主题分类任务,提出一种基于知识增强和提示学习的分类方法KPL(Knowledge enhancement and Prompt Learning)。首先,利用预训练模型在训练集上学习最优的提示模板;其次,将提示模板与输入文本结合,使分类任务转化为完形填空任务;同时利用外部知识扩充标签词空间,丰富标签词的语义信息;最后,对预测的标签词与原始的标签进行映射。通过在THUCNews、SHNews和Toutiao这3个新闻数据集上进行随机采样,形成小样本训练集和验证集进行实验。实验结果表明,所提方法在上述数据集上的1-shot、5-shot、10-shot和20-shot任务上整体表现有所提升,尤其在1-shot任务上提升效果突出,与基线小样本分类方法相比,准确率分别提高了7.59、2.11和3.10个百分点以上,验证了KPL在小样本新闻主题分类任务上的有效性。 展开更多
关键词 新闻主题分类 提示学习 知识增强 小样本学习 文本分类
下载PDF
短视频驱动传统媒体深度融合发展路径探析
18
作者 赵丹丹 《芜湖职业技术学院学报》 2024年第3期71-74,共4页
在互联网技术蓬勃发展的背景下,短视频已经成为主流媒体融合发展的必要工具,是全媒体传播格局的重要支撑之一。因此,地市级传统媒体应积极利用短视频进行高效转型。可通过建立“PGC+UGC”内容生产方式、直播团队协作机制、传播价值综合... 在互联网技术蓬勃发展的背景下,短视频已经成为主流媒体融合发展的必要工具,是全媒体传播格局的重要支撑之一。因此,地市级传统媒体应积极利用短视频进行高效转型。可通过建立“PGC+UGC”内容生产方式、直播团队协作机制、传播价值综合评价机制、短视频全流程生产机制等途径,充分发挥传统媒体的社会价值,深挖核心潜能,守正创新,以高质量的内容重塑媒体与用户之间的联系,加快推进传统媒体深度融合发展。 展开更多
关键词 短视频 PGC UGC 网络新闻直播 新闻选题 全媒体传播 媒体融合
下载PDF
新闻地图选题策划研究与实践
19
作者 杨佳 《测绘标准化》 2024年第2期16-19,共4页
为满足人们关注纷繁复杂的国际形势的需要,新闻地图提供了一种用地图方式辅助解读新闻事件的成果形式,主要侧重于借助地图方式,并结合专家思想为读者提供主动的知识服务。选题策划是新闻地图编制的首要、关键环节,直接关系到新闻地图提... 为满足人们关注纷繁复杂的国际形势的需要,新闻地图提供了一种用地图方式辅助解读新闻事件的成果形式,主要侧重于借助地图方式,并结合专家思想为读者提供主动的知识服务。选题策划是新闻地图编制的首要、关键环节,直接关系到新闻地图提供知识服务的水平。本文首先梳理了新闻地图的相关概念,在此基础上提出选题策划的主要内容,再归纳总结选题策划的主要方法,最后通过引入数据挖掘、人工智能等技术方法,提出在新闻地图的选题策划环节提高成果效率和质量的几点思考。 展开更多
关键词 新闻地图 知识服务 选题策划
下载PDF
融合要素及主题的汉越双语新闻话题分析 被引量:3
20
作者 夏青 严馨 +3 位作者 余正涛 汪建成 高盛祥 洪旭东 《计算机工程》 CAS CSCD 北大核心 2016年第9期186-191,共6页
双语话题分析与发现是当前国内外的研究热点,但针对特定文本研究较少。为此,在汉越双语新闻文本中,基于双语主题分布词的汉越文本相似度计算方法,提出融合标题、关键词以及实体等并针对新闻文本的新闻要素特征。将这些新闻特征信息融合... 双语话题分析与发现是当前国内外的研究热点,但针对特定文本研究较少。为此,在汉越双语新闻文本中,基于双语主题分布词的汉越文本相似度计算方法,提出融合标题、关键词以及实体等并针对新闻文本的新闻要素特征。将这些新闻特征信息融合到文本相似度计算中构建双语文本相似度矩阵,对汉越双语新闻文本采用自适应K均值算法进行聚类,分析汉越双语新闻话题。实验结果表明,与仅考虑新闻文本相似度的计算方法和K均值聚类方法相比,该方法的准确率、召回率和F值更高。 展开更多
关键词 双语新闻话题分析 汉越双语 文本相似度 主题 自适应聚类
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部