期刊文献+
共找到21篇文章
< 1 2 >
每页显示 20 50 100
结合LDA与Self-Attention的短文本情感分类方法 被引量:7
1
作者 陈欢 黄勃 +2 位作者 朱翌民 俞雷 余宇新 《计算机工程与应用》 CSCD 北大核心 2020年第18期165-170,共6页
在对短文本进行情感分类任务的过程中,由于文本长度过短导致数据稀疏,降低了分类任务的准确率。针对这个问题,提出了一种基于潜在狄利克雷分布(LDA)与Self-Attention的短文本情感分类方法。使用LDA获得每个评论的主题词分布作为该条评... 在对短文本进行情感分类任务的过程中,由于文本长度过短导致数据稀疏,降低了分类任务的准确率。针对这个问题,提出了一种基于潜在狄利克雷分布(LDA)与Self-Attention的短文本情感分类方法。使用LDA获得每个评论的主题词分布作为该条评论信息的扩展,将扩展信息和原评论文本一起输入到word2vec模型,进行词向量训练,使得该评论文本在高维向量空间实现同一主题的聚类,使用Self-Attention进行动态权重分配并进行分类。通过在谭松波酒店评论数据集上的实验表明,该算法与当前主流的短文本分类情感算法相比,有效地提高了分类性能。 展开更多
关键词 主题词 短文本 Self-Attention 潜在狄利克雷分布(LDA) word2vec
下载PDF
基于主题信息的项目评审专家推荐方法 被引量:6
2
作者 余峰 余正涛 +2 位作者 杨剑锋 郭剑毅 严馨 《计算机工程》 CAS CSCD 2014年第6期201-205,共5页
针对为项目自动推荐评审专家的任务特点,提出一种基于主题信息的专家推荐方法。在分析项目与专家描述文档的属性特点后,使用隐含狄利克雷分配模型获取文档内容的主题词,通过统计主题词词频的方法构建主题特征空间,并结合文档属性栏目的... 针对为项目自动推荐评审专家的任务特点,提出一种基于主题信息的专家推荐方法。在分析项目与专家描述文档的属性特点后,使用隐含狄利克雷分配模型获取文档内容的主题词,通过统计主题词词频的方法构建主题特征空间,并结合文档属性栏目的重要性因素,利用TF-IDF特征提取算法分别获得项目文档与专家文档的主题特征向量,采用改进的相似度算法计算项目与专家主题特征向量的相关度,并选择与项目相关度较高的专家作为推荐结果。实验结果表明,该方法的推荐效果优于使用TF-IDF+余弦相似度计算的推荐方法,准确率、召回率和综合评价指标F值平均提高了4.87%,5.04%和4.97%。 展开更多
关键词 专家推荐 隐含狄利克雷分配模型 主题词 向量空间模型 TF—IDF特征 相似度计算
下载PDF
基于T-HDGN模型的对话摘要生成方法 被引量:1
3
作者 高玮军 刘健 毛文静 《计算机工程》 CAS CSCD 北大核心 2023年第10期80-88,共9页
随着对话系统和文本摘要生成技术的发展,生成式对话摘要引起了广泛的关注。由于会话中的信息流至少在2个对话者之间交换,关键信息往往分散在各说话者的不同话语中,因此传统文本摘要模型生成的对话摘要包含冗余或者不正确的内容。针对传... 随着对话系统和文本摘要生成技术的发展,生成式对话摘要引起了广泛的关注。由于会话中的信息流至少在2个对话者之间交换,关键信息往往分散在各说话者的不同话语中,因此传统文本摘要模型生成的对话摘要包含冗余或者不正确的内容。针对传统文本摘要模型在生成对话摘要时对会话的上下文理解不充分且难以将说话人与其正确的行动相联系的问题,提出一种基于T-HDGN模型的对话摘要生成方法。利用抽取的行动三元组对会话结构进行显式建模,将话语和行动三元组作为2种不同类型的数据来构建异质对话图,并通过1个异质图网络对这2种信息进行建模。同时,还增加说话人作为异质节点以促进信息流的传播。此外,在解码阶段使用主题词特征辅助摘要的生成。在SAMSum数据集上的实验结果表明,所提方法在ROUGE-1、ROUGE-2、ROUGE-L评价指标上分别达到42.05%、18.09%、39.48%,相比Longest-3、PGN、Fast Abs RL等基线模型,能有效地融合信息并且准确地将说话人与其对应动作相关联。 展开更多
关键词 对话摘要 异质图 行动三元组 主题词 异质图网络
下载PDF
基于主题词匹配频数的搜索引擎结果聚类算法 被引量:2
4
作者 胡诗未 李晓峰 徐伟 《计算机工程与科学》 CSCD 北大核心 2011年第6期130-132,共3页
搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题... 搜索引擎结果聚类对提高搜索引擎服务质量和智能化水平有较高的应用价值,它是从标题和文档片段的有限信息中寻找文档相关度进行聚类。传统搜索引擎聚类没有充分利用搜索引擎结果的自身特点,或者计算复杂度较高。本文提出了一种基于主题词匹配频数的搜索引擎聚类算法,该算法从高频词中筛选出主题词,根据主题词共现情况自动产生类别,其他结果依据满足与类别主题词表的匹配频数的文档数进行聚类。实验结果与STC和LINGO算法相比,搜索质量有所提高。 展开更多
关键词 搜索结果聚类 词间语义相关度 文档相似度 主题词
下载PDF
再探高等教育研究信息检索系统的编纂方法 被引量:1
5
作者 张璠 刘红平 雷瑜良 《重庆交通学院学报(社会科学版)》 2005年第1期113-115,共3页
介绍编制中国高等教育研究信息检索系统的编纂方法,指出《高等教育分类主题词表》是建立科学的中国高等教育研究信息检索系统方法的基础,并分析该系统的检索特点。
关键词 中国高等教育研究信息 检索系统 编纂 主题词
下载PDF
信息检索需求描述中的词语区域凸显
6
作者 熊文新 宋柔 《计算机科学》 CSCD 北大核心 2008年第2期181-184,共4页
根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略。实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TF&... 根据对当前主流信息检索测试Query的形式和内容分析,通过正则表达式将SGML形式的Query表述区分为不同描述域和主题功能块,针对处于不同区域的词语实施不同的加权策略。实验表明,结合主题词语的区域凸显和TF×IDF的加权方法比单纯TF×IDF方法MRR值高出26.67%。 展开更多
关键词 信息检索 主题词语 凸显 描述域 功能块
下载PDF
基于主题词频数特征的文本主题划分 被引量:11
7
作者 康恺 林坤辉 周昌乐 《计算机应用》 CSCD 北大核心 2006年第8期1993-1995,共3页
目前文本分类所采用的文本—词频矩阵具有词频维数过大和过于稀疏两个特点,给计算造成了一定困难。为解决这一问题,从用户使用搜索引擎时选择所需文本的心理出发,提出了一种基于主题词频数特征的文本主题划分方法。该方法首先根据统计... 目前文本分类所采用的文本—词频矩阵具有词频维数过大和过于稀疏两个特点,给计算造成了一定困难。为解决这一问题,从用户使用搜索引擎时选择所需文本的心理出发,提出了一种基于主题词频数特征的文本主题划分方法。该方法首先根据统计方法筛选各文本类的主题词,然后以主题词类替代单个词作为特征采用模糊C-均值(FCM)算法施行文本聚类。实验获得了较好的主题划分效果,并与一种基于词聚类的文本聚类方法进行了过程及结果中多个方面的比较,得出了一些在实施要点和应用背景上较有意义的结论。 展开更多
关键词 搜索引擎 文本聚类 模糊C-均值 主题词筛选
下载PDF
基于组合相似度动态聚类和词熵的网络话题在线检测
8
作者 郭慧 王亚楠 +2 位作者 王欣艳 魏艺泽 王养廷 《情报杂志》 北大核心 2024年第5期159-166,共8页
[研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题... [研究目的]为实现网络热点话题的在线检测,提升增量式聚类算法的聚类效果,提出了基于组合相似度的动态聚类算法,同时通过计算词熵实现主题词提取和演化跟踪。[研究方法]通过CIFG-BiLSTM-CRF模型实现文本的命名实体识别,计算文本与话题的实体相似度,再取文本词向量与话题中心余弦相似度的最大值作为词向量相似度,二者结合判断文本所属话题。在聚类过程中利用时间窗口策略实现话题中心和成员文本的动态更新。同时,计算文本词熵,生成话题的词熵和列表,实现话题主题词提取和演化跟踪。实验以新冠疫情新闻为数据实现话题在线检测,并展示了话题主题词的演化和跟踪过程。[研究结论]实验表明,与传统相似度计算方法相比,组合相似度能够获得更好的聚类效果,聚类过程中提取出的话题主题词也正确地反映了原始数据的热点话题内容。 展开更多
关键词 网络话题 在线话题检测 增量式聚类 主题词提取 组合相似度 动态聚类算法 词熵
下载PDF
基于多元相似度融合的中文命名实体消歧方法
9
作者 石水倩 金晶 +2 位作者 沈耕宇 王宝佳 任妮 《数据分析与知识发现》 EI CSCD 北大核心 2024年第2期56-64,共9页
【目的】解决文本中多个不同含义的同名实体在映射到知识库时产生的歧义问题,提高实体消歧的准确率。【方法】提出一种多元相似度融合方法,考虑实体上下文的语义相似度、实体属性的背景相似度和主题词的主题相似度,对实体进行刻画。【... 【目的】解决文本中多个不同含义的同名实体在映射到知识库时产生的歧义问题,提高实体消歧的准确率。【方法】提出一种多元相似度融合方法,考虑实体上下文的语义相似度、实体属性的背景相似度和主题词的主题相似度,对实体进行刻画。【结果】在维基百科农业方向数据集上的实验结果表明,本文所提方法准确率为89.7%,优于传统方法。【局限】方法仅在特定领域适用。【结论】本文所提多元相似度融合方法较传统方法和主流消歧方法具有更高的实体消歧准确率,能够解决特定领域的实体消歧问题,未来可将其应用于更广泛的实体消歧场景中。 展开更多
关键词 实体消歧 相似度 上下文词向量 实体属性 主题词向量
原文传递
基于主题词共现的文档非对称关系量化研究 被引量:1
10
作者 张国防 王鑫 徐建民 《数据分析与知识发现》 CSCD 北大核心 2023年第3期110-120,共11页
【目的】探究文档间的非对称关系并提出量化模型。【方法】基于主题词共现思想,挖掘主题词间的非对称关联信息,采用文档覆盖度指标量化文档间的非对称关系,通过文档聚类进行实证分析。【结果】在文档聚类应用中,与已有的两种文档间关系... 【目的】探究文档间的非对称关系并提出量化模型。【方法】基于主题词共现思想,挖掘主题词间的非对称关联信息,采用文档覆盖度指标量化文档间的非对称关系,通过文档聚类进行实证分析。【结果】在文档聚类应用中,与已有的两种文档间关系量化模型相比,所提出的基于主题词共现的文档非对称关系量化模型使聚类结果的平均熵值分别最大下降了22.6%和23.3%。【局限】量化模型只聚焦了文档的文本内容,未考虑图片和公式等非文本内容对文档间非对称关系的影响。【结论】利用文档间非对称关系能更好地区分文档间差异性,有助于提高文档聚类准确率。 展开更多
关键词 非对称关系 主题词共现 覆盖度
原文传递
基于情感主题特征词加权的微博评论聚类算法研究 被引量:2
11
作者 吴迪 杨瑞欣 申超 《现代电子技术》 北大核心 2020年第23期67-71,75,共6页
为了提高微博评论的情感分析聚类效果,提出一种基于情感主题特征词加权的微博评论聚类算法。该算法首先通过定义情感主题词袋提取情感主题词;然后利用语义相似度计算获得情感主题特征词,进一步通过定义情感主题特征词重要度和分布度对... 为了提高微博评论的情感分析聚类效果,提出一种基于情感主题特征词加权的微博评论聚类算法。该算法首先通过定义情感主题词袋提取情感主题词;然后利用语义相似度计算获得情感主题特征词,进一步通过定义情感主题特征词重要度和分布度对其进行加权,充分考虑情感主题特征词对主题的贡献度;最后通过LDA聚类获得加权的情感主题特征词。实验结果表明,该算法表现出较好的情感分析聚类效果,对网络舆情分析有一定的指导作用。 展开更多
关键词 微博评论 聚类算法 LDA聚类 情感分析 特征词加权 主题词提取
下载PDF
基于局部密度的无监督作文跑题检测方法 被引量:1
12
作者 李霞 温启帆 《中文信息学报》 CSCD 北大核心 2017年第6期205-213,共9页
针对现有的无监督作文跑题检测方法中,使用作文内容向量表示作文存在非主题词噪声所导致的相似度不准确问题,该文提出一种基于作文主题词抽取和局部密度阈值选择的无监督作文跑题检测方法。首先使用LDA主题生成模型挖掘待测作文的主题词... 针对现有的无监督作文跑题检测方法中,使用作文内容向量表示作文存在非主题词噪声所导致的相似度不准确问题,该文提出一种基于作文主题词抽取和局部密度阈值选择的无监督作文跑题检测方法。首先使用LDA主题生成模型挖掘待测作文的主题词,并使用分布式表示向量寻找与题目词项语义相似的词,作为对作文题目的主题词扩展,在此基础上使用提出的切题度计算方法计算待测作文的切题度,并使用所提出的基于作文集切题度局部密度的阈值抽取方法动态选取切题阈值,进而实现一种无需训练集和主题无关的无监督作文跑题检测方法。在以英语为母语的学习者和以汉语为母语的学习者所写的8个作文集共9 381篇作文上的实验结果表明,该文提出的作文跑题检测方法能有效识别跑题作文,加入拼写检查预处理后,平均F1值为79.64%,单个作文题目下F1值最好为96.1%。 展开更多
关键词 作文跑题检测 主题词抽取 切题度 阈值选取
下载PDF
基于主题词对的文档重排方法 被引量:2
13
作者 何婷婷 许婷 +1 位作者 瞿国忠 涂新辉 《计算机工程与应用》 CSCD 北大核心 2007年第11期161-163,共3页
提出了一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。主题词对的选择采用概率潜在语义索... 提出了一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6%和55.8%。 展开更多
关键词 主题词对 概率潜在语义索引 文档重排
下载PDF
基于话题标签和转发关系的微博聚类和主题词提取 被引量:2
14
作者 束珏 成卫青 邓聪 《计算机应用》 CSCD 北大核心 2016年第2期460-464,共5页
针对微博聚类正确率不高的问题,在研究微博数据特点的基础上,利用微博hashtag来增强向量空间模型,使用微博之间的转发关系提升聚类的准确性,并利用微博的转发、评论数以及微博发布者信息来提取聚类中的主题词。在新浪微博数据集上进行... 针对微博聚类正确率不高的问题,在研究微博数据特点的基础上,利用微博hashtag来增强向量空间模型,使用微博之间的转发关系提升聚类的准确性,并利用微博的转发、评论数以及微博发布者信息来提取聚类中的主题词。在新浪微博数据集上进行实验发现,与k-means算法和基于加权语义和贝叶斯的中文短文本增量聚类算法(ICST-WSNB)相比,基于话题标签和转发关系的微博聚类算法的准确率比k-means算法提高了18.5%,比ICSTWSNB提高了6.48%,召回率以及F-值也有了一定的提高。实验结果表明基于话题标签和转发关系的微博聚类算法能够有效地提高微博聚类的正确率,进而获取更加合适的主题词。 展开更多
关键词 微博数据 文本挖掘 特征权重 微博转发关系 主题词提取
下载PDF
基于HDP的主题词向量构造——以柬语为例
15
作者 李超 严馨 +3 位作者 谢俊 徐广义 周枫 莫源源 《计算机工程与科学》 CSCD 北大核心 2020年第6期1111-1119,共9页
针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-Gram... 针对单一词向量中存在的一词多义和一义多词的问题,以柬语为例提出了一种基于HDP主题模型的主题词向量的构造方法。在单一词向量基础上融入了主题信息,首先通过HDP主题模型得到单词主题标签,然后将其视为伪单词与单词一起输入Skip-Gram模型,同时训练出主题向量和词向量,最后将文本主题信息的主题向量与单词训练后得到的词向量进行级联,获得文本中每个词的主题词向量。与未融入主题信息的词向量模型相比,该方法在单词相似度和文本分类方面均取得了更好的效果,获取的主题词向量具有更多的语义信息。 展开更多
关键词 HDP主题模型 主题词向量 Skip-Gram模型
下载PDF
基于BiLSTM-CRF的体育新闻主题词抽取方法
16
作者 江逸琪 赵彤洲 +1 位作者 柴悦 高佩东 《武汉工程大学学报》 CAS 2020年第1期102-107,共6页
针对典型的循环神经网络方法在抽取主题词时因缺少上下文相关的句子级信息而导致识别准确率较低的问题,提出了一种基于双向长短期记忆网络条件随机场(BiLSTM-CRF)模型联合TextRank的主题词抽取方法。首先,利用TextRank对新闻文本进行主... 针对典型的循环神经网络方法在抽取主题词时因缺少上下文相关的句子级信息而导致识别准确率较低的问题,提出了一种基于双向长短期记忆网络条件随机场(BiLSTM-CRF)模型联合TextRank的主题词抽取方法。首先,利用TextRank对新闻文本进行主题句抽取,再使用双向长短期记忆(BiLSTM)模型获取文本的前后特征,最后使用条件随机场(CRF)完成句子级序列标注,得到主题词。在多组体育类新闻数据集上进行实验,该方法较对照组BiLSTM方法F1值提高约0.8%~5.1%,且用时更短。因此,改进的BiLSTM-CRF方法可显著提升主题词的抽取准确率和效率。 展开更多
关键词 抽取 TextRank BiLSTM-CRF
下载PDF
《高等教育分类主题词表》与《中图法》高等教育类目体系的比较
17
作者 雷瑜良 高尚平 +1 位作者 石菊君 邓光荣 《重庆交通学院学报(社会科学版)》 2006年第1期108-110,共3页
《高等教育分类主题词表》是“建立中国高等教育信息网络检索系统的研究”课题所研究并采用的《分类主题词》一体化表。将本表与《中图法》高等教育类目进行比较,并阐述其特点。
关键词 高等教育 分类 主题词体系 比较 特点
下载PDF
一种基于网络表示学习的生活模式挖掘方法
18
作者 蔡郑 贾利娟 孙扬清 《电脑知识与技术》 2020年第31期81-85,共5页
近几年,随着移动终端设备的普及以及移动社交网络的发展,大量的时空信息数据得以被采集并上传到网络云端,使得获取时空信息变得相对简单。随着相关数据的累积,越来越多的学者开始投入到相关的研究之中。该文通过网络表示学习的方法对时... 近几年,随着移动终端设备的普及以及移动社交网络的发展,大量的时空信息数据得以被采集并上传到网络云端,使得获取时空信息变得相对简单。随着相关数据的累积,越来越多的学者开始投入到相关的研究之中。该文通过网络表示学习的方法对时空信息进行了预处理,再结合自然语言处理将用户一定时间范围内的活动通过主题向量来表示,然后通过聚类和频繁模式发掘等方法发掘出用户的生活模式。实验结果验证了本文方法的有效性。 展开更多
关键词 时空信息 语义 网络表示 主题向量 生活模式
下载PDF
基于文本挖掘的专利技术主题分析研究综述 被引量:42
19
作者 胡阿沛 张静 +1 位作者 雷孝平 张晓宇 《情报杂志》 CSSCI 北大核心 2013年第12期88-92,61,共6页
为应对专利数量巨大和技术的日益复杂给专利技术主题分析带来的挑战,以及利用文本挖掘技术的专利技术主题分析近来成为研究热点。首先介绍文本挖掘的概念和其发展历史。其次,对目前基于文本挖掘的专利技术主题分析方法进行了归纳,包括... 为应对专利数量巨大和技术的日益复杂给专利技术主题分析带来的挑战,以及利用文本挖掘技术的专利技术主题分析近来成为研究热点。首先介绍文本挖掘的概念和其发展历史。其次,对目前基于文本挖掘的专利技术主题分析方法进行了归纳,包括主题词词频分析、共词分析、文本聚类分析和与引文聚类结合的分析方法,总结其常用的分析工具并介绍新的科学图谱分析软件——SciMAT。最后总结基于文本挖掘的专利技术主题分析方法的优点与不足,为其将来的研究提供建议。 展开更多
关键词 文本挖掘 技术主题 专利分析 词频分析 共词分 析文本聚类
下载PDF
微博热词抽取及话题发现研究 被引量:10
20
作者 郝晓玲 茅嘉惠 于秀艳 《情报杂志》 CSSCI 北大核心 2015年第6期109-113,157,共6页
旨在实践一种方法,能从大量散乱的微博语料中快速抽取热点词语并从中形成话题。首先参考文本串的词频、内部聚合度、粘联度这三个统计特征判断文本串是否成词,直接从样本语料中抽取出高频词。然后根据这些高频词在不同时间窗口的出现频... 旨在实践一种方法,能从大量散乱的微博语料中快速抽取热点词语并从中形成话题。首先参考文本串的词频、内部聚合度、粘联度这三个统计特征判断文本串是否成词,直接从样本语料中抽取出高频词。然后根据这些高频词在不同时间窗口的出现频率筛选出实时热词,最后利用词共现确定热词间的关联度,将热词聚类形成热点话题。实验证明,该算法简单易行,在话题发现中取得了良好的效果。 展开更多
关键词 微博 微博热词 话题发现 词共现
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部