期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
基于百度百科与文本分类的网络文本语义主题抽取方法 被引量:9
1
作者 陈叶旺 王华珍 +2 位作者 李海波 钟必能 陈锻生 《小型微型计算机系统》 CSCD 北大核心 2012年第12期2605-2610,共6页
网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文... 网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文本映射到侯选语义主题空间中,根据训练数据进行分类,找出最大可能的分类,选出属于该分类的候选语义主题.最后提出根据语义离散度确定最终语义主题.在两个数据集上的实验结果表明,该方法不仅对网络不规范文本而且对于规则文本都具有较好的语义主题抽取性能. 展开更多
关键词 百度百科 语义主题 主题抽取 语义离散度
下载PDF
浅析移动社交网络语义话题的若干关键技术
2
作者 赵建东 陆奎 李雪萍 《电脑知识与技术》 2016年第9期227-229,共3页
随着移动终端的普及,手机用户之间的沟通、传播与分享正在构建自组织移动社交网络并逐步渗透到人们日常生活、工作、学习和娱乐中,而移动社交网络也将成为一种全新的连接并融合物理空间和网络空间的真实社会网络模式。随之而来的对日益... 随着移动终端的普及,手机用户之间的沟通、传播与分享正在构建自组织移动社交网络并逐步渗透到人们日常生活、工作、学习和娱乐中,而移动社交网络也将成为一种全新的连接并融合物理空间和网络空间的真实社会网络模式。随之而来的对日益海量和错综复杂信息的移动网络语义话题的研究也日趋困难。因此,该文以海量的、高阶异构的移动社会网络数据为背景,提出了以语义话题发现、搜索和溯源为目标来探究社交网络及其语义话题的关键技术。 展开更多
关键词 移动网络 语义话题 话题溯源 潜在语义 话题搜索
下载PDF
一种基于百度百科的中文网络文本关键词抽取方法
3
作者 陈叶旺 《小型微型计算机系统》 CSCD 北大核心 2014年第11期2422-2427,共6页
网络上存在海量的中文文本资源,其中有许多具有稀疏性与不规范性,这令以统计词组方式来抽取文本关键词的方法表现不佳.基于百度百科本文提出一种中文网络文本关键词抽取方法,通过百科知识关系将文本从外延词条集合映射到能体现其内涵的... 网络上存在海量的中文文本资源,其中有许多具有稀疏性与不规范性,这令以统计词组方式来抽取文本关键词的方法表现不佳.基于百度百科本文提出一种中文网络文本关键词抽取方法,通过百科知识关系将文本从外延词条集合映射到能体现其内涵的语义主题空间中,再利用主题间的关系进行权值调整,最后通过Nave Bayes法回溯并找到原文的关键词.该方法有效地避开穷举词条的统计方式,能在很大程度上解决现有文本挖掘方法无法抽取网络词汇和新生词汇这一难题.在两个数据集上的实验表明,该方法在规范的文本和不规范文本上都有着较好且稳定的表现. 展开更多
关键词 网络文本 百度百科 语义主题
下载PDF
基于潜语义主题加强的跨媒体检索算法 被引量:11
4
作者 黄育 张鸿 《计算机应用》 CSCD 北大核心 2017年第4期1061-1064,1110,共5页
针对不同模态数据对相同语义主题表达存在差异性,以及传统跨媒体检索算法忽略了不同模态数据能以合作的方式探索数据的内在语义信息等问题,提出了一种新的基于潜语义主题加强的跨媒体检索(LSTR)算法。首先,利用隐狄利克雷分布(LDA)模型... 针对不同模态数据对相同语义主题表达存在差异性,以及传统跨媒体检索算法忽略了不同模态数据能以合作的方式探索数据的内在语义信息等问题,提出了一种新的基于潜语义主题加强的跨媒体检索(LSTR)算法。首先,利用隐狄利克雷分布(LDA)模型构造文本语义空间,然后以词袋(Bo W)模型来表达文本对应的图像;其次,使用多分类逻辑回归对图像和文本分类,用得到的基于多分类的后验概率表示文本和图像的潜语义主题;最后,利用文本潜语义主题去正则化图像的潜语义主题,使图像的潜语义主题得到加强,同时使它们之间的语义关联最大化。在Wikipedia数据集上,文本检索图像和图像检索文本的平均查准率为57.0%,比典型相关性分析(CCA)、SM(Semantic Matching)、SCM(Semantic Correlation Matching)算法的平均查准率分别提高了35.1%、34.8%、32.1%。实验结果表明LSTR算法能有效地提高跨媒体检索的平均查准率。 展开更多
关键词 跨媒体检索 潜语义主题 多分类逻辑回归 后验概率 正则化
下载PDF
基于语义爬虫的商品信息主题采集研究 被引量:7
5
作者 黄炜 张李义 《现代图书情报技术》 CSSCI 北大核心 2010年第1期3-8,共6页
结合网页主题链接分析和网页主题内容语义分析,提出一个以主题爬虫实现采集商品信息的方法。在爬行过程中通过对本体的统计学习,使主题本体参照物不断得到优化。实验结果表明,该方法较其他传统爬行算法更有效,并能防止主题漂移的发生,... 结合网页主题链接分析和网页主题内容语义分析,提出一个以主题爬虫实现采集商品信息的方法。在爬行过程中通过对本体的统计学习,使主题本体参照物不断得到优化。实验结果表明,该方法较其他传统爬行算法更有效,并能防止主题漂移的发生,带来较高的主题收获率。 展开更多
关键词 主题爬虫 商务信息语义 主题链接分析 本体学习
原文传递
基于CTM模型和最优标签集的图像标注 被引量:3
6
作者 朱韶平 夏利民 朱城 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2014年第1期147-153,162,共8页
为了提高自动标注系统的性能,提出了一种基于最优标签集图像自动标注系统优化算法.用词袋模型表示图像,采用CTM模型进行图像标注,在此基础上,采用基于词频因子的词间相关性以及启发式迭代算法对获得的标注词进行有效的优化,提高了标注... 为了提高自动标注系统的性能,提出了一种基于最优标签集图像自动标注系统优化算法.用词袋模型表示图像,采用CTM模型进行图像标注,在此基础上,采用基于词频因子的词间相关性以及启发式迭代算法对获得的标注词进行有效的优化,提高了标注词的准确性.在Corel5K数据集中利用LDA模型和CTM模型进行图像标注对比实验,实验结果表明本文提出的图像标注方法能有效提高标注系统的性能. 展开更多
关键词 CTM模型 LDA模型 潜在语义主题 最佳标签集
原文传递
专利文本技术挖掘研究进展综述 被引量:17
7
作者 胡正银 方曙 《现代图书情报技术》 CSSCI 北大核心 2014年第6期62-70,共9页
【目的】归纳基于文本专利技术挖掘通用流程,提炼其中关键技术,并对典型挖掘场景进行分析。【文献范围】以"专利挖掘、专利分析"等关键词在Elsevier、Springer、CNKI数据库进行检索,并参考全球技术挖掘相关会议,共阅读相关文... 【目的】归纳基于文本专利技术挖掘通用流程,提炼其中关键技术,并对典型挖掘场景进行分析。【文献范围】以"专利挖掘、专利分析"等关键词在Elsevier、Springer、CNKI数据库进行检索,并参考全球技术挖掘相关会议,共阅读相关文献105篇,实际参考文献66篇。【方法】梳理其关键技术专利知识表示的研究现状与发展趋势,选取三类典型技术挖掘场景进行分析,通过归纳总结、提炼出专利技术挖掘未来发展趋势与研究热点。【结果】专利知识表示的粒度与结构决定了专利技术挖掘的深度、广度与维度。基于SAO基础语义单元,面向技术难题与解决方案的专利技术挖掘有望成为未来发展趋势与研究热点。【局限】本研究仅探讨现有文本挖掘、统计分析、自然语言处理技术在专利技术挖掘中的应用情况,对这些技术本身的发展趋势关注不足。【结论】本研究有助于全面了解专利技术挖掘的概貌、涉及的关键技术及主要应用场景。 展开更多
关键词 专利技术挖掘 语义知识表示 主题聚类 专利分类 技术演化
原文传递
基于双向LSTM语义强化的主题建模 被引量:14
8
作者 彭敏 杨绍雄 朱佳晖 《中文信息学报》 CSCD 北大核心 2018年第4期40-49,共10页
当前,双向LSTM神经网络等深度学习方法已经能有效地表达文本语义特征,为构建深层次的具有语义连贯性的主题模型提供了可能。但是,现有方法在文本的概率主题建模方面,提升的效果还比较有限。该文提出了一个基于双向LSTM语义强化的概率主... 当前,双向LSTM神经网络等深度学习方法已经能有效地表达文本语义特征,为构建深层次的具有语义连贯性的主题模型提供了可能。但是,现有方法在文本的概率主题建模方面,提升的效果还比较有限。该文提出了一个基于双向LSTM语义强化的概率主题模型DGPU-LDA(double generalized polya Urn with LDA)。该模型一方面结合双向LSTM文档语义编码框架DS-Bi-LSTM(document semantic bi-directional LSTM)来实现文档宏观语义的嵌入表示,另一方面采用文档—主题和词汇—词汇双GPU(generalized polya Urn)语义强化机制以及LSTM来刻画参数推断过程中的吉布斯采样过程。在搜狗新闻数据集以及20新闻组数据集上的实验结果表明,相对于一些比较前沿的主题模型,DGPU-LDA模型在主题语义连贯性、文本分类准确率方面展现了一定的优势,同时该模型在文本语义特征表达方面的有效性也得到了证明。 展开更多
关键词 双向LSTM 语义强化 主题模型
下载PDF
基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究 被引量:11
9
作者 王子璇 乐小虬 何远标 《数据分析与知识发现》 CSSCI CSCD 2017年第4期1-8,共8页
【目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集,通过训练领域词向量计算句子间WMD距离得到相应语义相似度,优化Text Rank算法迭代过程,利用外部特征对所得权值进行调整,按句子权值降序选取关... 【目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集,通过训练领域词向量计算句子间WMD距离得到相应语义相似度,优化Text Rank算法迭代过程,利用外部特征对所得权值进行调整,按句子权值降序选取关键主题句。【结果】以气候变化领域科技论文作为实验数据,以人工标注的结果为基准对本文的算法和传统的Text Rank算法进行对比实验,初步结果表明该方法的识别效果(F值)比传统Text Rank算法提升约5%。【局限】句子特征提取有待提高,词向量训练及方法中的相关参数需要做进一步优化。【结论】基于领域词向量,融合WMD语义相似度的Text Rank改进算法,能够较好地甄别科技论文小节内部中心句,辅以外部特征的权值调整后可以较好地识别出一篇论文的核心主题句。 展开更多
关键词 WMD TextRank 语义相似 主题句识别 外部特征
原文传递
话题结构与主谓结构——话题的语义类型与英译转换 被引量:4
10
作者 邵志洪 赵宏 《解放军外国语学院学报》 北大核心 2003年第3期6-10,共5页
本文以郁达夫短篇小说《春风沉醉的晚上》中的话题结构为语料,根据话题的语义类型,分门别类与其对应的英语译文进行对比分析,目的在于检验话题结构的语义关系类型与句法表现,对比话题化与主语化两种不同语法化的结果,从而为汉语话题—... 本文以郁达夫短篇小说《春风沉醉的晚上》中的话题结构为语料,根据话题的语义类型,分门别类与其对应的英语译文进行对比分析,目的在于检验话题结构的语义关系类型与句法表现,对比话题化与主语化两种不同语法化的结果,从而为汉语话题—述题结构转化成英语主语—谓语结构提供一定依据和规律。 展开更多
关键词 话题结构 主谓结构 转换 话题语义类型
下载PDF
互联网社交平台舆论趋势预测算法研究 被引量:1
11
作者 王海兮 吴喆熹 马军 《应用科技》 CAS 2023年第6期101-105,共5页
为解决互联网社交平台话题趋势预测不准确的问题,提出基于量化计算的互联网话题趋势预测算法。本文通过分析互联网特定话题下的主题立场文本、评论账户画像、评论贴文内容等多维度特征,设计了一种面向互联网特定话题的舆论趋势预测方法... 为解决互联网社交平台话题趋势预测不准确的问题,提出基于量化计算的互联网话题趋势预测算法。本文通过分析互联网特定话题下的主题立场文本、评论账户画像、评论贴文内容等多维度特征,设计了一种面向互联网特定话题的舆论趋势预测方法,通过特定话题数据获取、用户观点立场分析、趋势走向判断样本集构建模型,构建的互联网话题趋势预测神经网络模型比传统的舆论趋势预测模型更准确、更全面。本文提出的基于量化计算的互联网话题趋势预测算法,可作为互联网舆情趋势分析研判的重要手段。 展开更多
关键词 舆论分析 舆论趋势 神经网络模型 账号属性特征 内容语义特征 话题立场语义特征 舆论趋势预测 立场变化
下载PDF
网络信息语义组织和检索的实现路径 被引量:6
12
作者 包冬梅 《图书情报工作》 CSSCI 北大核心 2006年第12期12-16,共5页
针对网络信息语义组织和检索的研究现状,指出基于语义知识组织基础上的语义概念检索是解决问题的根本之道,主要探讨在受限领域中如何引入新兴的知识组织技术——本体和主题图实现语义检索,阐述语义信息组织和检索的两条实现路径:基于本... 针对网络信息语义组织和检索的研究现状,指出基于语义知识组织基础上的语义概念检索是解决问题的根本之道,主要探讨在受限领域中如何引入新兴的知识组织技术——本体和主题图实现语义检索,阐述语义信息组织和检索的两条实现路径:基于本体的语义检索及基于主题图的知识导航。 展开更多
关键词 信息组织 语义检索 本体 主题图
原文传递
医学文献主题语义相似度计算方法研究 被引量:3
13
作者 范少萍 安新颖 逯万辉 《图书情报工作》 CSSCI 北大核心 2017年第8期96-105,共10页
[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]... [目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]以Me SH词表为语义计算的基础,剖析词表结构与现有研究成果,从入口词、语义距离、注释3个维度综合测度主题间的语义相似度,利用Pub Med中2011-2014年干细胞领域的文献进行实证研究。[结果/结论]利用通用验证主题词对,验证了本文所提3个测度维度的有效性。通过主题间语义相似度的计算,发现干细胞领域2011-2014年较为新颖的主题为未成年人干细胞研究。后续研究中还需融入基于统计的主题相似度,从而更加全面地揭示主题间的关系,发现语义层面领域的新颖性研究主题。 展开更多
关键词 语义相似度 MESH词表 主题语义相似度
原文传递
基于本体的Web信息采集 被引量:2
14
作者 徐德智 王庆涛 王斌 《现代图书情报技术》 CSSCI 北大核心 2007年第2期53-55,共3页
将语义网技术同传统的信息检索技术相结合,给出基于本体的Web信息采集框架结构,提出利用主题本体及对应词典判断主题相关度的方法,并得出实验结果和评价。
关键词 信息采集 本体 语义网 主题相关性
下载PDF
文档内可视化分析工具的比较研究 被引量:2
15
作者 陆泉 赵琴 陈静 《信息资源管理学报》 2016年第2期63-71,共9页
文章对现有文档内可视化分析工具进行梳理,根据可视化对象差异将工具分为基于文档内词汇分布的可视化、基于文档内语义结构的可视化、基于文档内主题内容的可视化共三种类型;然后从适用文档、文本分析方法、可视化形式、可视化对象、交... 文章对现有文档内可视化分析工具进行梳理,根据可视化对象差异将工具分为基于文档内词汇分布的可视化、基于文档内语义结构的可视化、基于文档内主题内容的可视化共三种类型;然后从适用文档、文本分析方法、可视化形式、可视化对象、交互方式、优势、局限性等方面对其中12种典型工具进行详细分析和比较,并由此总结归纳出三类工具的特点、差异性和共性;最后对现有文档内可视化分析工具的发展提出几点建议,以期为相关研究人员提供参考。 展开更多
关键词 文档内可视化 词汇分布 语义结构 主题 比较研究
下载PDF
基于LDA的用户轨迹分析 被引量:2
16
作者 蔡文学 萧超武 黄晓宇 《计算机应用与软件》 CSCD 2015年第5期307-309,333,共4页
随着以GPS导航仪和智能手机为代表的智能终端的普及应用,大量用户轨迹数据得以收集。这些轨迹数据背后隐含了丰富的空间结构信息和用户行为规律信息。对其进行深入挖掘有可能发现用户日常的行为规律,这对城市规划、交通管制等应用都具... 随着以GPS导航仪和智能手机为代表的智能终端的普及应用,大量用户轨迹数据得以收集。这些轨迹数据背后隐含了丰富的空间结构信息和用户行为规律信息。对其进行深入挖掘有可能发现用户日常的行为规律,这对城市规划、交通管制等应用都具有非常重要的意义。然而从大量轨迹数据中理解用户行为是一件艰难的工作,提出使用狄利克雷指派LDA(Latent Dirichlet Allocation)模型来对用户轨迹进行语义解释。通过LDA模型可以发现轨迹集中的主题区域以及热门路径,从而可以帮助理解用户的出行意图。实验结果表明LDA能有效地解释用户轨迹。 展开更多
关键词 用户轨迹 语义解释 LDA 主题区域
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部