期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
16
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于百度百科与文本分类的网络文本语义主题抽取方法
被引量:
9
1
作者
陈叶旺
王华珍
+2 位作者
李海波
钟必能
陈锻生
《小型微型计算机系统》
CSCD
北大核心
2012年第12期2605-2610,共6页
网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文...
网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文本映射到侯选语义主题空间中,根据训练数据进行分类,找出最大可能的分类,选出属于该分类的候选语义主题.最后提出根据语义离散度确定最终语义主题.在两个数据集上的实验结果表明,该方法不仅对网络不规范文本而且对于规则文本都具有较好的语义主题抽取性能.
展开更多
关键词
百度百科
语义主题
主题抽取
语义离散度
下载PDF
职称材料
浅析移动社交网络语义话题的若干关键技术
2
作者
赵建东
陆奎
李雪萍
《电脑知识与技术》
2016年第9期227-229,共3页
随着移动终端的普及,手机用户之间的沟通、传播与分享正在构建自组织移动社交网络并逐步渗透到人们日常生活、工作、学习和娱乐中,而移动社交网络也将成为一种全新的连接并融合物理空间和网络空间的真实社会网络模式。随之而来的对日益...
随着移动终端的普及,手机用户之间的沟通、传播与分享正在构建自组织移动社交网络并逐步渗透到人们日常生活、工作、学习和娱乐中,而移动社交网络也将成为一种全新的连接并融合物理空间和网络空间的真实社会网络模式。随之而来的对日益海量和错综复杂信息的移动网络语义话题的研究也日趋困难。因此,该文以海量的、高阶异构的移动社会网络数据为背景,提出了以语义话题发现、搜索和溯源为目标来探究社交网络及其语义话题的关键技术。
展开更多
关键词
移动网络
语义话题
话题溯源
潜在语义
话题搜索
下载PDF
职称材料
一种基于百度百科的中文网络文本关键词抽取方法
3
作者
陈叶旺
《小型微型计算机系统》
CSCD
北大核心
2014年第11期2422-2427,共6页
网络上存在海量的中文文本资源,其中有许多具有稀疏性与不规范性,这令以统计词组方式来抽取文本关键词的方法表现不佳.基于百度百科本文提出一种中文网络文本关键词抽取方法,通过百科知识关系将文本从外延词条集合映射到能体现其内涵的...
网络上存在海量的中文文本资源,其中有许多具有稀疏性与不规范性,这令以统计词组方式来抽取文本关键词的方法表现不佳.基于百度百科本文提出一种中文网络文本关键词抽取方法,通过百科知识关系将文本从外延词条集合映射到能体现其内涵的语义主题空间中,再利用主题间的关系进行权值调整,最后通过Nave Bayes法回溯并找到原文的关键词.该方法有效地避开穷举词条的统计方式,能在很大程度上解决现有文本挖掘方法无法抽取网络词汇和新生词汇这一难题.在两个数据集上的实验表明,该方法在规范的文本和不规范文本上都有着较好且稳定的表现.
展开更多
关键词
网络文本
百度百科
语义主题
下载PDF
职称材料
基于潜语义主题加强的跨媒体检索算法
被引量:
11
4
作者
黄育
张鸿
《计算机应用》
CSCD
北大核心
2017年第4期1061-1064,1110,共5页
针对不同模态数据对相同语义主题表达存在差异性,以及传统跨媒体检索算法忽略了不同模态数据能以合作的方式探索数据的内在语义信息等问题,提出了一种新的基于潜语义主题加强的跨媒体检索(LSTR)算法。首先,利用隐狄利克雷分布(LDA)模型...
针对不同模态数据对相同语义主题表达存在差异性,以及传统跨媒体检索算法忽略了不同模态数据能以合作的方式探索数据的内在语义信息等问题,提出了一种新的基于潜语义主题加强的跨媒体检索(LSTR)算法。首先,利用隐狄利克雷分布(LDA)模型构造文本语义空间,然后以词袋(Bo W)模型来表达文本对应的图像;其次,使用多分类逻辑回归对图像和文本分类,用得到的基于多分类的后验概率表示文本和图像的潜语义主题;最后,利用文本潜语义主题去正则化图像的潜语义主题,使图像的潜语义主题得到加强,同时使它们之间的语义关联最大化。在Wikipedia数据集上,文本检索图像和图像检索文本的平均查准率为57.0%,比典型相关性分析(CCA)、SM(Semantic Matching)、SCM(Semantic Correlation Matching)算法的平均查准率分别提高了35.1%、34.8%、32.1%。实验结果表明LSTR算法能有效地提高跨媒体检索的平均查准率。
展开更多
关键词
跨媒体检索
潜语义主题
多分类逻辑回归
后验概率
正则化
下载PDF
职称材料
基于语义爬虫的商品信息主题采集研究
被引量:
7
5
作者
黄炜
张李义
《现代图书情报技术》
CSSCI
北大核心
2010年第1期3-8,共6页
结合网页主题链接分析和网页主题内容语义分析,提出一个以主题爬虫实现采集商品信息的方法。在爬行过程中通过对本体的统计学习,使主题本体参照物不断得到优化。实验结果表明,该方法较其他传统爬行算法更有效,并能防止主题漂移的发生,...
结合网页主题链接分析和网页主题内容语义分析,提出一个以主题爬虫实现采集商品信息的方法。在爬行过程中通过对本体的统计学习,使主题本体参照物不断得到优化。实验结果表明,该方法较其他传统爬行算法更有效,并能防止主题漂移的发生,带来较高的主题收获率。
展开更多
关键词
主题爬虫
商务信息语义
主题链接分析
本体学习
原文传递
基于CTM模型和最优标签集的图像标注
被引量:
3
6
作者
朱韶平
夏利民
朱城
《复旦学报(自然科学版)》
CAS
CSCD
北大核心
2014年第1期147-153,162,共8页
为了提高自动标注系统的性能,提出了一种基于最优标签集图像自动标注系统优化算法.用词袋模型表示图像,采用CTM模型进行图像标注,在此基础上,采用基于词频因子的词间相关性以及启发式迭代算法对获得的标注词进行有效的优化,提高了标注...
为了提高自动标注系统的性能,提出了一种基于最优标签集图像自动标注系统优化算法.用词袋模型表示图像,采用CTM模型进行图像标注,在此基础上,采用基于词频因子的词间相关性以及启发式迭代算法对获得的标注词进行有效的优化,提高了标注词的准确性.在Corel5K数据集中利用LDA模型和CTM模型进行图像标注对比实验,实验结果表明本文提出的图像标注方法能有效提高标注系统的性能.
展开更多
关键词
CTM模型
LDA模型
潜在语义主题
最佳标签集
原文传递
专利文本技术挖掘研究进展综述
被引量:
17
7
作者
胡正银
方曙
《现代图书情报技术》
CSSCI
北大核心
2014年第6期62-70,共9页
【目的】归纳基于文本专利技术挖掘通用流程,提炼其中关键技术,并对典型挖掘场景进行分析。【文献范围】以"专利挖掘、专利分析"等关键词在Elsevier、Springer、CNKI数据库进行检索,并参考全球技术挖掘相关会议,共阅读相关文...
【目的】归纳基于文本专利技术挖掘通用流程,提炼其中关键技术,并对典型挖掘场景进行分析。【文献范围】以"专利挖掘、专利分析"等关键词在Elsevier、Springer、CNKI数据库进行检索,并参考全球技术挖掘相关会议,共阅读相关文献105篇,实际参考文献66篇。【方法】梳理其关键技术专利知识表示的研究现状与发展趋势,选取三类典型技术挖掘场景进行分析,通过归纳总结、提炼出专利技术挖掘未来发展趋势与研究热点。【结果】专利知识表示的粒度与结构决定了专利技术挖掘的深度、广度与维度。基于SAO基础语义单元,面向技术难题与解决方案的专利技术挖掘有望成为未来发展趋势与研究热点。【局限】本研究仅探讨现有文本挖掘、统计分析、自然语言处理技术在专利技术挖掘中的应用情况,对这些技术本身的发展趋势关注不足。【结论】本研究有助于全面了解专利技术挖掘的概貌、涉及的关键技术及主要应用场景。
展开更多
关键词
专利技术挖掘
语义知识表示
主题聚类
专利分类
技术演化
原文传递
基于双向LSTM语义强化的主题建模
被引量:
14
8
作者
彭敏
杨绍雄
朱佳晖
《中文信息学报》
CSCD
北大核心
2018年第4期40-49,共10页
当前,双向LSTM神经网络等深度学习方法已经能有效地表达文本语义特征,为构建深层次的具有语义连贯性的主题模型提供了可能。但是,现有方法在文本的概率主题建模方面,提升的效果还比较有限。该文提出了一个基于双向LSTM语义强化的概率主...
当前,双向LSTM神经网络等深度学习方法已经能有效地表达文本语义特征,为构建深层次的具有语义连贯性的主题模型提供了可能。但是,现有方法在文本的概率主题建模方面,提升的效果还比较有限。该文提出了一个基于双向LSTM语义强化的概率主题模型DGPU-LDA(double generalized polya Urn with LDA)。该模型一方面结合双向LSTM文档语义编码框架DS-Bi-LSTM(document semantic bi-directional LSTM)来实现文档宏观语义的嵌入表示,另一方面采用文档—主题和词汇—词汇双GPU(generalized polya Urn)语义强化机制以及LSTM来刻画参数推断过程中的吉布斯采样过程。在搜狗新闻数据集以及20新闻组数据集上的实验结果表明,相对于一些比较前沿的主题模型,DGPU-LDA模型在主题语义连贯性、文本分类准确率方面展现了一定的优势,同时该模型在文本语义特征表达方面的有效性也得到了证明。
展开更多
关键词
双向LSTM
语义强化
主题模型
下载PDF
职称材料
基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究
被引量:
11
9
作者
王子璇
乐小虬
何远标
《数据分析与知识发现》
CSSCI
CSCD
2017年第4期1-8,共8页
【目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集,通过训练领域词向量计算句子间WMD距离得到相应语义相似度,优化Text Rank算法迭代过程,利用外部特征对所得权值进行调整,按句子权值降序选取关...
【目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集,通过训练领域词向量计算句子间WMD距离得到相应语义相似度,优化Text Rank算法迭代过程,利用外部特征对所得权值进行调整,按句子权值降序选取关键主题句。【结果】以气候变化领域科技论文作为实验数据,以人工标注的结果为基准对本文的算法和传统的Text Rank算法进行对比实验,初步结果表明该方法的识别效果(F值)比传统Text Rank算法提升约5%。【局限】句子特征提取有待提高,词向量训练及方法中的相关参数需要做进一步优化。【结论】基于领域词向量,融合WMD语义相似度的Text Rank改进算法,能够较好地甄别科技论文小节内部中心句,辅以外部特征的权值调整后可以较好地识别出一篇论文的核心主题句。
展开更多
关键词
WMD
TextRank
语义相似
主题句识别
外部特征
原文传递
话题结构与主谓结构——话题的语义类型与英译转换
被引量:
4
10
作者
邵志洪
赵宏
《解放军外国语学院学报》
北大核心
2003年第3期6-10,共5页
本文以郁达夫短篇小说《春风沉醉的晚上》中的话题结构为语料,根据话题的语义类型,分门别类与其对应的英语译文进行对比分析,目的在于检验话题结构的语义关系类型与句法表现,对比话题化与主语化两种不同语法化的结果,从而为汉语话题—...
本文以郁达夫短篇小说《春风沉醉的晚上》中的话题结构为语料,根据话题的语义类型,分门别类与其对应的英语译文进行对比分析,目的在于检验话题结构的语义关系类型与句法表现,对比话题化与主语化两种不同语法化的结果,从而为汉语话题—述题结构转化成英语主语—谓语结构提供一定依据和规律。
展开更多
关键词
话题结构
主谓结构
转换
话题语义类型
下载PDF
职称材料
互联网社交平台舆论趋势预测算法研究
被引量:
1
11
作者
王海兮
吴喆熹
马军
《应用科技》
CAS
2023年第6期101-105,共5页
为解决互联网社交平台话题趋势预测不准确的问题,提出基于量化计算的互联网话题趋势预测算法。本文通过分析互联网特定话题下的主题立场文本、评论账户画像、评论贴文内容等多维度特征,设计了一种面向互联网特定话题的舆论趋势预测方法...
为解决互联网社交平台话题趋势预测不准确的问题,提出基于量化计算的互联网话题趋势预测算法。本文通过分析互联网特定话题下的主题立场文本、评论账户画像、评论贴文内容等多维度特征,设计了一种面向互联网特定话题的舆论趋势预测方法,通过特定话题数据获取、用户观点立场分析、趋势走向判断样本集构建模型,构建的互联网话题趋势预测神经网络模型比传统的舆论趋势预测模型更准确、更全面。本文提出的基于量化计算的互联网话题趋势预测算法,可作为互联网舆情趋势分析研判的重要手段。
展开更多
关键词
舆论分析
舆论趋势
神经网络模型
账号属性特征
内容语义特征
话题立场语义特征
舆论趋势预测
立场变化
下载PDF
职称材料
网络信息语义组织和检索的实现路径
被引量:
6
12
作者
包冬梅
《图书情报工作》
CSSCI
北大核心
2006年第12期12-16,共5页
针对网络信息语义组织和检索的研究现状,指出基于语义知识组织基础上的语义概念检索是解决问题的根本之道,主要探讨在受限领域中如何引入新兴的知识组织技术——本体和主题图实现语义检索,阐述语义信息组织和检索的两条实现路径:基于本...
针对网络信息语义组织和检索的研究现状,指出基于语义知识组织基础上的语义概念检索是解决问题的根本之道,主要探讨在受限领域中如何引入新兴的知识组织技术——本体和主题图实现语义检索,阐述语义信息组织和检索的两条实现路径:基于本体的语义检索及基于主题图的知识导航。
展开更多
关键词
信息组织
语义检索
本体
主题图
原文传递
医学文献主题语义相似度计算方法研究
被引量:
3
13
作者
范少萍
安新颖
逯万辉
《图书情报工作》
CSSCI
北大核心
2017年第8期96-105,共10页
[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]...
[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]以Me SH词表为语义计算的基础,剖析词表结构与现有研究成果,从入口词、语义距离、注释3个维度综合测度主题间的语义相似度,利用Pub Med中2011-2014年干细胞领域的文献进行实证研究。[结果/结论]利用通用验证主题词对,验证了本文所提3个测度维度的有效性。通过主题间语义相似度的计算,发现干细胞领域2011-2014年较为新颖的主题为未成年人干细胞研究。后续研究中还需融入基于统计的主题相似度,从而更加全面地揭示主题间的关系,发现语义层面领域的新颖性研究主题。
展开更多
关键词
语义相似度
MESH词表
主题语义相似度
原文传递
基于本体的Web信息采集
被引量:
2
14
作者
徐德智
王庆涛
王斌
《现代图书情报技术》
CSSCI
北大核心
2007年第2期53-55,共3页
将语义网技术同传统的信息检索技术相结合,给出基于本体的Web信息采集框架结构,提出利用主题本体及对应词典判断主题相关度的方法,并得出实验结果和评价。
关键词
信息采集
本体
语义网
主题相关性
下载PDF
职称材料
文档内可视化分析工具的比较研究
被引量:
2
15
作者
陆泉
赵琴
陈静
《信息资源管理学报》
2016年第2期63-71,共9页
文章对现有文档内可视化分析工具进行梳理,根据可视化对象差异将工具分为基于文档内词汇分布的可视化、基于文档内语义结构的可视化、基于文档内主题内容的可视化共三种类型;然后从适用文档、文本分析方法、可视化形式、可视化对象、交...
文章对现有文档内可视化分析工具进行梳理,根据可视化对象差异将工具分为基于文档内词汇分布的可视化、基于文档内语义结构的可视化、基于文档内主题内容的可视化共三种类型;然后从适用文档、文本分析方法、可视化形式、可视化对象、交互方式、优势、局限性等方面对其中12种典型工具进行详细分析和比较,并由此总结归纳出三类工具的特点、差异性和共性;最后对现有文档内可视化分析工具的发展提出几点建议,以期为相关研究人员提供参考。
展开更多
关键词
文档内可视化
词汇分布
语义结构
主题
比较研究
下载PDF
职称材料
基于LDA的用户轨迹分析
被引量:
2
16
作者
蔡文学
萧超武
黄晓宇
《计算机应用与软件》
CSCD
2015年第5期307-309,333,共4页
随着以GPS导航仪和智能手机为代表的智能终端的普及应用,大量用户轨迹数据得以收集。这些轨迹数据背后隐含了丰富的空间结构信息和用户行为规律信息。对其进行深入挖掘有可能发现用户日常的行为规律,这对城市规划、交通管制等应用都具...
随着以GPS导航仪和智能手机为代表的智能终端的普及应用,大量用户轨迹数据得以收集。这些轨迹数据背后隐含了丰富的空间结构信息和用户行为规律信息。对其进行深入挖掘有可能发现用户日常的行为规律,这对城市规划、交通管制等应用都具有非常重要的意义。然而从大量轨迹数据中理解用户行为是一件艰难的工作,提出使用狄利克雷指派LDA(Latent Dirichlet Allocation)模型来对用户轨迹进行语义解释。通过LDA模型可以发现轨迹集中的主题区域以及热门路径,从而可以帮助理解用户的出行意图。实验结果表明LDA能有效地解释用户轨迹。
展开更多
关键词
用户轨迹
语义解释
LDA
主题区域
下载PDF
职称材料
题名
基于百度百科与文本分类的网络文本语义主题抽取方法
被引量:
9
1
作者
陈叶旺
王华珍
李海波
钟必能
陈锻生
机构
华侨大学计算机科学学院
出处
《小型微型计算机系统》
CSCD
北大核心
2012年第12期2605-2610,共6页
基金
福建省自然科学基金项目(2012J05117
2012J1272)资助
+2 种基金
中央高校基本科研业务费(JB-ZR1217)资助
华侨大学科研启动基金项目(09BS515
11BS109)资助
文摘
网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文本映射到侯选语义主题空间中,根据训练数据进行分类,找出最大可能的分类,选出属于该分类的候选语义主题.最后提出根据语义离散度确定最终语义主题.在两个数据集上的实验结果表明,该方法不仅对网络不规范文本而且对于规则文本都具有较好的语义主题抽取性能.
关键词
百度百科
语义主题
主题抽取
语义离散度
Keywords
BaiduBaike
semantic
topic
topic
extraction
semantic
discrete
degree
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
浅析移动社交网络语义话题的若干关键技术
2
作者
赵建东
陆奎
李雪萍
机构
安徽理工大学
出处
《电脑知识与技术》
2016年第9期227-229,共3页
文摘
随着移动终端的普及,手机用户之间的沟通、传播与分享正在构建自组织移动社交网络并逐步渗透到人们日常生活、工作、学习和娱乐中,而移动社交网络也将成为一种全新的连接并融合物理空间和网络空间的真实社会网络模式。随之而来的对日益海量和错综复杂信息的移动网络语义话题的研究也日趋困难。因此,该文以海量的、高阶异构的移动社会网络数据为背景,提出了以语义话题发现、搜索和溯源为目标来探究社交网络及其语义话题的关键技术。
关键词
移动网络
语义话题
话题溯源
潜在语义
话题搜索
Keywords
mobile
network
semantic
topic
topic
roots
latent
semantic
topic
search
分类号
TP393.092 [自动化与计算机技术—计算机应用技术][自动化与计算机技术—计算机科学与技术]
下载PDF
职称材料
题名
一种基于百度百科的中文网络文本关键词抽取方法
3
作者
陈叶旺
机构
华侨大学计算机科学学院
出处
《小型微型计算机系统》
CSCD
北大核心
2014年第11期2422-2427,共6页
基金
国家自然科学基金项目(61202298)资助
福建省自然科学基金项目(2012J05117)资助
+1 种基金
中央高校基本科研业务费(JB-ZR1217)资助
厦门市科技计划项目(3502Z20133029)资助
文摘
网络上存在海量的中文文本资源,其中有许多具有稀疏性与不规范性,这令以统计词组方式来抽取文本关键词的方法表现不佳.基于百度百科本文提出一种中文网络文本关键词抽取方法,通过百科知识关系将文本从外延词条集合映射到能体现其内涵的语义主题空间中,再利用主题间的关系进行权值调整,最后通过Nave Bayes法回溯并找到原文的关键词.该方法有效地避开穷举词条的统计方式,能在很大程度上解决现有文本挖掘方法无法抽取网络词汇和新生词汇这一难题.在两个数据集上的实验表明,该方法在规范的文本和不规范文本上都有着较好且稳定的表现.
关键词
网络文本
百度百科
语义主题
Keywords
web
text
baidu
baike
semantic
topic
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于潜语义主题加强的跨媒体检索算法
被引量:
11
4
作者
黄育
张鸿
机构
武汉科技大学计算机科学与技术学院
智能信息处理与实时工业系统湖北省重点实验室(武汉科技大学)
出处
《计算机应用》
CSCD
北大核心
2017年第4期1061-1064,1110,共5页
基金
国家自然科学基金资助项目(61003127
61373109)~~
文摘
针对不同模态数据对相同语义主题表达存在差异性,以及传统跨媒体检索算法忽略了不同模态数据能以合作的方式探索数据的内在语义信息等问题,提出了一种新的基于潜语义主题加强的跨媒体检索(LSTR)算法。首先,利用隐狄利克雷分布(LDA)模型构造文本语义空间,然后以词袋(Bo W)模型来表达文本对应的图像;其次,使用多分类逻辑回归对图像和文本分类,用得到的基于多分类的后验概率表示文本和图像的潜语义主题;最后,利用文本潜语义主题去正则化图像的潜语义主题,使图像的潜语义主题得到加强,同时使它们之间的语义关联最大化。在Wikipedia数据集上,文本检索图像和图像检索文本的平均查准率为57.0%,比典型相关性分析(CCA)、SM(Semantic Matching)、SCM(Semantic Correlation Matching)算法的平均查准率分别提高了35.1%、34.8%、32.1%。实验结果表明LSTR算法能有效地提高跨媒体检索的平均查准率。
关键词
跨媒体检索
潜语义主题
多分类逻辑回归
后验概率
正则化
Keywords
cross-media
retrieval
latent
semantic
topic
multiclass
logistic
regression
posterior
probability
regularization
分类号
TP391.41 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于语义爬虫的商品信息主题采集研究
被引量:
7
5
作者
黄炜
张李义
机构
武汉大学信息资源研究中心
湖北工业大学管理学院
出处
《现代图书情报技术》
CSSCI
北大核心
2010年第1期3-8,共6页
基金
教育部人文社会科学重点研究基地重大项目"电子商务中商务信息跨平台检索与信息重组"(项目编号:07JJD870220)
湖北省教育厅人文社会科学项目"Web数据危机下商务信息资源的语义化管理研究"(项目编号:2009b228)的研究成果之一
文摘
结合网页主题链接分析和网页主题内容语义分析,提出一个以主题爬虫实现采集商品信息的方法。在爬行过程中通过对本体的统计学习,使主题本体参照物不断得到优化。实验结果表明,该方法较其他传统爬行算法更有效,并能防止主题漂移的发生,带来较高的主题收获率。
关键词
主题爬虫
商务信息语义
主题链接分析
本体学习
Keywords
Focused
crawler
Merchandise
information
semantic
topic
link
analysis
Ontology
learning
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于CTM模型和最优标签集的图像标注
被引量:
3
6
作者
朱韶平
夏利民
朱城
机构
湖南财政经济学院信息管理系
中南大学信息科学与工程学院
出处
《复旦学报(自然科学版)》
CAS
CSCD
北大核心
2014年第1期147-153,162,共8页
基金
国家自然科学基金项目(50808025)
湖南省科技计划项目(2012FJ3021)
+1 种基金
湖南省教育科学"十二五"规划课题(XJK012CGD022)
湖南省普通高等学校教学改革研究资助课题(湘教通【2012】401号544)
文摘
为了提高自动标注系统的性能,提出了一种基于最优标签集图像自动标注系统优化算法.用词袋模型表示图像,采用CTM模型进行图像标注,在此基础上,采用基于词频因子的词间相关性以及启发式迭代算法对获得的标注词进行有效的优化,提高了标注词的准确性.在Corel5K数据集中利用LDA模型和CTM模型进行图像标注对比实验,实验结果表明本文提出的图像标注方法能有效提高标注系统的性能.
关键词
CTM模型
LDA模型
潜在语义主题
最佳标签集
Keywords
CTM
model
LDA
model
latent
semantic
topic
optimal
tag
sets
分类号
TP391.4 [自动化与计算机技术—计算机应用技术]
原文传递
题名
专利文本技术挖掘研究进展综述
被引量:
17
7
作者
胡正银
方曙
机构
中国科学院成都文献情报中心成都
中国科学院大学北京
出处
《现代图书情报技术》
CSSCI
北大核心
2014年第6期62-70,共9页
基金
中国科学院西部之光项目“基于本体的专利文献技术挖掘系统研究与实践”的研究成果之一
文摘
【目的】归纳基于文本专利技术挖掘通用流程,提炼其中关键技术,并对典型挖掘场景进行分析。【文献范围】以"专利挖掘、专利分析"等关键词在Elsevier、Springer、CNKI数据库进行检索,并参考全球技术挖掘相关会议,共阅读相关文献105篇,实际参考文献66篇。【方法】梳理其关键技术专利知识表示的研究现状与发展趋势,选取三类典型技术挖掘场景进行分析,通过归纳总结、提炼出专利技术挖掘未来发展趋势与研究热点。【结果】专利知识表示的粒度与结构决定了专利技术挖掘的深度、广度与维度。基于SAO基础语义单元,面向技术难题与解决方案的专利技术挖掘有望成为未来发展趋势与研究热点。【局限】本研究仅探讨现有文本挖掘、统计分析、自然语言处理技术在专利技术挖掘中的应用情况,对这些技术本身的发展趋势关注不足。【结论】本研究有助于全面了解专利技术挖掘的概貌、涉及的关键技术及主要应用场景。
关键词
专利技术挖掘
语义知识表示
主题聚类
专利分类
技术演化
Keywords
Patent
technology
mining
semantic
knowledge
representation
topic
clustering
Patent
classification
Technology
evolution
分类号
G306 [文化科学]
G354
原文传递
题名
基于双向LSTM语义强化的主题建模
被引量:
14
8
作者
彭敏
杨绍雄
朱佳晖
机构
武汉大学计算机学院
出处
《中文信息学报》
CSCD
北大核心
2018年第4期40-49,共10页
基金
国家自然科学基金(61472291)
文摘
当前,双向LSTM神经网络等深度学习方法已经能有效地表达文本语义特征,为构建深层次的具有语义连贯性的主题模型提供了可能。但是,现有方法在文本的概率主题建模方面,提升的效果还比较有限。该文提出了一个基于双向LSTM语义强化的概率主题模型DGPU-LDA(double generalized polya Urn with LDA)。该模型一方面结合双向LSTM文档语义编码框架DS-Bi-LSTM(document semantic bi-directional LSTM)来实现文档宏观语义的嵌入表示,另一方面采用文档—主题和词汇—词汇双GPU(generalized polya Urn)语义强化机制以及LSTM来刻画参数推断过程中的吉布斯采样过程。在搜狗新闻数据集以及20新闻组数据集上的实验结果表明,相对于一些比较前沿的主题模型,DGPU-LDA模型在主题语义连贯性、文本分类准确率方面展现了一定的优势,同时该模型在文本语义特征表达方面的有效性也得到了证明。
关键词
双向LSTM
语义强化
主题模型
Keywords
bi-directional
LSTM
semantic
reinforcements
topic
model
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究
被引量:
11
9
作者
王子璇
乐小虬
何远标
机构
中国科学院文献情报中心
中国科学院大学
出处
《数据分析与知识发现》
CSSCI
CSCD
2017年第4期1-8,共8页
文摘
【目的】自动甄别科技论文中描述研究主题的关键语句。【方法】以论文小节为单位组织句子集,通过训练领域词向量计算句子间WMD距离得到相应语义相似度,优化Text Rank算法迭代过程,利用外部特征对所得权值进行调整,按句子权值降序选取关键主题句。【结果】以气候变化领域科技论文作为实验数据,以人工标注的结果为基准对本文的算法和传统的Text Rank算法进行对比实验,初步结果表明该方法的识别效果(F值)比传统Text Rank算法提升约5%。【局限】句子特征提取有待提高,词向量训练及方法中的相关参数需要做进一步优化。【结论】基于领域词向量,融合WMD语义相似度的Text Rank改进算法,能够较好地甄别科技论文小节内部中心句,辅以外部特征的权值调整后可以较好地识别出一篇论文的核心主题句。
关键词
WMD
TextRank
语义相似
主题句识别
外部特征
Keywords
WMD
TextRank
semantic
Similarity
topic
Sentence
Recognition
External
Features
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
话题结构与主谓结构——话题的语义类型与英译转换
被引量:
4
10
作者
邵志洪
赵宏
机构
华东理工大学外语学院
出处
《解放军外国语学院学报》
北大核心
2003年第3期6-10,共5页
文摘
本文以郁达夫短篇小说《春风沉醉的晚上》中的话题结构为语料,根据话题的语义类型,分门别类与其对应的英语译文进行对比分析,目的在于检验话题结构的语义关系类型与句法表现,对比话题化与主语化两种不同语法化的结果,从而为汉语话题—述题结构转化成英语主语—谓语结构提供一定依据和规律。
关键词
话题结构
主谓结构
转换
话题语义类型
Keywords
topic
structure
SV
structure
transformation
semantic
types
of
topic
分类号
H314 [语言文字—英语]
下载PDF
职称材料
题名
互联网社交平台舆论趋势预测算法研究
被引量:
1
11
作者
王海兮
吴喆熹
马军
机构
中国电子科技集团公司第三十研究所
出处
《应用科技》
CAS
2023年第6期101-105,共5页
文摘
为解决互联网社交平台话题趋势预测不准确的问题,提出基于量化计算的互联网话题趋势预测算法。本文通过分析互联网特定话题下的主题立场文本、评论账户画像、评论贴文内容等多维度特征,设计了一种面向互联网特定话题的舆论趋势预测方法,通过特定话题数据获取、用户观点立场分析、趋势走向判断样本集构建模型,构建的互联网话题趋势预测神经网络模型比传统的舆论趋势预测模型更准确、更全面。本文提出的基于量化计算的互联网话题趋势预测算法,可作为互联网舆情趋势分析研判的重要手段。
关键词
舆论分析
舆论趋势
神经网络模型
账号属性特征
内容语义特征
话题立场语义特征
舆论趋势预测
立场变化
Keywords
analysis
of
public
opinion
trend
of
public
opinion
neural
network
model
characteristics
of
account
attribute
semantic
characteristics
of
comment
content
semantic
characteristics
of
topic
standpoint
prediction
on
public
opinion
trend
change
of
standpoints
分类号
TP302.1 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
网络信息语义组织和检索的实现路径
被引量:
6
12
作者
包冬梅
机构
南京政治学院上海分院军事信息管理系
出处
《图书情报工作》
CSSCI
北大核心
2006年第12期12-16,共5页
基金
2004年国家社会科学基金项目"面向网络信息组织的中文网络本体语言研究"(项目编号:04BTQ026)成果之一
文摘
针对网络信息语义组织和检索的研究现状,指出基于语义知识组织基础上的语义概念检索是解决问题的根本之道,主要探讨在受限领域中如何引入新兴的知识组织技术——本体和主题图实现语义检索,阐述语义信息组织和检索的两条实现路径:基于本体的语义检索及基于主题图的知识导航。
关键词
信息组织
语义检索
本体
主题图
Keywords
information
organization
semantic
retrieval
ontology
topic
map
分类号
G354 [文化科学—情报学]
原文传递
题名
医学文献主题语义相似度计算方法研究
被引量:
3
13
作者
范少萍
安新颖
逯万辉
机构
中国医学科学院医学信息研究所
中国社会科学院中国社会科学评价中心
出处
《图书情报工作》
CSSCI
北大核心
2017年第8期96-105,共10页
基金
国家自然科学基金项目"基于语义的医学领域前沿知识发现及演化机制研究"(项目编号:71303259)
中央级公益性科研院所基本科研业务费"基于统计和语义的医学文献主题新颖性探测方法研究"(项目编号:2016RC330004)研究成果之一
文摘
[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]以Me SH词表为语义计算的基础,剖析词表结构与现有研究成果,从入口词、语义距离、注释3个维度综合测度主题间的语义相似度,利用Pub Med中2011-2014年干细胞领域的文献进行实证研究。[结果/结论]利用通用验证主题词对,验证了本文所提3个测度维度的有效性。通过主题间语义相似度的计算,发现干细胞领域2011-2014年较为新颖的主题为未成年人干细胞研究。后续研究中还需融入基于统计的主题相似度,从而更加全面地揭示主题间的关系,发现语义层面领域的新颖性研究主题。
关键词
语义相似度
MESH词表
主题语义相似度
Keywords
semantic
similarity
MeSH
topic
semantic
similarity
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于本体的Web信息采集
被引量:
2
14
作者
徐德智
王庆涛
王斌
机构
中南大学信息科学与工程学院
出处
《现代图书情报技术》
CSSCI
北大核心
2007年第2期53-55,共3页
基金
湖南省自然科学基金资助项目"方面化构件模型及其组装和组装体系结构评价研究"(项目编号:05JJ40312)的研究成果之一
文摘
将语义网技术同传统的信息检索技术相结合,给出基于本体的Web信息采集框架结构,提出利用主题本体及对应词典判断主题相关度的方法,并得出实验结果和评价。
关键词
信息采集
本体
语义网
主题相关性
Keywords
Information
gathering
Ontology
semantic
Web
topic
-
specific
relevance
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
文档内可视化分析工具的比较研究
被引量:
2
15
作者
陆泉
赵琴
陈静
机构
中国记忆与数字保存协同创新中心
武汉大学信息管理学院
华中师范大学信息管理学院
出处
《信息资源管理学报》
2016年第2期63-71,共9页
基金
国家自然科学基金项目"图像信息资源可视化协同语义标注及实现研究"(71273195)和"图书层次主题自动标引研究"(71303089)的成果之一
文摘
文章对现有文档内可视化分析工具进行梳理,根据可视化对象差异将工具分为基于文档内词汇分布的可视化、基于文档内语义结构的可视化、基于文档内主题内容的可视化共三种类型;然后从适用文档、文本分析方法、可视化形式、可视化对象、交互方式、优势、局限性等方面对其中12种典型工具进行详细分析和比较,并由此总结归纳出三类工具的特点、差异性和共性;最后对现有文档内可视化分析工具的发展提出几点建议,以期为相关研究人员提供参考。
关键词
文档内可视化
词汇分布
语义结构
主题
比较研究
Keywords
Within-document
visualization
Lexical
distribution
semantic
structure
topic
Comparative
study
分类号
G250.76 [文化科学—图书馆学]
下载PDF
职称材料
题名
基于LDA的用户轨迹分析
被引量:
2
16
作者
蔡文学
萧超武
黄晓宇
机构
华南理工大学经济与贸易学院
出处
《计算机应用与软件》
CSCD
2015年第5期307-309,333,共4页
基金
广东省现代信息服务业项目"广东交通信息服务平台"(GDIID2008IS006)
文摘
随着以GPS导航仪和智能手机为代表的智能终端的普及应用,大量用户轨迹数据得以收集。这些轨迹数据背后隐含了丰富的空间结构信息和用户行为规律信息。对其进行深入挖掘有可能发现用户日常的行为规律,这对城市规划、交通管制等应用都具有非常重要的意义。然而从大量轨迹数据中理解用户行为是一件艰难的工作,提出使用狄利克雷指派LDA(Latent Dirichlet Allocation)模型来对用户轨迹进行语义解释。通过LDA模型可以发现轨迹集中的主题区域以及热门路径,从而可以帮助理解用户的出行意图。实验结果表明LDA能有效地解释用户轨迹。
关键词
用户轨迹
语义解释
LDA
主题区域
Keywords
Users
trajectory
semantic
interpretation
LDA
topic
region
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于百度百科与文本分类的网络文本语义主题抽取方法
陈叶旺
王华珍
李海波
钟必能
陈锻生
《小型微型计算机系统》
CSCD
北大核心
2012
9
下载PDF
职称材料
2
浅析移动社交网络语义话题的若干关键技术
赵建东
陆奎
李雪萍
《电脑知识与技术》
2016
0
下载PDF
职称材料
3
一种基于百度百科的中文网络文本关键词抽取方法
陈叶旺
《小型微型计算机系统》
CSCD
北大核心
2014
0
下载PDF
职称材料
4
基于潜语义主题加强的跨媒体检索算法
黄育
张鸿
《计算机应用》
CSCD
北大核心
2017
11
下载PDF
职称材料
5
基于语义爬虫的商品信息主题采集研究
黄炜
张李义
《现代图书情报技术》
CSSCI
北大核心
2010
7
原文传递
6
基于CTM模型和最优标签集的图像标注
朱韶平
夏利民
朱城
《复旦学报(自然科学版)》
CAS
CSCD
北大核心
2014
3
原文传递
7
专利文本技术挖掘研究进展综述
胡正银
方曙
《现代图书情报技术》
CSSCI
北大核心
2014
17
原文传递
8
基于双向LSTM语义强化的主题建模
彭敏
杨绍雄
朱佳晖
《中文信息学报》
CSCD
北大核心
2018
14
下载PDF
职称材料
9
基于WMD语义相似度的TextRank改进算法识别论文核心主题句研究
王子璇
乐小虬
何远标
《数据分析与知识发现》
CSSCI
CSCD
2017
11
原文传递
10
话题结构与主谓结构——话题的语义类型与英译转换
邵志洪
赵宏
《解放军外国语学院学报》
北大核心
2003
4
下载PDF
职称材料
11
互联网社交平台舆论趋势预测算法研究
王海兮
吴喆熹
马军
《应用科技》
CAS
2023
1
下载PDF
职称材料
12
网络信息语义组织和检索的实现路径
包冬梅
《图书情报工作》
CSSCI
北大核心
2006
6
原文传递
13
医学文献主题语义相似度计算方法研究
范少萍
安新颖
逯万辉
《图书情报工作》
CSSCI
北大核心
2017
3
原文传递
14
基于本体的Web信息采集
徐德智
王庆涛
王斌
《现代图书情报技术》
CSSCI
北大核心
2007
2
下载PDF
职称材料
15
文档内可视化分析工具的比较研究
陆泉
赵琴
陈静
《信息资源管理学报》
2016
2
下载PDF
职称材料
16
基于LDA的用户轨迹分析
蔡文学
萧超武
黄晓宇
《计算机应用与软件》
CSCD
2015
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部