期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于关键词共现网络的主题词提取算法 被引量:4
1
作者 张书谙 王曦 +2 位作者 代继鹏 隋毅 孙仁诚 《复杂系统与复杂性科学》 CAS CSCD 北大核心 2023年第1期74-80,共7页
针对主题词提取中关键词提取不准确以及仅考虑单一相关性的问题,提出一种将集成思想与复杂网络相结合的主题词提取算法。首先通过集成算法提取话题数据的关键词,以提高关键词提取的准确性,其次改进传统词共现公式计算关键词的共现度,并... 针对主题词提取中关键词提取不准确以及仅考虑单一相关性的问题,提出一种将集成思想与复杂网络相结合的主题词提取算法。首先通过集成算法提取话题数据的关键词,以提高关键词提取的准确性,其次改进传统词共现公式计算关键词的共现度,并建立关键词共现网络,在网络的基础上得到最优连通子图,同时以节点度中心性为权重衡量关键词重要性并从中映射出主题词。最后,使用微博话题数据集进行实例验证,证明该算法是有效的,并优于传统的词共现算法,并在青岛社区话题数据集中进行应用。 展开更多
关键词 关键词 网络 主题词 微博话题
下载PDF
基于改进LDA的水电工程进度管理文本智能分析 被引量:5
2
作者 李明超 吕沅庚 +1 位作者 田丹 沈扬 《水力发电学报》 CSCD 北大核心 2022年第3期133-141,共9页
进度控制是水电工程管理的重要任务,及时总结进度管理信息有助于工程进度计划的制定与调整。水电工程建设中的进度信息多以半结构化、非结构化的文本形式呈现,增加了信息提取难度,实现水电工程进度文本信息自动化与智能化挖掘是当前亟... 进度控制是水电工程管理的重要任务,及时总结进度管理信息有助于工程进度计划的制定与调整。水电工程建设中的进度信息多以半结构化、非结构化的文本形式呈现,增加了信息提取难度,实现水电工程进度文本信息自动化与智能化挖掘是当前亟待解决的问题。本文提出基于改进LDA的水电工程进度信息智能提取方法,智能提取进度管理文本中的关键信息。该方法基于传统LDA模型针对吉布斯采样机制,充分考虑词语间的关联关系,将原有随机单个采样过程改进为以共现度为基准的词对采样,强化了词语间的语义关联,提高了主题词语间的紧密性以及主题词语对主题描述的准确性。将所提出的方法应用于实际水电工程,对221份水电工程施工监理周报进行分析,共提取12个主题的工序关键词,并依照计算结果提取出主副工序;结果表明,改进LDA主题模型在水电工程进度文本工序特征词提取效果优于传统LDA主题模型,有助于提高工程施工进度关键工序词提取与信息挖掘效率,为水电工程施工智能化管理提供了新的手段。 展开更多
关键词 水电工程 施工进 关键词提取 改进LDA主题模型 文本智能分析
下载PDF
一种基于本体和用户日志的查询扩展方法 被引量:3
3
作者 欧阳柳波 谭睿哲 《计算机工程与应用》 CSCD 北大核心 2015年第1期151-155,217,共6页
为了解决信息检索中存在的用词歧义性问题,提出一种基于本体和用户日志的查询扩展方法。利用领域本体从语义层面扩展用户查询形成初始扩展概念集,结合用户查询日志利用共现度分析对初始扩展概念集进行二次筛选。实验结果表明,与传统的... 为了解决信息检索中存在的用词歧义性问题,提出一种基于本体和用户日志的查询扩展方法。利用领域本体从语义层面扩展用户查询形成初始扩展概念集,结合用户查询日志利用共现度分析对初始扩展概念集进行二次筛选。实验结果表明,与传统的基于局部共现的扩展方法和基于本体的扩展方法相比较,该方法在保障良好鲁棒性的同时,有效地提高了检索准确率。 展开更多
关键词 本体 查询扩展 用户日志 语义相似
下载PDF
基于LDA的多特征融合的短文本相似度计算 被引量:8
4
作者 张小川 余林峰 张宜浩 《计算机科学》 CSCD 北大核心 2018年第9期266-270,共5页
近年来,LDA(Latent Dirichlet Allocation)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征... 近年来,LDA(Latent Dirichlet Allocation)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征融合的短文本相似度算法。该方法融合了主题相似度因子ST(Similarity Topic)和词语共现度因子CW(Co-occurrence Words),建立了联合相似度模型以规约不同ST区间下CW对ST产生的约束或补充条件,并最终权衡了准确性更高的相似度结果。对改进后的算法进行文本聚类实验,结果表明改进后的算法在F度量值上取得了一定程度的提升。 展开更多
关键词 LDA 主题模型 短文本相似 主题相似 词语
下载PDF
基于教材文本语料库的自适应主题词表构建——以经济类专业为例
5
作者 杭建琴 张鸣宇 胡泽文 《情报工程》 2024年第3期114-127,共14页
[目的/意义]构建一套面向汉语非母语学习者的专业词表对专业学习和国际中文教育学科建设及发展具有重要意义。[方法/过程]针对当前外向型专业词表较少及构建方法单一问题,本文首先从网站爬取小说、新闻和论坛留言构建参照语料库,根据教... [目的/意义]构建一套面向汉语非母语学习者的专业词表对专业学习和国际中文教育学科建设及发展具有重要意义。[方法/过程]针对当前外向型专业词表较少及构建方法单一问题,本文首先从网站爬取小说、新闻和论坛留言构建参照语料库,根据教育部专业课程设置目录,选取专业教材构建专业教材语料库,运用TF-IDF-TF算法遴选专业主题词并构建词共现矩阵,利用凝聚聚类法实现专业主题词聚类。在此基础上,计算词簇内主题词的语义相关性,选取语义共现度最大的词作为词簇中心词,并根据语义相关性编排词表。最后,以经济学类专业为例构建面向留学生的专业主题词表。[结果/结论]结果表明,本文构建的经济类专业主题词表能够较好地提取专业词汇且有效地将语义关联度紧密的专业主题词聚类在同一词簇内,学习者能够快速有效获取相关词簇进行专业自适应学习,并为其他专业主题词表的构建提供了依据。 展开更多
关键词 主题词表 凝聚聚类算法 语义 词簇中心词
下载PDF
基于作者和研究主题的科研机构名称演化关系识别研究 被引量:1
6
作者 胡潜 吴茜 +1 位作者 董寒宇 李静 《情报学报》 CSCD 北大核心 2023年第11期1289-1299,共11页
因机构发展变迁而引发的科研机构名称演化,严重影响了基于机构名称所开展的信息检索、科研评价等知识服务的质量和效果。为此,本文提出了一种基于作者和研究主题的科研机构名称演化关系识别方法,以消解科研机构名称间的异质性,实现科研... 因机构发展变迁而引发的科研机构名称演化,严重影响了基于机构名称所开展的信息检索、科研评价等知识服务的质量和效果。为此,本文提出了一种基于作者和研究主题的科研机构名称演化关系识别方法,以消解科研机构名称间的异质性,实现科研机构名称归一化。通过对科研机构名称演化在学术论文署名中的表现分析,本文构建了基于作者和研究主题的科研机构名称演化关系识别模型,对科研机构名称间的改名、拆分、合并和重组关系进行了识别,并基于小规模的学术论文数据对模型效果进行了验证。研究结果表明,本文提出的科研机构名称演化关系识别方法在一级和二级科研机构名称演化关系的识别中均能达到较好的准确率和召回率,并能够识别出一般性冷门科研机构之间的名称演化关系。 展开更多
关键词 机构名称 名称规范化 作者 研究主题相似
下载PDF
考虑文本空间结构的单篇文本特征词排序方法 被引量:2
7
作者 魏伟 孟祥主 郭崇慧 《系统工程理论与实践》 EI CSSCI CSCD 北大核心 2020年第5期1293-1303,共11页
特征选择是文本挖掘领域中重要的基础性工作,能够为后续文本挖掘任务的顺利实施提供良好的数据处理方法和技术支持,而特征词排序是特征选择的关键环节.结合文本统计信息和结构信息以及流形排序思想,提出了一种新的特征词排序方法.通过... 特征选择是文本挖掘领域中重要的基础性工作,能够为后续文本挖掘任务的顺利实施提供良好的数据处理方法和技术支持,而特征词排序是特征选择的关键环节.结合文本统计信息和结构信息以及流形排序思想,提出了一种新的特征词排序方法.通过构造原始文本中潜在的能够反映文本语义和结构信息的条件共现度词网络作为特征词间的流形结构,并以特征词的词频统计信息作为特征词初始权重,结合流形排序思想以及图学习理论进行特征词间的相似性学习,进而实现对特征词重要性排序.分别在公共语料集和补充语料集上与其它多种特征词排序方法进行数值实验对比,实验结果验证了方法的有效性.该方法拓宽了流形排序思想和图学习理论在文本挖掘领域的应用,也给单篇文本特征词排序提供了新的方法和策略. 展开更多
关键词 特征选择 特征词排序 词频 流形排序 图学习 条件
原文传递
二次剪枝算法在评论特征提取中的应用 被引量:2
8
作者 吴含前 周立凤 谢珏 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2016年第3期513-517,共5页
针对序列模式挖掘(GSP)算法在中文产品评论特征提取中准确率不够高的问题,提出了一种二次剪枝算法,即利用GSP算法产生候选特征集,然后采用词对共现度作为阈值对其进行进一步筛选,从而达到提高准确率的目的.利用定制化的爬虫工具从京东... 针对序列模式挖掘(GSP)算法在中文产品评论特征提取中准确率不够高的问题,提出了一种二次剪枝算法,即利用GSP算法产生候选特征集,然后采用词对共现度作为阈值对其进行进一步筛选,从而达到提高准确率的目的.利用定制化的爬虫工具从京东网站上抓取摄像头产品的中文评论,选取其中1 000条作为试验数据,采用分词工具ICTCLAS对评论进行分词和数据预处理,并将所提算法与GSP算法、交叉语言模型(CLM)和似然比检验(LRT)进行对比试验.结果表明,利用所提算法获得的中文产品评论特征提取准确率达到76.37%,较GSP算法、CLM和LRT的准确率分别提高2.94%,5.77%和7.57%. 展开更多
关键词 特征提取 二次剪枝 词对 似然比检验 交叉语言模型
下载PDF
基于实例的Deep Web数据源结果模式匹配技术 被引量:1
9
作者 聂铁铮 于戈 +1 位作者 申德荣 寇月 《计算机科学与探索》 CSCD 2008年第6期601-613,共13页
针对Deep Web数据源结果模式信息的匹配问题,提出了一种基于实例的结果模式匹配的方法。该方法能够匹配并验证数据源的结果模式属性信息,同时记录数据在结果页面中的结构信息。利用基于查询请求松弛的两段模式匹配方法精确地匹配模式属... 针对Deep Web数据源结果模式信息的匹配问题,提出了一种基于实例的结果模式匹配的方法。该方法能够匹配并验证数据源的结果模式属性信息,同时记录数据在结果页面中的结构信息。利用基于查询请求松弛的两段模式匹配方法精确地匹配模式属性,并基于模式属性间共现度信息来提高属性匹配的查全率和查准率。从实验结果分析可以看出,基于实例的方法能够有效地识别数据源模式信息,提高模式属性查全率和查准率。 展开更多
关键词 DEEP WEB 查询实例 结果模式 模式匹配 属性
下载PDF
基于局部离群点检测的高频数据共现聚类算法 被引量:7
10
作者 周志洪 马进 +1 位作者 夏正敏 陈秀真 《计算机仿真》 北大核心 2021年第3期482-486,共5页
高频数据易出现异常且出于无序状态,研究基于局部离群点检测的高频数据共现聚类算法。利用可变网格划分的局部离群点,挖掘高频数据集内的高频数据对象,剔除异常高频数据对象,降序排列各个高频数据对象的局部离群因子值,获取较大离群因... 高频数据易出现异常且出于无序状态,研究基于局部离群点检测的高频数据共现聚类算法。利用可变网格划分的局部离群点,挖掘高频数据集内的高频数据对象,剔除异常高频数据对象,降序排列各个高频数据对象的局部离群因子值,获取较大离群因子值的高频数据对象,提升高频数据共现聚类的执行效率;计算获取的高频数据对象共现相似度,得到高频数据共现相似度矩阵,根据相似度矩阵合并包含最大相似性的聚类,完成高频数据共现聚类。实验结果表明:能准确检测出高频数据集内离群点数量,高频数据共现聚类执行效率快、准确性高。 展开更多
关键词 局部离群点 高频数据 相似 可变网格划分
下载PDF
用于中文分词的组合型歧义消解算法 被引量:5
11
作者 袁鼎荣 李新友 邵延振 《计算机应用与软件》 CSCD 2011年第6期57-58,134,共3页
自动分词技术的瓶颈是切分歧义,切分歧义可分为交集型切分歧义和组合型切分歧义。以组合型歧义字段所在句子为研究对象,考察歧义字段不同切分方式所得结果与其前后搭配所得词在全文中的支持度,构造从合或从分切分支持度度量因子,依据该... 自动分词技术的瓶颈是切分歧义,切分歧义可分为交集型切分歧义和组合型切分歧义。以组合型歧义字段所在句子为研究对象,考察歧义字段不同切分方式所得结果与其前后搭配所得词在全文中的支持度,构造从合或从分切分支持度度量因子,依据该因子消除组合型歧义。通过样例说明和实验验证该方法可行并优于现有技术。 展开更多
关键词 中文信息处理 组合型歧义 支持 歧义消解 支持因子
下载PDF
基于标签相关性的卷积神经网络多标签分类 被引量:5
12
作者 余晓龙 林国平 《闽南师范大学学报(自然科学版)》 2019年第2期19-25,共7页
多标签分类问题已广泛应用于文本分类、图像分类、生物基因功能分类、视频语义注释等.相比较于单标签分类,多标签分类更符合真实世界的客观规律.然而,已有的卷积神经网络多标签分类算法没有探究标签之间相关性,为此提出了一种基于标签... 多标签分类问题已广泛应用于文本分类、图像分类、生物基因功能分类、视频语义注释等.相比较于单标签分类,多标签分类更符合真实世界的客观规律.然而,已有的卷积神经网络多标签分类算法没有探究标签之间相关性,为此提出了一种基于标签相关性卷积神经网络多标签分类,即计算标签之间共现相似度方法,同时为了解决卷积神经网络预测精度高,训练时间长的缺点,引入了迁移学习的方法加快了模型的训练时间.实验表明,提出的算法优于传统的多标签分类算法. 展开更多
关键词 多标签分类 标签相关性 标签相似 卷积神经网络 迁移学习
下载PDF
基于专利搜索日志的同义词挖掘 被引量:1
13
作者 王颖 都云程 +1 位作者 卢献华 吕学强 《计算机工程与设计》 CSCD 北大核心 2013年第3期1029-1033,共5页
针对专利搜索日志中同义词出现的特点,改进了词共现相似度算法,提出了一种基于专利搜索日志的同义词挖掘方法。利用专利搜索日志中同义词出现的规律挖掘同义词集的结构模板,根据这些模板抽取出候选同义词集,利用改进的词共现方法计算词... 针对专利搜索日志中同义词出现的特点,改进了词共现相似度算法,提出了一种基于专利搜索日志的同义词挖掘方法。利用专利搜索日志中同义词出现的规律挖掘同义词集的结构模板,根据这些模板抽取出候选同义词集,利用改进的词共现方法计算词汇相似度。对称共现的词对正确率达到85.66%,召回率达到78.98%,F值0.82。该方法可用于专利搜索引擎中提高专利检索的效率。 展开更多
关键词 专利搜索日志 同义词挖掘 结构模板 候选同义词集 相似
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部