期刊文献+
共找到47篇文章
< 1 2 3 >
每页显示 20 50 100
基于粗集理论的中文关键词短语构成规则挖掘 被引量:17
1
作者 刘远超 王晓龙 +1 位作者 徐志明 刘秉权 《电子学报》 EI CAS CSCD 北大核心 2007年第2期371-374,共4页
短语比词信息量更加丰富,更能够体现原文的主题,通常所说的关键词实际上多数为短语形式.然而目前的问题是关键词短语的自动标引缺乏统一的规则指导.本文利用粗集理论在数据泛化和知识约简方面的优势,对人工标注的人民日报关键词短语语... 短语比词信息量更加丰富,更能够体现原文的主题,通常所说的关键词实际上多数为短语形式.然而目前的问题是关键词短语的自动标引缺乏统一的规则指导.本文利用粗集理论在数据泛化和知识约简方面的优势,对人工标注的人民日报关键词短语语料进行了挖掘,从而得到了中文关键词短语的若干构成规则.规则可以用于自动关键词抽取,也可以对手工关键词标引进行指导.实验结果表明获取的规则使关键词自动抽取的性能有较大改善. 展开更多
关键词 抽取 关键词短语 粗集理论 规则挖掘
下载PDF
基于主题模型的微博重要话题发现与排序方法 被引量:12
2
作者 姜晓伟 王建民 丁贵广 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期179-185,共7页
近年来,以Twitter和新浪微博为代表的微博客正在世界范围内流行起来.根据微博的特点,提出一种与特定主题(比如某种产品)相关的话题发现和排序的新方法.首先,在互联网上收集并格式化出现了感兴趣的词的微博.对于这些微博中的所有词汇,综... 近年来,以Twitter和新浪微博为代表的微博客正在世界范围内流行起来.根据微博的特点,提出一种与特定主题(比如某种产品)相关的话题发现和排序的新方法.首先,在互联网上收集并格式化出现了感兴趣的词的微博.对于这些微博中的所有词汇,综合考虑影响力、突发性和相关性3个要素对其重要性进行评估.其次,对词的重要性做出估量后,以含有同一关键词的微博的集合为输入文档训练LDA模型.然后通过对主题关键词的概率分布的推导,实现词的聚类和主题的挖掘.这一方法可以克服微博的长度限制所带来的数据稀缺性问题.最后,通过真实数据集上的实验表明了该方法的有效性. 展开更多
关键词 微博客 关键词排序 主题发现 LDA 主题模型 文本挖掘
下载PDF
稀疏地理实体关系的关键词提取方法 被引量:9
3
作者 余丽 陆锋 +2 位作者 刘希亮 程诗奋 张雪英 《地球信息科学学报》 CSCD 北大核心 2016年第11期1465-1475,共11页
网络文本蕴含地理实体关系抽取技术,需要高时效、强鲁棒的关键词提取方法。与监督学习方法相比,无监督学习方法能捕获文本的动态变化特征并发现新增的关系类型,因此备受关注。其中,基于频率的关键词提取方法获得广泛研究,然而,网络文本... 网络文本蕴含地理实体关系抽取技术,需要高时效、强鲁棒的关键词提取方法。与监督学习方法相比,无监督学习方法能捕获文本的动态变化特征并发现新增的关系类型,因此备受关注。其中,基于频率的关键词提取方法获得广泛研究,然而,网络文本蕴含的地理实体关系分布稀疏,基于频率的方法难以直接应用于地理实体关系的关键词提取。为解决该问题,本文基于公开访问的网络资源,提出一种语境增强的关键词提取方法。首先,基于在线百科和开放的同义词词典,通过语境合并和语义融合创建增强的语境,以降低语境中词语的稀疏性。接着,Domain Frequency和Entropy频率统计方法从增强语境中自动构建一个大规模语料。然后,基于该语料选择词法特征并统计其权值,用于扩大语境中词语间的差异。最后,使用选择的词法特征度量增强语境中词语的重要性,将权值最大的词语作为描述地理实体关系的关键词,并基于大规模真实网络文本开展实验。实验结果表明:对于地理实体关系的关键词识别,本文方法的平均精度为85.5%,比Domain Frequency和Entropy方法分别提高41%和36%;对于新增关键词识别,本文方法的精度达到60.3%。语境增强的关键词提取方法能有效地处理地理实体关系分布的稀疏性,可服务于网络文本蕴含地理实体关系的抽取。 展开更多
关键词 地理信息检索 地理实体关系 关键词提取 文本挖掘 语境增强
原文传递
2021至2023年人工智能领域研究热点分析述评与展望
4
作者 魏子舒 韩越 +2 位作者 刘思浩 张圣宇 吴飞 《计算机研究与发展》 EI CSCD 北大核心 2024年第5期1261-1275,共15页
在当今数字化和智能化的时代背景下,人工智能(artificial intelligence,AI)已成为科技创新的重要引擎,总结探讨AI研究的最新趋势和未来发展方向具有重要的研究和现实意义.为此,对2021—2023年间在中国计算机学会(CCF)推荐的AI领域CCF-A... 在当今数字化和智能化的时代背景下,人工智能(artificial intelligence,AI)已成为科技创新的重要引擎,总结探讨AI研究的最新趋势和未来发展方向具有重要的研究和现实意义.为此,对2021—2023年间在中国计算机学会(CCF)推荐的AI领域CCF-A类国际会议和期刊所发表论文的研究成果进行收集,并在此基础上采用文献计量学的方法论来通过关键词对研究热点进行分析,进行基于高频关键词分析研究热点、基于新增关键词分析研究趋势、基于引用量加权的关键词分析高影响力研究,可以梳理AI研究的主流方向、发现AI主要研究方向的相互联系和交叉融合的特点.此外,对当前研究热点如大语言模型(large language model,LLM)、AI驱动的科学研究(AI for Science)和视觉生成相关论文的关联热点进行分析,可以挖掘技术路径和方法论的演变,展现技术创新背后的科学理论和应用前景,从而进一步揭示AI研究的最新趋势和发展前景. 展开更多
关键词 人工智能 研究热点 关键词 统计分析 数据挖掘
下载PDF
基于文本挖掘的个性化旅游偏好特征属性分析 被引量:6
5
作者 蒋建洪 马瑞云 《企业经济》 CSSCI 北大核心 2017年第12期129-133,共5页
本文利用网络爬虫技术爬取个人游记、评论等信息作为初始文本,进行分词、文本过滤等预处理,将复杂网络理论应用于文本挖掘技术,提取文本中主题的关键词,从而进行分类处理得出个人旅游偏好的特征属性,最后采用TOPSIS方法,利用特征属性对... 本文利用网络爬虫技术爬取个人游记、评论等信息作为初始文本,进行分词、文本过滤等预处理,将复杂网络理论应用于文本挖掘技术,提取文本中主题的关键词,从而进行分类处理得出个人旅游偏好的特征属性,最后采用TOPSIS方法,利用特征属性对下一个备选目的地进行选择排序。本文从蚂蜂窝、同程旅游、携程等旅游网站中随机挑选一位博主,进行旅游偏好特征属性分析,再以桂林各大景点为例,获取满足该博主个人偏好的下一个目的地。对旅游产品企业及旅游部门而言,应用这一技术,可以了解用户需求,提供个性化服务;加强互动,重视口碑营销,形成品牌效应;同时,合理把控资金投入,完成针对性整改,规范旅游市场。 展开更多
关键词 关键词提取 复杂网络 数据挖掘 TOPSIS法
下载PDF
改进TextRank的文本关键词提取算法 被引量:3
6
作者 王俊玲 《软件导刊》 2021年第4期49-52,共4页
关键词提取作为自然语言处理(NLP)的重要步骤,其作用是挖掘文本主题,通过几个词高度概括文本内容,在信息检索、文本挖掘中应用广泛。选出的关键词必须包含以下3个特性:易于理解、与文本高度关联、能很好地覆盖文本内容。对TextRank算法... 关键词提取作为自然语言处理(NLP)的重要步骤,其作用是挖掘文本主题,通过几个词高度概括文本内容,在信息检索、文本挖掘中应用广泛。选出的关键词必须包含以下3个特性:易于理解、与文本高度关联、能很好地覆盖文本内容。对TextRank算法进行改进,将一段文本分成若干部分,对其中的每个部分构建关键词图,并在每一部分中提取若干关键词,最后根据词频、长度、位置和词性等综合因素进行打分,选出最终的关键词。通过实验得出,该算法相比传统的TextRank算法准确率提高了2.3%。改进TextRank算法改善了传统Tex⁃tRank算法将文本按句子划分,且划分过于细致,造成句子之间联系被割裂的现象,提高了算法效率。 展开更多
关键词 关键词提取 关键词图 文本挖掘 TextRank
下载PDF
基于关键词挖掘的客户细分方法 被引量:3
7
作者 陈星宇 周展 +1 位作者 黄俊文 陶达 《深圳大学学报(理工版)》 EI CAS CSCD 北大核心 2017年第3期300-305,共6页
提出一种基于关键词的数据挖掘方法对客户群进行细分,采用自然语义处理的方法从原始客户信息文本中提取客户特征关键词.再通过人工标记一些与内在特征维度相关的关键词,基于这些关键词找到特征客户.最后以特征客户作为训练集,获得更多... 提出一种基于关键词的数据挖掘方法对客户群进行细分,采用自然语义处理的方法从原始客户信息文本中提取客户特征关键词.再通过人工标记一些与内在特征维度相关的关键词,基于这些关键词找到特征客户.最后以特征客户作为训练集,获得更多关于某个维度内客户特征的关键词,再进行新一轮的客户细分.经此模式学习过程,得到基于内在特征维度的客户细分群体.通过与采用随机选择特征关键词的基准化方法进行自动客户细分结果对比,发现采用基于关键词数据挖掘的自动客户细分结果得到的准确度更高,结果更稳健. 展开更多
关键词 人工智能 自然语言处理 知识工程 客户细分 关键词挖掘 客户特征 数据挖掘
下载PDF
知识发现系统的关键词联想推荐研究 被引量:2
8
作者 胡玉婷 黄晨 《图书馆杂志》 CSSCI 北大核心 2018年第2期71-77,共7页
当前我国工程科技领域存在海量数据,如何整合现有数字资源,用知识发现技术辅助专家学者发现当前各领域研究热点具有重要意义。文章通过计算关键词之间的直接关系和隐语义关系,提出了一种基于贝叶斯统计推断的关键词联想算法。解决了知... 当前我国工程科技领域存在海量数据,如何整合现有数字资源,用知识发现技术辅助专家学者发现当前各领域研究热点具有重要意义。文章通过计算关键词之间的直接关系和隐语义关系,提出了一种基于贝叶斯统计推断的关键词联想算法。解决了知识发现系统中的用户行为信息缺失和共现稀疏等推荐难题。 展开更多
关键词 知识发现 关键词推荐 隐语义 共现稀疏 数据挖掘
下载PDF
融合BERT与LDA的在线课程评论关键词提取方法 被引量:1
9
作者 尼格拉木·买斯木江 艾孜尔古丽·玉素甫 《现代电子技术》 2022年第6期99-104,共6页
为了高效提取高度集中、覆盖范围广和差异性明显的慕课网用户评论关键词,文中提出一种融合BERT和LDA⁃TextRank的关键词提取方法。实现关键词提取的第一步是获取候选关键词,在获得候选关键词之前需对爬取的课程评语进行预处理,再通过BER... 为了高效提取高度集中、覆盖范围广和差异性明显的慕课网用户评论关键词,文中提出一种融合BERT和LDA⁃TextRank的关键词提取方法。实现关键词提取的第一步是获取候选关键词,在获得候选关键词之前需对爬取的课程评语进行预处理,再通过BERT模型训练得到慕课网在线评语的词向量;然后利用LDA主题模型得到候选关键词的主题分布;最后结合TextRank算法计算各主题的关系词及生成评论文本的词主题挖掘。基于此,文中利用BERT文本表示方法,能够更好地联系不同词语之间的相关性;在传统的LDA主题抽取模型的基础上结合TextRank方法,并在节点运算中通过迭代算法计算各词的得分,将权值的转移概率作为词语之间的相似度,使得关键词提取性能得到了提升。实验结果表明,与传统方法相比,所提方法的困惑程度值明显降低,证实了该方法的有效性。 展开更多
关键词 在线课程评论 关键词提取 语义分析 文本挖掘 相似度计算 结果分析
下载PDF
基于微博的福建地区居民关于降雨的情感分析
10
作者 余安安 吴雪菲 +2 位作者 李栋 任雍 刘光普 《亚热带资源与环境学报》 2022年第4期29-36,共8页
利用大连理工大学情感词汇本体库DUTIR对福建地区居民关于降雨的微博进行细粒度情感分析,将情感倾向分为“乐、好、怒、哀、惧、恶、惊”7类,并得到相应情感倾向度。情感分析的准确率为92.75%,平均综合评价指标为68.28%,结合关键词挖掘... 利用大连理工大学情感词汇本体库DUTIR对福建地区居民关于降雨的微博进行细粒度情感分析,将情感倾向分为“乐、好、怒、哀、惧、恶、惊”7类,并得到相应情感倾向度。情感分析的准确率为92.75%,平均综合评价指标为68.28%,结合关键词挖掘技术进一步分析,结果发现:(1)福建地区居民对降雨的情感倾向主要为“好”,总体呈正面情感;(2)福建地区居民对降雨的情感是多样且稳定的;(3)相关天气现象、所处地点、环境感受、社会活动影响构成了影响福建地区居民对降雨情感的因素。 展开更多
关键词 细粒度情感分析 福建地区 微博 降雨 关键词挖掘
下载PDF
基于post关键字编译法的网络异常数据挖掘软件设计 被引量:1
11
作者 焦锐丽 郑武强 李贤 《新一代信息技术》 2019年第21期45-50,共6页
在大数据背景下进行网络异常数据挖掘,提高网络的安全性,提出基于post关键字编译法的网络异常数据挖掘方法,并在嵌入式模块中进行软件开发设计。建立网络异常数据的非线性结构重组模型,采用交叉编译方法进行网络异常数据的关键字特征提... 在大数据背景下进行网络异常数据挖掘,提高网络的安全性,提出基于post关键字编译法的网络异常数据挖掘方法,并在嵌入式模块中进行软件开发设计。建立网络异常数据的非线性结构重组模型,采用交叉编译方法进行网络异常数据的关键字特征提取,建立网络异常数据关键字的语义本体模型,采用语义关联映射方法进行网络异常数据的语义特征检测和信息挖掘,构建反映网络异常数据存档信息归类的语义本体模型,通过自相关特征匹配实现网络异常数据的属性检测,结合post关键字编译法方法进行网络异常数据挖掘优化。在嵌入式Linux环境下实现网络异常数据挖掘的软件设计。仿真结果表明,采用该方法进行网络异常数据挖掘的准确性较高,实时性较好,提高了网络异常检测能力。 展开更多
关键词 post关键字 编译 网络异常数据 挖掘 软件
下载PDF
基于内容和背景的微博问答问题推荐 被引量:1
12
作者 欧阳龙 卢琪 彭艳兵 《电子设计工程》 2018年第11期183-188,共6页
新浪微博的新功能微博问答一经上线就抢占了大部分内容付费的市场,如何对特定的博主提出其愿意回答并且围观量多的问题就成了我们关注的重点。针对问答关键词的推荐问题,提出了基于AW-LDA模型的用户关键词挖掘方法,并结合微博内容和背... 新浪微博的新功能微博问答一经上线就抢占了大部分内容付费的市场,如何对特定的博主提出其愿意回答并且围观量多的问题就成了我们关注的重点。针对问答关键词的推荐问题,提出了基于AW-LDA模型的用户关键词挖掘方法,并结合微博内容和背景并存的特点,采用了基于内容和背景的用户相似度分析方法。通过进行对比试验,结果表明:该用户关键词挖掘方法和问题关键词推荐方法相较于传统方法推荐的问答关键词推荐效率提高了9.15%,推荐的关键词收益率提高了15.53%。 展开更多
关键词 新浪微博 内容付费 AW-LDA模型 关键词挖掘 相似度分析
下载PDF
学术个体切换研究方向的序列模式挖掘——以中国情报学领域为例 被引量:1
13
作者 杨建林 钱玲飞 《情报理论与实践》 CSSCI 北大核心 2013年第6期98-101,共4页
文章提出年度作者关键词事务序列这一概念,并将其作为新的研究内容。阐述了基于年度作者关键词事务序列集进行序列模式挖掘的意义;给出挖掘的主要步骤,其中包括将作者关键词泛化为能够代表某个研究方向的上位词的预处理过程;以中国情报... 文章提出年度作者关键词事务序列这一概念,并将其作为新的研究内容。阐述了基于年度作者关键词事务序列集进行序列模式挖掘的意义;给出挖掘的主要步骤,其中包括将作者关键词泛化为能够代表某个研究方向的上位词的预处理过程;以中国情报学领域为例,利用CSSCI收录的1998—2011年度的来源文献数据进行实证研究,挖掘学术个体切换研究方向的序列模式;从情报学学科角度对挖掘结果进行解释,并对提出的方法进行总结。 展开更多
关键词 研究方向 关键词 数据挖掘
原文传递
微信搜索引擎优化策略的研究 被引量:1
14
作者 李灿辉 《数字技术与应用》 2020年第4期68-69,共2页
2019年微信搜索持续升级,如今微信搜一搜已成为10亿用户与微信生态中海量内容和服务连接的纽带。微信营销是目前最火的移动网络营销方式,微信搜索引擎优化带来的是精准的意向客户。本文从微信搜索排序的影响因素、排序的技巧、优化的策... 2019年微信搜索持续升级,如今微信搜一搜已成为10亿用户与微信生态中海量内容和服务连接的纽带。微信营销是目前最火的移动网络营销方式,微信搜索引擎优化带来的是精准的意向客户。本文从微信搜索排序的影响因素、排序的技巧、优化的策略等方面来进行微信搜索引擎优化的研究与探讨。 展开更多
关键词 微信SEO 微信搜一搜 关键词挖掘
下载PDF
Efficient keyword search over graph-structured data based on minimal covered r-cliques
15
作者 Asieh GHANBARPOUR Khashayar NIKNAFS Hassan NADERI 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2020年第3期448-465,共18页
Keyword search is an alternative for structured languages in querying graph-structured data.A result to a keyword query is a connected structure covering all or part of the queried keywords.The textual coverage and st... Keyword search is an alternative for structured languages in querying graph-structured data.A result to a keyword query is a connected structure covering all or part of the queried keywords.The textual coverage and structural compactness have been known as the two main properties of a relevant result to a keyword query.Many previous works examined these properties after retrieving all of the candidate results using a ranking function in a comparative manner.However,this needs a time-consuming search process,which is not appropriate for an interactive system in which the user expects results in the least possible time.This problem has been addressed in recent works by confining the shape of results to examine their coverage and compactness during the search.However,these methods still suffer from the existence of redundant nodes in the retrieved results.In this paper,we introduce the semantic of minimal covered r-clique(MCCr)for the results of a keyword query as an extended model of existing definitions.We propose some efficient algorithms to detect the MCCrs of a given query.These algorithms can retrieve a comprehensive set of non-duplicate MCCrs in response to a keyword query.In addition,these algorithms can be executed in a distributive manner,which makes them outstanding in the field of keyword search.We also propose the approximate versions of these algorithms to retrieve the top-k approximate MCCrs in a polynomial delay.It is proved that the approximate algorithms can retrieve results in two-approximation.Extensive experiments on two real-world datasets confirm the efficiency and effectiveness of the proposed algorithms. 展开更多
关键词 keyword search Graph mining Information retrieval Database CLIQUE
原文传递
内容审计系统关键词表的改进
16
作者 朱宏 刘嘉胤 《计算机安全》 2011年第4期69-71,共3页
以Web网页为例,提出了利用关联规则挖掘技术改进关键词表的建立。通过对网页进行统一编码、过滤HTML标识、中文分词、去掉无用词这一系列数据处理后,使用Apriori算法,挖掘出网页中和关键词达到一定支持度和置信度的关联词,并添加到关键... 以Web网页为例,提出了利用关联规则挖掘技术改进关键词表的建立。通过对网页进行统一编码、过滤HTML标识、中文分词、去掉无用词这一系列数据处理后,使用Apriori算法,挖掘出网页中和关键词达到一定支持度和置信度的关联词,并添加到关键词表中,从而改进了关键词表的建立方式。 展开更多
关键词 关键词搜索 内容审计系统 数据挖掘 关联规则
下载PDF
生物信息学数据库及其利用方法 被引量:21
17
作者 姜鑫 《现代情报》 北大核心 2005年第6期185-187,共3页
阐述了生物信息学数据库在生物信息学的发展过程中发挥的巨大作用;介绍了世界上主要的生物信息学数据库及其分类和特点;论述了如何利用生物信息学数据库;最后,对利用国际生物信息学数据库促进我国生物信息学的发展做出了展望。
关键词 数据库 生物信息学 序列比对 数据挖掘 知识发现
下载PDF
信息环境下现代审计技术的探索:实时在线审计 被引量:16
18
作者 陈丹萍 《审计与经济研究》 北大核心 2005年第4期27-29,共3页
本文在分析信息技术发展对审计方法影响的基础上,提出应利用实时在线审计方式及数据挖掘技术对大量原始数据进行审查和分析,以提高审计工作效率,降低审计风险,保证审计质量。
关键词 信息技术 在线审计 数据挖掘 审计风险
下载PDF
基于数据挖掘的企业竞争情报系统 被引量:13
19
作者 朱永武 《现代情报》 北大核心 2005年第6期168-169,172,共3页
知识经济时代,数据、信息成为重要的经济资源。在日新月异的海量数据里迅速提取有价值信息并尽快做出反应,成为许多企业的“致胜秘笈”。本文首先介绍了竞争情报、企业竞争情报系统。然后给出了数据挖掘的概念和数据挖掘的一般过程。在... 知识经济时代,数据、信息成为重要的经济资源。在日新月异的海量数据里迅速提取有价值信息并尽快做出反应,成为许多企业的“致胜秘笈”。本文首先介绍了竞争情报、企业竞争情报系统。然后给出了数据挖掘的概念和数据挖掘的一般过程。在此基础上提出了一个基于数据挖掘的企业竞争情报系统模型,并介绍了相应的过程。 展开更多
关键词 数据挖掘 竞争情报 企业竞争情报系统
下载PDF
基于值约简和决策树的最简规则提取算法 被引量:15
20
作者 罗秋瑾 陈世联 《计算机应用》 CSCD 北大核心 2005年第8期1853-1855,共3页
粗糙集理论中的值约简和数据挖掘领域中的决策树都是有效的分类方法,但二者都有其局限性。将这两种方法结合起来,生成一种新的基于值核的极小化方法对决策树进行修剪,提出了约简规则的判定准则,缩小了约简的范围,最后再对生成的规则进... 粗糙集理论中的值约简和数据挖掘领域中的决策树都是有效的分类方法,但二者都有其局限性。将这两种方法结合起来,生成一种新的基于值核的极小化方法对决策树进行修剪,提出了约简规则的判定准则,缩小了约简的范围,最后再对生成的规则进行极大化处理,以保证规则覆盖信息的一致性,实验验证了该算法的有效性。 展开更多
关键词 粗糙集 数据挖掘 决策树 值约简 分类规则
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部