期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
融合语义特征的TextRank关键词抽取方法 被引量:12
1
作者 杨延娇 赵国涛 +1 位作者 袁振强 韩家臣 《计算机工程》 CAS CSCD 北大核心 2021年第10期82-88,共7页
TextRank使用共现窗口代替PageRank网页超链接以判断词语关系,但共现窗口机制下的词汇图是无向图,且实际中文文本中词语与其共现窗口内的词语之间在多数情况下没有认知上的指向性链接关系,导致共现窗口机制下的词语关系与PageRank网页... TextRank使用共现窗口代替PageRank网页超链接以判断词语关系,但共现窗口机制下的词汇图是无向图,且实际中文文本中词语与其共现窗口内的词语之间在多数情况下没有认知上的指向性链接关系,导致共现窗口机制下的词语关系与PageRank网页超链接关系存在较大差别。为此,提出一种融合语义特征的关键词抽取方法S-TextRank。在TextRank方法的基础上以依存关系代替共现窗口判断词语关系,以模拟PageRank网页指向性超链接。对不同词性词语赋予相应的权重系数,从而模拟不同性质网页的重要程度。在此基础上,使用IDF方法结合汉语语法规则构建非关键词表,排除无关词语以降低其对抽取结果的影响。实验结果表明,S-TextRank方法在测试集上的准确率达到74%,比TextRank方法高19.4个百分点。 展开更多
关键词 TextRank方法 关键词抽取 依存关系 词性重要度 idf方法 PageRank方法
下载PDF
一种基于改进TF-IDF的SLAM回环检测算法 被引量:12
2
作者 董蕊芳 柳长安 杨国田 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2019年第2期251-258,共8页
提出了一种基于改进TF-IDF的视觉SLAM回环检测算法,用于检测曾经访问过的位置,来消除定位过程中的累积误差.首先,针对在人造建筑场景中使用SLAM算法对图像点特征进行计算容易导致检测失败的问题,采用图像中的直线作为特征来进行回环检... 提出了一种基于改进TF-IDF的视觉SLAM回环检测算法,用于检测曾经访问过的位置,来消除定位过程中的累积误差.首先,针对在人造建筑场景中使用SLAM算法对图像点特征进行计算容易导致检测失败的问题,采用图像中的直线作为特征来进行回环检测的计算.其次,在LBD(line band descriptor)图像线特征描述子的基础上进一步提取了二进制LBD描述子来进行视觉词典的构建,保证了线特征的处理效率.提出了一种改进的TF-IDF(term frequency&inverse document frequency)单词权重确定方法,提高了视觉单词评分之间的区分度.最后,以室内建筑环境和输电线路场景为例进行实验,结果显示,所提出的基于线特征的回环检测算法比基于点特征的算法有较高的检测准确率,有助于提高SLAM算法的计算性能. 展开更多
关键词 SLAM 回环检测 人造建筑场景 二进制LBD 改进的TF-idf方法
下载PDF
基于改进的TF-IDF方法的文本相似度算法研究 被引量:11
3
作者 周丽杰 于伟海 郭成 《泰山学院学报》 2015年第3期18-22,共5页
传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词... 传统的文本相似度算法采用关键词频率表示该关键词在文档中的重要程度,关键词在类别内不同文档中的频率波动使得关键词的权值产生不稳定性,导致文本之间的相似度运算不够准确.本文提出一种基于词语信息量的改进的TF-IDF算法计算关键词的权值,将得到的权值运用于向量空间模型和马尔可夫模型中,分别得到基于向量空间模型的基础相似度和基于马尔可夫模型的语义相似度,将语义相似度和基础相似度相结合,得到文本之间总体相似度.将改进的文本相似度算法运用于文本分类,实验结果表明,在搜狗文本分类语料库基础上,改进的算法相对于传统的文本相似度算法使得文本分类的准确率有了较大地提高. 展开更多
关键词 文本相似度算法 TF-idf方法 词语关联 马尔可夫模型 文本分类
下载PDF
基于词序方法的文本相似度计算模型 被引量:7
4
作者 郭武斌 周宽久 苏振魁 《情报学报》 CSSCI 北大核心 2008年第6期857-862,共6页
针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共... 针对传统向量空间模型对文本相似度的计算未考虑词序导致偏差的问题,提出使用马尔可夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来描述词序信息,在此基础上提出一种将马尔可夫状态转移矩阵、最长公共子序列、公共子串和TF-IDF相结合,兼顾词序和词频信息的文本相似度计算方法,并使用英文TREC-9的部分数据集对基于词序方法的文本相似度计算方法进行了测试。试验结果表明:在同等分词及评估条件下,基于词序方法的文本相似度计算结果的准确率相对于单纯采用传统的基于向量空间模型的TF-IDF方法提高了5%~15%。 展开更多
关键词 文本相似度 词序 向量空间模型 TF-idf方法
下载PDF
基于改进隐马尔可夫模型的文本分类研究 被引量:3
5
作者 李开荣 孔照昆 +1 位作者 陈桂香 朱俊武 《微电子学与计算机》 CSCD 北大核心 2012年第11期161-165,共5页
将一种改进的隐马尔可夫模型(HMM)应用于文本分类中,在考虑其前向依赖的同时,需考虑状态的后向依赖性.将当前观测值和和当前状态对其后一状态的依赖性加入模型的学习,这样的改进模型能有效提高文本信息抽取准确率.在文本分类过程研究中... 将一种改进的隐马尔可夫模型(HMM)应用于文本分类中,在考虑其前向依赖的同时,需考虑状态的后向依赖性.将当前观测值和和当前状态对其后一状态的依赖性加入模型的学习,这样的改进模型能有效提高文本信息抽取准确率.在文本分类过程研究中,首先对训练样本进行文本预处理,对HMM分类器模型进行参数学习,建立HMM分类器后用测试集进行测试并做出性能评价.在性能评价中用改进的评测指标,可针对不同数据集做出准确评价,以及可对比不同分类工作在同一数据集上的性能,大大提高评价质量. 展开更多
关键词 隐马尔可夫模型 文本分类 期望交叉熵(ECE) χ2统计 TF-idf方法
下载PDF
用户偏好预测模型研究与用户画像标签应用 被引量:4
6
作者 尹健康 梁筱雨 +1 位作者 刘志 陆梓祺 《电子技术与软件工程》 2020年第24期201-202,共2页
本文以某卷烟企业为案例背景,引入用户偏好预测模型,探索互联网精准营销的实现路径,并实现用户画像标签的应用。本文在合法合规前提下,提供第三方群体用户画像服务,搭建基于用户画像的用户卷烟偏好预测模型。模型通过合法合规的匹配方式... 本文以某卷烟企业为案例背景,引入用户偏好预测模型,探索互联网精准营销的实现路径,并实现用户画像标签的应用。本文在合法合规前提下,提供第三方群体用户画像服务,搭建基于用户画像的用户卷烟偏好预测模型。模型通过合法合规的匹配方式,进行用户画像。本文借助TF-IDF方法预测用户对卷烟的情感倾向。 展开更多
关键词 第三方群体 用户偏好预测模型 用户画像 TF-idf方法
下载PDF
基于属性概率权重的人工智能翻译文本特征分类算法
7
作者 冯国平 曾祥淦 《自动化与仪器仪表》 2023年第11期29-33,共5页
为提升人工智能翻译文本特征分类精度,提出基于属性概率权重的人工智能翻译文本特征分类算法。基于模板匹配算法匹配源语言模板进行文本翻译,引入全局频率改进TF-IDF方法,利用余弦相似度和Markov模型实现文本之间的相似度计算,实现特征... 为提升人工智能翻译文本特征分类精度,提出基于属性概率权重的人工智能翻译文本特征分类算法。基于模板匹配算法匹配源语言模板进行文本翻译,引入全局频率改进TF-IDF方法,利用余弦相似度和Markov模型实现文本之间的相似度计算,实现特征词的属性概率权重的归一化,得到全面的特征词属性概率权重。将特征词的属性概率权重融合到朴素贝叶斯分类方法中,实现人工智能翻译文本特征分类。实验结果表明该算法的翻译准确率在85%以上,且不同领域语料的正、反向类语言特征分类准确率高。 展开更多
关键词 属性概率权重 TF-idf方法 文本特征 余弦相似性 朴素贝叶斯
原文传递
基于TF-IDF方法融合生物医学同义词的相似度计算方法
8
作者 郝淼 谭红 +2 位作者 张成梅 于杰 黄伟 《贵州科学》 2019年第6期91-96,共6页
科技文献资料之间的相似度计算可以帮助人们从中挖掘更多的科学知识。但是科技文献资料中的复杂的同义词关系却明显地影响了相似度的准确性。尤其在计算生物医学科技资料时其准确度常常受到领域专业词汇的影响而降低。因此本文提出了一... 科技文献资料之间的相似度计算可以帮助人们从中挖掘更多的科学知识。但是科技文献资料中的复杂的同义词关系却明显地影响了相似度的准确性。尤其在计算生物医学科技资料时其准确度常常受到领域专业词汇的影响而降低。因此本文提出了一种基于TF-IDF方法结合生物医学同义词的文本相似度计算方法。该方法首先识别生物医学专业词汇及其同义词关系并建立同义词库,之后根据同义词权重规则修改TF-IDF中更能体现文本特征的权重值,最后计算文本的相似度。实验表明该方法有效提高了生物医学文本相似度计算的稳定性和准确度,是一种相较于传统TF-IDF更为有效的文本相似性计算法。 展开更多
关键词 文本相似性 TF-idf方法 生物医学本体 同义词
下载PDF
绿色航道河岸廊道评价-以通扬线高邮段为例
9
作者 曹定维 杨松桦 陈一梅 《珠江水运》 2021年第17期69-70,共2页
基于景观生态学、河流生态学和绿色经济学理论,结合词频-逆向文件频率(TF-IDF)方法,确定了绿色航道河岸廊道功能,筛选出适宜指标;提出了指标的定量、定性计分法则和评分标准;采用层次分析(AHP)的方法确定权重;建立了河岸廊道评价指标体... 基于景观生态学、河流生态学和绿色经济学理论,结合词频-逆向文件频率(TF-IDF)方法,确定了绿色航道河岸廊道功能,筛选出适宜指标;提出了指标的定量、定性计分法则和评分标准;采用层次分析(AHP)的方法确定权重;建立了河岸廊道评价指标体系。以通扬线高邮段为例的评价结果表明,所建立的评价指标体系和方法,可以得到综合评价结果,找出河岸廊道在绿色营造方面的长处和不足,对绿色航道河岸廊道建设有积极的指导作用。 展开更多
关键词 绿色航道 河岸廊道 TF-idf方法 指标体系 生态功能
下载PDF
基于LDA主题模型的微博检索研究与实现
10
作者 王若成 《信息技术与信息化》 2017年第11期104-107,共4页
随着微博用户的增长,微博文本量也呈现出爆发式的增长趋势。面对如此海量的文本数据,如何有效地检索有用的信息对微博用户是十分重要的。本文采用基于TF-IDF计算,先找到关于词频相似的微博文章;然后利用LDA主题模型的方法,筛选出主题内... 随着微博用户的增长,微博文本量也呈现出爆发式的增长趋势。面对如此海量的文本数据,如何有效地检索有用的信息对微博用户是十分重要的。本文采用基于TF-IDF计算,先找到关于词频相似的微博文章;然后利用LDA主题模型的方法,筛选出主题内容相似的微博文章。实验结果证明,采用该综合检索方法,用户能够检索出更加符合用户实际需求微博文章。 展开更多
关键词 TF-idf方法 LDA主题模型 微博文章 文本相似度
下载PDF
基于作者关键词耦合的潜在合作关系挖掘 被引量:52
11
作者 陈卫静 郑颖 《情报杂志》 CSSCI 北大核心 2013年第5期127-131,共5页
以关键词为计量单位的作者关键词耦合分析方法与以文献为计量单位的作者同被引、作者文献耦合等常规分析方法相比,在揭示作者的研究内容上更为直观清晰。探讨了如何利用作者关键词耦合分析法计算作者之间的相似度,并根据作者的相似度挖... 以关键词为计量单位的作者关键词耦合分析方法与以文献为计量单位的作者同被引、作者文献耦合等常规分析方法相比,在揭示作者的研究内容上更为直观清晰。探讨了如何利用作者关键词耦合分析法计算作者之间的相似度,并根据作者的相似度挖掘作者之间潜在的合作关系,最后以ACM SIGKDD合作网络为例分析统计了数据挖掘和知识发现领域作者之间潜在的合作关系,并探讨了该方法对中文期刊数据库的适用性。 展开更多
关键词 作者关键词耦合分析 耦合强度 TF—idf加权方法 作者相似度 潜在合作关系 科研合作
下载PDF
基于改进TF-IDF融合二进制灰狼优化的短文本分类
12
作者 杨东 毋涛 +1 位作者 赵雪青 李猛 《计算机技术与发展》 2024年第8期37-41,共5页
为了提高特殊类型短文本分类准确度和降低特征维度,提出了基于改进TF-IDF方法融合二进制灰狼优化的短文本分类。为了提高特征向量文本权重计算准确度,提出了点赞排列因子,并融合了文本特征集中度,对附有点赞数的特殊类型文本进行权重计... 为了提高特殊类型短文本分类准确度和降低特征维度,提出了基于改进TF-IDF方法融合二进制灰狼优化的短文本分类。为了提高特征向量文本权重计算准确度,提出了点赞排列因子,并融合了文本特征集中度,对附有点赞数的特殊类型文本进行权重计算,设计改进了TF-IDF-RANK方法对特征进行加权;同时,基于初选特征向量,设计优化了二进制灰狼优化算法(BGWO)搜寻最优特征子集,引入衰减系数向量和多优解迭代机制,提高灰狼搜寻性能。结果表明,该方法有效地提升了权重准确率,更好地表征初选特征向量,增强特征选择时寻找全局最优解的能力,进而提高短文本的分类效果。通过LABIC和抖音开放平台数据集测试,综合指标F1值分别提高了14.76%和14.02%,验证了该方法对于特殊类型文本分类的有效性。 展开更多
关键词 短文本分类 特征加权 TF-idf-RANK方法 特征选择 二进制灰狼优化
下载PDF
高可靠性移动通信网络数据库跨域安全检索研究
13
作者 阚钿玉 《微型电脑应用》 2024年第8期46-50,共5页
高可靠性移动通信网络数据库在跨域检索过程中容易被攻击者修改数据,导致数据检索精度与效率下降,因而研究高可靠性移动通信网络数据库跨域安全检索方法。通过主密钥对和用户私钥、公钥确定密文索引,结合密文获取安全查询索引,提取安全... 高可靠性移动通信网络数据库在跨域检索过程中容易被攻击者修改数据,导致数据检索精度与效率下降,因而研究高可靠性移动通信网络数据库跨域安全检索方法。通过主密钥对和用户私钥、公钥确定密文索引,结合密文获取安全查询索引,提取安全查询索引关键词。通过改进TF-IDF权值方法确定索引关键词相关度分数,结合相关度分数对检索结果进行排名和过滤,将检索结果返回给数据使用者,完成跨域安全检索。实验结果表明,这种方法的检索结果的查全率、查准率、效率均较高,检索效果好。 展开更多
关键词 移动通信网络 数据库 安全查询索引 改进TF-idf权值方法 相关度分数
下载PDF
自动扶梯检验信息的数据挖掘在重大活动安全保障工作中的应用
14
作者 王齐刚 《中国电梯》 2024年第3期39-42,共4页
自动扶梯检验信息的数据挖掘能够为特种设备检验检测机构对重大活动的电梯安全保障工作提供强力的技术支撑。应用数据挖掘技术和方法对上海区域内自动扶梯检验信息进行数据处理和分析,并基于TF-IDF统计方法的词频计算及余弦相似度比较... 自动扶梯检验信息的数据挖掘能够为特种设备检验检测机构对重大活动的电梯安全保障工作提供强力的技术支撑。应用数据挖掘技术和方法对上海区域内自动扶梯检验信息进行数据处理和分析,并基于TF-IDF统计方法的词频计算及余弦相似度比较来实现重大活动专项检查时自动扶梯检验项目推荐,提高专项检查时自动扶梯检验工作的针对性和准确性。 展开更多
关键词 自动扶梯 检验信息 数据挖掘 重大活动安全保障 TF-idf统计方法
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部