期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
基于大数据深度挖掘电网设备缺陷体外循环的模型研制与应用 被引量:2
1
作者 万金金 文屹 +4 位作者 吕黔苏 张迅 范强 肖书舟 万云林 《电力大数据》 2023年第3期61-68,共8页
为提升电网设备缺陷文本的完整性、及时性、规范性,改善因缺陷数据不完整而导致缺陷管理上存在的管控模式粗放、事后管控、数据不完整、消缺不及时、缺陷分析不到位等情况,防止缺陷数据存在体外循环的现象,因此本文提出了一种基于大数... 为提升电网设备缺陷文本的完整性、及时性、规范性,改善因缺陷数据不完整而导致缺陷管理上存在的管控模式粗放、事后管控、数据不完整、消缺不及时、缺陷分析不到位等情况,防止缺陷数据存在体外循环的现象,因此本文提出了一种基于大数据深度挖掘电网设备缺陷体外循环的模型研制与应用。以大量的历史缺陷数据为载体,基于TF-IDF算法对庞大的历史缺陷数据进行识别,提取出属于缺陷的关键词,通过缺陷关键词筛选出属于缺陷的工作票,再运用pairletters similarity算法和JaroWinkler算法将缺陷工作票与已有的缺陷数据做匹配,最终输出无法匹配的数据为缺陷体外循环数据。实验表明,本研究模型有效提高了缺陷数据的完整性、数据填报的及时性。 展开更多
关键词 设备缺陷 模糊匹配 TF-IDF算法 Jaro winkler算法 pair letters similarity算法
下载PDF
中文短文本聚合模型研究 被引量:11
2
作者 刘震 陈晶 +2 位作者 郑建宾 华锦芝 肖淋峰 《软件学报》 EI CSCD 北大核心 2017年第10期2674-2692,共19页
中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通... 中文短文本聚合的目的是将两个数据集中属于同一对象的短文本信息进行匹配关联,同时要避免匹配不属于同一对象的短文本信息,这项研究对于多源异构的短文本数据资源整合具有重要的理论和现实意义.提出了一种有效的中文短文本聚合模型,通过快速匹配和精细匹配两个关键步骤可以大幅度降低匹配的候选对数量,并保证匹配的精度.针对传统短文本相似度算法的不足,提出了一种新颖的广义Jaro-Winkler相似度算法,并从理论上分析了该算法的参数特性.通过对不同数据集上的商户信息数据进行聚合实验,结果表明,新算法与传统算法相比,在匹配准确率和稳定性上具有最优的性能. 展开更多
关键词 中文短文本 聚合模型 文本相似度 广义Jaro—winkler算法 快速匹配 精细匹配
下载PDF
改进Jaro-Winkler算法在迎宾机器人语音交互中的应用 被引量:5
3
作者 吴凌芬 杨小渊 +2 位作者 叶添杰 刘冰 王太宏 《现代计算机(中旬刊)》 2015年第3期8-13,共6页
针对Jaro-Winkler算法在计算两个字符串的相似度时只考虑字符的换位数目,未考虑字符插入和删除编辑操作的问题,提出一种基于Levenshtein算法改进Jaro-Winkler算法的方法。通过改进相似度的计算公式和调整关联系数pd,实现Jaro-Winkler算... 针对Jaro-Winkler算法在计算两个字符串的相似度时只考虑字符的换位数目,未考虑字符插入和删除编辑操作的问题,提出一种基于Levenshtein算法改进Jaro-Winkler算法的方法。通过改进相似度的计算公式和调整关联系数pd,实现Jaro-Winkler算法的改进,提高字符串匹配的准确度。基于内容丰富的本地文本数据库,将改进Jaro-Winkler算法应用于迎宾机器人语音交互中的字符串匹配,其正确率大于96%。测试结果表明,迎宾机器人能够语音交互更多的内容和快速地应答提问,并实现特定的迎宾动作。 展开更多
关键词 Jaro-winkler算法 迎宾机器人 语音交互 字符串匹配
下载PDF
专利发明人英文重名识别判据及效度比较分析 被引量:5
4
作者 王道仁 杨冠灿 傅俊英 《数字图书馆论坛》 CSSCI 2016年第8期2-9,共8页
本文针对英文专利发明人姓名的字符串匹配问题,利用USPTO发明人姓名的数据集,探索现有字符串匹配算法的适用性。对指向同一发明人不能精确匹配的姓名字符串,分别用10种常用的字符串匹配算法进行处理。比较匹配结果发现:Jaro-Winkler算... 本文针对英文专利发明人姓名的字符串匹配问题,利用USPTO发明人姓名的数据集,探索现有字符串匹配算法的适用性。对指向同一发明人不能精确匹配的姓名字符串,分别用10种常用的字符串匹配算法进行处理。比较匹配结果发现:Jaro-Winkler算法对同一发明人姓名字符串匹配效果最好,且结果稳定。通过回归分析可知,杰卡德算法对于发明人的识别效果最佳,基于q-gram的算法在发明人姓名消歧中有重要意义;在发明人消歧中,多种字符串匹配算法的组合运用效果更佳。 展开更多
关键词 发明人姓名 字符串匹配 Jaro—winkler算法 杰卡德算法
下载PDF
基于Jaro-Winkler算法的英语高效学习系统设计
5
作者 徐剑 王少杰 舒韩英 《信息与电脑》 2024年第2期228-231,共4页
针对传统英语教育课程效率低、资源单一的问题,文章结合Jaro-Winkler算法,应用浏览器/服务器(Browser/Server,B/S)架构和Java开发框架构建一个英语高效学习系统。该系统可实现单词形态相似度的计算,对库中词汇进行近形词的自动抽取,并... 针对传统英语教育课程效率低、资源单一的问题,文章结合Jaro-Winkler算法,应用浏览器/服务器(Browser/Server,B/S)架构和Java开发框架构建一个英语高效学习系统。该系统可实现单词形态相似度的计算,对库中词汇进行近形词的自动抽取,并在测验中将该近形词作为干扰选项,使单词的学习和测验更具有针对性。实验结果证明,该系统能够有效提高用户学习英语的效率、记忆词汇的准确性,能为用户提供一个高效、便捷的英语学习平台。 展开更多
关键词 Jaro-winkler算法 浏览器/服务器(B/S)架构 英语学习 近形词
下载PDF
贝叶斯概率链接模型在出生和死亡数据链接中的应用
6
作者 虞慧婷 蔡任之 +4 位作者 林维晓 倪静怡 钱耐思 夏天 吴凡 《上海预防医学》 CAS 2024年第1期98-103,共6页
【目的】阐述贝叶斯概率链接模型的原理和方法,并应用于出生和死亡数据的链接以展示模型的应用效果。【方法】通过上海市出生和死亡登记系统,收集2017年出生婴儿199025例,2017和2018年死亡婴儿1512例,对清洗后数据按月份分区后进行全链... 【目的】阐述贝叶斯概率链接模型的原理和方法,并应用于出生和死亡数据的链接以展示模型的应用效果。【方法】通过上海市出生和死亡登记系统,收集2017年出生婴儿199025例,2017和2018年死亡婴儿1512例,对清洗后数据按月份分区后进行全链接,以Jaro-Winkler算法和欧式距测量两个数据集用于匹配字段的相似度,以之构建贝叶斯概率链接模型,并用混淆矩阵评估链接效果。【结果】应用贝叶斯概率链接模型,将婴儿出生和死亡数据进行了有效链接,发现上海市死亡婴儿中36.71%生于外地,测算得到婴儿死亡概率为2.60‰。测试集混淆矩阵显示,模型的召回率为0.86,精确率为0.76,F-score为0.81。【结论】贝叶斯概率链接的实例应用显示模型效果良好,用于建立出生死亡队列,能更准确地反映婴儿死亡的真实水平。利用该技术,整合不同部门数据,可有效提升公共卫生领域的研究效率。 展开更多
关键词 多源数据 贝叶斯概率链接模型 Jaro-winkler算法 混淆矩阵
原文传递
短文本聚合在元器件供方匹配中的应用与研究 被引量:1
7
作者 魏自强 班元郎 +1 位作者 徐伟 王文玺 《计算机技术与发展》 2022年第7期216-220,共5页
航天采购部门采购合格供方的元器件是保证航天用元器件可靠性的方法之一。确定供方是否在合格供方目录中,是航天元器件采购流程中的一个重要步骤。但由于航天各院所系统中对供方定义标准不一致,常以供方公司的别称、简称代替供方名称,... 航天采购部门采购合格供方的元器件是保证航天用元器件可靠性的方法之一。确定供方是否在合格供方目录中,是航天元器件采购流程中的一个重要步骤。但由于航天各院所系统中对供方定义标准不一致,常以供方公司的别称、简称代替供方名称,这导致同一供方出现多种不同名称,这给如何匹配合格供方带来了挑战。针对航天各院所系统中的供方数据的特征,提出了一种结合Jaro-Winkle算法和Levenshtein算法的融合算法。该算法通过引入调整阈值及系数,将字符的位序、字符替换、添加、删除操作等因素纳入到供方名称的短文本相似度计算中,提高供方名称的短文本匹配准确率。通过在航天元器件合格供方匹配流程中的应用,该算法有效提高了供方的匹配准确率。 展开更多
关键词 Jaro-winkler算法 Levenshtein距离 短文本聚合模型 数据特征 供方匹配
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部