期刊文献+
共找到26篇文章
< 1 2 >
每页显示 20 50 100
面向OCR文本识别词错误自动校对方法研究 被引量:12
1
作者 郝亚男 乔钢柱 谭瑛 《计算机仿真》 北大核心 2020年第9期333-337,共5页
针对OCR识别后文本中词错误校对问题,提出一种同一特征多角度结合的OCR识别后文本中词错误的自动校对方法。方法通过上下文相邻词与窗口移动法相结合为句子中字词串计算置信度,设计置信度计算方法判断正误,给出疑似错误位置;利用统计语... 针对OCR识别后文本中词错误校对问题,提出一种同一特征多角度结合的OCR识别后文本中词错误的自动校对方法。方法通过上下文相邻词与窗口移动法相结合为句子中字词串计算置信度,设计置信度计算方法判断正误,给出疑似错误位置;利用统计语言模型与同一特征多角度相结合的方式对错误处提出改进建议。采用检察院纸质卷宗OCR识别后的文本数据进行了测试,实验测试集中共包含236处错误。实验结果表明,所提出的方法能够有效发现文本中错误,查错召回率达到88.56%,纠错的准确率达到79%,上述方法能够有效实现OCR识别后的中文文本自动校对。 展开更多
关键词 窗口移动法 拼写查错 拼写纠错 语言模型
下载PDF
基于Transformer局部信息及语法增强架构的中文拼写纠错方法 被引量:10
2
作者 段建勇 袁阳 王昊 《北京大学学报(自然科学版)》 EI CAS CSCD 北大核心 2021年第1期61-67,共7页
针对中文拼写纠错,提出两种新的改进方法。其一,在Transformer注意力机制的基础上,添加高斯分布的偏置矩阵,用于提高模型对局部文本的关注程度,加强对错误文本中错误字词和周边文字的信息提取。其二,使用ON_LSTM模型,对错误文本表现出... 针对中文拼写纠错,提出两种新的改进方法。其一,在Transformer注意力机制的基础上,添加高斯分布的偏置矩阵,用于提高模型对局部文本的关注程度,加强对错误文本中错误字词和周边文字的信息提取。其二,使用ON_LSTM模型,对错误文本表现出的特殊语法结构特征进行语法信息提取。实验结果表明,所提出的两种方法均能有效提高准确率和召回率,并且,将两种方法融合后的模型取得最高F1值。 展开更多
关键词 拼写纠错 Transformer模型 局部信息 语法增强
下载PDF
基于多重索引模型的大规模词典近似匹配算法 被引量:5
3
作者 龚才春 黄玉兰 +1 位作者 许洪波 白硕 《计算机研究与发展》 EI CSCD 北大核心 2008年第10期1776-1781,共6页
编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法.传统单索引模式很难在高性能的前提下保证高召回率.词典越大问题越严重.提出了大规模词典近似匹配的多重索引模型,首先将背景词典根据单词... 编辑器的拼写校正、搜索引擎的查询纠正、光学字符识别的结果检查等领域都用到词典近似匹配算法.传统单索引模式很难在高性能的前提下保证高召回率.词典越大问题越严重.提出了大规模词典近似匹配的多重索引模型,首先将背景词典根据单词长度划分为若干子词典,对各子词典按照一定策略建立unigram,bigram,trigram,quadgram中的一种或若干种索引,当查找用户模式P的近似匹配时,根据模式P检索特定N-gram索引链,从而得到候选近似匹配集合C,对C中每一个单词W,计算P与W的编辑距离即可输出P的所有最终匹配结果R.实验表明,基于多重索引模型的词典近似匹配算法能够大幅度减少候选近似匹配结果的数量,从而提高词典近似匹配的速度. 展开更多
关键词 模式匹配 近似匹配 多重索引模型 大规模词典 拼写检查
下载PDF
基于N-gram统计模型的搜索引擎中文纠错 被引量:7
4
作者 陈智鹏 吕玉琴 +2 位作者 刘华生 刘刚 屠辉 《中国电子科学研究院学报》 2009年第3期323-326,共4页
搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证... 搜索引擎中的关键词纠错是提高检索效率的一项重要辅助功能。提出了一种完全通过分析上下文统计信息的方法,根据中文语言的特点,在建立N-gram统计模型并分析比较的基础上,再通过计算TF/IDF的权重来获得最优的纠错结果,最后通过实验验证了该方法实现了搜索引擎中对输入关键词的自动检查和纠错。 展开更多
关键词 搜索引擎 输入纠错 N-GRAM模型 TF/IDF
下载PDF
基于Transformer的汉语歌声识别方法
5
作者 吴影 徐雅斌 孟晶晶 《北京信息科技大学学报(自然科学版)》 2023年第3期35-42,51,共9页
为提高歌声识别准确率,提出一种基于Transformer并带有纠正模型的歌声识别方法TSC(transformer with spelling correction)。利用注意力机制,使网络学习对应的歌词发音。在模型输入模块,增加由卷积神经网络组成的特征提取层,提取歌声特... 为提高歌声识别准确率,提出一种基于Transformer并带有纠正模型的歌声识别方法TSC(transformer with spelling correction)。利用注意力机制,使网络学习对应的歌词发音。在模型输入模块,增加由卷积神经网络组成的特征提取层,提取歌声特征。在输出模块后面,增加由卷积神经网络和双向循环神经网络组成的纠正模型,修正模型的输出结果。针对歌声样本量较少,模型训练困难的问题,提出了使用汉语语音数据集AISHELL-1进行预训练,并自制一组数据进行数据增强,对歌声识别模型参数进行微调。在增强的Opencpop歌声数据集上进行实验的结果表明,提出的歌声识别系统的字错率降低到了31.92%。 展开更多
关键词 TRANSFORMER 迁移学习 汉语歌声识别 拼写纠正
下载PDF
基于Word2Vec的编程领域词语拼写错误检测算法 被引量:3
6
作者 刘峻松 唐明靖 +1 位作者 薛岗 杨成荣 《计算机应用与软件》 北大核心 2022年第3期277-284,共8页
Stack Overflow是一个计算机编程领域的问答社区,其中的文本蕴含大量有价值的信息可供挖掘,但由于其本身存在大量的错误词汇,给文本的分析造成影响。对此,提出一种词语自动检测纠错算法,通过词向量的技术以语义相似度为核心,对错误词汇... Stack Overflow是一个计算机编程领域的问答社区,其中的文本蕴含大量有价值的信息可供挖掘,但由于其本身存在大量的错误词汇,给文本的分析造成影响。对此,提出一种词语自动检测纠错算法,通过词向量的技术以语义相似度为核心,对错误词汇进行分析,结合改进的编辑距离算法对文本进行自动检测纠错。实验结果表明,该算法能够对诸如此类专业性较强的领域主题文本进行自动检测纠错,并且能够较好地还原标准文段用词。 展开更多
关键词 词向量 编辑距离 拼写纠错 Word2Vec Stack Overflow
下载PDF
基于Trie结构的带通配符的相似字符串匹配算法 被引量:2
7
作者 王燚 《计算机应用》 CSCD 北大核心 2004年第10期121-124,共4页
提出了一种新的相似字符串查询的方法。其目的在于提高基于相似字符串匹配的查询在大规模字符串数据库中的查询效率,并且提供带通配符的字符串查询方式。该方法使用Trie数据结构组织数据库中的数据,使用基于编辑距离的相似字符串匹配方... 提出了一种新的相似字符串查询的方法。其目的在于提高基于相似字符串匹配的查询在大规模字符串数据库中的查询效率,并且提供带通配符的字符串查询方式。该方法使用Trie数据结构组织数据库中的数据,使用基于编辑距离的相似字符串匹配方法,在Trie数据结构中进行高效的匹配和查询,得到K相似度下的候选词集。实验证明,本方法在K 2时具有相当高的查询效率。 展开更多
关键词 相似字符串匹配 TIRE OCR文本校对 拼写校对 通配符
下载PDF
一种基于判别式重排序的拼写校正方法 被引量:3
8
作者 张扬 何丕廉 +1 位作者 向伟 李沐 《软件学报》 EI CSCD 北大核心 2008年第3期557-564,共8页
提出一种基于判别模型的拼写校正方法.它针对已有拼写校正系统Aspell的输出进行重排序,使用判别模型Ranking SVM来改进其性能.将现今较为成熟的拼写校正技术(包括编辑距离、基于字母的n元语法、发音相似度和噪音信道模型)以特征的形式... 提出一种基于判别模型的拼写校正方法.它针对已有拼写校正系统Aspell的输出进行重排序,使用判别模型Ranking SVM来改进其性能.将现今较为成熟的拼写校正技术(包括编辑距离、基于字母的n元语法、发音相似度和噪音信道模型)以特征的形式整合到该模型中来,显著地提高了基准系统Aspell的初始排序质量,同时性能也超过了一些商用系统(如Microsoft Word 2003)的拼写校正模块.此外,还提出了一种在搜索引擎查询日志链中自动抽取拼写校正训练对的方法.基于这种方法训练的模型获得了基于人工标注数据所得结果相近的性能,它们分别将基准系统的错误率降低了32.2%和32.6%. 展开更多
关键词 拼写校正 判别模型 重排序 日志挖掘 查询链
下载PDF
基于最近邻的标签修正推荐算法 被引量:1
9
作者 余利国 丁卫平 景炜 《计算机与数字工程》 2020年第4期735-740,共6页
基于标签的推荐系统通过研究用户打标签行为,为用户进行个性化推荐,因此用户所打标签的质量影响推荐效果,但目前大部分的研究并未考虑到标签的质量问题。针对标签单词拼写错误问题,论文提出一种基于最近邻的标签修正推荐算法(TCNNB)。... 基于标签的推荐系统通过研究用户打标签行为,为用户进行个性化推荐,因此用户所打标签的质量影响推荐效果,但目前大部分的研究并未考虑到标签的质量问题。针对标签单词拼写错误问题,论文提出一种基于最近邻的标签修正推荐算法(TCNNB)。该算法首先由Spark的RDD离线计算对数据集进行处理,得到所有标签单词的字母频次之差,然后使用欧式距离找出最接近的单词,即为修正后的标签单词,最后为用户进行个性化推荐。实验结果表明,引入TCNNB算法对标签单词进行修正,使推荐的精准度(召回率和准确率)得到了明显提高,较好地改进了基于标签的推荐系统的推荐效果。 展开更多
关键词 推荐系统 标签 最近邻算法 拼写错误修正
下载PDF
一种面向在线查询的拼写纠错算法 被引量:1
10
作者 王秀珍 丛瑞 王飞 《计算机工程与应用》 CSCD 北大核心 2015年第14期113-119,共7页
搜索引擎中,在线拼写纠错根据用户查询输入补全用户查询,并给出正确的拼写建议。提出了一种面向查询补全的在线拼写纠错算法。基于真实查询的噪声信道转换方式,算法建立了用户查询输入的生成模型;利用拼写纠错对,算法采用期望最大化算... 搜索引擎中,在线拼写纠错根据用户查询输入补全用户查询,并给出正确的拼写建议。提出了一种面向查询补全的在线拼写纠错算法。基于真实查询的噪声信道转换方式,算法建立了用户查询输入的生成模型;利用拼写纠错对,算法采用期望最大化算法训练能捕获用户误拼行为的马尔科夫N语法转换模型;算法采用不同剪枝策略的启发式改进A*搜索算法以实现实时给出纠错补全建议。实验结果表明,提出的算法相比其他同类算法更有效。 展开更多
关键词 拼写纠错 查询补全 期望最大化算法 N语法语言模型
下载PDF
基于VBA面向词典编纂的英语拼写校正
11
作者 马立东 《软件》 2011年第10期8-11,15,共5页
研究适合词典编纂工作特点的英语拼写错误更正方法。根据VBA语法,用VB代码编程,对MicrosoftWord的可编程对象进行操作,实现计算机辅助英语拼写错误更正的半自动化处理。重点实现英语拼写错误及更正建议的批量自动提取和标注功能。通过... 研究适合词典编纂工作特点的英语拼写错误更正方法。根据VBA语法,用VB代码编程,对MicrosoftWord的可编程对象进行操作,实现计算机辅助英语拼写错误更正的半自动化处理。重点实现英语拼写错误及更正建议的批量自动提取和标注功能。通过对用户词典的程序控制,降低查错误报率,解决英语拼写变体差异引起的误报等问题。 展开更多
关键词 拼写检查 拼写校正 校对 词典
下载PDF
一种有效的拼写错误自动校正技术
12
作者 王素琴 《郑州大学学报(自然科学版)》 CAS 1995年第1期16-18,共3页
编译程序一项重要任务是诊察程序中的错误并尽可能改正,拼写错误是源程序中一种常见的错误,本文提出一种有效的拼写错误校正技术,它以一种统一的方式对四种常见的拼写错误进行诊察,并自动进行校正。
关键词 编译程序 拼写错误 校正 自动校正 源程序
下载PDF
蒙古语媒体资产编目问题研究
13
作者 娜仁图雅 白双成 《广西科学院学报》 2018年第1期72-77,共6页
通过调查汇总内蒙古广播电视台蒙古语媒体资产编目现状,分析了现行的蒙古语媒体资产通过汉译,用汉文编目方法中存在的问题,提出直接用蒙古文编目的可能性和需要重点解决的问题。蒙古文标准编码环境逐步成熟,尤其Windows平台上的编辑输... 通过调查汇总内蒙古广播电视台蒙古语媒体资产编目现状,分析了现行的蒙古语媒体资产通过汉译,用汉文编目方法中存在的问题,提出直接用蒙古文编目的可能性和需要重点解决的问题。蒙古文标准编码环境逐步成熟,尤其Windows平台上的编辑输入和显示问题容易解决,重点在于蒙古文字符编码与字形之间的多对多复杂转换关系及录入不规范等众多原因,容易导致编目文本存在严重的拼写多样化现象和字形拼写错误。为此本文提出使用智能输入法避免错误录入、使用智能校对纠错、使用智能搜索模糊匹配等多手段结合的解决方案。随着这些技术的成熟,相信蒙古文媒体资产编目问题一定能得到解决并投入实际应用。此项工作的研究对其他蒙古语文资源建设及大数据建设和应用具有广泛的参考价值。 展开更多
关键词 媒体资产 编目建库 智能输入法 校对纠错 智能搜索
下载PDF
基于统计翻译框架的蒙古文自动拼写校对方法 被引量:10
14
作者 苏传捷 侯宏旭 +1 位作者 杨萍 员华瑞 《中文信息学报》 CSCD 北大核心 2013年第6期175-179,共5页
在以国际标准编码存储的传统蒙古文电子文本中,拼写错误十分普遍。人工校对这些错误不仅速度慢而且成本高。该文提出了一种基于统计翻译框架的传统蒙古文自动拼写校对方法,将拼写校对看作是从错误词到正确词的翻译。该文使用改进的基于... 在以国际标准编码存储的传统蒙古文电子文本中,拼写错误十分普遍。人工校对这些错误不仅速度慢而且成本高。该文提出了一种基于统计翻译框架的传统蒙古文自动拼写校对方法,将拼写校对看作是从错误词到正确词的翻译。该文使用改进的基于短语的统计机器翻译模型来构建拼写校对模型,然后对测试文本进行校对。实验结果表明,该方法可以快速、有效地校对拼写错误,而且不依赖于特定语言的语法知识。使用该方法对包含1 026个正确词、1 102个错误词的测试集进行拼写校对,校对后文本中的正确词所占比例最高可达97.55%。 展开更多
关键词 蒙古文 拼写检查 拼写校对 机器翻译
下载PDF
OPAC拼写检查功能的设计与实现 被引量:6
15
作者 黎邦群 《图书馆学研究》 CSSCI 北大核心 2012年第4期73-79,F0003,共8页
针对当前检索中存在的关键词拼写错误影响检索结果的现状,进行OPAC拼写检查功能的应用现状、需求分析、设计思路及其实现方法的研究。利用数据挖掘、ASP和数据库相关技术对汉词、拼音及英语单词进行收集、编辑、存储、查询、纠错及更新... 针对当前检索中存在的关键词拼写错误影响检索结果的现状,进行OPAC拼写检查功能的应用现状、需求分析、设计思路及其实现方法的研究。利用数据挖掘、ASP和数据库相关技术对汉词、拼音及英语单词进行收集、编辑、存储、查询、纠错及更新,实现拼写检查功能,给出纠错提示与检索建议,以增强OPAC的可用性、提升用户的使用体验。 展开更多
关键词 OPAC 拼写检查 纠错提示 检索建议 拼写更正
原文传递
基于语境与文本结构融合的中文拼写纠错方法
16
作者 刘昌春 张凯 +2 位作者 包美凯 刘烨 刘淇 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2024年第3期451-463,共13页
在中文拼写纠错任务的处理中往往存在对句子的语义理解不够且对于汉字的语音和视觉信息利用较少的问题,针对这一问题,提出一种基于语境置信度和汉字相似度的纠错方法(ECS).该方法基于深度学习的理论,融合汉字的视觉相似度、汉字的语音... 在中文拼写纠错任务的处理中往往存在对句子的语义理解不够且对于汉字的语音和视觉信息利用较少的问题,针对这一问题,提出一种基于语境置信度和汉字相似度的纠错方法(ECS).该方法基于深度学习的理论,融合汉字的视觉相似度、汉字的语音相似度以及微调过的预训练BERT模型,能自动提取句子语义并利用汉字的相似性.具体地,通过对预训练的中文BERT模型进行微调,使之能适应下游的中文拼写纠错任务;同时,利用表意文字描述序列获取汉字的树形结构作为视觉信息,采用汉字的拼音序列作为语音信息;最后,利用编辑距离得出汉字的视觉和语音相似度,并将这些相似度数据与微调过的BERT模型融合,以实现纠错任务.在SIGHAN标准数据集上的测试结果显示,和基准模型相比,提出的ECS方法其F1-score提升巨大,在检错层面上提升2.1%,在纠错层面上提升2.8%,也验证了将汉字的语境信息、视觉信息与语音信息融合用于中文拼写纠错任务的适用性. 展开更多
关键词 中文拼写纠错 BERT 汉字语音相似度 汉字视觉相似度 预训练模型
下载PDF
基于对比优化的多输入融合拼写纠错模型
17
作者 伍瑶瑶 黄瑞章 +2 位作者 白瑞娜 曹军航 赵建辉 《模式识别与人工智能》 EI CSCD 北大核心 2024年第1期85-94,共10页
文本编辑工作中,中文拼写纠错必不可少.现有中文拼写纠错模型大多为单输入模型,语义信息和纠错结果存在局限性.因此,文中提出基于对比优化的多输入融合拼写纠错模型,包含多输入语义学习阶段和对比学习驱动的语义融合纠错阶段.第一阶段... 文本编辑工作中,中文拼写纠错必不可少.现有中文拼写纠错模型大多为单输入模型,语义信息和纠错结果存在局限性.因此,文中提出基于对比优化的多输入融合拼写纠错模型,包含多输入语义学习阶段和对比学习驱动的语义融合纠错阶段.第一阶段集成多个单模型的初步纠错结果,为语义融合提供充分的互补语义信息.第二阶段基于对比学习方法优化多个互补的句子语义,避免模型过度纠正句子,同时融合多个互补语义对错误句子进行再纠错,改善模型纠错结果的局限性.在SIGHAN13、SIGHAN14、SIGHAN15数据集上的实验表明文中方法可有效提升纠错性能. 展开更多
关键词 中文拼写纠错 多输入语义学习 互补语义融合 对比学习优化
下载PDF
融合位置编码的中文拼写纠错方法
18
作者 赵建辉 林川 +1 位作者 任丽娜 黄瑞章 《计算机工程与设计》 北大核心 2024年第9期2844-2851,共8页
在中文拼写纠错任务中,字符在文本中的距离信息和顺序信息是重要的特征,因此位置编码至关重要。传统的位置编码无法区分字符的前后联系,此外二阶段方式的纠错方案存在错误传播问题。针对上述问题,提出一种多任务学习下融合位置编码的中... 在中文拼写纠错任务中,字符在文本中的距离信息和顺序信息是重要的特征,因此位置编码至关重要。传统的位置编码无法区分字符的前后联系,此外二阶段方式的纠错方案存在错误传播问题。针对上述问题,提出一种多任务学习下融合位置编码的中文拼写纠错方法,使用融合位置编码更好地为模型提供位置信息;使用多任务学习机制缓解错误传播问题,提升模型泛化能力。针对公开数据集进行实验,实验结果在F1值方面有稳定提升,验证了所提方法的有效性。 展开更多
关键词 中文拼写纠错 距离信息 顺序信息 位置编码 错误传播 融合位置编码 多任务学习
下载PDF
基于ChineseBert的中文拼写纠错方法 被引量:1
19
作者 崔凡 强继朋 +1 位作者 朱毅 李云 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2023年第2期302-312,共11页
中文拼写错误主要集中在拼音相似和字形相似两个方面,而通用的预训练语言模型只考虑文本的语义信息,忽略了中文的拼音和字形特征.最新的中文拼写纠错(Chinese Spelling Correction,CSC)方法在预训练模型的基础上利用额外的网络来融入拼... 中文拼写错误主要集中在拼音相似和字形相似两个方面,而通用的预训练语言模型只考虑文本的语义信息,忽略了中文的拼音和字形特征.最新的中文拼写纠错(Chinese Spelling Correction,CSC)方法在预训练模型的基础上利用额外的网络来融入拼音和字形特征,但和直接微调预训练模型相比,改进的模型没有显著提高模型的性能,因为由小规模拼写任务语料训练的拼音和字形特征,和预训练模型获取的丰富语义特征相比,存在严重的信息不对等现象.将多模态预训练语言模型ChineseBert应用到CSC问题上,由于ChineseBert已将拼音和字形信息放到预训练模型构建阶段,基于ChineseBert的CSC方法不仅无须构建额外的网络,还解决了信息不对等的问题.由于基于预训练模型的CSC方法普遍不能很好地处理连续错误的问题,进一步提出SepSpell方法.首先利用探测网络检测可能错误的字符,再对可能错误的字符保留拼音特征和字形特征,掩码对应的语义信息进行预测,这样能降低预测过程中错误字符带来的干扰,更好地处理连续错误问题.在三个官方评测数据集上进行评估,提出的两个方法都取得了非常不错的结果. 展开更多
关键词 中文拼写纠错 Bert ChineseBert 多模态语言模型
下载PDF
一种面向中文拼写纠错的自监督预训练方法
20
作者 苏锦钿 余珊珊 洪晓斌 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2023年第9期90-98,共9页
预训练语言模型BERT/RoBERTa/MacBERT等虽然能够通过预训练任务中的掩码语言模型(MLM)很好地学习字和词的语法、语义及上下文特征,但其缺乏拼写错误识别及纠正能力,且在中文拼写纠错(CSC)任务中面临预训练与下游任务微调目标不一致的问... 预训练语言模型BERT/RoBERTa/MacBERT等虽然能够通过预训练任务中的掩码语言模型(MLM)很好地学习字和词的语法、语义及上下文特征,但其缺乏拼写错误识别及纠正能力,且在中文拼写纠错(CSC)任务中面临预训练与下游任务微调目标不一致的问题。为了进一步提升BERT/RoBERTa/MacBERT等模型的拼写错误识别及纠正能力,提出一种面向中文拼写纠错的自监督预训练方法MASC。MASC在MLM的基础上将对被掩码字的正确值预测转换成对拼写错误字的识别和纠正。首先,MASC将MLM对字的掩码扩展为相应的全词掩码,目的是提升BERT对单词级别的语义表征学习能力;接着,利用混淆集从音调相同、音调相近和字形相近等方面对MLM中的被掩码字进行替换,并将MLM的训练目标更改为识别正确的字,从而增强了BERT的拼写错误识别及纠正能力;最后,在3个公开的CSC语料集sighan13、sighan14和sighan15上的实验结果表明,MASC可在不改变BERT/RoBERTa/MacBERT等模型结构的前提下进一步提升它们在下游CSC任务中的效果,并且消融实验也证明了全词掩码、音调和字形等信息的重要性。 展开更多
关键词 中文拼写纠错 文本纠错 自然语言处理 预训练语言模型 深度学习 自监督
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部