期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于最小编辑距离的维语词语检错与纠错研究 被引量:11
1
作者 玛依热.依布拉音 米吉提.阿不里米提 艾斯卡尔.艾木都拉 《中文信息学报》 CSCD 北大核心 2008年第3期110-114,共5页
拼写错误的发现和候选词选取是文本分析中的一个重要的技术问题。本文结合维吾尔语的语音和词语结构特点,列出了文本中常见的拼写错误类型,详细分析了解决方法,利用最小编辑距离(minimume ditdistance)算法实现了维吾尔语文本拼写错误... 拼写错误的发现和候选词选取是文本分析中的一个重要的技术问题。本文结合维吾尔语的语音和词语结构特点,列出了文本中常见的拼写错误类型,详细分析了解决方法,利用最小编辑距离(minimume ditdistance)算法实现了维吾尔语文本拼写错误分析中的查错和纠错功能,并以此为基础,结合维吾尔语构词规则,进一步提高了建议候选词的准确率和速度。该算法已被成功地应用到了维吾尔语文字自动校对和多文种文本检索等领域中。在以新疆高校学报为语料的测试中,词语查纠率达到85%以上。 展开更多
关键词 计算机应用 中文信息处理 维语尔语 词法分析 纠错 最小编辑距离
下载PDF
不动产存量数据一体化整合方法研究 被引量:1
2
作者 李治明 李涛 贾胜韬 《测绘与空间地理信息》 2023年第9期68-70,75,共4页
不动产存量数据整合是确保不动产登记业务顺利开展的最重要的基础性工作。本文利用OCR、文本分词、编辑距离算法、地理编码等信息技术对不动产存量数据一体化整合方法进行探索研究。研发了不动产存量数据一体化整合系统,开发了不动产信... 不动产存量数据整合是确保不动产登记业务顺利开展的最重要的基础性工作。本文利用OCR、文本分词、编辑距离算法、地理编码等信息技术对不动产存量数据一体化整合方法进行探索研究。研发了不动产存量数据一体化整合系统,开发了不动产信息查询、信息补充、规范化处理、权利关系与快速落宗落户处理等功能,实现房产数据与土地管理数据规范化、流程化、自动化快速整合,为不动产统一登记的顺利进行提供了技术支撑。 展开更多
关键词 不动产登记 数据整合 编辑距离算法 光学字符识别
下载PDF
术语研究中的最小编辑距离 被引量:4
3
作者 冯志伟 周建 于洋 《中国科技术语》 2022年第3期3-8,共6页
最小编辑距离是比较语言中不同符号串之间相似程度的一种方法,这种方法计算不同符号串之间转换时的删除、插入、替代等运算的操作数,通过动态规划算法进行算法描述。在术语研究中,可以使用最小编辑距离对术语特征进行定量化计算。在计... 最小编辑距离是比较语言中不同符号串之间相似程度的一种方法,这种方法计算不同符号串之间转换时的删除、插入、替代等运算的操作数,通过动态规划算法进行算法描述。在术语研究中,可以使用最小编辑距离对术语特征进行定量化计算。在计算语言学中,可以使用最小编辑距离发现潜在的拼写错误,进行错拼更正。在语音识别中,可以使用最小编辑距离计算单词的错误率。在机器翻译中,可以使用最小编辑距离进行双语语料库的单词对齐。 展开更多
关键词 最小编辑距离 动态规划算法 术语对齐 字符串相似程度
下载PDF
一种基于无监督学习的词变体识别方法 被引量:3
4
作者 王宝勋 王晓龙 +1 位作者 刘秉权 李鹏 《中文信息学报》 CSCD 北大核心 2008年第3期32-36,114,共6页
本文提出了一种生物医药领域词变体的识别策略。首先使用最小编辑距离算法和字符匹配算法从语料中分别获得特定目标词的形态学变体和缩略词,并将其作为候选词变体。本文采用系统相似模型获得每个词变体上下文语义的量化评价。本文的方... 本文提出了一种生物医药领域词变体的识别策略。首先使用最小编辑距离算法和字符匹配算法从语料中分别获得特定目标词的形态学变体和缩略词,并将其作为候选词变体。本文采用系统相似模型获得每个词变体上下文语义的量化评价。本文的方法不需要任何语言学知识和精细加工的语料资源,实验表明,该方法可以在保证准确率的同时显著地提高词变体识别的召回率。 展开更多
关键词 计算机应用 中文信息处理 词变体 缩略词 最小编辑距离 系统相似模型
下载PDF
相似单词查找方法研究与实现 被引量:3
5
作者 李健豪 章品正 《微计算机信息》 2012年第9期417-418,461,共3页
论文提出一种有限分隔最长公共子串算法,将这种算法与改进的最小编辑距离算法相结合实现输入单词与词库内单词的相似度计算。最终将计算结果聚类输出。实验结果表明,应用本文提出的方法进行相似单词查找与单词联想拼写能获得令人满意的... 论文提出一种有限分隔最长公共子串算法,将这种算法与改进的最小编辑距离算法相结合实现输入单词与词库内单词的相似度计算。最终将计算结果聚类输出。实验结果表明,应用本文提出的方法进行相似单词查找与单词联想拼写能获得令人满意的结果。另外,我们将所实现的软件与源码公开以供参考。 展开更多
关键词 有限分隔 最长公共子串 最小编辑距离 相似单词
下载PDF
基于动态匹配词格检索的关键词检测 被引量:2
6
作者 郑永军 张连海 《应用科学学报》 CAS CSCD 北大核心 2014年第2期149-155,共7页
对生活中涌现的海量语音数据需要进行快速而准确的检索.提出一种基于动态匹配词格检索的关键词检测方法,应用TRAP特征和多层感知器创建更为精准的音素Lattice.在索引阶段执行一个改进的维特比算法遍历Lattice来创建一个固定长度的音素... 对生活中涌现的海量语音数据需要进行快速而准确的检索.提出一种基于动态匹配词格检索的关键词检测方法,应用TRAP特征和多层感知器创建更为精准的音素Lattice.在索引阶段执行一个改进的维特比算法遍历Lattice来创建一个固定长度的音素序列数据库,在检索阶段应用最小编辑距离作为置信度来实现关键词的检出.实验结果表明,该方法相比应用MFCC和PLP特征的基线系统具有一定的优势,召回率可提升5%左右. 展开更多
关键词 关键词检测 动态匹配词格检索 TRAP特征 最小编辑距离
下载PDF
拉丁化维吾尔文字特征及其基于规则的正规化 被引量:2
7
作者 赛牙热.依马木 于斯音.于苏普 阿不都萨拉木.达吾提 《中文信息学报》 CSCD 北大核心 2016年第3期60-67,共8页
结合网络上流通的拉丁化维吾尔文字特征,以拉丁化维吾尔文单词作为研究单位,首先,通过大规模文本语料库建立了固定词库、词首字母序列库、词尾字母序列库以及特殊词库等正规化规则库。然后,利用维吾尔单词中的字母序列结构特征和相邻字... 结合网络上流通的拉丁化维吾尔文字特征,以拉丁化维吾尔文单词作为研究单位,首先,通过大规模文本语料库建立了固定词库、词首字母序列库、词尾字母序列库以及特殊词库等正规化规则库。然后,利用维吾尔单词中的字母序列结构特征和相邻字母上下文信息进行了拉丁化维吾尔文的正规化,同时引用最小编辑距离的方法进一步提高了正规化正确率,并用Visual C#编程工具实现了基于规则的拉丁化维吾尔文的正规化算法。最后,给出了实验结果,并分析了结果不佳的原因及相应的对策。 展开更多
关键词 维吾尔语 拉丁化维吾尔文 正规化 规则库 最小编辑距离 文字转写
下载PDF
基于熵模型的英汉人名对齐 被引量:1
8
作者 刘颖 曹项 《中文信息学报》 CSCD 北大核心 2016年第3期52-59,共8页
该文使用熵模型来对中英文双语语料进行人名对齐。熵模型综合利用双语人名词典、双语姓氏词典、词汇对齐概率、中英文人名的共现特征、基于最小编辑距离的音译相似度和基于语音匹配的音译相似度。实验结果表明,基于熵模型的中英文人名... 该文使用熵模型来对中英文双语语料进行人名对齐。熵模型综合利用双语人名词典、双语姓氏词典、词汇对齐概率、中英文人名的共现特征、基于最小编辑距离的音译相似度和基于语音匹配的音译相似度。实验结果表明,基于熵模型的中英文人名对齐在大规模语料库的实验中达到了较好的人名对齐正确率和召回率。我们分析了人名对齐存在的主要错误,并针对主要错误给出了可能的解决方案。 展开更多
关键词 人名对齐 熵模型 音译相似度 最小编辑距离 词典
下载PDF
装备操作考核自动评分算法设计 被引量:1
9
作者 王书湖 刘华章 《计算技术与自动化》 2016年第2期85-88,共4页
客观评价学员的实际操作水平,在分析装备操作的特点之后,结合序列匹配方法、模糊逻辑思想及最短编辑距离算法,设计装备操作考核自动评分算法,实现对学员操作过程的自动评分。应用表明,该算法符合装备操作考核的要求,能够反映出学员的实... 客观评价学员的实际操作水平,在分析装备操作的特点之后,结合序列匹配方法、模糊逻辑思想及最短编辑距离算法,设计装备操作考核自动评分算法,实现对学员操作过程的自动评分。应用表明,该算法符合装备操作考核的要求,能够反映出学员的实际操作水平。 展开更多
关键词 序列匹配 模糊逻辑 最短编辑距离 自动评分
下载PDF
融合后验概率置信度的动态匹配词格检索
10
作者 郑永军 张连海 陈斌 《模式识别与人工智能》 EI CSCD 北大核心 2015年第2期155-161,共7页
在基于动态匹配词格检索(DMLS)的关键词检测系统中,应用最小编辑距离作为关键词检出的置信度,在提高检出率的同时也增加虚警率.针对此问题,文中提出融合后验概率置信度的动态匹配词格检索方法.该方法首先将基于Lattice的后验概率引入到D... 在基于动态匹配词格检索(DMLS)的关键词检测系统中,应用最小编辑距离作为关键词检出的置信度,在提高检出率的同时也增加虚警率.针对此问题,文中提出融合后验概率置信度的动态匹配词格检索方法.该方法首先将基于Lattice的后验概率引入到DMLS的索引建立中,其次应用数据驱动的音素替换、插入和删除代价,实现更灵活的近似匹配,最后通过联合最小编辑距离和后验概率置信度得分进行关键词检测.实验表明,最小编辑距离和后验概率置信度具有一定的互补性,系统的等错误率相对降低. 展开更多
关键词 关键词检测 动态匹配词格检索(DMLS) 最小编辑距离 后验概率置信度
下载PDF
基于上下文的拉丁维文拼写校对的研究
11
作者 何晋一 陈红英 +2 位作者 姜文斌 张海波 刘群 《计算机系统应用》 2011年第12期60-63,共4页
根据拉丁维文的特点,分析了拉丁维文常见的拼写错误类型,提出了一种将最小编辑距离、基于有向图模型的词语切分和trigram语言模型融合的方法,实现了基于上下文的拉丁维文的自动拼写校对系统,从而大大提高了拉丁维文的校对准确率。在新... 根据拉丁维文的特点,分析了拉丁维文常见的拼写错误类型,提出了一种将最小编辑距离、基于有向图模型的词语切分和trigram语言模型融合的方法,实现了基于上下文的拉丁维文的自动拼写校对系统,从而大大提高了拉丁维文的校对准确率。在新疆大学提供的维文语料库的测试中,拉丁维文的校对准确率达到了90.1%。 展开更多
关键词 拉丁维文 最小编辑距离 有向图模型 词语切分 语言模型 上下文 拼写校对
下载PDF
基于N-gram的哈萨克语文本校对系统的设计与实现 被引量:4
12
作者 玛依来.哈帕尔 古丽拉.阿东别克 《计算机应用与软件》 CSCD 北大核心 2012年第4期9-12,15,共5页
在哈萨克语文本非词查错方面,归纳和总结查错方法,在一定规模的哈萨克语词库的支持下,利用哈萨克语的特点,用哈萨克语词干切分程序和哈萨克语的音节规则,从文本中找出非词错误,再用最小编辑距离算法提供最有可能的候选词。在哈萨克语文... 在哈萨克语文本非词查错方面,归纳和总结查错方法,在一定规模的哈萨克语词库的支持下,利用哈萨克语的特点,用哈萨克语词干切分程序和哈萨克语的音节规则,从文本中找出非词错误,再用最小编辑距离算法提供最有可能的候选词。在哈萨克语文本真词查错部分,根据上下文信息,采用基于N-gram的语言模型,利用文本的局部连接同现概率三元语法模型来进行真词查错,再用基于编辑距离的模式匹配方法对真词错误提供纠错建议。实验结果表明,系统的查错与纠错效率较好,实验方案是可行的。 展开更多
关键词 文本自动校对 哈萨克语 最小编辑距离 N元语法 模式匹配
下载PDF
一种基于最小距离编辑法的模糊地址识别模型 被引量:3
13
作者 金鹏 杨菁 +3 位作者 王宗伟 刘鲲鹏 卜晓阳 ZHENG Xuan 《电力大数据》 2019年第10期9-15,共7页
由于受到客户方言及语言习惯因素影响,加之客户服务中心客服坐席手工记录客户地址的形式不统一,难以实现精确筛选细化到小区、村庄级别的相近地址,支撑定位客户反映的频繁停电等问题。该文提出了一种地址模糊匹配模型,根据地址信息的文... 由于受到客户方言及语言习惯因素影响,加之客户服务中心客服坐席手工记录客户地址的形式不统一,难以实现精确筛选细化到小区、村庄级别的相近地址,支撑定位客户反映的频繁停电等问题。该文提出了一种地址模糊匹配模型,根据地址信息的文本和拼音形式,利用最小编辑距离算法量化非结构化客户地址间的偏差程度。进一步应用支持向量机分类技术,结合地址文本信息和拼音信息的编辑距离计算结果,实现对相近地址的有效识别。试验结果表明,该方法可以克服谐音字对地址识别的影响,具有计算速度快且识别能力强的优势,能够支撑筛选频繁停电地址等场景应用。另外,通过网格搜索法的应用,实现了支持向量机分类器主要参数的优化,提升了模糊地址匹配的精度。 展开更多
关键词 模糊地址识别 文本相似度计算 最小编辑距离法 支持向量机 谐音字识别
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部