-
题名一种利用校对信息的汉字识别自适应后处理方法
被引量:6
- 1
-
-
作者
李元祥
刘长松
丁晓青
-
机构
清华大学电子工程系
-
出处
《中文信息学报》
CSCD
北大核心
2001年第1期46-52,共7页
-
基金
国家"8 63"高技术计划项目! 863 -3 0 6-ZT0 3 -0 3 -1
国家自然科学基金! (项目 69972 0 2 4 )
-
文摘
后处理技术是汉字识别系统的重要组成部分。传统的识别后处理技术在很大程度上依赖于所训练的统计语言模型 ,没有考虑所处理文本的特殊性 ;而且没有利用识别器的动态识别特性。本文利用部分校对过的正确本文信息 ,一方面可以构建自适应语言模型 ,及时发现所处理文本的语言特点 ;另一方面可以利用识别器的动态识别特性 ,以修正候选字集 ;从而使得后续文本的识别后处理具有自适应性。 40万字的数据测试表明 :这种方法的文本平均错误率较传统的后处理方法下降 35 .2 4%了 ,可以大大减轻数据录入人员的工作量 。
-
关键词
汉字识别
修正候选字集
自适应语言模型
文本平均错误率
动态识别特性
校对信息
-
Keywords
Chinese character recognition
post processing
language model
adaptation
candidate set modification
-
分类号
TP391.43
[自动化与计算机技术—计算机应用技术]
-
-
题名基于动态自适应语言模型的中文输入系统的设计与实现
- 2
-
-
作者
孙晓
李培峰
刁红军
-
机构
苏州大学计算机科学与技术学院
江苏省计算机信息处理技术重点实验室
-
出处
《苏州大学学报(自然科学版)》
CAS
2011年第2期29-35,共7页
-
基金
国家自然科学基金(90920004
60970056
+2 种基金
60873150)
江苏省自然科学基金(BK2008160)
江苏省高校自然科学重大基础研究项目(08KJA520002)
-
文摘
首先介绍采用平滑算法构建通用语言模型、领域语言模型和用户语言模型的方法;然后提出了一种模型融合方法,形成了一个动态自适应语言模型.最后,将此模型与输入系统实现技术相结合,实现了一个基于动态自适应语言模型的中文输入系统.实验表明,应用该模型的输入系统不仅降低了平均码长,而且显著提高了首字命中率.
-
关键词
领域语言模型
用户语言模型
模型融合
动态自适应语言模型
中文输入系统
-
Keywords
special-domain language model
special-user language model
model fusion
dynamic self-adaptation language model
Chinese input system
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名领域语言模型及其在中文输入系统中的应用
- 3
-
-
作者
孙晓
李培峰
-
机构
苏州大学计算机科学与技术学院
-
出处
《计算机应用与软件》
CSCD
北大核心
2012年第8期46-48,81,共4页
-
基金
国家自然科学基金项目(90920004
60970056
+2 种基金
60873150)
江苏省自然科学基金项目(BK2008160)
江苏省高校自然科学重大基础研究项目(08KJA520002)
-
文摘
提出一种构建领域语言模型的策略,并基于余弦相似度提出一种模型融合的方法,以便将领域语言模型融入动态自学习语言模型,该语言模型可应用于中文输入系统。实验表明,加载了领域语言模型的中文输入系统不仅降低了平均码长,而且显著提高了首字命中率。
-
关键词
领域语言模型
相似度
模型融合
动态自适应语言模型
中文输入系统
-
Keywords
Special-domain language model Similarity Model fusion Dynamic self-adaptive language model Chinese input system
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-