-
题名面向文本数字化的自动纠错方法
被引量:3
- 1
-
-
作者
陈翔
徐平先
张玉志
-
机构
中国科学院计算技术研究所
点通数据有限公司
-
出处
《计算机应用研究》
CSCD
北大核心
2008年第5期1434-1436,共3页
-
基金
国家“863”计划重点资助项目(2006AA010101)
科技部中小企业创新基金资助项目(04C26214420751)
-
文摘
为了提高文本数字化系统的质量,针对该系统的错误特点,采用频率统计树构建查错模型,结合切分信息进行标点纠错,通过表形码和缓存集给出纠错建议,提出了规则与统计结合的自动纠错方法。实验结果表明,该方法召回率为84.65%,准确率为78.89%,误判率为9.07%,能够满足数字化系统需求。
-
关键词
自动纠错
文本数字化
频率统计树
切分信息
表形码
-
Keywords
automatic proofreading
texts digitization
frequency statistical tree
segmentation information
Biao-Xing code
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-