基于词素的日文分词方法及其在OCR系统中的应用被引量：2

Morpheme-based Method for Japanese Word Segmentation and Its Application in OCR

下载PDF

导出

摘要在基于OCR技术的大规模文档录入系统中,自动检错可以大大降低人工校对成本。在日文OCR系统自动检错中,日文单词因其动词及形容词、形容动词的词尾变化现象使自动分词变得比较困难。本文提出了一种基于词素的日文分词新方法,通过建立以词素为基础单位的分词词库,以最大长度优先词条匹配方法分割出文章中有词尾变化的日文单词,避免了传统日文分词中收录单词各种词尾变化形式造成分词词库过于庞大的问题。实验表明,本文提出的分词方法可以达到99.0%的分词正确率;将该方法运用在OCR检错模块,当系统拒识率(即检错模块中认为可疑的字符在总字符中的比例)控制在1/5时,测试集上漏检率为0.05%,说明了该方法的有效性。 Automatic error-detecting module can largely reduce manpower cost in OCR-based mass data entry systems. In error-detecting module for Japanese OCR system, as Japanese language has declensions for verbs, adjectives and quasi-adjectives ,it brings difficulty to word segmentation method. This paper presents a new morpheme-based Japanese word segmentation method, which uses morpheme as the basic unit of the word segmentation database, and adopts the maximum-length-first word matching method in segmentation process. This method avoids the huge word database problem in traditional Japanese word segmentation method which collects all declensions forms of words. Experiments show this method is effective. The average correct rate of segmentation is 99.0% on tested corpus. When applied to Japanese OCR error-detecting module, the residual error rate on the test suite could be 0.05% with 1/5 characters rejection rate.

作者金春实丁晓青彭良瑞刘长松

机构地区北京清华大学电子工程系智能技术与系统国家重点实验室

出处《微计算机信息》北大核心 2006年第01X期244-246,271,共4页 Control & Automation

基金国家自然科学基金(项目编号60472002)的资助。

关键词词素日文分词方法词尾变化 OCR检错 word segmentation morpheme Japanese declension OCR error-detecting

分类号 TP37 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1栾大海..大规模文档数据录入系统设计及效率问题的研究[D].清华大学,2003:
2孟高勇,刘正军,胡捍英.直接序列扩频系统中的一种新PN码跟踪环[J].微计算机信息,2005,21(4):184-185. 被引量：7

二级参考文献4

1Jia-Chin Lin,"A Modified PN Code Tracking Loop for Direct-Sequence Spread-Spectrum Communication Over Arbitrarily Correlated Multipath Fading Channels" [J], IEEE J. Select. Areas Commun., vol. 19,DECEMBER 2001: 2381-2395. 被引量：1
2Wem-Ho Sheen, Gorden L. S, "A New Tracking Loop for Direct Sequence Spread Spectrum Systems on Frequency-Selective Fading Channels" [J],IEEE Trans.Commun, vol.43, No. 12, 1996: 3063-3072. 被引量：1
3A. Weinberg and B. Liu, "Discrete Time Analyses of Nonuniform Sampling First- and Second-Order Digital Phase Lock Loops" [J], IEEE J.Select. Areas Commun., vol. COM-22, Feb. 1974: 123-137. 被引量：1
4Szu-Lin Su and Nan-Yang Yen, "Performance of Digital Code Tracking Loops for Direct-Sequence Spread-Spectrum Signals in Mobile Radio Channel"[J],IEEE J. Select. Areas Commun.,vol.45,May, 1997: 596-604. 被引量：1

共引文献6

1刘鑫,张永涛,李鸥.Windows系统下缓存区溢出攻击实现与防范[J].微计算机信息,2005,21(12X):57-59. 被引量：4
2耿瑞峰,钱雪忠.基于元数据的语义搜索技术研究[J].微计算机信息,2005,21(12X):122-124. 被引量：4
3张春雷,王东兴.uC/OS-Ⅱ在C8051F020单片机上的移植[J].微计算机信息,2006,22(02Z):95-97. 被引量：9
4姜泉江,王勇,易克初.一种基于最小欧氏空间距离的PN码相位差估计方法[J].空间电子技术,2007,4(1):34-38. 被引量：2
5易存晓,黄宗文.KM_1M_2生成器输出序列的特性分析[J].科技咨询导报,2007(22):48-48.
6赵林军.可编程GOLD码的VHDL实现[J].微计算机信息,2008,24(29):278-279.

同被引文献6

1J. Lafferty, A. McCallum, and F. Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. [C] In Proceedings of the 18th International Conf. on Machine Learning, pages 282-289. 2001 被引量：1
2Fuchun Peng, Fangfang Feng, and Andrew McCallum; Chinese Segmentation and New Word Detection using Conditional Random Fields. [C] In Proceedings of The 20th International Conference on Computational Linguistics (COLING 2004) , pages 562-568, August 23-27, 2004 被引量：1
3Ng, Hwee Tou & Low, Jin Kiat. Chinese Part-of-Speech Tagging: One-at-a-Time or All-at-Once? Word-Based or Character-Based? [C] Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing. EMNLP 2004. 被引量：1
4N. Xue. Chinese Word Segmentation as Character Tagging. [C]International Journal of Computational Linguistics and Chinese Language Processing.2003 被引量：1
5Collins, M. (2002). Discriminative Training Methods for Hidden Markov Models: Theory and Experiments with the Perceptron Algorithm. [C] In Proceedings of EMNLP 2002. 被引量：1
6R. Sproat and T. Emerson. The first international Chinese word segmentation bakeoff. [C] In Proc. of SIGHAN Workshop. 2003. 被引量：1

引证文献2

1张凌寒,王宏卫.大学生就业相关主体之市场行为规范分析[J].中国大学生就业,2005(20):58-59. 被引量：2
2李双龙,刘群,王成耀.基于条件随机场的汉语分词系统[J].微计算机信息,2006,22(10S):178-180. 被引量：15

二级引证文献17

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2蒋钰.社会关系对大学毕业生择业的影响[J].当代青年研究,2006(4):57-60. 被引量：3
3余希田,李丹亚,胡铁军.汉语自动分词歧义处理研究[J].医学信息学杂志,2007,28(6):541-544.
4陈平,刘晓霞,李亚军.基于字典和统计的分词方法[J].计算机工程与应用,2008,44(10):144-146. 被引量：13
5王东波,陈小荷,年洪东.基于条件随机场的有标记联合结构自动识别[J].中文信息学报,2008,22(6):3-7. 被引量：9
6刘智文.利用系统整合提高中文分词精度的方法研究[J].现代计算机,2009,15(10):7-10.
7李月伦,常宝宝.基于最大间隔马尔可夫网模型的汉语分词方法[J].中文信息学报,2010,24(1):8-14. 被引量：8
8王东波,苏新宁.英汉双语句子级平行语料库自动构建[J].现代图书情报技术,2009(12):47-51. 被引量：4
9周昆,胡学钢.一种基于本体论和规则匹配的中文人名识别方法[J].微计算机信息,2010,26(31):87-89. 被引量：5
10张硕果,汪成亮.结合CRFs的词典分词法[J].计算机系统应用,2010,19(11):115-118. 被引量：1

1张雪梅.考察日语的形容动词和形容词的关系——以“形态”为中心[J].科技信息,2011(7):210-210.
2晁学鹏.冶金铁轨对接控制过程三维图像虚拟仿真[J].电气应用,2014,0(20):90-93. 被引量：1
3王清翔,仲婷,潘金贵.基于SVM的日文网页分类[J].广西师范大学学报（自然科学版）,2007,25(2):43-46. 被引量：1
4李霞.接续助词「たら」的错误用例分析[J].科技信息,2011(23).
5马文媛.大数据环境下企业管理的探索[J].经济视野,2013(19). 被引量：1
6李媛莉.浅析德语形容词词尾变化的特点[J].中国科技信息,2008(16):207-207.
7王楠,徐金安,明芳,陈钰枫,张玉洁.融合被动和可能态模型的日汉统计机器翻译[J].中文信息学报,2016,30(6):201-207. 被引量：1
8赵斌.机器翻译的质量与效率[J].网友世界,2014,0(21):134-134.
9张华弟.梦想量子化的世界[J].科技新时代,2012(1):8-8.
10邵怀领.灵活巧妙的汉字结构[J].小学语文教师,2009(5):53-53.

微计算机信息

2006年第01X期

浏览历史

内容加载中请稍等...

基于词素的日文分词方法及其在OCR系统中的应用被引量：2

参考文献2

二级参考文献4

共引文献6

同被引文献6

引证文献2

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于词素的日文分词方法及其在OCR系统中的应用 被引量：2

参考文献2

二级参考文献4

共引文献6

同被引文献6

引证文献2

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

基于词素的日文分词方法及其在OCR系统中的应用被引量：2