基于卷积神经网络和Transformer的手写体英文文本识别被引量：2

Handwritten English text recognition based on convolutional neural network and Transformer

下载PDF

导出

摘要手写体文本识别技术可以将手写文档转录成可编辑的数字文档。但由于手写的书写风格迥异、文档结构千变万化和字符分割识别精度不高等问题,基于神经网络的手写体英文文本识别仍面临着许多挑战。针对上述问题,提出基于卷积神经网络(CNN)和Transformer的手写体英文文本识别模型。首先利用CNN从输入图像中提取特征,而后将特征输入到Transformer编码器中得到特征序列每一帧的预测,最后经过链接时序分类(CTC)解码器获得最终的预测结果。在公开的IAM(Institut für Angewandte Mathematik)手写体英文单词数据集上进行了大量的实验结果表明,该模型获得了3.60%的字符错误率(CER)和12.70%的单词错误率(WER),验证了所提模型的可行性。 Handwritten text recognition technology can transcribe handwritten documents into editable digital documents.However,due to the problems of different writing styles,ever-changing document structures and low accuracy of character segmentation recognition,handwritten English text recognition based on neural networks still faces many challenges.To solve the above problems,a handwritten English text recognition model based on Convolutional Neural Network(CNN)and Transformer was proposed.Firstly,CNN was used to extract features from the input image.Then,the features were input into the Transformer encoder to obtain the prediction of each frame of the feature sequence.Finally,the Connectionist Temporal Classification(CTC)decoder was used to obtain the final prediction result.A large number of experiments were conducted on the public Institut für Angewandte Mathematik(IAM)handwritten English word dataset.Experimental results show that this model obtains a Character Error Rate(CER)of 3.60%and a Word Error Rate(WER)of 12.70%,which verify the feasibility of the proposed model.

作者张显杰张之明 ZHANG Xianjie;ZHANG Zhiming(College of Information Engineering,Engineering University of PAP,Xi’an Shaanxi 710086,China;Postgraduate Brigade,Engineering University of PAP,Xi’an Shaanxi 710086,China)

机构地区武警工程大学信息工程学院武警工程大学研究生大队

出处《计算机应用》 CSCD 北大核心 2022年第8期2394-2400,共7页 journal of Computer Applications

关键词手写体英文文本识别深度学习卷积神经网络 TRANSFORMER 链接时序分类注意力无分割 handwritten English text recognition deep learning Convolutional Neural Network(CNN) Transformer Connectionist Temporal Classification(CTC) attention segmentation-free

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1Wenhai Wang,Enze Xie,Xiang Li,Deng-Ping Fan,Kaitao Song,Ding Liang,Tong Lu,Ping Luo,Ling Shao.PVT v2:Improved baselines with Pyramid Vision Transformer[J].Computational Visual Media,2022,8(3):415-424. 被引量：57

共引文献56

1李敏,乔志远,杨易鑫.基于光学遥感影像的舰船检测研究综述[J].网络安全与数据治理,2023,42(S01):106-114.
2薛相全,庞明宝.基于Transformer-ESIM的高速公路交通状态识别模型[J].物流科技,2022,45(17):71-75.
3单维锋,李志扬,陈俊,刘海军,张秀霞,邢丽莉,胡秀娟,夏庆新,夏金铸.应用卷积神经网络和自注意力机制识别地磁场干扰事件[J].地震地磁观测与研究,2022,43(5):49-63.
4Ge-Peng Ji,Guobao Xiao,Yu-Cheng Chou,Deng-Ping Fan,Kai Zhao,Geng Chen,Luc Van Gool.Video Polyp Segmentation: A Deep Learning Perspective[J].Machine Intelligence Research,2022,19(6):531-549. 被引量：10
5刘洋,李相国,连良秀.基于AIOT的安全生产监管平台关键技术研究[J].网络安全技术与应用,2022(12):7-9.
6李翔,张涛,张哲,魏宏杨,钱育蓉.Transformer在计算机视觉领域的研究综述[J].计算机工程与应用,2023,59(1):1-14. 被引量：10
7冯珺,彭梁英,赵帅,潘司晨,郭雪强.基于孪生神经网络的小样本目标检测综述[J].河北科技大学学报,2022,43(6):643-650. 被引量：2
8王甜甜,史卫亚,张世强,张绍文.采用双支路和Transformer的视杯视盘分割方法[J].科学技术与工程,2023,23(6):2499-2508. 被引量：1
9李清格,杨小冈,卢瑞涛,王思宇,谢学立,张涛.计算机视觉中的Transformer发展综述[J].小型微型计算机系统,2023,44(4):850-861. 被引量：11
10梁礼明,何安军,董信,李仁杰,盛校棋.融合PVTv2和多尺度边界聚合的结直肠息肉分割算法[J].计算机应用研究,2023,40(5):1553-1558. 被引量：1

同被引文献11

1玛依热.依布拉音,卡米力.木依丁,艾斯卡尔.艾木都拉.基于多分类器集成的维吾尔文联机手写字母识别[J].计算机工程与应用,2012,48(31):140-145. 被引量：2
2王锦,赵德群,邓钱华,宋瑞祥.基于自适应动量因子的BP神经网络优化方法研究[J].现代信息科技,2019,3(7):11-13. 被引量：3
3李道全,王雪,于波,黄泰铭.基于一维卷积神经网络的网络流量分类方法[J].计算机工程与应用,2020,56(3):94-99. 被引量：14
4申倬栋,王泽举.不均匀光照条件下二值化图像处理的研究[J].电子元器件与信息技术,2020,4(2):99-100. 被引量：5
5郑延斌,韩梦云,樊文鑫.基于二维主成分分析与卷积神经网络的手写体汉字识别[J].计算机应用,2020,40(8):2465-2471. 被引量：10
6蒋彤彤,尹魏昕,蔡冰,张琨.基于层次时空特征与多头注意力的恶意加密流量识别[J].计算机工程,2021,47(7):101-108. 被引量：23
7薛文龙,于炯,郭志琦,李梓杨.基于特征融合卷积神经网络的端到端加密流量分类[J].计算机工程与应用,2021,57(18):114-121. 被引量：16
8潘斌,韩强,姚娅川.基于卷积神经网络的白酒酒花分类研究[J].食品与机械,2021,37(10):30-37. 被引量：6
9高樱萍,宋丹,陈玉婷.基于卷积神经网络和迁移学习的服装图像分类[J].纺织科技进展,2021(11):48-52. 被引量：12
10杨彦召,朱程威,仇晶,童咏昕.基于TextCNN的加密恶意流量检测方法[J].广州大学学报（自然科学版）,2022,21(1):1-9. 被引量：6

引证文献2

1汪哲,张誉铎,黄永东,麦日排提·麦提图尔荪.基于改进的VGG-16的手写体维吾尔语识别[J].大连民族大学学报,2022,24(3):253-258.
2孙懿,高见,顾益军.融合一维Inception结构与ViT的恶意加密流量检测[J].计算机工程,2023,49(1):154-162. 被引量：6

二级引证文献6

1薛秋爽,汤艳君,王世航.基于视觉注意力网络的恶意加密流量检测[J].警察技术,2023(5):46-50.
2邓昕,刘朝晖,欧阳燕,陈建华.基于CNN CBAM-BiGRU Attention的加密恶意流量识别[J].计算机工程,2023,49(11):178-186. 被引量：2
3田鑫,丁要军.基于有效载荷和数据包长度的多模态加密流量分类[J].通信技术,2023,56(11):1267-1274.
4吴燕.融合随机森林与SHAP的恶意加密流量预测模型[J].哈尔滨商业大学学报（自然科学版）,2024,40(2):167-178. 被引量：1
5高新成,张宣,樊本航,刘威,张海洋.基于改进的CNN-Transformer加密流量分类方法[J].吉林大学学报（理学版）,2024,62(3):683-690.
6季奥颖,柳伟,丁页顶,鲍喜妮,高源.支持数据隐私保护的恶意加密流量检测确认方法研究[J].中国高新科技,2024(9):75-76.

1朱亚辉.基于Bi-LSTM-Attention的英文文本情感分类方法[J].电子设计工程,2022,30(16):27-30. 被引量：4
2杨司桂.功能对等论视域下中国仡佬民族文化博物馆外宣资料翻译研究[J].遵义师范学院学报,2022,24(4):64-68. 被引量：1
3迟美静.浅析电子管风琴作品《塞维利亚理发师》序曲的音乐创作与演奏特色[J].黄河之声,2022(8):77-79.

计算机应用

2022年第8期

浏览历史

内容加载中请稍等...

基于卷积神经网络和Transformer的手写体英文文本识别被引量：2

参考文献1

共引文献56

同被引文献11

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于卷积神经网络和Transformer的手写体英文文本识别 被引量：2

参考文献1

共引文献56

同被引文献11

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于卷积神经网络和Transformer的手写体英文文本识别被引量：2