-
题名文档智能:数据集、模型和应用
被引量:8
- 1
-
-
作者
崔磊
徐毅恒
吕腾超
韦福如
-
机构
微软亚洲研究院自然语言计算组
-
出处
《中文信息学报》
CSCD
北大核心
2022年第6期1-19,共19页
-
文摘
文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等为代表的文档智能任务均有显著的性能提升。该文对于早期基于启发式规则的文档分析技术、基于统计机器学习的算法以及近年来基于深度学习和预训练的方法进行简要介绍,并展望了文档智能技术的未来发展方向。
-
关键词
文档智能
深度学习
多模态自然语言处理
-
Keywords
Document AI
deep learning
multimodal NLP
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名非关系型表格理解前沿进展
- 2
-
-
作者
罗平
杨清平
曹逸轩
曹荣禹
何清
-
机构
中国科学院计算技术研究所中国科学院智能信息处理重点实验室
中国科学院大学
鹏城实验室
-
出处
《中文信息学报》
CSCD
北大核心
2024年第5期1-21,共21页
-
基金
国家自然科学基金(62076231,U1811461,62206265)
国家博士后基金(2021M703271)。
-
文摘
表格理解是指通过计算机对广泛存在于互联网、垂直领域的表格进行自动识别、解析和应用的过程。表格可大致分为关系型表格和非关系型表格。前者类似关系数据库表格,具有结构固定、机器易解析等特点,其研究历史由来已久。后者通常布局多变,语法灵活,具有更明显的语言特性,这也导致计算机在解析和应用非关系型表格时面临着极大挑战。非关系型表格理解是自然语言和计算机视觉多模态交叉的重要新兴领域之一。随着近年来深度学习技术的普及应用,非关系型表格在表格识别、语义分析、创新应用几个方向得到了长足发展。该文介绍了非关系型表格的结构特点,阐述了其在研究过程中面临的独特挑战,然后从表格识别、语义分析、创新应用三个研究方向简要介绍了近年来此领域的发展,归纳了相关数据集,最后总结了目前非关系型表格理解领域亟需解决的问题,展望了未来研究方向。
-
关键词
表格智能
深度学习
多模态自然语言处理
-
Keywords
table intelligence
deep learning
multimodal nature language processing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-