期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
文档智能:数据集、模型和应用 被引量:8
1
作者 崔磊 徐毅恒 +1 位作者 吕腾超 韦福如 《中文信息学报》 CSCD 北大核心 2022年第6期1-19,共19页
文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答... 文档智能是指通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理和计算机视觉交叉领域的一个重要研究方向。近年来,深度学习技术的普及极大地推动了文档智能领域的发展,以文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等为代表的文档智能任务均有显著的性能提升。该文对于早期基于启发式规则的文档分析技术、基于统计机器学习的算法以及近年来基于深度学习和预训练的方法进行简要介绍,并展望了文档智能技术的未来发展方向。 展开更多
关键词 文档智能 深度学习 多模态自然语言处理
下载PDF
基于本体驱动的航空情报表格信息结构化研究
2
作者 赖欣 李思宁 +1 位作者 梁昌盛 张恒嫣 《计算机科学》 CSCD 北大核心 2024年第S01期693-699,共7页
航空资料汇编是国际民航组织推荐的呈现各国航空信息的主要载体,其中以表格数据形式汇总了大量航空数据与航空运行限制信息。为实现航空汇编资料的智能查询,以及对航空资料汇编中静态数据的挖掘与利用,需要对航空汇编资料中的表格信息... 航空资料汇编是国际民航组织推荐的呈现各国航空信息的主要载体,其中以表格数据形式汇总了大量航空数据与航空运行限制信息。为实现航空汇编资料的智能查询,以及对航空资料汇编中静态数据的挖掘与利用,需要对航空汇编资料中的表格信息予以特征提取与结构化处理。将航空资料汇编中表格信息作为研究对象,提出了一种基于本体驱动的航空情报表格信息结构化抽取方法。首先构建航空情报领域信息的本体框架,实现对领域知识统一规范的描述;其次,利用Document AI对表格文档的布局结构进行研究与预处理,并利用随机森林算法与条件随机场模型进行特征实体提取验证与分析。实验结果表明,所提方法能够有效提取航空情报表格中的特征实体,为航空情报领域静态数据深入挖掘提供参考。 展开更多
关键词 航空情报 本体 命名实体识别 条件随机场 随机森林 document ai
下载PDF
基于自适应注意力机制的表格结构识别模型
3
作者 郑剑锋 张广涛 刘英莉 《化工自动化及仪表》 CAS 2024年第3期449-455,共7页
针对图像中表格结构识别问题,提出了基于自适应注意力机制的编码-解码架构,预测图像中表格的HTML标签。采用轻量化LCNet和CSP-PAN作为特征编码网络,获得全局图像特征;为解码器设计自适应注意力机制,在解码器的每个时间步骤添加语义特征... 针对图像中表格结构识别问题,提出了基于自适应注意力机制的编码-解码架构,预测图像中表格的HTML标签。采用轻量化LCNet和CSP-PAN作为特征编码网络,获得全局图像特征;为解码器设计自适应注意力机制,在解码器的每个时间步骤添加语义特征,使模型自主选择关注图像信息或语义特征。另外,为提升研究效率,对训练图片数量与模型准确率之间的关系进行研究,结果表明合适的图像数量在70k~100k之间,实验从公开数据集PubTabNet中随机选择100k图片进行训练,模型的TEDS-Struct分数达到了95.1%。 展开更多
关键词 表格结构识别 注意力机制 文档智能 深度学习 模式识别 图像描述
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部