-
题名机器学习在档案管理中的应用:进展与挑战
被引量:33
- 1
-
-
作者
杨建梁
刘越男
-
机构
中国人民大学信息资源管理学院数据工程与知识工程教育部重点实验室中国人民大学电子文件管理研究中心
-
出处
《档案学通讯》
CSSCI
北大核心
2019年第6期48-56,共9页
-
基金
国家社科基金重点项目“我国数字档案馆建设战略研究——基于生态系统的视角”(16AZD054)
-
文摘
自2013年起,陆续有学者和档案馆开展了机器学习在档案管理中的应用研究,涉及手写档案识别、档案分类、档案鉴定、利用控制和利用服务等诸多业务。本文基于机器学习的技术逻辑和应用逻辑,结合档案及其管理工作的特点,分析得出机器学习在档案管理领域的应用逻辑框架,结合现有的应用案例,总结了机器学习在档案管理领域的应用进展,并分析了深化应用面临的挑战。研究发现,现阶段机器学习在档案管理领域的应用以实验性研究为主,在部分重要、棘手的档案管理业务展开初步探索,主要以文本数据和图片数据为训练数据集,以有监督的分类任务作为主要的任务形式。机器学习在档案管理领域中深化应用可能面临来自档案管理、档案数据、机器信任、法律环境和专业能力的挑战。
-
关键词
档案管理
档案信息资源
机器学习
人工智能
-
Keywords
Archives management
Archival information resource
Machine learning
Artificial intelligence
-
分类号
G270.7
[文化科学—档案学]
-
-
题名文档数据化:概念、框架与方法
被引量:16
- 2
-
-
作者
杨建梁
刘越男
祁天娇
-
机构
中国人民大学信息资源管理学院、数据工程与知识工程教育部重点实验室、中国人民大学电子文件管理研究中心
-
出处
《中国图书馆学报》
CSSCI
北大核心
2022年第3期63-78,共16页
-
基金
中国博士后科学基金面上资助一等项目“基于深度学习与事件知识图谱的数字文书档案价值鉴定研究”(编号:2020M680029)的研究成果之一。
-
文摘
数据价值已经得到社会各界的高度认可。为进一步利用大数据、人工智能等技术释放数据的价值,文档数据化的概念被提出并日益受到重视,也成为图书情报与档案管理学科数字转型的新领域。经多学科概念与方法的综合和推演,本文对文档数据化的概念内涵、内容框架和关键方法展开系统研究。研究发现,文档数据化是面向文档的开发利用,将文档转变为机器可识别、可分析、可计算的数据的过程;智能技术允许机器参与到文档数据化的决策过程中,使得文档数据化呈现出人机协同、利用驱动、粒度细化、面向计算的特点。基于以上研究,本文提出文档数据化的任务框架,包含转录识别、描述增强、关联构建和矢量处理四项任务,呈现出结构化、语义化和智能化三个维度上面向机器的演进机制。对各项任务涉及的基础方法和关键方法进行梳理后可知,以深度学习、自然语言处理等技术为核心的文档数据化方法正在发挥越来越重要的作用。图6。表6。参考文献36。
-
关键词
文档
数据化
非结构化数据
结构化
量化
-
Keywords
Document
Datafication
Unstructured data
Structurization
Quantification
-
分类号
G255.51
[文化科学—图书馆学]
-