期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
古文自动处理研究现状与新时代发展趋势展望 被引量:24
1
作者 邓三鸿 胡昊天 +1 位作者 王昊 王东波 《科技情报研究》 2021年第1期1-20,共20页
[目的/意义]随着数字化古籍文献的普及,利用自然语言处理与大数据分析技术,在古代典籍上开展文本挖掘与知识发现,逐渐成为数字人文在古文信息处理领域的重要研究方向,也是体现文化自信的重要途径。[方法/过程]文章定义了古文自动处理的... [目的/意义]随着数字化古籍文献的普及,利用自然语言处理与大数据分析技术,在古代典籍上开展文本挖掘与知识发现,逐渐成为数字人文在古文信息处理领域的重要研究方向,也是体现文化自信的重要途径。[方法/过程]文章定义了古文自动处理的概念,从古文自动处理的领域划分与模型算法、语料资源与现有工具、知识库与平台系统3个方面,梳理古文自动处理领域的内涵和外延,整体把握该领域研究现状与发展趋势。[结果/结论]较全面地归纳总结了当前古文自动处理研究现状,分析了存在的问题与不足。 展开更多
关键词 古文自动处理 数字人文 传统文化 文化自信 古文信息处理
下载PDF
不同词性标记集在典籍实体抽取上的差异性探究 被引量:12
2
作者 袁悦 王东波 +1 位作者 黄水清 李斌 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第3期57-65,共9页
【目的】在数字人文这一背景下,为更加深入和精准地从古代典籍中挖掘相应的知识,通过实验对比分析,探究不同词性标记集在典籍实体抽取上的差异性。【方法】基于已完成人工校验和机器自动标注的《左传》与《国语》构成的训练和测试语料,... 【目的】在数字人文这一背景下,为更加深入和精准地从古代典籍中挖掘相应的知识,通过实验对比分析,探究不同词性标记集在典籍实体抽取上的差异性。【方法】基于已完成人工校验和机器自动标注的《左传》与《国语》构成的训练和测试语料,以南京师范大学先秦词性标记集为主、以北京大学、中国科学院计算技术研究所和教育部词性标记集为辅,共形成三种不同大小的新标记集,通过条件随机场以及添加特征模板比较这三种词性标记集合在同一语料上进行实体抽取结果的差异性。【结果】在先秦典籍《左传》和《国语》上对不同大小的三种词性标记集开展对比实验,三种模型各自进行实体抽取的F值分别达到82.53%、83.42%和84.07%。【局限】特征选取有待进一步改善,训练结果还有提升空间。【结论】本文研究结果有助于先秦古文献命名实体的抽取,所构建的词性标记集合适用于古汉语词性标注工作。 展开更多
关键词 数字人文 古文信息处理 词性标注 命名实体抽取
原文传递
古文字的联机手写识别研究 被引量:3
3
作者 陈丹 李宁 李亮 《北京机械工业学院学报》 2008年第4期32-37,共6页
分析了近年来古文字研究与计算机技术相结合的一些重要成果,以及古文字的构形特点之后,提出了一种用于识别联机手写古文字的方法,详细介绍了所采用的笔画特征和字元特征,主要包括在古文字书写变形中具有较高稳定性的7种笔型特征,以及笔... 分析了近年来古文字研究与计算机技术相结合的一些重要成果,以及古文字的构形特点之后,提出了一种用于识别联机手写古文字的方法,详细介绍了所采用的笔画特征和字元特征,主要包括在古文字书写变形中具有较高稳定性的7种笔型特征,以及笔画交叉点、字元相对位置特征等等。并在此基础上,介绍了所构建的一个古文字识别的原型系统。同时指出了系统在对异体字的兼容,对古文字音、义的处理等方面存在的不足,提出了古文字识别智能化的研究方向,对今后古文字联机手写体识别的改进具有一定的参考价值。 展开更多
关键词 古文字识别 联机手写识别 中文信息处理
下载PDF
用于信息检索的古文统计分析 被引量:2
4
作者 张敏 马少平 《中文信息学报》 CSCD 北大核心 2001年第6期40-46,共7页
根据中文古籍信息检索技术的需求 ,本文在大规模语料库上对古汉语进行了统计分析。首先给出了在信息处理中多个专用语料库的动态知识合并的方法。在此基础上 ,对三千五百万字的中文古籍语料进行了统计分析 ,总结出在古汉语中 ,汉字在高... 根据中文古籍信息检索技术的需求 ,本文在大规模语料库上对古汉语进行了统计分析。首先给出了在信息处理中多个专用语料库的动态知识合并的方法。在此基础上 ,对三千五百万字的中文古籍语料进行了统计分析 ,总结出在古汉语中 ,汉字在高频字上集中分布而在低频字上相当散布 ,且总体变化成指数递减的规律 ,并对二元语法进行了分析。然后分别与现代汉语的单字及双字进行比较 ,得出相应结论 ,并按照使用频度 ,把古汉语的汉字进行了分类。最后 ,这些统计学习到的知识 。 展开更多
关键词 信息检索 古籍检索 字频统计 二元语法 中文信息处理 语料库 古汉语
下载PDF
古文信息处理研究的现状及趋势 被引量:31
5
作者 黄水清 王东波 《图书情报工作》 CSSCI 北大核心 2017年第12期43-49,共7页
[目的 /意义]随着古文数字化、智能处理和相关人文计算研究的迅速发展,对这一领域的整体研究状况进行梳理,不仅有助于从以往的研究当中总结相应的规律,而且在一定程度上有益于后续探究的展开。[方法/过程]厘定古文信息处理的概念,分析... [目的 /意义]随着古文数字化、智能处理和相关人文计算研究的迅速发展,对这一领域的整体研究状况进行梳理,不仅有助于从以往的研究当中总结相应的规律,而且在一定程度上有益于后续探究的展开。[方法/过程]厘定古文信息处理的概念,分析古文信息处理的研究现状,给出古文信息处理研究的整体概貌。同时,在统计分析的基础上,对古文数字化、智能处理和人文计算这3个方面的研究内容进行总结、回顾和研究趋势的展望。[结果/结论]在古文信息处理研究中,古文数字化所取得的成就最大,古文智能处理在词汇级的探究上取得了一定的成效,而对于人文计算来说,与古文相关的研究则才刚刚起步。 展开更多
关键词 古文数字化 数字人文 信息智能处理 人文计算 古文信息处理
原文传递
基于多特征知识的先秦典籍词性自动标注研究 被引量:19
6
作者 王东波 黄水清 何琳 《图书情报工作》 CSSCI 北大核心 2017年第12期64-70,共7页
[目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍... [目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果 /结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效提升。 展开更多
关键词 词性标注 先秦古籍 条件随机场模型 特征模板 古文信息处理
原文传递
基于支持向量机的先秦诸子典籍自动分类研究 被引量:10
7
作者 王东波 何琳 黄水清 《图书情报工作》 CSSCI 北大核心 2017年第12期71-76,共6页
[目的 /意义]在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法 /过程]基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种... [目的 /意义]在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法 /过程]基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种先秦诸子典籍构成的训练和测试语料,采用支持向量机技术,提取TF-IDF、信息增益、卡方统计和互信息为特征,完成针对先秦诸子典籍的自动分类实验。[结果 /结论]基于先秦诸子典籍得到的自动分类模型调和平均值能达到99.21%,效果较好,具有较强的推广和应用价值。 展开更多
关键词 先秦典籍 支持向量机 自动分类 古文信息处理
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部