期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
7
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
古文自动处理研究现状与新时代发展趋势展望
被引量:
24
1
作者
邓三鸿
胡昊天
+1 位作者
王昊
王东波
《科技情报研究》
2021年第1期1-20,共20页
[目的/意义]随着数字化古籍文献的普及,利用自然语言处理与大数据分析技术,在古代典籍上开展文本挖掘与知识发现,逐渐成为数字人文在古文信息处理领域的重要研究方向,也是体现文化自信的重要途径。[方法/过程]文章定义了古文自动处理的...
[目的/意义]随着数字化古籍文献的普及,利用自然语言处理与大数据分析技术,在古代典籍上开展文本挖掘与知识发现,逐渐成为数字人文在古文信息处理领域的重要研究方向,也是体现文化自信的重要途径。[方法/过程]文章定义了古文自动处理的概念,从古文自动处理的领域划分与模型算法、语料资源与现有工具、知识库与平台系统3个方面,梳理古文自动处理领域的内涵和外延,整体把握该领域研究现状与发展趋势。[结果/结论]较全面地归纳总结了当前古文自动处理研究现状,分析了存在的问题与不足。
展开更多
关键词
古文自动处理
数字人文
传统文化
文化自信
古文信息处理
下载PDF
职称材料
不同词性标记集在典籍实体抽取上的差异性探究
被引量:
12
2
作者
袁悦
王东波
+1 位作者
黄水清
李斌
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2019年第3期57-65,共9页
【目的】在数字人文这一背景下,为更加深入和精准地从古代典籍中挖掘相应的知识,通过实验对比分析,探究不同词性标记集在典籍实体抽取上的差异性。【方法】基于已完成人工校验和机器自动标注的《左传》与《国语》构成的训练和测试语料,...
【目的】在数字人文这一背景下,为更加深入和精准地从古代典籍中挖掘相应的知识,通过实验对比分析,探究不同词性标记集在典籍实体抽取上的差异性。【方法】基于已完成人工校验和机器自动标注的《左传》与《国语》构成的训练和测试语料,以南京师范大学先秦词性标记集为主、以北京大学、中国科学院计算技术研究所和教育部词性标记集为辅,共形成三种不同大小的新标记集,通过条件随机场以及添加特征模板比较这三种词性标记集合在同一语料上进行实体抽取结果的差异性。【结果】在先秦典籍《左传》和《国语》上对不同大小的三种词性标记集开展对比实验,三种模型各自进行实体抽取的F值分别达到82.53%、83.42%和84.07%。【局限】特征选取有待进一步改善,训练结果还有提升空间。【结论】本文研究结果有助于先秦古文献命名实体的抽取,所构建的词性标记集合适用于古汉语词性标注工作。
展开更多
关键词
数字人文
古文信息处理
词性标注
命名实体抽取
原文传递
古文字的联机手写识别研究
被引量:
3
3
作者
陈丹
李宁
李亮
《北京机械工业学院学报》
2008年第4期32-37,共6页
分析了近年来古文字研究与计算机技术相结合的一些重要成果,以及古文字的构形特点之后,提出了一种用于识别联机手写古文字的方法,详细介绍了所采用的笔画特征和字元特征,主要包括在古文字书写变形中具有较高稳定性的7种笔型特征,以及笔...
分析了近年来古文字研究与计算机技术相结合的一些重要成果,以及古文字的构形特点之后,提出了一种用于识别联机手写古文字的方法,详细介绍了所采用的笔画特征和字元特征,主要包括在古文字书写变形中具有较高稳定性的7种笔型特征,以及笔画交叉点、字元相对位置特征等等。并在此基础上,介绍了所构建的一个古文字识别的原型系统。同时指出了系统在对异体字的兼容,对古文字音、义的处理等方面存在的不足,提出了古文字识别智能化的研究方向,对今后古文字联机手写体识别的改进具有一定的参考价值。
展开更多
关键词
古文字识别
联机手写识别
中文信息处理
下载PDF
职称材料
用于信息检索的古文统计分析
被引量:
2
4
作者
张敏
马少平
《中文信息学报》
CSCD
北大核心
2001年第6期40-46,共7页
根据中文古籍信息检索技术的需求 ,本文在大规模语料库上对古汉语进行了统计分析。首先给出了在信息处理中多个专用语料库的动态知识合并的方法。在此基础上 ,对三千五百万字的中文古籍语料进行了统计分析 ,总结出在古汉语中 ,汉字在高...
根据中文古籍信息检索技术的需求 ,本文在大规模语料库上对古汉语进行了统计分析。首先给出了在信息处理中多个专用语料库的动态知识合并的方法。在此基础上 ,对三千五百万字的中文古籍语料进行了统计分析 ,总结出在古汉语中 ,汉字在高频字上集中分布而在低频字上相当散布 ,且总体变化成指数递减的规律 ,并对二元语法进行了分析。然后分别与现代汉语的单字及双字进行比较 ,得出相应结论 ,并按照使用频度 ,把古汉语的汉字进行了分类。最后 ,这些统计学习到的知识 。
展开更多
关键词
信息检索
古籍检索
字频统计
二元语法
中文信息处理
语料库
古汉语
下载PDF
职称材料
古文信息处理研究的现状及趋势
被引量:
31
5
作者
黄水清
王东波
《图书情报工作》
CSSCI
北大核心
2017年第12期43-49,共7页
[目的 /意义]随着古文数字化、智能处理和相关人文计算研究的迅速发展,对这一领域的整体研究状况进行梳理,不仅有助于从以往的研究当中总结相应的规律,而且在一定程度上有益于后续探究的展开。[方法/过程]厘定古文信息处理的概念,分析...
[目的 /意义]随着古文数字化、智能处理和相关人文计算研究的迅速发展,对这一领域的整体研究状况进行梳理,不仅有助于从以往的研究当中总结相应的规律,而且在一定程度上有益于后续探究的展开。[方法/过程]厘定古文信息处理的概念,分析古文信息处理的研究现状,给出古文信息处理研究的整体概貌。同时,在统计分析的基础上,对古文数字化、智能处理和人文计算这3个方面的研究内容进行总结、回顾和研究趋势的展望。[结果/结论]在古文信息处理研究中,古文数字化所取得的成就最大,古文智能处理在词汇级的探究上取得了一定的成效,而对于人文计算来说,与古文相关的研究则才刚刚起步。
展开更多
关键词
古文数字化
数字人文
信息智能处理
人文计算
古文信息处理
原文传递
基于多特征知识的先秦典籍词性自动标注研究
被引量:
19
6
作者
王东波
黄水清
何琳
《图书情报工作》
CSSCI
北大核心
2017年第12期64-70,共7页
[目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍...
[目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果 /结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效提升。
展开更多
关键词
词性标注
先秦古籍
条件随机场模型
特征模板
古文信息处理
原文传递
基于支持向量机的先秦诸子典籍自动分类研究
被引量:
10
7
作者
王东波
何琳
黄水清
《图书情报工作》
CSSCI
北大核心
2017年第12期71-76,共6页
[目的 /意义]在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法 /过程]基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种...
[目的 /意义]在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法 /过程]基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种先秦诸子典籍构成的训练和测试语料,采用支持向量机技术,提取TF-IDF、信息增益、卡方统计和互信息为特征,完成针对先秦诸子典籍的自动分类实验。[结果 /结论]基于先秦诸子典籍得到的自动分类模型调和平均值能达到99.21%,效果较好,具有较强的推广和应用价值。
展开更多
关键词
先秦典籍
支持向量机
自动分类
古文信息处理
原文传递
题名
古文自动处理研究现状与新时代发展趋势展望
被引量:
24
1
作者
邓三鸿
胡昊天
王昊
王东波
机构
南京大学信息管理学院
江苏省数据工程与知识服务重点实验室
南京农业大学信息管理学院
出处
《科技情报研究》
2021年第1期1-20,共20页
基金
国家社科基金重点项目“大数据环境下领域知识加工与组织模式研究”(编号:20ATQ006)。
文摘
[目的/意义]随着数字化古籍文献的普及,利用自然语言处理与大数据分析技术,在古代典籍上开展文本挖掘与知识发现,逐渐成为数字人文在古文信息处理领域的重要研究方向,也是体现文化自信的重要途径。[方法/过程]文章定义了古文自动处理的概念,从古文自动处理的领域划分与模型算法、语料资源与现有工具、知识库与平台系统3个方面,梳理古文自动处理领域的内涵和外延,整体把握该领域研究现状与发展趋势。[结果/结论]较全面地归纳总结了当前古文自动处理研究现状,分析了存在的问题与不足。
关键词
古文自动处理
数字人文
传统文化
文化自信
古文信息处理
Keywords
ancient
chinese
character
automatic
processing
digital
humanities
traditional
culture
cultural
confidence
ancient
chinese
character
information processing
分类号
G255 [文化科学—图书馆学]
下载PDF
职称材料
题名
不同词性标记集在典籍实体抽取上的差异性探究
被引量:
12
2
作者
袁悦
王东波
黄水清
李斌
机构
南京农业大学信息科学技术学院
南京农业大学领域知识关联研究中心
南京师范大学文学院
出处
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2019年第3期57-65,共9页
基金
国家社会科学基金重大项目"基于<汉学引得丛刊>的典籍知识库构建及人文计算研究"(项目编号:15ZDB127)
国家自然科学基金面上项目"基于典籍引得的句法级汉英平行语料库构建及人文计算研究"(项目编号:71673143)的研究成果之一
文摘
【目的】在数字人文这一背景下,为更加深入和精准地从古代典籍中挖掘相应的知识,通过实验对比分析,探究不同词性标记集在典籍实体抽取上的差异性。【方法】基于已完成人工校验和机器自动标注的《左传》与《国语》构成的训练和测试语料,以南京师范大学先秦词性标记集为主、以北京大学、中国科学院计算技术研究所和教育部词性标记集为辅,共形成三种不同大小的新标记集,通过条件随机场以及添加特征模板比较这三种词性标记集合在同一语料上进行实体抽取结果的差异性。【结果】在先秦典籍《左传》和《国语》上对不同大小的三种词性标记集开展对比实验,三种模型各自进行实体抽取的F值分别达到82.53%、83.42%和84.07%。【局限】特征选取有待进一步改善,训练结果还有提升空间。【结论】本文研究结果有助于先秦古文献命名实体的抽取,所构建的词性标记集合适用于古汉语词性标注工作。
关键词
数字人文
古文信息处理
词性标注
命名实体抽取
Keywords
Digital
Humanities
ancient
chinese
character
information processing
Parts
of
Speech
Tagging
Named
Entity
Extraction
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
古文字的联机手写识别研究
被引量:
3
3
作者
陈丹
李宁
李亮
机构
北京信息科技大学计算机学院
出处
《北京机械工业学院学报》
2008年第4期32-37,共6页
基金
北京市中青年骨干教师项目基金(PXM2008_014224_055928)
文摘
分析了近年来古文字研究与计算机技术相结合的一些重要成果,以及古文字的构形特点之后,提出了一种用于识别联机手写古文字的方法,详细介绍了所采用的笔画特征和字元特征,主要包括在古文字书写变形中具有较高稳定性的7种笔型特征,以及笔画交叉点、字元相对位置特征等等。并在此基础上,介绍了所构建的一个古文字识别的原型系统。同时指出了系统在对异体字的兼容,对古文字音、义的处理等方面存在的不足,提出了古文字识别智能化的研究方向,对今后古文字联机手写体识别的改进具有一定的参考价值。
关键词
古文字识别
联机手写识别
中文信息处理
Keywords
ancient
chinese
character
recognition
on-line
hand-writing
recognition
chinese
information processing
分类号
TP18 [自动化与计算机技术—控制理论与控制工程]
下载PDF
职称材料
题名
用于信息检索的古文统计分析
被引量:
2
4
作者
张敏
马少平
机构
清华大学计算机科学与技术系
出处
《中文信息学报》
CSCD
北大核心
2001年第6期40-46,共7页
基金
国家重点基础研究项目 (973) (G19980 30 5 0 9)
自然科学基金项目:(6 9836 0 40 )
文摘
根据中文古籍信息检索技术的需求 ,本文在大规模语料库上对古汉语进行了统计分析。首先给出了在信息处理中多个专用语料库的动态知识合并的方法。在此基础上 ,对三千五百万字的中文古籍语料进行了统计分析 ,总结出在古汉语中 ,汉字在高频字上集中分布而在低频字上相当散布 ,且总体变化成指数递减的规律 ,并对二元语法进行了分析。然后分别与现代汉语的单字及双字进行比较 ,得出相应结论 ,并按照使用频度 ,把古汉语的汉字进行了分类。最后 ,这些统计学习到的知识 。
关键词
信息检索
古籍检索
字频统计
二元语法
中文信息处理
语料库
古汉语
Keywords
information
retrieval
ancient
chinese
retrieval
character
statistical
analysis,digram
chinese
information processing
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
古文信息处理研究的现状及趋势
被引量:
31
5
作者
黄水清
王东波
机构
南京农业大学信息科学技术学院
南京农业大学领域知识关联研究中心
出处
《图书情报工作》
CSSCI
北大核心
2017年第12期43-49,共7页
基金
国家社会科学基金重大项目"基于<汉学引得丛刊>的典籍知识库构建及人文计算研究"(项目编号:15ZDB127)
南京农业大学人文社会科学基金项目"基于<汉学引得丛刊>的典籍知识库构建及人文计算研究"(项目编号:SKPT2016001)研究成果之一
文摘
[目的 /意义]随着古文数字化、智能处理和相关人文计算研究的迅速发展,对这一领域的整体研究状况进行梳理,不仅有助于从以往的研究当中总结相应的规律,而且在一定程度上有益于后续探究的展开。[方法/过程]厘定古文信息处理的概念,分析古文信息处理的研究现状,给出古文信息处理研究的整体概貌。同时,在统计分析的基础上,对古文数字化、智能处理和人文计算这3个方面的研究内容进行总结、回顾和研究趋势的展望。[结果/结论]在古文信息处理研究中,古文数字化所取得的成就最大,古文智能处理在词汇级的探究上取得了一定的成效,而对于人文计算来说,与古文相关的研究则才刚刚起步。
关键词
古文数字化
数字人文
信息智能处理
人文计算
古文信息处理
Keywords
ancient
chinese
character
digitization
digital
humanities
intelligent
processing
humanities
computing
ancient
chinese
character
information processing
分类号
G255.1 [文化科学—图书馆学]
原文传递
题名
基于多特征知识的先秦典籍词性自动标注研究
被引量:
19
6
作者
王东波
黄水清
何琳
机构
南京农业大学信息科学技术学院
南京农业大学领域知识关联研究中心
出处
《图书情报工作》
CSSCI
北大核心
2017年第12期64-70,共7页
基金
国家社会科学基金重大项目"基于<汉学引得丛刊>的典籍知识库构建及人文计算研究"(项目编号:15ZDB127)
国家社会科学基金青年项目"哈佛燕京学社汉学引得丛刊研究"(项目编号:12CTQ019)研究成果之一
南京农业大学人文社会科学基金项目(项目编号:SKPT2016001)
文摘
[目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果 /结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效提升。
关键词
词性标注
先秦古籍
条件随机场模型
特征模板
古文信息处理
Keywords
part-of-speech
Pre-Qin
literature
conditional
random
fields
model
feature
template
ancient
chinese
character
information processing
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于支持向量机的先秦诸子典籍自动分类研究
被引量:
10
7
作者
王东波
何琳
黄水清
机构
南京农业大学信息科学技术学院
南京农业大学领域知识关联研究中心
出处
《图书情报工作》
CSSCI
北大核心
2017年第12期71-76,共6页
基金
国家社科基金重大项目"基于<汉学引得丛刊>的典籍知识库构建及人文计算研究"(项目编号:15ZDB127)
南京农业大学人文社科基金项目(项目编号:SKPT2016001)
国家社会科学基金青年项目"哈佛燕京学社汉学引得丛刊研究"(项目编号:12CTQ019)研究成果之一
文摘
[目的 /意义]在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法 /过程]基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种先秦诸子典籍构成的训练和测试语料,采用支持向量机技术,提取TF-IDF、信息增益、卡方统计和互信息为特征,完成针对先秦诸子典籍的自动分类实验。[结果 /结论]基于先秦诸子典籍得到的自动分类模型调和平均值能达到99.21%,效果较好,具有较强的推广和应用价值。
关键词
先秦典籍
支持向量机
自动分类
古文信息处理
Keywords
Pre-Qin
Literature
support
vector
machine
automatic
classification
ancient
chinese
character
information processing
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
原文传递
题名
作者
出处
发文年
被引量
操作
1
古文自动处理研究现状与新时代发展趋势展望
邓三鸿
胡昊天
王昊
王东波
《科技情报研究》
2021
24
下载PDF
职称材料
2
不同词性标记集在典籍实体抽取上的差异性探究
袁悦
王东波
黄水清
李斌
《数据分析与知识发现》
CSSCI
CSCD
北大核心
2019
12
原文传递
3
古文字的联机手写识别研究
陈丹
李宁
李亮
《北京机械工业学院学报》
2008
3
下载PDF
职称材料
4
用于信息检索的古文统计分析
张敏
马少平
《中文信息学报》
CSCD
北大核心
2001
2
下载PDF
职称材料
5
古文信息处理研究的现状及趋势
黄水清
王东波
《图书情报工作》
CSSCI
北大核心
2017
31
原文传递
6
基于多特征知识的先秦典籍词性自动标注研究
王东波
黄水清
何琳
《图书情报工作》
CSSCI
北大核心
2017
19
原文传递
7
基于支持向量机的先秦诸子典籍自动分类研究
王东波
何琳
黄水清
《图书情报工作》
CSSCI
北大核心
2017
10
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部