期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究 被引量:22
1
作者 程宁 李斌 +2 位作者 葛四嘉 郝星月 冯敏萱 《中文信息学报》 CSCD 北大核心 2020年第4期1-9,共9页
古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析... 古汉语信息处理的基础任务包括自动断句、自动分词、词性标注、专名识别等。大量的古汉语文本未经标点断句,所以词法分析等任务首先需要建立在断句基础之上。然而,分步处理容易造成错误的多级扩散,该文设计实现了古汉语断句与词法分析一体化的标注方法,基于BiLSTM-CRF神经网络模型在四种跨时代的测试集上验证了不同标注层次下模型对断句、词法分析的效果以及对不同时代文本标注的泛化能力。研究表明,一体化的标注方法对古汉语的断句、分词及词性标注任务的F1值均有提升。综合各测试集的实验结果,断句任务F1值达到78.95%,平均提升了3.5%;分词任务F1值达到85.73%,平均提升了0.18%;词性标注任务F1值达到72.65%,平均提升了0.35%。 展开更多
关键词 古文断句 分词 词性标注 BiLSTM-CRF 古汉语信息处理
下载PDF
数字人文视野下的古汉语实体歧义研究 被引量:11
2
作者 刘浏 王东波 +1 位作者 黄水清 苏新宁 《图书与情报》 CSSCI 北大核心 2020年第5期115-124,共10页
实体知识的自动识别是古文智能处理的重要内容,也是古文数字人文研究的技术支撑。以实体知识为基础的数字人文研究若不考虑古籍中普遍存在的实体歧义,将难以得到准确可靠的数据和结论。文章以《春秋经传引得》为文本语料,考察了语料中... 实体知识的自动识别是古文智能处理的重要内容,也是古文数字人文研究的技术支撑。以实体知识为基础的数字人文研究若不考虑古籍中普遍存在的实体歧义,将难以得到准确可靠的数据和结论。文章以《春秋经传引得》为文本语料,考察了语料中同名异指和异名同指两大类人名实体歧义,根据古文实体歧义消解的特殊性,提出两类歧义的消解方法和思路。研究基于实体语境和时间知识,构建了消歧规则并以先秦古汉语为实例进行了验证。上述方法在其他古汉语语料中的适用性值得进一步探究,基于消歧后的语料,文章呈现了先秦人物的基本全貌,表明了本研究的价值所在。 展开更多
关键词 古文信息处理 实体歧义 古文智能处理 古文数字人文
下载PDF
计算人文下的古籍引书研究及全文本知识库的构建 被引量:5
3
作者 刘浏 齐月 +2 位作者 刘雏菲 李文祺 王东波 《情报学报》 CSSCI CSCD 北大核心 2023年第12期1498-1512,共15页
古籍引书是古籍计算人文研究的重要内容,是探寻传统文化传承脉络的重要方式。本文阐述了计算人文下古籍引书研究的内涵,描述了该研究视角下目录典籍、经学注疏、史书及诗词歌赋四类对象的引书和引典现象的异同,并以此为出发点,探讨了古... 古籍引书是古籍计算人文研究的重要内容,是探寻传统文化传承脉络的重要方式。本文阐述了计算人文下古籍引书研究的内涵,描述了该研究视角下目录典籍、经学注疏、史书及诗词歌赋四类对象的引书和引典现象的异同,并以此为出发点,探讨了古籍引书全文本知识库构建的技术现状。本文围绕知识表示、知识标注、知识补全与消歧,描述了古籍引书全文本知识构建的框架流程,并就目录典籍、经学注疏、史书及诗词歌赋四类对象进行了引书知识库的构建尝试,分析了古籍引书知识库的应用前景。 展开更多
关键词 古籍引书 计算人文 数字人文 古文信息处理 知识库
下载PDF
第一届古代汉语分词和词性标注国际评测 被引量:5
4
作者 李斌 袁义国 +4 位作者 芦靖雅 冯敏萱 许超 曲维光 王东波 《中文信息学报》 CSCD 北大核心 2023年第3期46-53,64,共9页
中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,... 中文古籍数量庞大,亟待智能处理方法进行自动处理。古文的自动分词和词性标注,是古汉语信息处理的基础任务。而大规模词库和标注语料库的缺失,导致古汉语自动分析技术发展较慢。该文介绍了第一届古代汉语分词和词性标注国际评测的概况,评测以人工标校的精加工语料库作为统一的训练数据,以F_(1)值作为评测指标,比较了古汉语词法分析系统在测试数据(基测集和盲测集)上的优劣。评测还根据是否使用外部资源,区分出开放和封闭两种测试模式。该评测在第十三届语言资源与评测会议的第二届历史和古代语言技术研讨会上举办,共有14支队伍参赛。在基测集上,封闭测试模式分词和词性标注的F_(1)值分别达到了96.16%和92.05%,开放测试模式分词和词性标注的F_(1)值分别达到了96.34%和92.56%。在盲测集上,封闭测试分词和词性标注的F_(1)值分别达到93.64%和87.77%,开放测试分词和词性标注F_(1)值则分别达到95.03%和89.47%。未登录词依然是古代汉语词法分析的瓶颈。该评测的最优系统把目前古汉语词法分析提高到新的水平,深度学习和预训练模型有力地提高了古汉语自动分析的效果。 展开更多
关键词 古汉语 评测 自动分词 词性标注 古文信息处理
下载PDF
历史典籍的结构化探索——《史记·列传》数字人文知识库的构建与可视化研究 被引量:6
5
作者 郑童哲恒 李斌 +2 位作者 冯敏萱 常博林 王东波 《大数据》 2022年第6期40-55,共16页
中国古代典籍文献浩如烟海,蕴藏了大量的历史人文知识。以电子化和全文检索为主要方法的古籍数字化开发应用模式已经成为语言文学、历史、哲学等学科的重要基础资源和工具。随着人工智能与大数据技术的发展,数字人文的研究范式不断演进... 中国古代典籍文献浩如烟海,蕴藏了大量的历史人文知识。以电子化和全文检索为主要方法的古籍数字化开发应用模式已经成为语言文学、历史、哲学等学科的重要基础资源和工具。随着人工智能与大数据技术的发展,数字人文的研究范式不断演进,将传统典籍的文本转换为高度结构化的新型数字人文数据库是一项新的探索,将文本中词汇、人物、地理实体等要素有机组织起来,对于历史现象可视化、历史规律量化具有重大意义。以《史记·列传》为对象,进行古汉语自动分词及词性标注、人工校对以及实体信息人工标注,形成多层次、高质量的数字人文知识库,实现包含古籍词汇、人物、地点等要素的定量分析与可视化检索,挖掘出《史记·列传》人物和地点分布情况、人物关系、人地关系等信息。得出:《史记·列传》共出现人物1787位、地点1173个;相比《史记·本纪》和《史记·世家》,《史记·列传》特有人物共1092位,特有地点共556个。本文研究内容为古籍数字人文知识库的构建提供了新的思路与框架。 展开更多
关键词 数字人文 《史记·列传》 知识服务 大数据 古汉语信息处理
下载PDF
先秦词网构建及梵汉对比研究 被引量:1
6
作者 卢雪晖 徐会丹 +1 位作者 李斌 陈思瑜 《中文信息学报》 CSCD 北大核心 2023年第3期36-45,共10页
先秦汉语在汉语史研究上具有重要地位,然而以往的研究始终没有形成结构化的先秦词汇资源,难以满足古汉语信息处理和跨语言对比的研究需要。国际上以英文词网(WordNet)的义类架构为基础,建立了数十种语言的词网,已经成为多语言自然语言... 先秦汉语在汉语史研究上具有重要地位,然而以往的研究始终没有形成结构化的先秦词汇资源,难以满足古汉语信息处理和跨语言对比的研究需要。国际上以英文词网(WordNet)的义类架构为基础,建立了数十种语言的词网,已经成为多语言自然语言处理和跨语言对比的基础资源。该文综述了国内外各种词网的构建情况,特别是古代语言的词网和汉语词网,且详细介绍了先秦词网的构建和校正过程,构建了涵盖43 591个词语、61 227个义项、17 975个义类的先秦词网。该文还通过与古梵语词网的跨语言对比,尝试分析这两种古老语言在词汇上的共性和差异,初步验证先秦词网的价值。 展开更多
关键词 词网 先秦汉语 跨语言对比 古文信息处理
下载PDF
基于Transformer-CRF的文言文断句方法研究--以唐代墓志铭为例
7
作者 韩旭 《情报工程》 2021年第5期30-39,共10页
[目的/意义]本文探索了文言文的断句规则,并以唐代墓志铭为例进行基于语义的句子边界识别,降低了文言文因缺少标点造成的阅读障碍,减少了人工标注标点的工作量,为中国古文的资料分析整理提供技术支撑。[方法/过程]本文首先使用一种基于... [目的/意义]本文探索了文言文的断句规则,并以唐代墓志铭为例进行基于语义的句子边界识别,降低了文言文因缺少标点造成的阅读障碍,减少了人工标注标点的工作量,为中国古文的资料分析整理提供技术支撑。[方法/过程]本文首先使用一种基于汉字偏旁的字表示方法,提取汉字本身隐含的语义信息进行表达。将基于偏旁的字表示输入Transformer-CRF模型,并对墓志铭中的缺失字进行了滑动窗口填补操作,降低缺失字对整体模型的影响。该模型在提高并行计算效率的基础上对输出结果进行关联,提高了准确率。[结果/结论]实验表明,使用基于偏旁的字向量表示方式结合Transformer-CRF能提升唐代墓志铭的断句准确率,且对于缺失字附近的断句准确率有所提升,该方法对数字人文中信息收集和整理工作起到了一定的辅助支撑作用。 展开更多
关键词 Transformer-CRF 繁体字向量 句子边界识别 古籍信息处理
下载PDF
古文信息处理研究的现状及趋势 被引量:33
8
作者 黄水清 王东波 《图书情报工作》 CSSCI 北大核心 2017年第12期43-49,共7页
[目的 /意义]随着古文数字化、智能处理和相关人文计算研究的迅速发展,对这一领域的整体研究状况进行梳理,不仅有助于从以往的研究当中总结相应的规律,而且在一定程度上有益于后续探究的展开。[方法/过程]厘定古文信息处理的概念,分析... [目的 /意义]随着古文数字化、智能处理和相关人文计算研究的迅速发展,对这一领域的整体研究状况进行梳理,不仅有助于从以往的研究当中总结相应的规律,而且在一定程度上有益于后续探究的展开。[方法/过程]厘定古文信息处理的概念,分析古文信息处理的研究现状,给出古文信息处理研究的整体概貌。同时,在统计分析的基础上,对古文数字化、智能处理和人文计算这3个方面的研究内容进行总结、回顾和研究趋势的展望。[结果/结论]在古文信息处理研究中,古文数字化所取得的成就最大,古文智能处理在词汇级的探究上取得了一定的成效,而对于人文计算来说,与古文相关的研究则才刚刚起步。 展开更多
关键词 古文数字化 数字人文 信息智能处理 人文计算 古文信息处理
原文传递
古文自动处理研究现状与新时代发展趋势展望 被引量:28
9
作者 邓三鸿 胡昊天 +1 位作者 王昊 王东波 《科技情报研究》 2021年第1期1-20,共20页
[目的/意义]随着数字化古籍文献的普及,利用自然语言处理与大数据分析技术,在古代典籍上开展文本挖掘与知识发现,逐渐成为数字人文在古文信息处理领域的重要研究方向,也是体现文化自信的重要途径。[方法/过程]文章定义了古文自动处理的... [目的/意义]随着数字化古籍文献的普及,利用自然语言处理与大数据分析技术,在古代典籍上开展文本挖掘与知识发现,逐渐成为数字人文在古文信息处理领域的重要研究方向,也是体现文化自信的重要途径。[方法/过程]文章定义了古文自动处理的概念,从古文自动处理的领域划分与模型算法、语料资源与现有工具、知识库与平台系统3个方面,梳理古文自动处理领域的内涵和外延,整体把握该领域研究现状与发展趋势。[结果/结论]较全面地归纳总结了当前古文自动处理研究现状,分析了存在的问题与不足。 展开更多
关键词 古文自动处理 数字人文 传统文化 文化自信 古文信息处理
下载PDF
基于多特征知识的先秦典籍词性自动标注研究 被引量:20
10
作者 王东波 黄水清 何琳 《图书情报工作》 CSSCI 北大核心 2017年第12期64-70,共7页
[目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍... [目的 /意义]先秦典籍在古代典籍中的地位极为重要。本文提出对先秦典籍进行词性自动标注的解决方法,以便更加准确地挖掘先秦典籍中的潜在知识。[方法 /过程]通过条件随机场模型,结合统计方法确定组合特征模板,并最终得到针对先秦典籍的词性自动标注算法模型。[结果 /结论]在先秦典籍自动分词的整个流程基础上,得到简单特征模板、组合特征模板下的词性自动标注模型,基于组合特征模板的词性标注模型调和平均值F达到94.79%,具有较强的推广和应用价值。在构建词性自动标注模型的过程中,通过融入字词结构、词语拼音和字词长度的特征知识,使得模型的精确率和召回率得到有效提升。 展开更多
关键词 词性标注 先秦古籍 条件随机场模型 特征模板 古文信息处理
原文传递
不同词性标记集在典籍实体抽取上的差异性探究 被引量:13
11
作者 袁悦 王东波 +1 位作者 黄水清 李斌 《数据分析与知识发现》 CSSCI CSCD 北大核心 2019年第3期57-65,共9页
【目的】在数字人文这一背景下,为更加深入和精准地从古代典籍中挖掘相应的知识,通过实验对比分析,探究不同词性标记集在典籍实体抽取上的差异性。【方法】基于已完成人工校验和机器自动标注的《左传》与《国语》构成的训练和测试语料,... 【目的】在数字人文这一背景下,为更加深入和精准地从古代典籍中挖掘相应的知识,通过实验对比分析,探究不同词性标记集在典籍实体抽取上的差异性。【方法】基于已完成人工校验和机器自动标注的《左传》与《国语》构成的训练和测试语料,以南京师范大学先秦词性标记集为主、以北京大学、中国科学院计算技术研究所和教育部词性标记集为辅,共形成三种不同大小的新标记集,通过条件随机场以及添加特征模板比较这三种词性标记集合在同一语料上进行实体抽取结果的差异性。【结果】在先秦典籍《左传》和《国语》上对不同大小的三种词性标记集开展对比实验,三种模型各自进行实体抽取的F值分别达到82.53%、83.42%和84.07%。【局限】特征选取有待进一步改善,训练结果还有提升空间。【结论】本文研究结果有助于先秦古文献命名实体的抽取,所构建的词性标记集合适用于古汉语词性标注工作。 展开更多
关键词 数字人文 古文信息处理 词性标注 命名实体抽取
原文传递
基于支持向量机的先秦诸子典籍自动分类研究 被引量:11
12
作者 王东波 何琳 黄水清 《图书情报工作》 CSSCI 北大核心 2017年第12期71-76,共6页
[目的 /意义]在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法 /过程]基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种... [目的 /意义]在人文计算兴起这一背景下,针对先秦诸子典籍进行自动分类的探究,以更加深入和精准地从古代典籍中挖掘出相应的知识。[方法 /过程]基于《论语》《老子》《管子》《庄子》《孙子》《韩非子》《孟子》《荀子》和《墨子》9种先秦诸子典籍构成的训练和测试语料,采用支持向量机技术,提取TF-IDF、信息增益、卡方统计和互信息为特征,完成针对先秦诸子典籍的自动分类实验。[结果 /结论]基于先秦诸子典籍得到的自动分类模型调和平均值能达到99.21%,效果较好,具有较强的推广和应用价值。 展开更多
关键词 先秦典籍 支持向量机 自动分类 古文信息处理
原文传递
基于中文信息处理的古籍整理研究评述 被引量:8
13
作者 赵阳 顾磊 《图书情报工作》 CSSCI 北大核心 2010年第3期116-119,63,共5页
随着计算机技术的飞速发展,基于中文信息处理的古籍整理已成为近年来的研究热点,并且取得一些可喜的成绩。在搜集整理当前研究与应用成果的基础上,从古籍的自动录入、自动断句、自动编纂以及自动翻译等方面对基于中文信息处理技术的古... 随着计算机技术的飞速发展,基于中文信息处理的古籍整理已成为近年来的研究热点,并且取得一些可喜的成绩。在搜集整理当前研究与应用成果的基础上,从古籍的自动录入、自动断句、自动编纂以及自动翻译等方面对基于中文信息处理技术的古籍整理的研究现状进行概述,同时分别探讨这几个方面仍然存在的问题,并展望其今后的研究工作。 展开更多
关键词 古籍整理 中文信息处理 古籍研究
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部