基于新词发现与词典信息的古籍文本分词研究被引量：5

Study on Word Segmentation in Ancient Texts Based on Neologism Discovery and Dictionary Information

下载PDF

导出

摘要现代汉语分词虽已取得较大进展,但是古籍文本分词由于受到古代汉语词汇特征、语义、语法等限制,始终没有形成一种行之有效的方法。通过互信息与邻接熵的新词发现方法从《汉书》中寻找未登录词,结合古代汉语词汇表、古代人名词表和古代地名表构建古籍文本分词词典,以此为基础,使用pyNLPIR对《汉书》进行分词操作。实验结果显示,新词发现方法可以在一定程度上完善古籍文本分词所需的用户词典全面性,但是对3字以上的词语识别效果较差。实验证明使用新词发现结合词典信息的方法对古籍文本进行分词能够有效提高古代汉语分词准确度。 At present,modern Chinese word segmentation has made great progress,but due to the limitations of ancient Chinese vo. cabulary features,semantics,grammar and so on,ancient Chinese text word segmentation has not formed an effective method. In this paper,through the method of mutual information and adjacency entropy to find new words that are not listed in Book of Han,the author combines the ancient Chinese word list,ancient noun list and ancient geographical name list to construct the word segmentation dic. tionary of ancient texts. On this basis,pyNLPIR is used to conduct word segmentation in Book of Han. The Experimental results show that the discovery of new words can improve the comprehensiveness of user dictionaries required for word segmentation of ancient texts to some extent,but the recognition effect of words with more than three words is poor. It shows that the method of word segmentation in ancient Chinese texts by using neologism discovery combined with dictionary information can effectively improve the accuracy of word segmentation in ancient Chinese.

作者李筱瑜 LI Xiao-yu(College of Economics and Management,Beijing Information Science & Technology University,Beijing 100192,China)

机构地区北京信息科技大学经济管理学院

出处《软件导刊》 2019年第4期60-63,共4页 Software Guide

基金国家重点研发计划项目(2017YFB1400400)

关键词古籍文本分词互信息邻接熵新词发现 ancient texts word segmentation mutual information adjacency entropy new word discovery

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献20

1赵生辉,朱学芳.我国高校数字人文中心建设初探[J].图书情报工作,2014,58(6):64-69. 被引量：90
2董秀芳著..词汇化汉语双音词的衍生和发展[M].北京:商务印书馆,2011:347.
3严顺.先秦文献的语料库构建探究[J].江苏科技信息,2016,33(12):32-33. 被引量：3
4曾艳,侯汉清.古籍文本抽词研究[J].图书情报工作,2008,52(1):132-135. 被引量：10
5欧阳剑.面向数字人文研究的大规模古籍文本可视化分析与挖掘[J].中国图书馆学报,2016,42(2):66-80. 被引量：106
6王晓玉,李斌.基于CRFs和词典信息的中古汉语自动分词[J].数据分析与知识发现,2017,1(5):62-70. 被引量：25
7化振红.深加工中古汉语语料库建设的若干问题[J].西南大学学报（社会科学版）,2014,40(3):136-142. 被引量：9
8宋彦,蔡东风,张桂平,赵海.一种基于字词联合解码的中文分词方法[J].软件学报,2009,20(9):2366-2375. 被引量：42
9刘伟童,刘培玉,刘文锋,李娜娜.基于互信息和邻接熵的新词发现算法[J].计算机应用研究,2019,36(5):1293-1296. 被引量：29
10李明..针对特定领域的中文新词发现技术研究[D].南京航空航天大学,2012:

二级参考文献144

1黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
2尉迟治平.计算机技术和汉语史研究[J].古汉语研究,2000(3):56-60. 被引量：19
3邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.面向Internet的中文新词语检测[J].中文信息学报,2004,18(6):1-9. 被引量：59
4罗志田.走向国学与史学的“赛先生”——五四前后中国人心目中的“科学”一例[J].近代史研究,2000(3):59-94. 被引量：49
5黄兵,周献中,张蓉蓉.基于信息量的不完备信息系统属性约简[J].系统工程理论与实践,2005,25(4):55-60. 被引量：41
6全昌勤,刘辉,何婷婷.基于统计模型的词语搭配自动获取方法的分析与比较[J].计算机应用研究,2005,22(9):55-57. 被引量：8
7罗宇辉,侯汉清.因特网经济学未登录词计算机辅助挖掘试验[J].情报理论与实践,2005,28(5):478-481. 被引量：2
8徐章艳,刘作鹏,杨炳儒,宋威.一个复杂度为max（O（｜C｜｜U｜），O（｜C^2｜U／C｜））的快速属性约简算法[J].计算机学报,2006,29(3):391-399. 被引量：234
9杨明.一种基于改进差别矩阵的核增量式更新算法[J].计算机学报,2006,29(3):407-413. 被引量：76
10刘华.一种快速获取领域新词语的新方法[J].中文信息学报,2006,20(5):17-23. 被引量：14

共引文献421

1赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：30
2陈琳.基于知识图谱的国内数字人文研究现状分析[J].图书馆学刊,2020,0(1):89-94. 被引量：1
3陈慧,南梦洁.数字人文视域下大型体育赛事档案资源整合模式研究[J].山西档案,2022(1):27-39. 被引量：9
4黄水清,刘浏,王东波.国内外数字人文研究进展[J].情报学进展,2022(1):50-84. 被引量：10
5李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
6卢雪晖,徐会丹,李斌,陈思瑜.先秦词网构建及梵汉对比研究[J].中文信息学报,2023,37(3):36-45. 被引量：1
7任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
8俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
9程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：20
10李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2

同被引文献61

1程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：20
2于津凯,王映雪,陈怀楚.一种基于N-Gram改进的文本特征提取算法[J].图书情报工作,2004,48(8):48-50. 被引量：17
3黄祥喜.“语境相关”自动分词方法[J].情报学报,1989,8(4):266-273. 被引量：3
4朱建平.中医术语规范化与中医现代化国际化[J].中华中医药杂志,2006,21(1):6-8. 被引量：60
5刘风成,黄德根,姜鹏.基于AdaBoost.MH算法的汉语多义词消歧[J].中文信息学报,2006,20(3):6-13. 被引量：7
6王思力,张华平,王斌.双数组Trie树算法优化及其应用研究[J].中文信息学报,2006,20(5):24-30. 被引量：29
7毛建军.古籍数字化概念的形成过程探析[J].科技情报开发与经济,2006,16(22):160-162. 被引量：6
8周扬,王振国.基于文本内容理解的中医药数据基础研究——中医药文献语料库的建设[J].中国中医药信息杂志,2007,14(9):101-102. 被引量：6
9曾艳,侯汉清.古籍文本抽词研究[J].图书情报工作,2008,52(1):132-135. 被引量：10
10丁振国,张卓,黎靖.基于Hash结构的逆向最大匹配分词算法的改进[J].计算机工程与设计,2008,29(12):3208-3211. 被引量：26

引证文献5

1李惠,侯君明,陈涛,朱庆华,刘炜.星汉窈渺--书信网络中蕴藏的人际关系挖掘[J].图书馆杂志,2020,39(5):86-92. 被引量：5
2邢付贵,朱廷劭.基于大规模语料库的古文词典构建及分词技术研究[J].中文信息学报,2021,35(7):41-46. 被引量：8
3高嘉琦,赵庆聪.基于新词发现的古典文学作品分词方法研究[J].计算机技术与发展,2021,31(9):178-181. 被引量：2
4张素华,叶青,程春雷,邹静.面向中医古籍文本的领域自适应性无监督分词[J].软件导刊,2022,21(1):96-100. 被引量：2
5朱丹浩,赵志枭,吴娜,王希羽,孙光耀,王东波.基于领域大语言模型的古籍分词研究[J].科技情报研究,2024,6(2):11-20.

二级引证文献15

1沈立力,张宏玲,俞晓婷.近代报人群体关系图谱构建与应用[J].数字人文研究,2021,1(2):63-74. 被引量：1
2王进,张义.古汉语自动分词技术研究现状及进展[J].海南开放大学学报,2022,23(3):61-69.
3于亚秀,李欣.数字人文视域中的古籍文本标注方法研究——以MARKUS为例[J].大数据,2022,8(6):15-25. 被引量：6
4王琳,李美瀛,江雨薇.基于书信体文献的现代作家社交网络(1919~1949)研究[J].文献与数据学报,2022,4(3):79-88. 被引量：2
5石玉敬,刘伟,葛晓舒,胡为,刘弋莲,易洋.《黄帝内经》文本语料库的构建与应用研究[J].计算机时代,2022(12):1-3. 被引量：2
6吴胜涛,茅云云,吴舒涵,冯健仁,张庆鹏,谢天,陈浩,朱廷劭.基于大数据的文化心理分析[J].心理科学进展,2023,31(3):317-329. 被引量：4
7郭惠敏,刘青萍.中医古籍智能助学系统的研究与实现[J].信息与电脑,2023,35(4):128-132. 被引量：1
8唐雪梅,苏祺,王军,杨浩.基于图卷积神经网络的古汉语分词研究[J].情报学报,2023,42(6):740-750. 被引量：5
9隗静秋,严佳馨,王琦然.犹向书林努力来:基于张元济书信网的公共交往研究[J].未来传播,2023,30(3):68-80. 被引量：1
10马学良.落笔传真情钩沉窥交际——我国信札研究回顾(1998-2022)[J].图书馆论坛,2023,43(9):153-160. 被引量：2

1澄澄.没有科举加持的人生——那些没中举的古代名人[J].东方文化周刊,2018(22):66-73.
2王俊.古代地名的避讳[J].中外文摘,2019,0(7):57-57.
3郭欣,张丽坤.一种基于禁毒情报相似度计算的中文文本分析算法[J].中国人民公安大学学报（自然科学版）,2018,24(1):57-62. 被引量：2
4禤镇宇,蒋盛益,张礼明,包睿.基于多特征Bi-LSTM-CRF的影评人名识别研究[J].中文信息学报,2019,33(3):94-101. 被引量：12
5魏永建.小半径曲线钢箱梁桥抗倾覆稳定性分析[J].中国市政工程,2019(2):31-34. 被引量：9
6索浩东.中文分词[J].中国文艺家,2019(2):199-200. 被引量：1
7王振,杨国锋,陈天池.基于新词发现和并行计算的中文分词改进算法[J].中国新通信,2019,0(6):130-132.
8夏竹青,王竹婷.基于余弦相似度的电子版实验报告管理系统[J].电脑知识与技术,2019,15(3):100-102. 被引量：1
9王肖.认知角度下祁东方言中的概念隐喻特点研究[J].现代语言学,2018,6(5):693-700.

软件导刊

2019年第4期

浏览历史

内容加载中请稍等...

基于新词发现与词典信息的古籍文本分词研究被引量：5

参考文献20

二级参考文献144

共引文献421

同被引文献61

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于新词发现与词典信息的古籍文本分词研究 被引量：5

参考文献20

二级参考文献144

共引文献421

同被引文献61

引证文献5

二级引证文献15

相关作者

相关机构

相关主题

浏览历史

基于新词发现与词典信息的古籍文本分词研究被引量：5