面向领域文献的无监督中文分词自动优化方法被引量：9

An Unsupervised Approach to Optimize Chinese Word Segmentation on Domain Literature

导出

摘要【目的】对现有中文分词方法在领域文献上的分词结果进行调整,以提升领域文献上的分词效果。【方法】对传统中文分词方法处理领域文献的不足进行分析,以此为基础设计一个反映领域文献构词特点的分词指标——词频偏差,并基于该指标提出一个无监督的分词结果优化方法。【结果】基于农业领域语料开展实验,结果表明该方法对比ICTCLAS、THULAC和LTP的分词结果 F1值提升2%-3%,并具有实现简单、参数鲁棒性强的特点。【局限】提升召回率方面效果不佳。【结论】基于词频偏差的分词结果优化算法能够有效提升已有分词结果的准确性,且无需领域词表及人工标注语料,具有良好的领域适用性。 [Objective] This paper aims to improve the performance of Chinese word segmentation techniques on domain literature by optimizing results of existing approaches. [Methods] First, we proposed a new criteria of Term Frequency Deviation（TFD） to capture word formation characteristics of domain literature based on the analysis of segmentation errors. Then, we developed an unsupervised segmentation refining approach with the help of TFD. [Results] We examined the proposed approach with agriculture documents. It improved the segmentation results of three popular Chinese word segmentation approaches（i.e., ICTCLAS, THULAC and LTP） by 2%-3% in F1 measure. The proposed approach was easy to use and robustness to parameters. [Limitations] The recall of the proposed approach needs to be improved. [Conclusions] The new Chinese word segmentation approach, which imrpoves the performance of traditional methods on domain literature, could be applied to other fields due to its independence of domain-specific vocabulary and annotated corpus.

作者倪维健孙浩浩刘彤曾庆田 Ni Weijian ,Sun Haohao ,Liu Tong ,Zeng Qingtian(College of Computer Science and Technology, Shandong University of Science and Technology, Qingdao 266510, Chin)

机构地区山东科技大学计算机学院

出处《数据分析与知识发现》 CSSCI CSCD 北大核心 2018年第2期96-104,共9页 Data Analysis and Knowledge Discovery

基金国家自然科学基金项目"面向用户群组的结构化推荐技术及其应用研究"(项目编号:61602278) "应急预案流程图谱自动建模方法及其在场景式诊断中的应用"(项目编号:71704096) "农业大数据环境下多粒度知识融合方法研究"(项目编号:31671588)的研究成果之一

关键词领域文献中文分词分词优化词频偏差 Domain Literature Chinese Word Segmentation Segmentation Refining Term Frequency Deviation

分类号 TP391 [自动化与计算机技术—计算机应用技术] G35 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献16

1黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
2张桂平,刘东生,尹宝生,徐立军,苗雪雷.面向专利文献的中文分词技术的研究[J].中文信息学报,2010,24(3):112-116. 被引量：17
3岳金媛,徐金安,张玉洁.面向专利文献的汉语分词技术研究[J].北京大学学报（自然科学版）,2013,49(1):159-164. 被引量：16
4张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9
5王军辉,胡铁军,李丹亚,钱庆,方安.中文生物医学文本无词典分词方法研究[J].情报学报,2011,30(2):197-203. 被引量：4
6李国垒,陈先来,夏冬,杨荣.中文病历文本分词方法研究[J].中国生物医学工程学报,2016,35(4):477-481. 被引量：8
7王晓玉,李斌.基于CRFs和词典信息的中古汉语自动分词[J].数据分析与知识发现,2017,1(5):62-70. 被引量：24
8黄水清,王东波,何琳.以《汉学引得丛刊》为领域词表的先秦典籍自动分词探讨[J].图书情报工作,2015,59(11):127-133. 被引量：21
9张越,王东波,朱丹浩.面向食品安全突发事件汉语分词的特征选择及模型优化研究[J].数据分析与知识发现,2017,1(2):64-72. 被引量：5
10张琳,秦策,叶文豪.基于条件随机场的法言法语实体自动识别模型研究[J].数据分析与知识发现,2017,1(11):46-52. 被引量：10

二级参考文献202

1俞士汶.网上的基础语言信息资源[J].术语标准化与信息技术,2001(4):19-23. 被引量：2
2孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
4孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
5黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
6刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
7刘涌泉.中国计算机和自然语言处理的新进展[J].情报科学,1987,8(1):64-70. 被引量：4
8孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
9孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
10段慧明,松井久仁於,徐国伟,胡国昕,俞士汶.大规模汉语标注语料库的制作与使用[J].语言文字应用,2000(2):72-77. 被引量：20

共引文献441

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：30
3任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
4俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
5程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：19
6李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
7王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
8宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
9于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
10丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5

同被引文献103

1程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：19
2高翊,付莎,胡泽林,李淼,冯韬,麻之润.低资源语种傣汉神经机器翻译方法[J].昆明理工大学学报（自然科学版）,2020(4):57-63. 被引量：2
3黄祥喜.“语境相关”自动分词方法[J].情报学报,1989,8(4):266-273. 被引量：3
4崔尚森,冯博琴.最长前缀匹配查找的索引分离trie树结构及其算法[J].计算机工程与应用,2005,41(20):131-134. 被引量：5
5朱建平.中医术语规范化与中医现代化国际化[J].中华中医药杂志,2006,21(1):6-8. 被引量：60
6曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
7李荣,郑家恒.一种改进Viterbi算法的应用研究[J].计算机工程与设计,2007,28(3):530-531. 被引量：7
8周扬,王振国.基于文本内容理解的中医药数据基础研究——中医药文献语料库的建设[J].中国中医药信息杂志,2007,14(9):101-102. 被引量：6
9曾艳,侯汉清.古籍文本抽词研究[J].图书情报工作,2008,52(1):132-135. 被引量：10
10丁振国,张卓,黎靖.基于Hash结构的逆向最大匹配分词算法的改进[J].计算机工程与设计,2008,29(12):3208-3211. 被引量：26

引证文献9

1蒋卫丽,陈振华,邵党国,马磊,相艳,郑娜,余正涛.基于领域词典的动态规划分词算法[J].南京理工大学学报,2019,43(1):63-71. 被引量：16
2尤众喜,华薇娜,潘雪莲.中文分词器对图书评论和情感词典匹配程度的影响[J].数据分析与知识发现,2019,3(7):23-33. 被引量：17
3胡潇涛,吴浩,杨亮,顾小平,宋弘.基于伪标注样本融合的领域分词方法[J].四川轻化工大学学报（自然科学版）,2021,34(1):48-55. 被引量：1
4崔志远,赵尔平,雒伟群,王伟,孙浩.面向专业领域的多头注意力中文分词模型--以西藏畜牧业为例[J].中文信息学报,2021,35(7):72-80. 被引量：2
5张素华,叶青,程春雷,邹静.面向中医古籍文本的领域自适应性无监督分词[J].软件导刊,2022,21(1):96-100. 被引量：2
6韩刚,卢鹏飞,陈珊黎,邵维君,贾红岩,郑涛.基于PSO-RF的冠状动脉粥样硬化性心脏病预测模型研究[J].中国数字医学,2022,17(4):56-61. 被引量：1
7陈浩天,刘晓东.基于fasttext实现船舶工况点分类系统研究[J].电子设计工程,2023,31(2):72-76.
8胡泽林,高翊,李淼,曹宜超.基于字符级语言建模的汉蒙神经机器翻译方法研究[J].昆明理工大学学报（自然科学版）,2023,48(3):85-92. 被引量：1
9朱丹浩,赵志枭,吴娜,王希羽,孙光耀,王东波.基于领域大语言模型的古籍分词研究[J].科技情报研究,2024,6(2):11-20.

二级引证文献38

1冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
2蒋旭东,杨莉,舒启江,刘红杏,张美娜,赵林波.中医药院校“互联网+”创新创业项目培育策略分析[J].创新创业理论研究与实践,2022(5):194-198.
3何莉.改革开放的弄潮者——记大朗镇经济发展总公司[J].东莞科技,2000(3):29-29.
4朱咸军,洪宇,黄雅琳,张馨予,肖芳雄.基于HMM的算法优化在中文分词中的应用[J].金陵科技学院学报,2019,35(3):1-7. 被引量：5
5张亚娜,高子婷,胡溢,杨成.融媒体新闻生产中的中文评论关键词提取[J].人工智能,2020(2):57-66. 被引量：4
6陈美,李顿伟,高洪美,吴小丽.基于深度学习的《辞海》分词方法[J].现代计算机,2020,26(16):60-64. 被引量：2
7徐斌,余军合,沙鹤,施培妤,吴宇.基于产品评论数据的KANO模型分析方法研究[J].生产力研究,2020(9):10-15. 被引量：5
8Hang Zhang,Bin Wen.Construction of Word Segmentation Model Based on HMM+BI-LSTM[J].国际计算机前沿大会会议论文集,2020(2):47-61.
9刘哲,马乐荣.基于淘宝平台的笔记本电脑商品知识发现[J].延安大学学报（自然科学版）,2020,39(4):63-66. 被引量：1
10胡潇涛,吴浩,杨亮,顾小平,宋弘.基于伪标注样本融合的领域分词方法[J].四川轻化工大学学报（自然科学版）,2021,34(1):48-55. 被引量：1

1李英强,杨明,龙江,刘子锐,徐殿国.基于扩展卡尔曼滤波的永磁同步电机无电流传感器预测控制[J].电机与控制应用,2018,45(1):107-113. 被引量：27
2马彦.汉语外来词的构词特点与语义演变[J].长沙理工大学学报（自然科学版）,2002(3):77-80. 被引量：1
3周湛清,夏长亮,陈炜,王志强,史婷娜.具有参数鲁棒性的永磁同步电机改进型预测转矩控制[J].电工技术学报,2018,33(5):965-972. 被引量：30
4陶丽,王相,姜涛.特高含水期水驱砂岩油田井网部署自动优化方法[J].断块油气田,2017,24(6):808-812. 被引量：7
5刁琦,古丽米拉·克孜尔别克,钟丽峰,张健,张志强.基于循环神经网络序列标注的中文分词研究[J].计算机技术与发展,2017,27(10):65-68. 被引量：4
6蒋峰,褚晓敏,徐昇,李培峰,朱巧明.基于主题相似度的宏观篇章主次关系识别方法[J].中文信息学报,2018,32(1):43-50. 被引量：5
7刘天宇.一种基于Lucene的近义词关键字检索系统设计[J].中国科技信息,2018(5):90-93.
8杨承源,杨惠林,许丽珍,朱奕潼.即刻早期基因Arc/Arg3.1的表达及与阿尔茨海默病关系的研究进展[J].中国实用神经疾病杂志,2018,21(3):331-335. 被引量：6
9王毅华,陈真珍,谭文澜,曾振,姚秀卿,王凯华.下调糖原合酶激酶3β活性改善脑缺血再灌注大鼠学习记忆障碍的机制研究[J].中国实用神经疾病杂志,2018,21(6):581-587. 被引量：2
10覃俊,林叶川,易云飞.基于互信息改进算法和t-测试差的壮文分词算法研究[J].中南民族大学学报（自然科学版）,2017,36(4):100-105.

数据分析与知识发现

2018年第2期

浏览历史

内容加载中请稍等...

面向领域文献的无监督中文分词自动优化方法被引量：9

参考文献16

二级参考文献202

共引文献441

同被引文献103

引证文献9

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

面向领域文献的无监督中文分词自动优化方法 被引量：9

参考文献16

二级参考文献202

共引文献441

同被引文献103

引证文献9

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

面向领域文献的无监督中文分词自动优化方法被引量：9