中文分词交叉型歧义消解算法被引量：2

Resolution Algorithm of Cross Ambiguity in Chinese Word Segmentation

下载PDF

导出

摘要中文分词是自然语言处理的基础。交叉型歧义是提高中文分词精度的瓶颈之一。文章提出一种基于正向、负向最大匹配算法和passive aggressive(PA)算法结合的交叉型歧义消解算法。基于PA算法训练分词模型;利用正向、负向最大匹配算法检测交叉型歧义的位置;把可能出现交叉型歧义的句子或者句子的部分传递给分词模型,解码得到分词结果;最后,把正向、负向最大匹配结果和分词模型解码结果拼接成最终的分词结果。利用PA算法基于2014年2—12月份人民日报数据训练分词模型、2014年1月份人民日报数据作为测试语料进行实验,得到交叉型歧义的准确率、召回率和F-score分别为98. 32%、98. 14%和98. 23%,说明该方法有效可行。 Chinese word segmentation is the foundation of natural language processing, and cross ambiguity is one of the bottlenecks to improve the accuracy of Chinese word segmentation. This paper proposes a method combining max- imunl matching algorithm and passive aggressive （ PA ） algorithm to eliminate cross ambiguity. Firstly, segmentation model was trained based on PA. Secondly, we checked the position of cross ambiguity based on forward maxinmnl matching algorithm and negative maximum matching algorithm. Thirdly, the position of cross ambiguity and the context were submitted to the segmentation model, and they were decoded. Lastly, the final result was obtained. The experi- ment results on Renmin Daily 2014 show flint the precision, recall and F - score of cross ambiguity are 98.32% ,98. 14% and 98.23% respectively.

作者甘蓉 GAN Rong(School of Automotive Engineering,Shanxi Polytechnic Institute,Xianyang 712000 China)

机构地区陕西工业职业技术学院汽车工程学院

出处《西华大学学报（自然科学版）》 CAS 2018年第6期32-36,共5页 Journal of Xihua University:Natural Science Edition

关键词中文分词交叉型歧义最大匹配算法 PA算法 Chinese word segmentation cross ambiguity maximum matching algorithm passive aggressive algo-rithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1韩冬煦,常宝宝.中文分词模型的领域适应性方法[J].计算机学报,2015,38(2):272-281. 被引量：59
2李广一,王厚峰.基于多步聚类的汉语命名实体识别和歧义消解[J].中文信息学报,2013,27(5):29-34. 被引量：17
3彭琦,朱新华,陈意山.一种基于词频歧义消解的通用中文分词法[J].广西师范大学学报（自然科学版）,2016,34(1):59-65. 被引量：4
4黄鹏,张姝,陈玉华,文斌.一种基于无监督学习的交集型歧义处理改进方法[J].云南师范大学学报（自然科学版）,2015,35(6):45-49. 被引量：1
5袁鼎荣,李新友,邵延振.用于中文分词的组合型歧义消解算法[J].计算机应用与软件,2011,28(6):57-58. 被引量：5
6尤慧丽,晏立,杨晓东.中文分词中组合型切分歧义的消解研究[J].计算机工程与应用,2011,47(31):125-127. 被引量：1
7王瑞雷,栾静,潘晓花,卢修配.一种改进的中文分词正向最大匹配算法[J].计算机应用与软件,2011,28(3):195-197. 被引量：41
8丁振国,张卓,黎靖.基于Hash结构的逆向最大匹配分词算法的改进[J].计算机工程与设计,2008,29(12):3208-3211. 被引量：26
9潘志松,唐斯琪,邱俊洋,胡谷雨.在线学习算法综述[J].数据采集与处理,2016,31(6):1067-1082. 被引量：13
10邱天宇,申富饶,赵金熙.自组织增量学习神经网络综述[J].软件学报,2016,27(9):2230-2247. 被引量：28

二级参考文献122

1文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
2孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
3孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
4张春霞,郝天永.汉语自动分词的研究现状与困难[J].系统仿真学报,2005,17(1):138-143. 被引量：60
5费洪晓,康松林,朱小娟,谢文彪.基于词频统计的中文分词的研究[J].计算机工程与应用,2005,41(7):67-68. 被引量：68
6刘禹孜,何中市.一种基于SVM和规则消除组合型歧义的算法[J].重庆大学学报（自然科学版）,2005,28(10):50-53. 被引量：2
7杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
8翟凤文,赫枫龄,左万利.基于统计规则的交集型歧义处理方法[J].吉林大学学报（理学版）,2006,44(2):223-228. 被引量：9
9吴胜远.一种汉语分词方法[J].计算机研究与发展,1996,33(4):306-311. 被引量：49
10张李义,李亚子.基于反序词典的中文逆向最大匹配分词系统设计[J].现代图书情报技术,2006(8):42-45. 被引量：12

共引文献226

1李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
2那勇,李明全.基于深度学习的中文自动分词研究[J].吉林广播电视大学学报,2019(12):58-59.
3李慧敏.基于SOINN的DDoS攻击检测方法研究[J].智能计算机与应用,2020(7):257-260.
4马绍龙,刘海砚.基于文档集的文本挖掘模型研究[J].测绘与空间地理信息,2013,36(5):48-50. 被引量：1
5丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
6丁洁.基于最佳粒度匹配的中文分词算法的研究[J].自动化与仪器仪表,2016(7):169-170. 被引量：1
7姜峻岭,张英杰.基于层析数据的智能特征识别算法研究[J].航空制造技术,2004,47(7):70-73.
8田占霄,韩宪忠,王克俭.一种改进的长词优先逆向最大匹配分词消歧策略[J].河北农业大学学报,2009,32(4):100-102. 被引量：1
9杨毅,王禹桥.一种改进逐字二分中文分词词典设计[J].湘潭大学自然科学学报,2009,31(4):124-128. 被引量：5
10李娟,周贤善.一种改进的逆向匹配快速切分算法[J].信息系统工程,2010,23(2):133-134.

同被引文献2

1吴振华,高瑞泽.智能家居场景下改进的中文字符串匹配算法[J].南昌航空大学学报（自然科学版）,2018,32(2):81-85. 被引量：1
2于韬,王洪岩.基于TF-IDF算法的文本信息提取[J].科技视界,2018(16):117-118. 被引量：12

引证文献2

1冯与诘.词云生成系统的构建[J].通讯世界,2019,26(3):190-192. 被引量：11
2睢贵芳.试论最大匹配算法在校园网信息提取中的应用[J].电子制作,2019,27(10):92-94.

二级引证文献11

1徐博龙.应用Jieba和Wordcloud库的词云设计与优化[J].福建电脑,2019,35(6):25-28. 被引量：20
2潘亚星.基于Python的词云生成研究——以柴静的《看见》为例[J].电脑知识与技术,2019,15(8X):8-10. 被引量：13
3宋菊芳,李星仪,张军.中国城市绿地系统2009-2018年研究综述与展望[J].华中建筑,2020,38(3):123-126. 被引量：6
4孙媛,张俊芳.基于网络爬虫的电商评价数据可视化[J].现代信息科技,2020,4(12):95-97. 被引量：2
5张若琪,王涵,闫凌云,刘一辰.基于Python的词云生成研究[J].信息与电脑,2021,33(5):201-203. 被引量：2
6唐婷.基于Python的词云生成技术分析[J].科学技术创新,2021(23):77-78. 被引量：12
7陈一.知识产权保护文本的爬虫与词云研究[J].电脑知识与技术,2021,17(19):118-119. 被引量：1
8史文崇.在Matlab R2015中定制词云图[J].绍兴文理学院学报,2021,41(8):47-51. 被引量：1
9潘琴.基于Python的词云生成与分析探究——以《围城》文本数据分析为例[J].中小学电教（综合）,2023(1):149-151. 被引量：1
10董梦如,王国新,鲁金直,马君达,阎艳.基于WordCloud技术的MBSE发展态势研究[J].系统工程与电子技术,2024,46(2):534-548. 被引量：1

1黄丹丹,郭玉翠.融合attention机制的BI-LSTM-CRF中文分词模型[J].软件,2018,39(10):260-266. 被引量：8
2卢丹,赵敏同.用于ADS-B解交织的高增益稳健PA算法[J].信号处理,2018,34(9):1060-1067. 被引量：6
3齐敬先,刘翌,蒋宇,闫训超,杨剑.基于标签技术和熵权法的缺陷推荐研究[J].计算机系统应用,2018,27(8):187-192. 被引量：2
4李康康,龙华.基于词的关联特征的中文分词方法[J].通信技术,2018,51(10):2343-2349. 被引量：6
5李健龙,王盼卿,韩琪宇.面向军事领域的中文分词技术研究[J].计算机与现代化,2018(11):115-118. 被引量：2
6姬英杰,陈涛,赵裴,许剑.基于Xapian的空间数据全文检索模式研究[J].测绘科学与工程,2018,38(3):73-78.
7马建红,王立芹,姚爽.面向化学资源文本的命名实体识别[J].郑州大学学报（理学版）,2018,50(4):14-20. 被引量：6
8张引兵,宋继华,彭炜明,赵亚伟,宋天宝.短语结构树库向句式结构树库的自动转换研究[J].中文信息学报,2018,32(5):31-41. 被引量：3
9韩娜.谷歌、有道神经机器翻译系统汉英翻译测评[J].山西能源学院学报,2018,31(5):123-124. 被引量：1
10刘宝,车礼东,黄红花,郭兵,宋振乾,李红霞,范晓明,董瑞.基于自然语言处理(NLP)技术建立化学品危险评估知识图谱的研究[J].计算机与应用化学,2018,35(7):605-610. 被引量：6

西华大学学报（自然科学版）

2018年第6期

浏览历史

内容加载中请稍等...

中文分词交叉型歧义消解算法被引量：2

参考文献12

二级参考文献122

共引文献226

同被引文献2

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

中文分词交叉型歧义消解算法 被引量：2

参考文献12

二级参考文献122

共引文献226

同被引文献2

引证文献2

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

中文分词交叉型歧义消解算法被引量：2