基于最大匹配算法的似然导向中文分词方法被引量：17

Likelihood Oriented Method for Chinese Word Segmentation based on Maximum Match Algorithm

下载PDF

导出

摘要综合基于规则的分词方法与基于统计的分词方法在分词效果上的优势,提出一种基于最大匹配算法的似然导向中文分词方法。新方法在分词阶段,将训练数据的统计信息融入到基于规则的最大匹配分词算法中,并根据共现性自动识别后续词;在判定阶段,利用具有马尔可夫性的n-gram模型对分词阶段获得的多组分词模式进行判定,并基于最大似然原理确定最优的分词模式以提高分词准确率。实验结果表明,新方法有效提高了分词准确率和召回率,适用于中文文本信息挖掘。 A likelihood probability oriented Chinese word segmentation method based on maximum match algorithm is proposed in this paper,which combines the advantage of statistical methods and rule methods for Chinese word segmentation.In the word segmentation step,the statistical information is integrated into maximum match algorithm.Then the follow up words can be identified according to the cooccurrence to improve the efficiency of the word segmentation.In the decision step,in order to obtain the optimal word segmentation sequence,n-gram model with Markov property is used for likelihood probability oriented decision.Experimental results indicate that new approach generally obtains higher accuracy and has good adaption in the domain of Chinese information processing.

作者杨贵军徐雪凤丽洲徐玉慧 YANG Gui-jun;XU Xue;FENG Li-zhou;XU Yu-hui(School of Statistics,Tianjin University of Finance & Economics,Tianjin 300222,China;QingDao Branch,China United Network Communications Limited,Qingdao 266000,China)

机构地区天津财经大学统计学院中国联合网络通信有限公司青岛分公司

出处《统计与信息论坛》 CSSCI 北大核心 2019年第3期18-23,共6页 Journal of Statistics and Information

基金国家社会科学基金青年项目<社交媒体中敏感信息可信度评估方法研究>(18CTJ008) 全国统计科学研究一般项目<基于多源数据融合的人民群众获得感和幸福感测度研究>(2018LY50) 全国统计科学研究重点项目<Web社会网络中敏感信息识别及突发事件预测研究>(2017LZ05)

关键词中文分词 N-GRAM 最大匹配似然导向 Chinese word segmentation n-gram maximum match likelihood oriented

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] O212 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献12

1黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
2王克岭,张甜溪,段玲.微信公众号软文内部点赞影响因素研究[J].西安财经学院学报,2018,31(2):71-77. 被引量：9
3刘伟.“一带一路”倡议下国内外新闻舆情及其演化分析[J].统计与信息论坛,2018,33(6):34-42. 被引量：6
4吴春颖,王士同.基于二元语法的N-最大概率中文粗分模型[J].计算机应用,2007,27(12):2902-2905. 被引量：12
5张玉茹.中文分词算法之最大匹配算法的研究[J].现代计算机,2011,17(16):24-26. 被引量：5
6莫建文,郑阳,首照宇,张顺岚.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802-1807. 被引量：40
7张劲松,袁健.回溯正向匹配中文分词算法[J].计算机工程与应用,2009,45(22):132-134. 被引量：16
8周俊,郑中华,张炜.基于改进最大匹配算法的中文分词粗分方法[J].计算机工程与应用,2014,50(2):124-128. 被引量：18
9王昊,李思舒,邓三鸿.基于N-Gram的文本语种识别研究[J].现代图书情报技术,2013(4):54-61. 被引量：6
10翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42

二级参考文献109

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
3黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
4孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
5刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
6邹嘉龄,刘春腊,尹国庆,唐志鹏.中国与“一带一路”沿线国家贸易格局及其经济贡献[J].地理科学进展,2015,34(5):598-605. 被引量：401
7孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
8孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
9陈小荷.用基于词的二元模型消解交集型分词歧义[J].南京师大学报（社会科学版）,2004(6):109-113. 被引量：7
10骆正清,陈增武,胡上序.一种改进的MM分词方法的算法设计[J].中文信息学报,1996,10(3):30-36. 被引量：28

共引文献410

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：4
5刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
6徐吉,朱兰娟.用于网络搜索引擎的中文分词消岐算法[J].微型电脑应用,2011(4):52-54.
7于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
8丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
9丁洁.基于最佳粒度匹配的中文分词算法的研究[J].自动化与仪器仪表,2016(7):169-170. 被引量：1
10赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26

同被引文献221

1聂卉.结合词向量和词图算法的用户兴趣建模研究[J].数据分析与知识发现,2019,3(12):30-40. 被引量：8
2俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
3杨靖,张帆,郭雅鑫.基于文本词性结构和PCA算法的问卷优化[J].中国汽车,2020(9):14-19. 被引量：1
4李曦方,闫宁.农产品新媒体营销分析——直播电商新势力[J].办公自动化,2021,26(7):33-34. 被引量：11
5蒲天骄,乔骥,韩笑,张国宾,王新迎.人工智能技术在电力设备运维检修中的研究及应用[J].高电压技术,2020,46(2):369-383. 被引量：204
6张小荫.谓词性成分充当远宾语的双宾语构造[J].天津师大学报（社会科学版）,1998,18(6):72-76. 被引量：4
7李蕾,周延泉,王菁华.基于全信息的中文信息抽取系统及应用[J].北京邮电大学学报,2005,28(6):48-51. 被引量：11
8黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：249
9李一.无线搜索引擎的现状与发展[J].图书馆学研究,2007(11):32-34. 被引量：5
10丁振国,张卓,黎靖.基于Hash结构的逆向最大匹配分词算法的改进[J].计算机工程与设计,2008,29(12):3208-3211. 被引量：26

引证文献17

1冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：7
2蒋旭东,杨莉,舒启江,刘红杏,张美娜,赵林波.中医药院校“互联网+”创新创业项目培育策略分析[J].创新创业理论研究与实践,2022(5):194-198.
3杨靖,张帆,郭雅鑫.基于文本词性结构和PCA算法的问卷优化[J].中国汽车,2020(9):14-19. 被引量：1
4康伟,高丽媛,蓝海波,张锐,丁华杰.基于文本分词的检修申请单智能成票研究[J].东北电力技术,2020,41(2):59-62. 被引量：3
5熊健,翟紫姹.基于词性标注与分词消歧的中文分词方法[J].广州大学学报（自然科学版）,2019,18(5):27-33. 被引量：3
6吴小晴,万国金,李程文,林梦思,曹书强.一种改进TF-IDF的中文邮件识别算法研究[J].现代电子技术,2020,43(12):83-86. 被引量：8
7杨鹏,张利强,贺斯慧.基于Word的中文词频分析系统设计与实现[J].企业科技与发展,2020(10):70-72.
8李文华.中文分词算法在搜索引擎应用中的运用[J].电脑知识与技术,2021,17(6):181-182. 被引量：4
9杨靖,张帆,贺畅,张磊.基于NLP文本分析和因子分析模型的调研问卷优化[J].现代商业,2021(8):99-104. 被引量：2
10曹思源,马海云.领域知识组织理论基础及方法分类简述[J].情报资料工作,2021,42(5):14-22. 被引量：4

二级引证文献38

1杨靖,张帆,郭雅鑫.基于文本词性结构和PCA算法的问卷优化[J].中国汽车,2020(9):14-19. 被引量：1
2彭永健,李正强,程志秋.紧急抢修操作票的快速智能化填写方式设计[J].粘接,2020,43(7):154-157.
3王国桥,牛少彰.基于TF-IDF的社交电商文本信息分类研究[J].网络空间安全,2020,11(12):32-38. 被引量：6
4周寅,龙广富.云计算平台上两种中文分词算法的实现对比研究[J].电脑知识与技术,2021,17(9):191-192. 被引量：6
5赵宇轩,胡怀湘.基于BiGRU-Attention-CNN模型的垃圾邮件检测方法[J].计算机与现代化,2021(4):122-126. 被引量：5
6杨靖,张帆,贺畅,张磊.基于NLP文本分析和因子分析模型的调研问卷优化[J].现代商业,2021(8):99-104. 被引量：2
7孔洁.基于深度学习与《中国图书馆分类法》的文献自动分类系统研究[J].新世纪图书馆,2021(5):51-56. 被引量：10
8刘昭,何赏璐,刘英舜.基于社交网络数据的交通突发事件识别方法[J].交通信息与安全,2021,39(2):53-60. 被引量：5
9钟磊,宁建创,邓远芬,陈式,张骥.5G一体化数据安全架构设计与实现[J].电子技术（上海）,2022,51(1):78-81.
10贾晓晶.英文版导航电子地图制作的改进方法[J].北京测绘,2022,36(4):394-399.

1王玮.基于Bi-LSTM-6Tags的智能中文分词方法[J].计算机应用,2018,38(A02):107-110. 被引量：6
2马新意,王剑辉.自动答疑系统中文分词模块的设计与实现[J].信息技术与信息化,2019(1):19-22.
3成于思,施云涛.面向专业领域的中文分词方法[J].计算机工程与应用,2018,54(17):30-34. 被引量：19
4吴翊平.马尔可夫随机过程研究[J].课程教育研究,2018(42):131-132.
5姜如霞,黄水源,段隆振,罗丽娟.基于规则和N-Gram算法的新词识别研究[J].现代电子技术,2019,42(4):166-170. 被引量：5
6杨子明.运用大数据管理供应商助推铁路物资企业经营发展[J].铁路采购与物流,2018,13(12):103-105. 被引量：3
7卢凤.基于垂直搜索引擎的Lucene蒙文分词技术研究[J].内蒙古科技大学学报,2018,37(3):264-269.
8陈世明,李海英,邵赛,夏振刚.基于二分图最大匹配的多机器鱼可控包含控制[J].控制与决策,2019,34(1):157-161. 被引量：1
9林颂凯,毛存礼,余正涛,郭剑毅,王红斌,张家富.基于卷积神经网络的缅甸语分词方法[J].中文信息学报,2018,32(6):62-70. 被引量：4
10杨建梁.iConference会议研究热点研究——基于2008~2017年会议论文的文本数据分析[J].情报资料工作,2019,40(1):52-63. 被引量：8

统计与信息论坛

2019年第3期

浏览历史

内容加载中请稍等...

基于最大匹配算法的似然导向中文分词方法被引量：17

参考文献12

二级参考文献109

共引文献410

同被引文献221

引证文献17

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于最大匹配算法的似然导向中文分词方法 被引量：17

参考文献12

二级参考文献109

共引文献410

同被引文献221

引证文献17

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于最大匹配算法的似然导向中文分词方法被引量：17