基于隐马尔可夫模型的中文分词被引量：8

Chinese Word Segmentation Based on Hidden Markov Mode

下载PDF

导出

摘要中文分词是搜索引擎、机器翻译、情感分析等自然语言处理的基础,分词的准确率和效率对后续的工作有着非常大的影响。目前性能比较好的分词算法是基于统计机器学习的方法,隐马尔可夫模型能够较好地描述词与词之间的前后关系。论述模型实现中文分词的基本原理,并给出模型的Python实现。 Chinese Word Segmentation is the basis of Natural Language Processing such as search engine,machine translation,emotional analysis,etc.The accuracy and efficiency of word segmentation have a great impact on subsequent work.The current segmentation algorithm with better performance is based on statistical machine learning,Hidden Markov Model can better describe the relationship between words.Dis?cusses the basic principle of Chinese Word Segmentation based on HMM,and presents the Python implementation of the model.

作者吴帅潘海珍 WU Shuai;PAN Hai-zhen(School of Mathematics and Computer Science, Shangrao Normal University, Shangrao 334001)

机构地区上饶师范学院数学与计算机科学学院

出处《现代计算机》 2018年第22期25-28,共4页 Modern Computer

关键词隐马尔可夫模型中文分词分词算法 PYTHON Hidden Markov Model Chinese Word Segmentation Word Segmentation Algorithm Python

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104
2王庆福.隐马尔可夫模型在中文文本分词中应用研究[J].无线互联科技,2016,13(13):106-107. 被引量：5
3冯雪.中文分词模型词典融入方法比较[J].计算机应用研究,2019,36(1):8-10. 被引量：6

二级参考文献33

1苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法[J].计算机工程与应用,2004,40(15):43-45. 被引量：13
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
4孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
5龚汉明,周长胜.汉语分词技术综述[J].北京机械工业学院学报,2004,19(3):52-55. 被引量：26
6张茂元,卢正鼎,邹春燕.一种基于语境的中文分词方法研究[J].小型微型计算机系统,2005,26(1):129-133. 被引量：8
7张永奎,李国臣.新闻语料自动分词系统[J].山西大学学报（自然科学版）,1993,16(3):280-284. 被引量：1
8杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
9孙晓,黄德根.基于动态规划的最小代价路径汉语自动分词[J].小型微型计算机系统,2006,27(3):516-519. 被引量：5
10俞鸿魁,张华平,刘群,吕学强,施水才.基于层叠隐马尔可夫模型的中文命名实体识别[J].通信学报,2006,27(2):87-94. 被引量：160

共引文献112

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
2杨一帆,陈文亮.旅游场景下的实体别名抽取联合模型[J].中文信息学报,2020(6):55-63. 被引量：3
3游家兴,张哲远.文以载道——文本分析研究评述与展望[J].当代会计评论,2022(2):32-59. 被引量：1
4张丽媛.1984—2011年中国自动分词研究综述[J].农业图书情报学刊,2012,24(6):140-143.
5黎孟雄,郭鹏飞.基于模糊聚类的教学资源自适应推荐研究[J].中国远程教育,2012(13):89-92. 被引量：7
6李玲.基于双词典机制的中文分词系统设计[J].机械工程与自动化,2013(1):17-19. 被引量：4
7黎孟雄.基于IM的智能导学机器人的研究与设计[J].现代教育技术,2013,23(1):97-101. 被引量：9
8莫建文,郑阳,首照宇,张顺岚.改进的基于词典的中文分词方法[J].计算机工程与设计,2013,34(5):1802-1807. 被引量：40
9吴广印.分布式学术搜索引擎研制及其大数据应用[J].数字图书馆论坛,2013(6):10-18. 被引量：7
10聂金慧,李咏梅.面向企业文档的中文分词分析与研究[J].中国科技博览,2013(33):534-535.

同被引文献98

1李军,孙三其.地铁动车组主要参数的选择[J].机车电传动,2001(6):33-36. 被引量：4
2李荣,郑家恒.一种改进Viterbi算法的应用研究[J].计算机工程与设计,2007,28(3):530-531. 被引量：7
3于海涛,高一波,杨一平.基于知识树的领域知识组织和应用[J].计算机应用研究,2008,25(11):3246-3248. 被引量：19
4张庆扬,柴胜.使用二级索引的中文分词词典[J].计算机工程与应用,2009,45(19):139-141. 被引量：10
5王忠红.知识组织工具的发展和趋势[J].图书情报知识,2009,26(6):97-102. 被引量：11
6孙兵.知识组织工具的发展趋势浅析——基于分类表、叙词表和知识本体的比较研究[J].图书馆学刊,2009,31(11):86-88. 被引量：4
7季培培,鄢小燕,岑咏华.面向领域中文文本信息处理的术语识别与抽取研究综述[J].图书情报工作,2010,54(16):124-129. 被引量：17
8王昊,苏新宁.基于CSSCI本体的学科关联分析[J].现代图书情报技术,2010(10):10-16. 被引量：20
9司莉,周李梅.近年来国外英文知识组织系统研究现状和发展趋势[J].图书馆论坛,2010,30(6):220-226. 被引量：9
10奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104

引证文献8

1秦永彬,冯丽,陈艳平,黄瑞章,刘于雷,丁红发.“智慧法院”数据融合分析与集成应用[J].大数据,2019,5(3):35-46. 被引量：17
2蒋庆朝,徐硕,陈孟婕,王立华.基于主题词频共现的渔业科学数据推荐[J].现代计算机,2020,26(5):7-11. 被引量：1
3陈艳平,冯丽,秦永彬,黄瑞章.一种基于深度神经网络的句法要素识别方法[J].山东大学学报（工学版）,2020,50(2):44-49. 被引量：6
4Hang Zhang,Bin Wen.Construction of Word Segmentation Model Based on HMM+BI-LSTM[J].国际计算机前沿大会会议论文集,2020(2):47-61.
5曹思源,马海云.领域知识组织理论基础及方法分类简述[J].情报资料工作,2021,42(5):14-22. 被引量：5
6聂强,李贝,张洪强,赵良,孟阳,郭洪玮.城市轨道交通车辆产品用户需求的可视化分析研究[J].智慧轨道交通,2022,59(5):71-76. 被引量：1
7徐攀.知识库关键字获取技术的数学模型研究[J].科学与信息化,2023(8):83-85.
8祝永志,荆静.基于Python语言的中文分词技术的研究[J].通信技术,2019,52(7):1612-1619. 被引量：60

二级引证文献89

1顾彬.法官会议智慧化的必要性分析与可行性探索——以江苏高院《专业法官会议工作规则》为蓝本[J].贸大法律评论,2022(1):221-229.
2吴晓春,洪晨,张岳.高校实验仪器与设备管理问答系统[J].中国科技论文在线精品论文,2023(2):179-185.
3李晟.从互联网法到互联网司法:技术与规范变迁中的多维互动[J].法商研究,2022,39(4):62-75. 被引量：10
4尹萍,杨为进.加强创新意识,重视仪器研制工作[J].现代科学仪器,2000,17(1):3-4. 被引量：3
5高杰.智慧云法院司法数据的综合治理研究[J].法制与社会（旬刊）,2019,0(18):141-142.
6张妮,蒲亦非.计算法学:一门新兴学科交叉分支[J].四川大学学报（自然科学版）,2019,56(6):1187-1192. 被引量：16
7张妮,徐静村.计算法学:法律与人工智能的交叉研究[J].现代法学,2019,41(6):77-90. 被引量：28
8宋永生.基于Python的视频信息挖掘[J].现代计算机,2019,0(31):76-79. 被引量：3
9荀雪莲,王晓宁.基于中文摘要关键词的毕业论文质量评价系统[J].廊坊师范学院学报（自然科学版）,2019,19(4):30-32. 被引量：3
10宋永生,黄蓉美,王军.基于Python的数据分析与可视化平台研究[J].现代信息科技,2019,3(21):7-9. 被引量：26

1赵志升,傅轩昂,靳晓松,刘洋.基于随机森林特征选择的垃圾短信识别[J].电脑与信息技术,2018,26(6):24-26. 被引量：1
2陶跃跃.具有异步控制器的离散马尔可夫跳变Lur’e系统的稳定性和e_2增益性能分析[J].南京信息工程大学学报（自然科学版）,2018,10(6):723-730. 被引量：1
3严燚坤,屈建勤,王本淇.一种基于张量投票的CAD模型配准方法[J].汕头大学学报（自然科学版）,2018,33(4):62-70. 被引量：1
4王全民,杨晶,张帅帅.一种基于改进果蝇优化的K-mediods聚类算法[J].计算机技术与发展,2018,28(12):17-22. 被引量：7

现代计算机

2018年第22期

浏览历史

内容加载中请稍等...

基于隐马尔可夫模型的中文分词被引量：8

参考文献3

二级参考文献33

共引文献112

同被引文献98

引证文献8

二级引证文献89

相关作者

相关机构

相关主题

浏览历史

基于隐马尔可夫模型的中文分词 被引量：8

参考文献3

二级参考文献33

共引文献112

同被引文献98

引证文献8

二级引证文献89

相关作者

相关机构

相关主题

浏览历史

基于隐马尔可夫模型的中文分词被引量：8