二次回溯中文分词方法被引量：3

Two times backtracking chinese word segmentation method

下载PDF

导出

摘要在最大匹配法(MM)的基础上,提出了二次回溯中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配、尾词匹配、碎片检查来有效发现歧义字段;利用长词优先兼顾二词簇的方式对交集型歧义字段进行切分,并对难点的多链长交集型歧义字段进行有效发现和切分。从随机抽取的大量语料实验结果上证明了该方法的有效性。 This paper proposed two times backtracking Chinese word segmentation method based on the MM. The text was pretreatment by the method in the first, then cut the text into shorter lengths granular text. Found ambiguity field effective by forward matching method, backtracking matching, last words matching and debris inspection. Cut crossing ambiguity field by long term priorities and 2-words rules, and found the difficult and multi-linked crossing ambiguity field and cut effectively. The large number of randomly selected language materials being tested and results show that method is effective.

作者袁健张劲松马良

机构地区上海理工大学光电信息与计算机工程学院上海理工大学管理学院

出处《计算机应用研究》 CSCD 北大核心 2009年第9期3321-3323,共3页 Application Research of Computers

基金上海市重点学科建设资助项目(T0502)

关键词中文分词回溯匹配交集型歧义多链长碎片检查 Chinese word segmentation backtracking matching crossing ambiguity multi-linked debris inspection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2赵伟,戴新宇,尹存燕,陈家骏.一种规则与统计相结合的汉语分词方法[J].计算机应用研究,2004,21(3):23-25. 被引量：35
3罗智勇,宋柔.现代汉语通用分词系统中歧义切分的实用技术[J].计算机研究与发展,2006,43(6):1122-1128. 被引量：19
4孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
5谭琼,史忠植.分词中的歧义处理[J].计算机工程与应用,2002,38(11):125-127. 被引量：29
6翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
7卢志茂,刘挺,李生.统计词义消歧的研究进展[J].电子学报,2006,34(2):333-343. 被引量：28
8谈文蓉,杨宪泽,谈进,刘莉.MIS智能接口中汉语分词系统的设计与应用[J].计算机科学,2006,33(7):204-206. 被引量：5
9孙茂松,黄昌宁,邹嘉彦,陆方,沈达阳.利用汉字二元语法关系解决汉语自动分词中的交集型歧义[J].计算机研究与发展,1997,34(5):332-339. 被引量：66
10揭春雨,刘源,梁南元.论汉语自动分词方法[J].中文信息学报,1989,3(1):1-9. 被引量：55

二级参考文献138

1曹娟,周经野.一种计算汉字串之间相关程度的新方法[J].中文信息学报,2004,18(4):55-59. 被引量：6
2宋余庆,罗永刚,孙志挥.应用主分量分析与粗糙集处理的特征提取[J].计算机工程与应用,2004,40(22):48-50. 被引量：7
3刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
4孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
5卢志茂,刘挺,郎君,李生.神经网络和贝叶斯网络在汉语词义消歧上的对比研究[J].高技术通讯,2004,14(8):15-19. 被引量：9
6孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
7黄昌宁,李涓子.词义排歧的一种语言模型[J].语言文字应用,2000(3):85-90. 被引量：16
8谈文蓉,杨宪泽.MIS智能处理的近似评判法及其算法研究[J].计算机科学,2005,32(3):226-228. 被引量：6
9杨宪泽,谈文蓉,唐向阳,秦沿海.一种混合式机器翻译方法及其算法[J].计算机应用与软件,2005,22(9):142-144. 被引量：6
10黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24

共引文献478

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：7
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：8
3段小斌,林雯,阮百尧,陈基漓.一种基于三级索引词库结构的中文分词方法研究[J].计算机与数字工程,2007,35(7):47-49. 被引量：5
4刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
5陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
6尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
7王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
8肖升,胡金柱,姚双云,吴锋文.关系词搭配的联列分析[J].宁夏大学学报（人文社会科学版）,2009,31(6):75-79. 被引量：2
9许桢.基于语义网的文本分类系统设计与实现[J].硅谷,2009,2(18).
10于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2

同被引文献28

1胡俊华,杨波,李金屏.自然语言理解研究略述[J].济南大学学报（社会科学版）,2001,11(5):58-62. 被引量：8
2刘迁,贾惠波.中文信息处理中自动分词技术的研究与展望[J].计算机工程与应用,2006,42(3):175-177. 被引量：67
3曹勇刚,曹羽中,金茂忠,刘超.面向信息检索的自适应中文分词系统[J].软件学报,2006,17(3):356-363. 被引量：48
4翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):1766-1771. 被引量：42
5Tsai C H. MMSEG: a word identification system for manda- rin Chinese text based on two variants of the maximum matc- hing algorithm [ EB/OL]. http://technology, chtsai, org/ mmseg/, 2000. 被引量：1
6Yusong P,Veeke H P M,Lodcwijks G.A simulation based expert system for process diagnosis[A].Proceedings of the EURO-SIS 4th International Industrial Simulation Conference[C].2006,Gh-ent:Eurosis-ETI,393-398. 被引量：1
7张素智,刘放美.基于矩阵约束法的中文分词研究[J].计算机工程,2007,33(15):98-100. 被引量：11
8罗桂琼,费洪晓,戴弋.基于反序词典的中文分词技术研究[J].计算机技术与发展,2008,18(1):80-83. 被引量：18
9张振山,丁宝成,赵俊严.自动装弹机电控系统故障诊断专家系统[J].计算机测量与控制,2008,16(2):173-175. 被引量：9
10刘博,郑家恒,张虎.规则与统计相结合的分词一致性检验[J].计算机工程与设计,2008,29(7):1814-1816. 被引量：7

引证文献3

1梁桢,李禹生.基于Hash结构词典的逆向回溯中文分词技术研究[J].计算机工程与设计,2010,31(23):5158-5160. 被引量：5
2蒋建洪,赵嵩正,罗玫.词典与统计方法结合的中文分词模型研究及应用[J].计算机工程与设计,2012,33(1):387-391. 被引量：18
3陈勇,王昌明.基于自然语言理解的故障诊断方法研究[J].计算机测量与控制,2012,20(3):610-613. 被引量：2

二级引证文献24

1张聪品,赵理莉.统计模型中附加语言学规则的蒙古语词法分析[J].计算机工程与设计,2011,32(8):2861-2864.
2吐尔地·托合提,艾克白尔·帕塔尔,艾斯卡尔·艾木都拉.维吾尔文无监督自动切分及无监督特征选择[J].模式识别与人工智能,2013,26(9):845-852. 被引量：3
3白涛,张太红,吴乃宁.基于词典和全切分的中文农业网页分词算法的研究[J].新疆农业大学学报,2014,37(2):168-172. 被引量：1
4张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014(9):91-98. 被引量：9
5张贤坤,李亚南,田雪.基于双哈希结构的整词二分词典机制[J].计算机工程与设计,2014,35(11):3956-3960. 被引量：3
6吐尔地.托合提,维尼拉.木沙江,艾斯卡尔.艾木都拉.基于词间关联度度量的维吾尔文本自动切分方法[J].北京大学学报（自然科学版）,2016,52(1):155-164. 被引量：2
7张钊,张新峰,郑楠,贵明俊.基于Hadoop平台的LDA算法的并行化实现[J].计算机工程与科学,2016,38(2):231-239. 被引量：3
8严顺.基于CRF的古汉语分词标注模型研究[J].江苏科技信息,2016,33(8):10-12. 被引量：6
9任勇.融合语义网的故障检索系统设计与构建[J].计算机测量与控制,2017,25(5):35-37. 被引量：2
10王嘉旸,杨丽萍,闫天伟.基于向量空间模型的文本相似度计算方法[J].科技广场,2017(2):9-13. 被引量：6

1张劲松,袁健.回溯正向匹配中文分词算法[J].计算机工程与应用,2009,45(22):132-134. 被引量：16
2陈勇,王昌明.基于自然语言理解的故障诊断方法研究[J].计算机测量与控制,2012,20(3):610-613. 被引量：2
3张彩琴,袁健.改进的正向最大匹配分词算法[J].计算机工程与设计,2010,31(11):2595-2597. 被引量：11
4姚磊岳,熊建英.一种基于中文分词算法的信息过滤技术[J].科技广场,2007(7):111-113.
5谭琼,史忠植.分词中的歧义处理[J].计算机工程与应用,2002,38(11):125-127. 被引量：29
6金在全,赵照,杜秀全,张东.一种改进的增字最大匹配算法[J].科学技术与工程,2007,7(18):4761-4764. 被引量：12
7路永刚,赵伟.一种改进的MM分词方法的研究与实现[J].长春工业大学学报,2006,27(4):320-323. 被引量：3
8赵晓凡,胡顺义.基于正向最大匹配的汉语分词[J].安阳师范学院学报,2010(5):13-15. 被引量：2
9徐吉,朱兰娟.用于网络搜索引擎的中文分词消岐算法[J].微型电脑应用,2011(4):52-54.
10胡婕,李跃新.数据库受限汉语自然语言查询的分词研究与实现[J].湖北大学学报（自然科学版）,2005,27(4):331-335. 被引量：1

计算机应用研究

2009年第9期

浏览历史

内容加载中请稍等...

二次回溯中文分词方法被引量：3

参考文献12

二级参考文献138

共引文献478

同被引文献28

引证文献3

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

二次回溯中文分词方法 被引量：3

参考文献12

二级参考文献138

共引文献478

同被引文献28

引证文献3

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

二次回溯中文分词方法被引量：3