一种基于字词联合解码的中文分词方法被引量：42

Approach to Chinese Word Segmentation Based on Character-Word Joint Decoding

下载PDF

导出

摘要近年来基于字的方法极大地提高了中文分词的性能,借助于优秀的学习算法,由字构词逐渐成为中文分词的主要技术路线.然而,基于字的方法虽然在发现未登录词方面有其优势,却往往在针对表内词的切分效果方面不及基于词的方法,而且还损失了一些词与词之间的信息以及词本身的信息.在此基础上,提出了一种结合基于字的条件随机场模型与基于词的Bi-gram语言模型的切分策略,实现了字词联合解码的中文分词方法,较好地发挥了两个模型的长处,能够有效地改善单一模型的性能,并在SIGHAN Bakeoff3的评测集上得到了验证,充分说明了合理的字词结合方法将有效地提高分词系统的性能,可以更好地应用于中文信息处理的各个方面. The performance of Chinese word segmentation has been greatly improved by character-based approaches in recent years. With the help of powerful machine learning strategies, the words extraction via combination of characters becomes the focus in Chinese word segmentation researches. In spite of the outstanding capability of discovering out-of-vocabulary words, the character-based approaches are not as good as word-based approaches in in-vocabulary words segmentation with some internal and external information of the words lost. In this paper we propose a joint decoding strategy that combines the character-based conditional random field model and word-based Bi-gram language model, for segmenting Chinese character sequences. The experimental results demonstrate the good performance of our approach, and prove that two sub models are well integrated as the joint model of character and word could more effectively enhance the performance of Chinese word segmentation systems than any of the single model, thus is fit for many applications in Chinese information processing.

作者宋彦蔡东风张桂平赵海

机构地区沈阳航空工业学院知识工程中心香港城市大学中文、翻译及语言学系

出处《软件学报》 EI CSCD 北大核心 2009年第9期2366-2375,共10页 Journal of Software

基金国家自然科学基金No.60842005 国家高技术研究发展计划(863)No.2006AA01Z148 国家教育部科学技术研究重点项目No.207148~~

关键词中文分词联合解码语言模型条件随机场模型 Chinese word segmentation joint decoding language model conditional random field model

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献2

1黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
2赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26

二级参考文献7

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
7黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250

共引文献257

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
2李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
3王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
4宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：5
5于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
6赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
7李知兵,李龙澍.基于数据驱动的中文分词方法研究[J].现代计算机,2007,13(12):8-10. 被引量：1
8麦范金,王挺.基于双向最大匹配和HMM的分词消歧模型[J].现代图书情报技术,2008(8):37-41. 被引量：9
9王凡秀.基于条件随机场的中文地名识别[J].中国西部科技,2008,7(28):8-8.
10王凡秀,王自强.汉语自动分词技术研究[J].计算机与数字工程,2008,36(11):57-59. 被引量：3

同被引文献462

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2那顺乌日图,淑琴.面向信息处理的蒙古语规范化研究[J].中央民族大学学报（哲学社会科学版）,2007,34(6):115-122. 被引量：6
3孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
4黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
5冯胜利.论汉语的“韵律词”[J].中国社会科学,1996(1):161-176. 被引量：259
6李珀瀚,何震瀛,向河林.一种基于链接聚类的查询扩展算法[J].计算机研究与发展,2011,48(S3):197-204. 被引量：2
7刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
8孙茂松,肖明,邹嘉彦.基于无指导学习策略的无词表条件下的汉语自动分词[J].计算机学报,2004,27(6):736-742. 被引量：37
9尉迟治平.计算机技术和汉语史研究[J].古汉语研究,2000(3):56-60. 被引量：19
10Gai-TaiHuang,Hsiu-HsenYao.Chinese Question-Answering System[J].Journal of Computer Science & Technology,2004,19(4):479-488. 被引量：2

引证文献42

1李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
2于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
3石民,李斌,陈小荷.基于CRF的先秦汉语分词标注一体化研究[J].中文信息学报,2010,24(2):39-45. 被引量：71
4张桂平,刘东生,尹宝生,徐立军,苗雪雷.面向专利文献的中文分词技术的研究[J].中文信息学报,2010,24(3):112-116. 被引量：17
5于江德,睢丹,樊孝忠.基于字的词位标注汉语分词[J].山东大学学报（工学版）,2010,40(5):117-122. 被引量：11
6刘鹏博,车海燕,陈伟.知识抽取技术综述[J].计算机应用研究,2010,27(9):3222-3226. 被引量：15
7冯永,贺迅,唐黎,陈显勇,陈贞.面向文本知识管理的自适应中文分词算法[J].重庆大学学报（自然科学版）,2010,33(10):110-117. 被引量：1
8夏亚梅,苏森.面向本体实例生成的有限汉语语法学习系统[J].北京邮电大学学报,2010,33(5):37-40. 被引量：2
9于江德,王希杰.词位标注汉语分词技术详解[J].安阳师范学院学报,2010(5):1-5.
10于江德,王希杰,樊孝忠.汉语分词中上文和下文重要性比较[J].计算机工程与应用,2011,47(4):117-120. 被引量：2

二级引证文献374

1黄俊又,努尔古丽·阿不都苏力.基于抖音短视频的重庆洪崖洞文旅IP分析[J].新媒体研究,2022,8(23):67-72. 被引量：1
2赵薇.数字时代人文学研究的变革与超越——数字人文在中国[J].探索与争鸣,2021(6):191-206. 被引量：33
3梁媛,王东波,黄水清.面向人民日报语料的新闻自动摘要生成[J].知识管理论坛,2022(4):452-464. 被引量：1
4冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：8
5于秒,逄小婷.词边界信息对外国汉语学习者阅读的影响:回顾与展望[J].南开语言学刊,2022(1):165-171.
6李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：5
7卢雪晖,徐会丹,李斌,陈思瑜.先秦词网构建及梵汉对比研究[J].中文信息学报,2023,37(3):36-45. 被引量：1
8任明,许光,王文祥.家谱文本中实体关系提取方法研究[J].中文信息学报,2020(6):45-54. 被引量：8
9俞敬松,魏一,张永伟,杨浩.基于非参数贝叶斯模型和深度学习的古文分词研究[J].中文信息学报,2020(6):1-8. 被引量：16
10程宁,李斌,葛四嘉,郝星月,冯敏萱.基于BiLSTM-CRF的古汉语自动断句与词法分析一体化研究[J].中文信息学报,2020(4):1-9. 被引量：22

1张建明,唐勇,周书仁,吴宏林.深度广度联合解码的基因表达式程序设计[J].计算机工程与科学,2014,36(10):1966-1971.
2胡琳.一种分布式的立体图像压缩方法[J].信息技术与信息化,2007(4):82-85.
3曹卫.基于多阈值和多切分策略的间隙切分算法[J].计算机与数字工程,2011,39(1):131-133. 被引量：2
4乔艳茹,肖扬.支持认知网络带宽共享的混合网络干扰对齐系统[J].中国新技术新产品,2013(11):62-62.
5高志江,曾华燊,申志军.一种输入排队交换结构的自适应包切分策略[J].计算机科学,2012,39(9):97-100.
6李敏,贺贵明.分布式视频编码及关键技术分析[J].小型微型计算机系统,2008,29(11):2131-2136. 被引量：2
7何建英,陈蓉,徐淼,刘佳,于中华.基于类别特征向量表示的中文文本分类算法[J].计算机应用研究,2008,25(2):337-338. 被引量：11
8刘群.机器翻译研究新进展[J].当代语言学,2009,11(2):147-158. 被引量：42
9蔡旻,欧扬,胡伏原,雷岩.一种基于标量量化分割的视频多描述编码方法[J].苏州科技学院学报（自然科学版）,2015,32(4):46-50.
10吴晨,张全.自然语言处理中句群划分及其判定规则研究[J].计算机工程,2007,33(4):157-159. 被引量：7

软件学报

2009年第9期

浏览历史

内容加载中请稍等...

一种基于字词联合解码的中文分词方法被引量：42

参考文献2

二级参考文献7

共引文献257

同被引文献462

引证文献42

二级引证文献374

相关作者

相关机构

相关主题

浏览历史

一种基于字词联合解码的中文分词方法 被引量：42

参考文献2

二级参考文献7

共引文献257

同被引文献462

引证文献42

二级引证文献374

相关作者

相关机构

相关主题

浏览历史

一种基于字词联合解码的中文分词方法被引量：42