汉语分词中组合歧义字段的研究被引量：11

Research on Combinational Ambiguity in Chinese Word Segmentation

下载PDF

导出

摘要汉语自动分词中组合歧义是难点问题,难在两点:组合歧义字段的发现和歧义的消解。本文研究了组合歧义字段在切开与不切时的词性变化规律,提出了一种新的组合歧义字段自动采集方法,实验结果表明该方法可以有效地自动发现组合歧义字段,在1998年1月《人民日报》中就检测到400多个组合歧义字段,远大于常规方法检测到的歧义字段数目。之后利用最大熵模型对60个组合歧义字段进行消歧,考察了六种特征及其组合对消歧性能的影响,消歧的平均准确度达88.05%。 One of challenges in Chinese Word Segmentation is the combinational ambiguity problem with two main obstacles： the detection of combinational ambiguities and ambiguity resolution. This paper investigate the structures of combinational ambiguities and proposes a new approach for automatically detecting this type of ambiguities. The experimental result reveals the approach is effective in the tagged corpus of 1998-01 People Daily with about 1 million words, we have detected more than 400 combinational ambiguities, far more than that detected by common approaches. Then the resolutions of 60 combinational ambiguities are carried out using the maximum entropy model. The effect of six kinds of features, as well as their combination, on the performance of disambiguation is further studies. The average accuracy of disambiguation reaches 88.05 %.

作者秦颖王小捷张素香

机构地区北京邮电大学信息工程学院

出处《中文信息学报》 CSCD 北大核心 2007年第1期3-8,共6页 Journal of Chinese Information Processing

基金教育部语言文字信息管理司"汉语及民文语料库工具软件"资助项目(MZ115-022)

关键词计算机应用中文信息处理汉语切分组合歧义最大熵特征 computer applieation Chinese information processing Chinese word segmentation combinationalambiguity maximum entropy feature selection

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1侯敏,等.汉语自动分词中的上下文相关歧义字段(CSAS)研究[A].自然语言理解与大规模内容计算[C].北京:清华大学出版社,2005.7,214-220. 被引量：1
2梁南元.书面汉语自动分词系统—CDWS[J].中文信息学报,1987,(2):44-52. 被引量：45
3刘开瑛著..中文文本自动分词和标注[M].北京:商务印书馆,2000:286.
4刘挺,王开铸.关于歧义字段切分的思考与实验[J].中文信息学报,1998,12(2):63-64. 被引量：14
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6王彩荣,王凯丽,黄玉基.歧义字段的归类及切分算法[J].微处理机,2005,26(3):33-35. 被引量：2
7肖云,孙茂松,邹嘉彦.利用上下文信息解决汉语自动分词中的组合型歧义[J].计算机工程与应用,2001,37(19):87-89. 被引量：24
8Xiao Luo,Maosong Sun,Benjamin K.Tou.Covering Ambiguity Resolution in Chinese Word Segmentation Based on Contextual Information[A].In:Proceedings of COLING 2002[C],598-604. 被引量：1
9Gao,Jianfeng,Joshua Goodman,Mingjing Li and Kai-Fu Lee.Toward a unified approach to statistical language modeling for Chinese[J].ACM Transactions on Asian Language Information Processing,2002.1(1):3-33. 被引量：1
10Nianwen Xue.Chinese Word Segmentation as Character Tagging[J].Computational Linguistics and Chinese Language Proccessing,February 2003,Vol.8,No.1,29-48. 被引量：1

二级参考文献67

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
3黄居仁,陈克健,陈凤仪,魏文真,张丽丽.《资讯处理用中文分词规范》设计理念及规范内容[J].语言文字应用,1997(1):94-102. 被引量：6
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5董振东.汉语分词研究漫谈[J].语言文字应用,1997(1):109-114. 被引量：11
6孙茂松,邹嘉彦.汉语自动分词研究中的苦干理论问题[J].语言文字应用,1995(4):40-46. 被引量：45
7梅家驹,竺一鸣,高蕴琦,殷鸿翔.编纂汉语类义词典的尝试——《同义词词林》简介[J].辞书研究,1983(1):133-138. 被引量：15
8徐秉铮,詹剑,贺前华.基于神经网络的分词方法[J].中文信息学报,1993,7(2):36-44. 被引量：15
9孙茂松,黄昌宁,高海燕,方捷.中文姓名的自动辨识[J].中文信息学报,1995,9(2):16-27. 被引量：87
10黄萱菁,吴立德,王文欣,叶丹瑾.基于机器学习的无需人工编制词典的切词系统[J].模式识别与人工智能,1996,9(4):297-303. 被引量：24

共引文献197

1李斌,袁义国,芦靖雅,冯敏萱,许超,曲维光,王东波.第一届古代汉语分词和词性标注国际评测[J].中文信息学报,2023,37(3):46-53. 被引量：4
2LI Li.A Study on Improving Word-Segmentation Accuracy in Automatic Chinese Text Processing[J].Journal of Shanghai University(English Edition),2001,5(z1):225-228.
3张泉,曾国荪,王伟,孙明军,谷华楠.基于改进的模糊C-均值聚类的信任文摘[J].计算机研究与发展,2008,45(z1):268-273. 被引量：2
4郑炜冬.多种方法融合的中文自动分词系统的设计与实现[J].韩山师范学院学报,2009,30(6):37-43.
5王军辉.汉语自动分词研究进展[J].魅力中国,2009(30):333-333.
6普布旦增,欧珠.藏文分词中交集型歧义字段的切分方法研究[J].西藏大学学报（社会科学版）,2010,25(S1):196-197. 被引量：2
7洪虹,李波.汉语自动分词研究进展[J].魅力中国,2009,0(22):114-114.
8张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
9刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
10陈小荷.中文信息处理概述[J].南京师范大学文学院学报,2002(1):171-176. 被引量：8

同被引文献134

1张恒,杨文昭,屈景辉,卢虹冰,张亮,赵飞.基于词典和词频的中文分词方法[J].微计算机信息,2008,24(3):239-240. 被引量：19
2刘春辉,金顺福,刘国华,李颖.基于优化最大匹配与统计结合的汉语分词方法[J].燕山大学学报,2009,33(2):124-129. 被引量：9
3刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
4张云秋.汉语短语的分类问题[J].语文研究,1994(4):35-41. 被引量：3
5杨寿勋.《统计自然语言处理基础》评介[J].外语教学与研究,2001,33(4):317-319. 被引量：7
6王振华,孔祥龙,陆汝占,刘绍明.结合决策树方法的中文姓名识别[J].中文信息学报,2004,18(6):10-15. 被引量：15
7张克亮.基于HNC理论的句法结构歧义消解[J].中文信息学报,2004,18(6):43-52. 被引量：9
8张茂元,卢正鼎,邹春燕.一种基于语境的中文分词方法研究[J].小型微型计算机系统,2005,26(1):129-133. 被引量：8
9全昌勤,何婷婷,姬东鸿,刘辉.从搭配知识获取最优种子的词义消歧方法[J].中文信息学报,2005,19(1):30-35. 被引量：13
10刘蓓,杜利民.汉语口语对话系统中语义分析的消歧策略[J].中文信息学报,2005,19(1):76-83. 被引量：3

引证文献11

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：43
2李知兵,李龙澍.基于数据驱动的中文分词方法研究[J].现代计算机,2007,13(12):8-10. 被引量：1
3文娟,王小捷.中文高频词串的抽取及其在语言模型中的应用[J].北京邮电大学学报,2009,32(5):10-14. 被引量：2
4姚继伟,赵东范.基于短语匹配的中文分词消歧方法[J].吉林大学学报（理学版）,2010,48(3):427-432. 被引量：6
5魏莎莎,熊海灵.中文分词中的歧义识别处理策略[J].微计算机信息,2010,26(30):190-192. 被引量：6
6麦范金,李东普,岳晓光.基于双向匹配法和特征选择算法的中文分词技术研究[J].昆明理工大学学报（自然科学版）,2011,36(1):47-51. 被引量：8
7袁鼎荣,李新友,邵延振.用于中文分词的组合型歧义消解算法[J].计算机应用与软件,2011,28(6):57-58. 被引量：5
8尤慧丽,晏立,杨晓东.中文分词中组合型切分歧义的消解研究[J].计算机工程与应用,2011,47(31):125-127. 被引量：1
9张禄彭,易绵竹,周云.中文歧义研究25年——以《中文信息学报》论文为例[J].中文信息学报,2012,26(4):73-84. 被引量：4
10侯济恭,王维龙.海峡两岸农产品物流信息的汉字转换系统的研究[J].农业网络信息,2014(7):5-9. 被引量：1

二级引证文献77

1丁洁.基于Lucene的中文分词系统设计与实现[J].自动化与仪器仪表,2016(5):208-210. 被引量：5
2奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104
3索娟娟,于宝英.基于灰熵的汉语机器翻译消歧研究[J].科技信息,2012(3):39-39.
4苏晓红.建立统一的国债回购市场[J].金融理论与实践,2000(3):18-19.
5胡阿明,王卫东.中文分词歧义识别算法的优化[J].现代电子技术,2012,35(8):107-109. 被引量：2
6郑阳,莫建文.基于专业术语提取的中文分词方法[J].大众科技,2012,14(4):20-23. 被引量：1
7张一勇,李建国.第三纪年代地层研究和中国第三纪年代地层表[J].地层学杂志,2000,24(2):120-125. 被引量：15
8赵衍,陈恒.一种提高中英文混编文本标引准确性的方法[J].现代图书情报技术,2012(6):36-42. 被引量：1
9张禾.新型桌面搜索关键技术的研究与实现[J].硅谷,2012,5(21):95-96.
10田野,贾李蓉,李园白,刘静,刘丽红,李敬华,于彤,杨策,张竹绿.网络论坛中中医药信息的聚类分析研究[J].世界中医药,2012,7(6):535-536. 被引量：1

1丁德鑫,曲维光,徐涛,董宇.基于CRF模型的组合型歧义消解研究[J].南京师范大学学报（工程技术版）,2008,8(4):73-76. 被引量：8
2冯素琴,陈惠明.利用上下文信息解决汉语组合型歧义[J].电脑开发与应用,2007,20(1):23-25. 被引量：1
3李知兵,李龙澍.基于数据驱动的中文分词方法研究[J].现代计算机,2007,13(12):8-10. 被引量：1
4梁焰.从汉语切分的角度看名词的定名[J].科技术语研究,2000,2(2):27-27.
5刘颖.规则与统计结合进行汉英机器翻译消歧[J].计算机应用,2002,22(5):21-23. 被引量：4
6为何关机后键鼠指示灯仍亮着[J].现代计算机（中旬刊）,2010(1):142-142.
7张硕果,汪成亮.结合CRFs的词典分词法[J].计算机系统应用,2010,19(11):115-118. 被引量：1
8刘颖.规则与统计结合分析汉语[J].计算机工程与应用,2002,38(7):3-6. 被引量：4
9张健.寻找丢失的记忆[J].电脑爱好者,2004(23):6-7.
10刘颖.用隐马尔柯夫模型对汉语进行切分和标注排歧[J].计算机工程与设计,2001,22(4):58-62. 被引量：11

中文信息学报

2007年第1期

浏览历史

内容加载中请稍等...

汉语分词中组合歧义字段的研究被引量：11

参考文献15

二级参考文献67

共引文献197

同被引文献134

引证文献11

二级引证文献77

相关作者

相关机构

相关主题

浏览历史

汉语分词中组合歧义字段的研究 被引量：11

参考文献15

二级参考文献67

共引文献197

同被引文献134

引证文献11

二级引证文献77

相关作者

相关机构

相关主题

浏览历史

汉语分词中组合歧义字段的研究被引量：11