汉语分词中上文和下文重要性比较被引量：2

Comparing of importance of above-context versus below-context for Chinese word segmentation

下载PDF

导出

摘要上下文是统计语言学中获取语言知识和解决自然语言处理中多种实际应用问题必须依靠的资源和基础。近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,当前字的词位标注需要借助于该字的上下文来确定。为克服仅凭主观经验给出猜测结果的不足,采用四词位标注集,使用条件随机场模型研究了词位标注汉语分词中上文和下文对分词性能的贡献情况,在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,采用分别表征上文和下文的特征模板集进行了对比实验,结果表明,下文对分词性能的贡献比上文的贡献高出13个百分点以上。 Context is the necessary resource not only for obtaining linguistic knowledge in statistical linguistics but also for solving the problem in natural language processing.The performance of Chinese word segmentation has been greatly improved by word-position-based approaches in recent years.This approach treats Chinese word segmentation as a word-position tagging problem.To tag the word-position of current character needs the help of correlative context.To overcome the lack of giving the result by the subjective experience,this paper studies the contribution of above and below for Chinese word segmentation via using four word-positions and conditional random fields.Closed evaluations are performed on PKU and MSRA corpus from the second international Chinese word segmentation Bakeoff-2005,and comparative experiments are performed on different feature templates.Experimental results show that the performance by the below-context increases 13 percentage points than by the above-context.

作者于江德王希杰樊孝忠

机构地区安阳师范学院计算机与信息工程学院北京理工大学计算机科学技术学院

出处《计算机工程与应用》 CSCD 北大核心 2011年第4期117-120,共4页 Computer Engineering and Applications

基金高等学校博士学科点专项科研基金项目(No.20050007023) 河南省高等学校青年骨干教师项目(No.2009GGJS-108)

关键词汉语分词上下文条件随机场词位标注特征模板 Chinese word segmentation context conditional random fields word-position tagging feature template

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1姜维,王晓龙,关毅,赵健.基于多知识源的中文词法分析系统[J].计算机学报,2007,30(1):137-145. 被引量：29
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
4宋彦,蔡东风,张桂平,赵海.一种基于字词联合解码的中文分词方法[J].软件学报,2009,20(9):2366-2375. 被引量：42
5赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
6Xue N W, Converse S P.Combining classifiers for Chinese word segmentation[C]//Proceedings of the 1st SIGHAN Work- shop on Chinese Language Processing.Taipei,Taiwan,China:AS Press, 2002 : 20-27. 被引量：1
7黄昌宁,赵海.由字构词--中文分词新方法[c]//中文信息处理前沿进展--中国中文信息学会二十五周年学术会议论文集,北京:清华大学出版社,2006:53-63. 被引量：4
8鲁松,白硕.自然语言处理中词语上下文有效范围的定量描述[J].计算机学报,2001,24(7):742-747. 被引量：47
9Pereira L J ,Mccallum F A.Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of 18th Int Conf on Machine Learning.San Francisco, USA:AAAI Press,2001:282-289. 被引量：1
10Byrd R H,Nocedal J,Schnabel R B.Representations of quasi- Newton matrices and their use in limited memory methods[J]. Mathematical Programming, 1994,63(2) : 129-156. 被引量：1

二级参考文献48

1孙茂松.谈谈汉语分词语料库的一致性问题[J].语言文字应用,1999(2):90-93. 被引量：20
2黄昌宁.中文信息处理中的分词问题[J].语言文字应用,1997(1):74-80. 被引量：83
3孙茂松,张磊.人机并存,“质”“量”合一—谈谈制定信息处理用汉语词表的策略[J].语言文字应用,1997(1):81-88. 被引量：7
4刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
5孙茂松,邹嘉彦.汉语自动分词研究评述[J].当代语言学,2001,3(1):22-32. 被引量：101
6赵健,王晓龙,关毅.中文名实体识别中的特征组合与特征融合的比较[J].计算机应用,2005,25(11):2647-2649. 被引量：7
7杨尔弘,方莹,刘冬明,乔羽.汉语自动分词和词性标注评测[J].中文信息学报,2006,20(1):44-49. 被引量：16
8姜维,王晓龙,关毅,徐志明.应用粗糙集理论提取特征的词性标注模型[J].高技术通讯,2006,16(10):996-1000. 被引量：3
9黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
10H Y Tan. Chinese place automatic recognition research. In: C N Huang, Z D Dong, eds. Proc of Computational Language.Beijing: Tsinghua University Press, 1999 被引量：1

共引文献509

1刘苗苗,李燕,王欣萌,甘琳琳,李虹.分级阅读初探:基于小学教材的汉语可读性公式研究[J].语言文字应用,2021(2):116-126. 被引量：10
2魏伟,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J].数据分析与知识发现,2020,4(2):182-191. 被引量：10
3唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：45
4李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
5王蔚,吴建明,刘磊.汉字的理据性[J].汉字文化,2024(5):129-133.
6宋凯丽,李云岭,姚露露.基于条件随机场的分词标注一体化地址解析方法[J].测绘地理信息,2021,46(S01):185-187. 被引量：5
7陈博逊,黄晶晓.一种基于HMM和CRF的双层分词模型[J].硅谷,2009,2(22).
8尹继豪,樊孝忠,刘士宁,于江德.一种基于Bootstrapping构建训练语料的方法[J].计算机研究与发展,2007,44(z2):394-397.
9于江德,谷川,葛文英,樊孝忠.一种基于字和子串联合标注的汉语分词方法[J].山西大学学报（自然科学版）,2011,34(3):357-362. 被引量：2
10于江德,周宏宇,余正涛.基于单个词语特征模板的汉语词性标注[J].山西大学学报（自然科学版）,2011,34(4):513-517. 被引量：1

同被引文献16

1刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
2姜维,王晓龙,关毅,赵健.基于多知识源的中文词法分析系统[J].计算机学报,2007,30(1):137-145. 被引量：29
3黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：250
4黄昌宁,赵海.由字构词-中文分词新方法[A].中文信息学会二十五周年学术会议论文集[C].北京:清华大学出版社,2006. 被引量：2
5赵海,揭春雨.基于有效子串标注的中文分词[J].中文信息学报,2007,21(5):8-13. 被引量：26
6Lafferty J,Pereira lZ,McCallum A. Conditional random fields: probabilistic models for segmenting and labeling sequence data [A]. In Proceedings of 18th International Conference on Machine Learning [C], 2001 : 282-289. 被引量：1
7PERERA L J, NOCEDAL J, SCHNABEL R B.Representations of quasi-Newton matrices and their use in limited memory methods [J]. Mathematical Progra:nming, 1994,62(2) : 129-156. 被引量：1
8M CCALLUM A. Efficiently inducting features of conditional random fields [C] //Proceedings of Uncertainty in Artificial Intelligence. 403-41 the N- ineteenth Conference on Houston, USA : IEEE Press, 2003 :403-41. 被引量：1
9Nianwen Xue.Chinese Word Segmentation as Character Tagging[J].Computational Linguistics and Chinese Language Processing,2003,8 (1):29-48. 被引量：1
10Lafferty J,Pereira F,McCallum A.Conditional random fields:probabilistic models for segmenting and labeling sequence data[A].In Proceedings of 18th International Conference on Machine Learning[C],2001:282-289. 被引量：1

引证文献2

1周雪燕,韩建敏.基于条件随机场汉语分词的语料规模量化研究[J].电脑与电信,2012(7):56-59.
2王希杰,黄勇杰.基于三词位的字标注汉语分词[J].安阳师范学院学报,2013(5):49-52. 被引量：1

二级引证文献1

1常芳玉,才智杰.一种基于八词位标签的BiLSTM_CRF藏文分词方法[J].中文信息学报,2024,38(10):64-70.

1于江德,王希杰,樊孝忠.词位标注汉语分词中特征模板定量研究[J].计算机工程与设计,2012,33(3):1239-1244. 被引量：4
2于江德,王希杰,樊孝忠.基于最大熵模型的词位标注汉语分词[J].郑州大学学报（理学版）,2011,43(1):70-74. 被引量：8
3于江德,睢丹,樊孝忠.基于字的词位标注汉语分词[J].山东大学学报（工学版）,2010,40(5):117-122. 被引量：11
4徐浩煜,任智慧,施俊,周晗.基于链式条件随机场的中文分词改进方法[J].计算机应用与软件,2016,33(12):211-213. 被引量：10
5于江德,王希杰.词位标注汉语分词技术详解[J].安阳师范学院学报,2010(5):1-5.
6王靖,徐向阳,符蓉.一种优化的用于中文分词的CRF机器学习模型[J].微计算机信息,2010,26(12):169-170. 被引量：1
7林秋虾.基于支持向量机的中文分词[J].现代计算机,2011,17(19):11-13.
8网络帮[J].大众软件,2008(20):71-71.
9任智慧,徐浩煜,封松林,周晗,施俊.基于LSTM网络的序列标注中文分词法[J].计算机应用研究,2017,34(5):1321-1324. 被引量：69
10王希杰,黄勇杰.基于三词位的字标注汉语分词[J].安阳师范学院学报,2013(5):49-52. 被引量：1

计算机工程与应用

2011年第4期

浏览历史

内容加载中请稍等...

汉语分词中上文和下文重要性比较被引量：2

参考文献10

二级参考文献48

共引文献509

同被引文献16

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

汉语分词中上文和下文重要性比较 被引量：2

参考文献10

二级参考文献48

共引文献509

同被引文献16

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

汉语分词中上文和下文重要性比较被引量：2