基于广义话题理论的话题句识别被引量：13

Topic Clause Identification Based on Generalized Topic Theory

下载PDF

导出

摘要汉语标点句句首话题缺失是机器翻译、信息抽取准确率不高的原因之一。该文从广义话题理论出发,根据汉语话题结构的特点,提出标点句的话题句识别研究方案,包括两个阶段性任务:单个标点句的话题句识别和序列标点句的话题句序列构建。识别出标点句的话题句也就找到了标点句句首缺失的话题。该文解决单个标点句的话题句识别任务,主要采用语义泛化和编辑距离两种手段。实验中开放测试的准确率比基线高出12.51个百分点。该结果说明,运用广义话题理论进行单个标点句的话题句识别可产生明显的效果。 Nowadays the Chinese machine translation and information extraction is still far from satisfactory. One important reason is that the topics are often omitted in the head of Chinese Punctuation Clause （abbreviated as PClause）. Based on the Generalized Topic Theory, this paper proposes a novel method for topic clause identification from PClause based on the characteristic of topic strcture. The method consists of two tasks in practice： topic clause identification from a single PClause and topic clause construction for a series of PClauses. In the first task,semantic generalization and edit distance are applied in this paper, and the accuracy rate for open test is 12.51% higher than baseline. The result proves the effectiveness of the generalized topic theory in topic clause identification from a single PClause.

作者蒋玉茹宋柔

机构地区北京工业大学计算机学院北京信息科技大学计算机学院北京语言大学信息科学学院

出处《中文信息学报》 CSCD 北大核心 2012年第5期114-119,128,共7页 Journal of Chinese Information Processing

基金国家自然科学基金资助项目(60872121,60873013) 北京信息科技大学校基金资助项目(J0725019)

关键词标点句广义话题话题结构话题句话题句识别 punctuation clause generalized topic discourse structure topic clause, topic clause identification

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1黄娴,张克亮.汉语零形回指研究综述[J].中文信息学报,2009,23(4):10-15. 被引量：9
2宋柔.现代汉语跨标点句句法关系的性质研究[J].世界汉语教学,2008,22(2):26-44. 被引量：27

二级参考文献32

1曹军,周经野,肖赤心.基于语义结构分析的汉语零代词消解[J].湘潭大学自然科学学报,2001,23(4):28-33. 被引量：3
2王红斌,李悲神.汉语篇章零形回指习得过程的分析[J].鲁东大学学报（哲学社会科学版）,1999,0(2):64-68. 被引量：8
3李旺,李绍滋.基于DRT理论的汉语省略恢复研究[J].计算机工程,2004,30(17):39-41. 被引量：6
4朱勘宇.汉语零形回指的句法驱动力[J].汉语学习,2002(4):73-80. 被引量：25
5陆振慧.英汉语篇中指同表达的对比研究[J].外语教学与研究,2002,34(5):24-31. 被引量：29
6王德亮.汉语零形回指解析——基于向心理论的研究[J].现代外语,2004,27(4):350-359. 被引量：38
7侯敏,孙建军.汉语中的零形回指及其在汉英机器翻译中的处理对策[J].中文信息学报,2005,19(1):14-20. 被引量：23
8黄曾阳.一名形而上老者与形而下智者的对话[C]//朱小健,张全,陈小盟.中文信息处理的探索与实践.北京:北京师范大学出版社,2006:21-29. 被引量：1
9许嘉璐.的确应该仰望一下天空[C]//朱小健,张全,陈小盟.中文信息处理的探索与实践.北京:北京师范大学出版社,2006:30-32. 被引量：1
10Yeh,Ching-Long and Chen,Yi-Chun.An Empirical Study of Zero Anaphora Resolution in Chinese based on Centering Theory[DB/OL].[2008-06-241 http://www.cse.ttu.edu.tw/chingyeh/papers/NLPKE 2003.pdf,2001. 被引量：1

共引文献34

1邢富坤,孙晓迪.基于汉语标点句的汉英双语对齐语料库构建及对齐语序分析[J].语料库语言学,2021(2):136-147. 被引量：1
2卢达威.新支话题的句法成分和语义角色研究[J].中文信息学报,2021,35(10):21-31.
3王立霞.面向汉英机器翻译的专利文献小句变换研究[J].计算机技术与发展,2012,22(11):77-80. 被引量：2
4杨圳,施春宏.汉语准价动词的二语习得表现及其内在机制[J].世界汉语教学,2013,27(4):558-573. 被引量：17
5宋柔.汉语篇章广义话题结构的流水模型[J].中国语文,2013(6):483-494. 被引量：45
6蒋玉茹,宋柔.基于细粒度特征的话题句识别方法[J].计算机应用,2014,34(5):1345-1349. 被引量：6
7尚英,宋柔.基于广义话题结构语料库的语体对比研究——以报告体与小说体为例[J].计算机工程与应用,2014,50(11):21-27. 被引量：2
8曹婧一.并列复句分类的拓展研究[J].太原师范学院学报（社会科学版）,2018,17(5):62-68. 被引量：1
9季翠,卢达威,宋柔.动词引出新支话题的语用功能研究[J].中文信息学报,2014,28(3):22-27. 被引量：1
10肖梦婷.宾位零形回指研究综述[J].北方文学（下）,2015,0(4):123-125.

同被引文献139

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2储泽祥.小句是汉语语法基本的动态单位[J].汉语学报,2004(2):48-55. 被引量：29
3陶红印.试论语体分类的语法学意义[J].当代语言学,1999,1(3):15-24. 被引量：209
4林杏光.短语结构语法──“信息处理用语言理论讲话”第一讲[J].语言文字应用,1994(2):58-64. 被引量：2
5朱德熙.句子和主语——印欧语影响现代书面汉语和汉语句法分析的一个实例[J].世界汉语教学,1987,1(3):31-34. 被引量：35
6冯志伟.特思尼耶尔的从属关系语法[J].当代语言学,1983(1):63-65. 被引量：48
7许余龙.汉英篇章中句子主题的识别[J].外国语,1996,19(6):3-9. 被引量：32
8廖秋忠.篇章与语用和句法研究[J].语言教学与研究,1991(4):16-44. 被引量：74
9邢福义.小句中枢说[J].中国语文,1995(6):420-428. 被引量：157
10张伯江.论“把”字句的句式语义[J].语言研究,2000,20(1):28-40. 被引量：301

引证文献13

1蒋玉茹,宋柔.话题句识别中候选话题句评估函数的优化[J].北京工业大学学报,2014,40(1):43-48. 被引量：3
2蒋玉茹,宋柔.基于细粒度特征的话题句识别方法[J].计算机应用,2014,34(5):1345-1349. 被引量：6
3尚英,宋柔.基于广义话题结构语料库的语体对比研究——以报告体与小说体为例[J].计算机工程与应用,2014,50(11):21-27. 被引量：2
4尚英,宋柔,卢达威.广义话题结构理论视角下话题自足句成句性研究[J].中文信息学报,2014,28(6):107-113. 被引量：4
5卢达威,宋柔.基于最大熵模型的汉语标点句缺失话题自动识别初探[J].计算机工程与科学,2015,37(12):2282-2293. 被引量：4
6李元瑞.现代汉语零形主语小句研究综述[J].现代语文（下旬．语言研究）,2016(2):14-19. 被引量：1
7奚雪峰,褚晓敏,孙庆英,周国栋.汉语篇章微观话题结构建模与语料库构建[J].计算机研究与发展,2017,54(8):1833-1852. 被引量：9
8王笑盈,冯志伟,张丹,瞿云华.现代汉语句子的扩展模式语法模型的构建[J].厦门大学学报（自然科学版）,2018,57(6):859-866.
9孔芳,王红玲,周国栋.汉语篇章理解研究综述[J].软件学报,2019,30(7):2052-2072. 被引量：5
10奚雪峰,孙庆英,周国栋.面向意图性的篇章话题结构分析研究与展望[J].计算机学报,2019,42(12):2769-2794. 被引量：4

二级引证文献35

1李牧南,王良,赖华鹏.中文科技政策文本分类:增强的TextCNN视角[J].科技管理研究,2023,43(2):160-166. 被引量：4
2于安迎,刘中涛,项鸿雁,高玉领,卢凤.面向电力行业的语音语料库设计与构建[J].中国科技纵横,2018,0(16):148-150.
3蒋玉茹,宋柔.基于细粒度特征的话题句识别方法[J].计算机应用,2014,34(5):1345-1349. 被引量：6
4尚英,宋柔,卢达威.广义话题结构理论视角下话题自足句成句性研究[J].中文信息学报,2014,28(6):107-113. 被引量：4
5卢达威,宋柔.基于最大熵模型的汉语标点句缺失话题自动识别初探[J].计算机工程与科学,2015,37(12):2282-2293. 被引量：4
6王密平,王昊,邓三鸿,吴志祥.基于CRFs的冶金领域中文专利术语抽取研究[J].现代图书情报技术,2016(6):28-36. 被引量：13
7奚雪峰,褚晓敏,孙庆英,周国栋.汉语篇章微观话题结构建模与语料库构建[J].计算机研究与发展,2017,54(8):1833-1852. 被引量：9
8刘艳春,王小帆.小说和传记语体多特征对比分析[J].江汉学术,2018,37(1):120-128. 被引量：5
9史金生,娜仁图雅,宋轩.规定性语体的主位推进研究——兼谈主位推进模式与篇章类型及主题的关系[J].语言文字应用,2018(1):90-99. 被引量：8
10唐慧慧,王昊,张紫玄,王雪颖.基于汉字标注的中文历史事件名抽取研究[J].数据分析与知识发现,2018,2(7):89-100. 被引量：8

1卢达威,宋柔.基于最大熵模型的汉语标点句缺失话题自动识别初探[J].计算机工程与科学,2015,37(12):2282-2293. 被引量：4
2蒋玉茹,宋柔.话题句识别中候选话题句评估函数的优化[J].北京工业大学学报,2014,40(1):43-48. 被引量：3
3卢达威,宋柔,尚英.从广义话题结构考察汉语篇章话题认知复杂度[J].中文信息学报,2014,28(5):112-124. 被引量：10
4尚英,宋柔,卢达威.广义话题结构理论视角下话题自足句成句性研究[J].中文信息学报,2014,28(6):107-113. 被引量：4
5尚英,宋柔.基于广义话题结构语料库的语体对比研究——以报告体与小说体为例[J].计算机工程与应用,2014,50(11):21-27. 被引量：2
6赵瑾,张江华.英汉科技术语语义泛化的对比研究[J].中国西部科技,2010,9(15):93-94.
7何苗.汉语网络流行语的隐喻式语义泛化研究——以2010年至2015年网络流行语为例[J].文教资料,2017(2):20-22. 被引量：4
8高惠娟.科技术语的语义泛化研究[J].术语标准化与信息技术,2008(2):28-31. 被引量：6
9王萍萍.英语写作误用中文标点符号的分析及对策[J].中国校外教育,2011(8):117-117. 被引量：1
10Yi-qun DING,Shan-ping LI,Zhen ZHANG,Bin SHEN.Hierarchical topic modeling with nested hierarchical Dirichlet process[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2009,10(6):858-867.

中文信息学报

2012年第5期

浏览历史

内容加载中请稍等...

基于广义话题理论的话题句识别被引量：13

参考文献2

二级参考文献32

共引文献34

同被引文献139

引证文献13

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于广义话题理论的话题句识别 被引量：13

参考文献2

二级参考文献32

共引文献34

同被引文献139

引证文献13

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于广义话题理论的话题句识别被引量：13