基于多元判别分析的汉语句群自动划分方法被引量：4

Automatic Chinese sentences group method based on multiple discriminant analysis

下载PDF

导出

摘要针对目前句群划分工作缺乏计算语言学数据支持、忽略篇章衔接词的问题以及当前篇章分析较少研究句群语法单位的现象,提出一种汉语句群自动划分方法。该方法以汉语句群理论为指导,构建汉语句群划分标注评测语料,并且基于多元判别分析(MDA)方法设计了一组评价函数J,从而实现汉语句群的自动划分。实验结果表明,引入切分片段长度因素和篇章衔接词因素可以改善句群划分性能,并且利用Skip-Gram Model比传统的向量空间模型(VSM)有更好的效果,其正确分割率Pμ达到85.37%、错误分割率Window Diff降到24.08%。同时该方法在句群划分任务上有更大的优势,比传统MDA方法有更好的句群划分效果。 In order to solve the problems in Chinese sentence grouping domain, including the lack of computational linguistics data and the joint makers in a discourse, this paper proposed an automatic Chinese sentence grouping method based on Multiple Discriminant Analysis（ MDA）. Moreover, sentences group was rarely considered as a grammar unit. An annotated evaluation corpus for Chinese sentence group was constructed based on Chinese sentence group theory. And then, a group of evaluation functions J was designed based on the MDA method to realize automatic Chinese sentence grouping. The experimental results show that the length of a segmented unit and one discourse＇s joint makers contribute to the performance of Chinese sentence group. And the Skip-Gram model has a better effect than the traditional Vector Space Model（ VSM）. The evaluation parameter Pμreaches to 85. 37% and Window Diff reduces to 24. 08% respectively. The proposed method has better grouping performance than that of the original MDA method.

作者王荣波李杰黄孝喜周昌乐谌志群王小华

机构地区杭州电子科技大学认知与智能计算研究所厦门大学智能科学与技术系

出处《计算机应用》 CSCD 北大核心 2015年第5期1314-1319,共6页 journal of Computer Applications

基金国家自然科学基金资助项目(61202281 61103101) 教育部人文社会科学研究项目青年基金资助项目(10YJCZH052 12YJCZH201)

关键词汉语句群划分多元判别分析篇章分析 Skip-Gram模型篇章衔接 Chinese sentences grouping Multiple Discriminant Analysis （MDA） discourse analysis Skip-Gram model discourse coherence

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献23

1朱靖波,叶娜,罗海涛.基于多元判别分析的文本分割模型[J].软件学报,2007,18(3):555-564. 被引量：15
2MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed repre- sentations of words and phrases and their compositiouality [ C ]// NIPS 2013: Proceedings of the Advances in Neural Information Pro- cessing Systems 26. Cambridge: MIT Press, 2015:3111 -3119. 被引量：1
3MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimationof word representations in vector space[ C/OL]. [ 2014 - 04 - 20]. http://arxiv, org,/pdtYl301. 3781. pdf. 被引量：1
4王跃洪.英语句群分析[J].上海理工大学学报（社会科学版）,2004,26(2):30-32. 被引量：6
5罗天妮.论以句群为汉英翻译的有效基本单位[J].东南大学学报（哲学社会科学版）,2006,8(3):110-113. 被引量：3
6徐凡,朱巧明,周国栋.篇章分析技术综述[J].中文信息学报,2013,27(3):20-32. 被引量：15
7MANN W C, THOMPSION S A. Rhetorical structure theory: a the- ory of text organization[J]. Text, 1988, 3(8): 243 -281. 被引量：1
8WEBBER B. D-LTAG: extending lexicalized TAG to discourse[ J]. Cognitive Science, 2004, 28(5): 751-779. 被引量：1
9吴为章,田小琳著..汉语句群[M].北京:商务印书馆,2000:246.
10郝长留编..语段知识[M].北京:北京出版社,1983:187.

二级参考文献169

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2徐赳赳,JonathanJ.Webster.复句研究与修辞结构理论[J].外语教学与研究,1999,31(4):16-22. 被引量：30
3王佐良.英语文体学研究及其它[J].外语教学与研究,1978,10(1):5-20. 被引量：44
4吴为章.关于句子的功能分类[J].语言教学与研究,1994(1):25-48. 被引量：12
5张德禄.语篇连贯与语篇的非结构性组织形式——论语篇连贯的条件[J].外国语,1993,16(3):3-8. 被引量：21
6陈忠华,邱国旺.修辞结构理论与修辞结构分析评介[J].外语研究,1997(3):21-24. 被引量：15
7王伟.“修辞结构理论”评介(上)[J].当代语言学,1994(4):8-13. 被引量：43
8王水莲.修辞结构理论与AND结构的语篇功能[J].外语与外语教学,2001(3):7-10. 被引量：11
9杨坚定,钟莉莉.动态翻译单位探讨[J].中国翻译,2004,25(5):20-24. 被引量：21
10苏海菊,王永成.中文科技文献文摘的自动编写[J].情报学报,1989,8(6):433-439. 被引量：25

共引文献67

1张全,吴晨,韦向峰.汉语句间成分共享类型及分布研究[J].计算机科学,2007,34(1):166-169. 被引量：2
2金博,史彦军,滕弘飞.基于篇章结构相似度的复制检测算法[J].大连理工大学学报,2007,47(1):125-130. 被引量：28
3张梦雅,韩江洪.关于十年来翻译单位问题研究的述评[J].合肥工业大学学报（社会科学版）,2008,22(2):90-93. 被引量：2
4朱荷香,曲维光,卢俊之,李素建,邵艳秋.面向自动文摘的文本结构划分[J].南京大学学报（自然科学版）,2008,44(2):204-211. 被引量：2
5吴晨,张全,缪建明,韦向峰.语义理解下的自然语言处理及信息检索模型[J].计算机科学,2008,35(5):113-118. 被引量：4
6钟茂生,胡熠,刘磊.基于词典词语量化关系的中文文本分割方法[J].计算机工程与应用,2008,44(21):25-29. 被引量：2
7乐明.汉语篇章修辞结构的标注研究[J].中文信息学报,2008,22(4):19-23. 被引量：27
8张美娜,迟呈英,战学刚,亓超.基于篇章结构的文本自动标引算法[J].计算机应用与软件,2008,25(9):122-124. 被引量：9
9石晶,胡明,石鑫,戴国忠.基于LDA模型的文本分割[J].计算机学报,2008,31(10):1865-1873. 被引量：54
10陈源,陈蓉,胡俊锋,林霖,张靖波,于中华.面向概括性小文本的文本分割算法[J].计算机工程,2008,34(22):43-45. 被引量：1

同被引文献38

1周强.汉语句法树库标注体系[J].中文信息学报,2004,18(4):1-8. 被引量：90
2葛校琴.句群——翻译的一个单位[J].中国翻译,1993(1):28-30. 被引量：33
3吴为章.句群研究兴起的原因[J].汉语学习,1988(3):1-5. 被引量：3
4林铮.英文可读性、难度及其可测性[J].外国语言文学,1995,14(Z1):18-22. 被引量：7
5刘大为.意向动词、言说动词与篇章的视域[J].修辞学习,2004(6):1-7. 被引量：41
6刘德荣 ,王永成 ,刘传汉 .基于主题概念的多文档自动摘要研究[J].情报学报,2005,24(1):69-74. 被引量：7
7石晶.文本分割综述[J].计算机工程与应用,2006,42(35):155-159. 被引量：4
8朱靖波,叶娜,罗海涛.基于多元判别分析的文本分割模型[J].软件学报,2007,18(3):555-564. 被引量：15
9吴晨,张全.自然语言处理中句群划分及其判定规则研究[J].计算机工程,2007,33(4):157-159. 被引量：7
10孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1069

引证文献4

1王荣波,张璐瑶,李杰,黄孝喜,周昌乐.基于句群的自动文摘方法[J].计算机应用,2016,36(A01):58-62. 被引量：2
2王荣波,孙小雪,黄孝喜,刘和平.基于指代消解的汉语句群自动划分方法[J].计算机技术与发展,2017,27(8):61-65. 被引量：1
3魏天珂,吕学强,周强.弱标注环境下基于CNN的汉语句群自动切分[J].小型微型计算机系统,2018,39(11):2441-2446.
4魏天珂,吕学强,周强.汉语语篇的连贯性标注困难度分析研究[J].计算机应用研究,2018,35(10):2969-2974. 被引量：3

二级引证文献6

1王景中,杨彬彬,何云华.基于多谓词语义框架的长短语文本相似度计算[J].计算机工程与设计,2018,39(4):1022-1028. 被引量：3
2李东欣,禹龙,田生伟,李圃,赵建国.注意力机制的LSTM-DBN维语人称代词指代消解[J].计算机技术与发展,2019,29(7):33-38. 被引量：1
3杨正祥,刘杰,袁克柔,周建设.作文段落句间逻辑合理性等级评测[J].计算机应用与软件,2019,36(9):175-180. 被引量：2
4王悦.基于叙述学视角下的新闻写作改革分析[J].传媒论坛,2019,0(20):99-99.
5张红艳.基于SDRT的汉语语篇连贯的形式化研究[J].海外英语,2019,0(24):96-98.
6周红霞,刘莉.基于汉语熟语的趋返模式研究[J].湖北第二师范学院学报,2020,37(11):15-19.

1王荣波,张璐瑶,李杰,黄孝喜,周昌乐.基于句群的自动文摘方法[J].计算机应用,2016,36(A01):58-62. 被引量：2
2缪建明,张全.现代汉语句群处理研究的进展[J].微计算机应用,2009,30(12):23-26.
3李君艺,张宇华.商业银行信用风险评估实证分析及方法比较[J].网络安全技术与应用,2013(3):76-79. 被引量：1
4阳馨,蒋伟,刘晓玲.基于多种特征池化的中文文本分类算法[J].四川大学学报（自然科学版）,2017,54(2):287-292. 被引量：11
5郭祥昊,钟义信,杨丽.一种应用言语行为理论的新闻篇章理解与摘要生成方法[J].情报学报,1998,17(4):257-262. 被引量：4
6廖光灯.静态检测缓冲区溢出漏洞[J].开放系统世界,2006(8):51-54.
7周英.源代码逆向分析过程中的语法分析[J].信息技术,2010,34(8):191-193.
8韦向峰,缪建明,张全.汉语句群领域的自动抽取研究[J].计算机工程与应用,2009,45(4):11-15. 被引量：4
9于洁.Skip-Gram模型融合词向量投影的微博新词发现[J].计算机系统应用,2016,25(7):130-136. 被引量：3
10李天彩,刘欣,王波,席耀一,王晓雯.短文本信息流中的用户建模与应用[J].信息工程大学学报,2016,17(2):225-230. 被引量：1

计算机应用

2015年第5期

浏览历史

内容加载中请稍等...

基于多元判别分析的汉语句群自动划分方法被引量：4

参考文献23

二级参考文献169

共引文献67

同被引文献38

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于多元判别分析的汉语句群自动划分方法 被引量：4

参考文献23

二级参考文献169

共引文献67

同被引文献38

引证文献4

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

基于多元判别分析的汉语句群自动划分方法被引量：4