基于标点信息和统计语言模型的语音停顿预测被引量：8

Prediction of Speech Pauses Based on Punctuation Information and Statistical Language Model

导出

摘要语音停顿被认为是有声语言的标点符号.在语言交流中,说话人会在韵律短语的边界处插入长短不同的停顿.利用这一性质,在调查标点符号停顿作用的基础上,提出基于标点信息预测语音停顿的思想,阐述基于标点和统计模型的训练语料自动获取以及语音停顿预测方法,讨论训练语料规模对模型性能的影响,并比较基于标点信息的自动获取语料与人工标注语料的性能.实验结果显示,汉语的标点提供有价值的停顿信息,基于汉语标点信息能够有效预测语音停顿. Speech pauses are considered as punctuation marks of spoken language. People always insert different pauses at the boundaries of rhythmic phrases when communicating by language. Based on this characteristic, the speech pause of punctuation marks is investigated and the concept of predicting speech pauses using punctuation information is proposed. The punctuation-based and SLM-based methods are introduced to obtain training corpus and predict speech pauses. The influence of training corpus size on the performance of model is discussed. And the performance of punctuation-based corpus and manually-labeled corpus is compared. Experimental results show that the Chinese punctuation supplies valuable information on pause, and the method based on punctuation information can predict the Chinese speech pauses effectively.

作者钱揖丽荀恩东

机构地区北京工业大学计算机科学学院山西大学计算机与信息技术学院北京语言大学信息科学学院

出处《模式识别与人工智能》 EI CSCD 北大核心 2008年第4期541-545,共5页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基会资助项目(No.60572159 60573184 60473139)

关键词标点符号语音停顿统计语言模型语料获取 Punctuation Marks, Speech Pause, Statistic Language Model, Corpus Obtaining

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1郑敏,蔡莲红.基于概率频度的普通话韵律结构预测统计模型[J].清华大学学报（自然科学版）,2006,46(1):78-81. 被引量：3
2李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
3曹剑芬.基于语法信息的汉语韵律结构预测[J].中文信息学报,2003,17(3):41-46. 被引量：41
4赵晟,陶建华,蔡莲红.基于规则学习的韵律结构预测[J].中文信息学报,2002,16(5):30-37. 被引量：25
5牛正雨,柴佩琪.基于边界点词性特征统计的韵律短语切分[J].中文信息学报,2001,15(5):19-25. 被引量：13
6应宏,蔡莲红.基于结构助词驱动的韵律短语界定的研究[J].中文信息学报,1999,13(6):41-46. 被引量：18
7聂鑫,王作英.汉语语句中短语间停顿的自动预测方法[J].中文信息学报,2003,17(4):39-44. 被引量：8
8Chu Min, Yao Qian. Locating Boundaries for Prosodic Constituents in Unrestricted Mandarin Texts. Computational Linguistics and Chinese Language Processing, 2001,6( 1 ) : 61 -82 被引量：1
9杨锦陈,杨玉芳.言语产生中的韵律生成[J].心理科学进展,2004,12(4):481-488. 被引量：13
10Ostendorf M, Veilleux N. A Hierarchical Stochastic Model for Automatic Prediction of Prosodic Boundary Location. Computational Linguistics, 1994, 20 ( 1 ) : 27 - 54 被引量：1

二级参考文献54

1王洪君.汉语的韵律词与韵律短语[J].中国语文,2000(6):525-536. 被引量：101
2蔡莲红,魏华武,周俏峰.汉语文－语转换中的语言学处理[J].中文信息学报,1995,9(1):31-36. 被引量：4
3周强,俞士汶.汉语短语标注标记集的确定[J].中文信息学报,1996,10(4):1-11. 被引量：35
4周强.一个汉语短语自动界定模型[J].软件学报,1996,7(A00):315-322. 被引量：9
5叶军.停顿的声学征兆.第三界全国语音学研讨会论文集[M].北京:-,1996.21-22. 被引量：1
6[1]Fodor J D. Prosodic disambiguation in silent reading. In: M Hirotani ed. Proceedings of the North East Linguistic Society 32. CSLA,University of Massachusetts, Amherst,2002 被引量：1
7[3]Levelt W J M. Speaking: from intention to articulation. MTT Press, 1989 被引量：1
8[4]Levelt W J M. Models of word production. Trends in Cognitive Sciences, 1999, 3(6): 223～232 被引量：1
9[5]Sevald C A, Dell G S, Cole J S. Syllable structure in speech production: Are syllables chunks or schemas ? Journal of Memory and Language, 1995, 34:807～820 被引量：1
10[6]Costa A, Sebastian-Gallés N. Abstract phonological structure in language production: evidence from Spanish. Journal of Experimental Psychology: Learning, Memory, and Cognition, 1998, 24(4): 886～903 被引量：1

共引文献84

1王强.再论汉语并列结构的中心语[J].励耘语言学刊,2020(1):205-225.
2杨国文.汉语小句的尾调及末尾音节的声调变化[J].当代语言学,2021(1):87-96.
3夏耕.声调作为二语习得中的韵律意识和声学意识[J].语文学刊（外语教育与教学）,2013(7):137-140.
4裴雨来,邱金萍,王洪君,吕士楠.基于词类序列的汉语语句韵律结构预测[J].清华大学学报（自然科学版）,2009(S1):1339-1343. 被引量：5
5赵永贞,刘挺,王志伟,陈惠鹏,邵艳秋.汉语文语转换系统中停顿指数的自动标注[J].中文信息学报,2004,18(5):48-55. 被引量：6
6李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
7冯丽萍,焦莉娟.基于最大熵的中文组织机构名识别模型[J].计算机与数字工程,2010,38(12):36-40. 被引量：2
8王茂林.汉语自然话语韵律组块的优选论分析[J].暨南学报（哲学社会科学版）,2005,27(4):85-87. 被引量：6
9刘浩杰,杜利民.汉语韵律词F0曲线的优化[J].中文信息学报,2006,20(1):98-104.
10郑敏,蔡莲红.基于概率频度的普通话韵律结构预测统计模型[J].清华大学学报（自然科学版）,2006,46(1):78-81. 被引量：3

同被引文献57

1罗选民.论翻译的转换单位[J].外语教学与研究,1992,24(4):32-37. 被引量：87
2林璋.论日语的句子[J].解放军外国语学院学报,1990,13(3):22-27. 被引量：1
3裴雨来,邱金萍,王洪君,吕士楠.基于词类序列的汉语语句韵律结构预测[J].清华大学学报（自然科学版）,2009(S1):1339-1343. 被引量：5
4李爱玲,武景全.关于翻译的基本单位──翻译方法论之辩[J].上海翻译,1995(2):1-5. 被引量：15
5吕俊.谈语段作为翻译单位[J].山东外语教学,1992,13(Z1):32-35. 被引量：59
6李剑锋,胡国平,王仁华.基于最大熵模型的韵律短语边界预测[J].中文信息学报,2004,18(5):56-63. 被引量：20
7林茂灿.普通话语句中间断和语句韵律短语[J].当代语言学,2000,2(4):210-217. 被引量：31
8郭建中.汉译英的翻译单位问题[J].外国语,2001,24(6):49-56. 被引量：69
9吴菊华,甘仞初.符号学在信息系统开发中的应用研究综述[J].科技进步与对策,2005,22(7):193-195. 被引量：2
10郑敏,蔡莲红.基于概率频度的普通话韵律结构预测统计模型[J].清华大学学报（自然科学版）,2006,46(1):78-81. 被引量：3

引证文献8

1杨鸿武,王晓丽,陈龙,裴东,郭威彤,蔡莲红.基于语法树高度的汉语韵律短语预测[J].计算机工程与应用,2010,46(36):139-143. 被引量：6
2陈钒,冯志勇.语言自然节奏在文本分类中的研究与应用[J].计算机工程与应用,2012,48(30):28-32. 被引量：2
3刘健刚,储琢佳,赵力.语音文本的标点符号特性初探——“英语口语机考评分系统的建模与应用”标点符号的理论建模[J].语言科学,2013,12(3):331-336. 被引量：3
4林璋.论句子作为翻译操作的基本单位[J].日语学习与研究,2018(6):1-9. 被引量：2
5钱揖丽,冯志茹.基于语块和条件随机场(CRFs)的韵律短语识别[J].中文信息学报,2014,28(5):32-38. 被引量：6
6储琢佳.语音文本中标点符号的检测方法简介[J].科教文汇,2015(21):44-45.
7钱揖丽,冯志茹.利用AdaBoost-SVM集成算法和语块信息的韵律短语识别[J].计算机工程与科学,2015,37(12):2324-2330. 被引量：2
8钱揖丽,蔡滢滢.采用无标注语料和词“粘连”剔除策略的韵律短语识别[J].计算机科学,2016,43(2):51-56.

二级引证文献19

1杨鸿武,朱玲.基于句法特征的汉语韵律边界预测[J].西北师范大学学报（自然科学版）,2013,49(1):41-45. 被引量：6
2鲁小勇,杨鸿武,郭威彤,裴东.基于PAD三维情绪模型的情感语音韵律转换[J].计算机工程与应用,2013,49(5):230-235. 被引量：3
3汪文棣,刘健刚,曹蕾,董静,姜浩.英语口语机考评分系统研究与实现[J].电子器件,2013,36(5):743-746. 被引量：1
4张杰.国内英文标点符号研究综述[J].西安文理学院学报（社会科学版）,2014,17(4):93-95. 被引量：1
5钱揖丽,冯志茹.利用AdaBoost-SVM集成算法和语块信息的韵律短语识别[J].计算机工程与科学,2015,37(12):2324-2330. 被引量：2
6孙丽萍,过弋,唐文武,徐永斌.基于构成模式和条件随机场的企业简称预测[J].计算机应用,2016,36(2):449-454. 被引量：3
7钱揖丽,蔡滢滢.采用无标注语料和词“粘连”剔除策略的韵律短语识别[J].计算机科学,2016,43(2):51-56.
8王柳渝.基于语义角色的汉语韵律短语预测[J].广东通信技术,2017,37(1):67-69.
9何婕.语言节奏在话题追踪中的研究与应用[J].数字技术与应用,2017,35(2):127-127.
10郭崇.基于数据挖掘技术的数据显示处理器开发研究[J].数字技术与应用,2017,35(2):128-129.

1荀恩东,钱揖丽,郭庆,宋柔.应用二叉树剪枝识别韵律短语边界[J].中文信息学报,2006,20(3):1-5. 被引量：4
2钱揖丽,荀恩东,宋柔.基于SLM的二叉树在语音停顿预测中的应用[J].计算机工程,2006,32(19):23-25. 被引量：2
3郭宇航,车万翔,刘挺.基于语言模型验证的词义消歧语料获取[J].中文信息学报,2008,22(6):38-42. 被引量：4
4钱揖丽,荀恩东.基于最大熵模型的汉语短语间停顿识别[J].计算机工程与应用,2008,44(17):18-20. 被引量：1
5张金爽,李永宏,方华萍,于洪志.藏语新闻朗读语音停顿和呼吸重置关系研究[J].西北民族大学学报（自然科学版）,2011,32(1):20-24. 被引量：4
6蒋玉茹,宋柔.话题句识别中候选话题句评估函数的优化[J].北京工业大学学报,2014,40(1):43-48. 被引量：3
7张桔娴.有声语言在网络平台中的运用[J].信息技术与信息化,2014(7):43-44.
8吴仲华.浅谈比况表达式中的语音停顿现象[J].培训与研究（湖北教育学院学报）,2005,22(3):19-21. 被引量：1
9钱揖丽,荀恩东.基于分类回归树CART的汉语韵律短语边界识别[J].计算机工程与应用,2008,44(6):169-171. 被引量：3
10赵书辉,李兰兰,付秀华.教师的面部表情探析[J].科教文汇,2009(30):18-19. 被引量：3

模式识别与人工智能

2008年第4期

浏览历史

内容加载中请稍等...

基于标点信息和统计语言模型的语音停顿预测被引量：8

参考文献10

二级参考文献54

共引文献84

同被引文献57

引证文献8

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于标点信息和统计语言模型的语音停顿预测 被引量：8

参考文献10

二级参考文献54

共引文献84

同被引文献57

引证文献8

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于标点信息和统计语言模型的语音停顿预测被引量：8