题名 基于数据驱动方法的汉语文本-可视语音合成(英文)
被引量:16
1
作者
王志明
蔡莲红
艾海舟
机构
北京科技大学计算机科学与技术系
清华大学计算机科学与技术系
出处
《软件学报》
EI
CSCD
北大核心
2005年第6期1054-1063,共10页
基金
国家教育部博士点基金
北京科技大学校内科研基金~~
文摘
计算机文本-可视语音合成系统(TTVS)可以增强语音的可懂度,并使人机交互界面变得更为友好.给出一个基于数据驱动方法(基于样本方法)的汉语文本-可视语音合成系统,通过将小段视频拼接生成新的可视语音.给出一种构造汉语声韵母视觉混淆树的有效方法,并提出了一个基于视觉混淆树和硬度因子的协同发音模型,模型可用于分析阶段的语料库选取和合成阶段的基元选取.对于拼接边界处两帧图像的明显差别,采用图像变形技术进行平滑并.结合已有的文本-语音合成系统(TTS),实现了一个中文文本-视觉语音合成系统.
关键词
文-语转换系统(TTS)
文本-可视语音合成系统(TTVS)
视位
协同 发音
Keywords
Human computer interaction
Image processing
Pattern recognition
Speech
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
题名 阳平的协同发音与外国人学习阳平
被引量:9
2
作者
王韫佳
机构
北京语言文化大学教务处
出处
《语言教学与研究》
CSSCI
北大核心
1997年第4期94-104,共11页
文摘
阳平的协同发音与外国人学习阳平王韫佳关于普通话声调的协同发音问题,学术界存在几种不同的调查结果,本文仅就阳平的逆向协同发音问题进行再次讨论。Shen(1990)认为,逆向作用可延伸到声调起点,她指出,在逆向作用下,前面整个声调f0高度的调节在声调始点...
关键词
协同 发音
终点音高
起点音高
外国人
普通话声调
二字组
汉语声调
高起点
去声
阴平
分类号
H116.1
[语言文字—汉语]
题名 汉语普通话声调的协同发音
被引量:7
3
作者
沈晓楠
林茂灿
机构
美国Texas Austin大学东方语言系
中国社会科学院语言所
出处
《当代语言学》
CSSCI
1992年第2期26-32,共7页
文摘
通过对普通话四声和轻声在/pa pa pa/三音节组中所有可能的组合所作的声学分析,得到声调协同发音的几个特性。声调协同发音作用跟音段协同发音一样,其性质是同化。此外,协同发音影响整个音节:它不但影响声调始点和终点,还影响到声调的所有高度。声调协同发音也是双向的,不过,它跟音段协同发音不一样,其双向作用是对称的,逆向作用和顺向作用相似。声调协同发音表现在基频(F_0)高度的变化上。而不改变基频移动的方向。声调协同发音仅限于两个相邻声调。
关键词
协同 发音
声调曲线
普通话声调
始点
双向作用
上声
终点
去声
轻声
声学分析
分类号
H0
[语言文字—语言学]
题名 普通话音段协同发音研究
被引量:10
4
作者
陈肖霞
机构
中国社会科学院语言研究所
出处
《中国语文》
CSSCI
北大核心
1997年第5期345-350,共6页
基金
本研究得到国家863科学基金和国家“八五”社会科学基金的资助
文摘
本文研究后音节声母为唇(唇齿)音、舌尖音和舌根音而前音节韵母为开尾元音的普通话两音节间逆向协同发音问题。本文发现:除后音节声母对前音节元音尾有明显的逆向协同发音作用外,在后音节声母为唇辅音声母时,这个音节的韵母元音可以通过其声母对前音节韵母元音尾产生逆向协同发音影响;后音节声母对前音节元音尾的逆向协同发音作用,主要由后音节声母的不同发音部位引起;同一发音部位而不同发音方法的声母对元音尾没有显著影响。本文还给出了后音节对前音节元音尾作用的共振峰过渡的回归方程。
关键词
共振峰
协同 发音
发音 部位
音节
普通话
回归方程
韵母元音
声母
发音 方法
过渡模式
分类号
H116.1
[语言文字—汉语]
题名 语句中协同发音对音节知觉的影响
被引量:10
5
作者
周迅溢
王蓓
杨玉芳
李晓庆
机构
中国科学院心理研究所
出处
《心理学报》
CSSCI
CSCD
北大核心
2003年第3期340-344,共5页
基金
973国家重点基础研究发展规划项目的资助 (G19980 30 50 5 3)项目
文摘
采用音节相似度听辨实验 ,以大学生为被试 ,对音节间协同发音现象所引起的音节知觉差异进行了考察 ,结果发现 :音节之间的协同发音影响音节音段内容的变化 ,而这种变化主要取决于相邻前音节末尾韵母部分的差异 ,以及相邻后音节首辅音发音部位的差异 ;对于发音相同、语境不同的音节 。
关键词
协同 发音
音段内容
超音段内容
声学参数
Keywords
co articulation, segment, suprasegment, acoustic parameter.
分类号
B842.2
[哲学宗教—基础心理学]
题名 普通话语音的环境音变与双音子和三音子结构
被引量:11
6
作者
曹剑芬
机构
中国社会科学院语言研究所
出处
《语言文字应用》
CSSCI
1996年第2期58-63,共6页
文摘
自然语音处理进入连续话语阶段以来,无论是合成方面还是识别方面,一个迫切需要解决的关键问题就是如何对付自然语音的多变性。这个问题既涉及对于语音变化本质的认识,又涉及合适的处理单元的选择。扼要介绍普通话语音的环境变异以及表达和描写这种动态变化特性的双音子和三音子结构。
关键词
三音子
普通话语音
音位变体
协同 发音
语音处理
双音
语音环境
一个音节
环境变异
语音变化
分类号
H102
[语言文字—汉语]
题名 汉语文本-可视语音转换的研究
被引量:9
7
作者
王志明
蔡莲红
吴志勇
陶建华
机构
清华大学计算机科学与技术系
出处
《小型微型计算机系统》
CSCD
北大核心
2002年第4期474-477,共4页
基金
高校博士点基金 ( 2 0 0 10 0 0 30 49)资助项目
文摘
本文通过对发音者可见器官动作的研究 ,从视觉方面抽取汉语发音的 2 6个基本口形 ,并利用 MPEG- 4所规定的面部动画参数 (FAP)来描述这些口形 ,从而获得了符合国际标准的描述汉语发音的视觉参数 .另外 ,我们研究了这些参数在连续语流中的变化及协同发音对口形的影响 ,基于已有的汉语文语转换系统 (Sonic)和二维网格人脸模型(Plane Face)实现了一个汉语文本 -可视语音转换系统 (TTVS)
关键词
视觉语音
汉语文本-可视语音转换系统
协同 发音
汉字信息处理
Keywords
visual speech
facial animation parameter(FAP)
text-to-speech(TTS)
text-to -audioVisual speech(TTVS)
coarticulation
分类号
TP391.12
[自动化与计算机技术—计算机应用技术]
题名 动态视位模型及其参数估计
被引量:8
8
作者
王志明
蔡莲红
机构
清华大学计算机科学与技术系
出处
《软件学报》
EI
CSCD
北大核心
2003年第3期461-466,共6页
基金
Supported by the National Research Foundation for the Doctoral Program of Higher Education of China under Grant No.20010003049 (国家教育部博士点基金)
文摘
视觉信息可以加强人们对语音的理解,但如何在可视语音合成中生成逼真自然的口形是个复杂的问题.在深入地研究了人们说话过程中口形变化的规律后,提出了一个基于控制函数混合的动态语音视位模型.并针对汉语发音的特点给出了一种系统的从训练数据学习模型参数的方法,这比依靠主观经验人为指定模型参数更为可靠.实验结果表明,视位模型和通过训练数据学习得到的模型参数可以有效地描述汉语发音过程中口形的变化过程.
关键词
动态视位模型
参数估计
可视语音
静态视位
动态视位
协同 发音
语音合成
视觉信息
Keywords
visual speech
viseme
static viseme
dynamic viseme
co-articulation
分类号
TN912.34
[电子电信—通信与信息系统]
题名 普通话N1 C2(C#C)协同发音的声学模式
被引量:6
9
作者
郑玉玲
刘佳
机构
中国社会科学院民族学与人类学研究所语音研究室
出处
《南京师范大学文学院学报》
2005年第3期150-157,共8页
基金
国家自然科学基金资助项目
编号:I0374117
文摘
本文以汉语普通话C#C结构的鼻韵尾/n/、/η/和后续辅音(简称N1C2)的协同发音为研究对象,用动态腭位与声学分析相结合的方法,揭示N1C2协同发音的声学模式和成因。研究表明:1)鼻韵尾/n/的发音方法有别于作为声母的鼻音/n/,舌尖的姿态可以指向齿龈,而不必达到。这种高自由度的发音姿态造成音段的高度叠加,产生跨音段的逆向影响.2)N1C2的协同发音属异体协同发音,分别是鼻腔和口腔不同的发音器官,协同发音的模式:/-n/后接舌尖辅音属异体同位(HES),时域上跨音段叠加,跨音段逆向影响;/-n/后接舌根辅音属异体异位(HED),在音段叠加的部份/n/被逆同化为/η/;/η/后接舌尖辅音属异体异位(HED),音段叠加部分舌尖成阻和舌根成阻共存,发生了向/n/的部分逆同化;/-η/后接舌根辅音属异体同位(HES),/-η/的位置更靠后,姿态受限,因此,时域叠加最少,有逆向影响。
关键词
协同 发音
动态腭位
N1C2
分类号
H116.1
[语言文字—汉语]
题名 不同语调条件下的声调音高实现
被引量:8
10
作者
王韫佳
丁多永
东孝拓
机构
北京大学中文系
国立台湾师范大学华语文教学系
出处
《声学学报》
EI
CSCD
北大核心
2015年第6期902-913,共12页
基金
教育部人文社科研究项目(09YJA40006)
教育部人文社会科学重点研究基地重大项目(13JJD740002)资助
文摘
从调类个性、句中位置和重音级别3个层面的语音分析,考察普通话4个声调在不同语调条件下的音高实现。目标词被置于3种不同的焦点位置(即句重音最强的位置)和两种不同的非焦点位置(即非句重音位置)上,对目标词的调域以及目标声调的高音点和低音点进行了观察分析。实验结果表明,(1)在焦点条件以及非焦点条件下,阳平的音高位于调域的中低音区,去声低音点的理论调值尽管低于阳平低音点,但去声低音点在音高实现上往往接近阳平低音点甚至会高于阳平低音点;(2)焦点在句首位置表现为调域向上下两个方向扩展,在句末位置则表现为调域整体上抬,但不同声调的高音点并不都与调域上限同比例变化,不同声调低音点的变化也并不都与调域下限同比例变化;(3)重音后音节的音高对焦点音节的依赖关系受音步组合关系的制约,焦点和焦点后音节若在同一音步内,焦点后音节的音高与焦点音节的音高关系类似轻声音节与其前接非轻声音节的音高关系,焦点和焦点后音节之间如果存在音步边界,焦点后音节的音高表现出一定的独立性。这些结果说明了语句中声调音高实现的复杂性,一个具有较好预测性的汉语普通话语调模型的建立需要包括焦点结构、韵律结构、协同发音、调类个性等不同层面信息的诸多细节化规则。
关键词
音高
声调
焦点位置
语音分析
组合关系
韵律结构
协同 发音
音节
Keywords
Acoustic waves
分类号
H116.4
[语言文字—汉语]
题名 从音轨方程考察普通话不送气塞音声母的协同发音
被引量:6
11
作者
冉启斌
石锋
机构
南开大学汉语言文化学院
出处
《南开语言学刊》
2006年第2期45-54,165,共11页
文摘
本文介绍了音轨方程的原理及应用方法,并通过音轨方程考察了普通话中不送气爆发音声母的协同发音作用,所用语料为二字组中的第一个音节。另计算了普通话3个不送气爆发音的音轨。最后讨论了声学特征与发音生理特征之间的关系,认为不能简单地将声谱特征归结于一种发音生理特征。音轨方程对于双唇塞音和舌尖塞音的分析是有效的,但不太适合于舌根塞音,并讨论了其中的原因。
关键词
不送气塞音
协同 发音
音轨方程
Keywords
un-aspirated stop
co-articulation
locus equat ion
分类号
H116
[语言文字—汉语]
题名 试析汉语方言入声韵的元音尾化
被引量:7
12
作者
栗华益
机构
安徽大学文学院
出处
《语文研究》
CSSCI
北大核心
2013年第1期44-54,共11页
基金
2012年度教育部人文社科研究青年基金项目"汉语方言入声韵尾边音化鼻音化研究"(项目编号:12YJC740056)
"安徽大学博士科研启动经费项目"(项目编号:02303319-0117)的资助
文摘
元音尾化是指入声韵在演变过程中因塞音韵尾与主元音之间的协同发音而增生了一个元音,这个元音最后替代塞音韵尾成为古入声韵的韵尾。文章考察了汉语方言入声韵的元音尾化现象,整理出了元音尾化不同阶段的类型,并分析了元音尾化的产生动因。
关键词
汉语方言
入声韵尾
元音尾化
协同 发音
语音演变
分类号
H17
[语言文字—汉语]
题名 论言语发音与感知的互动机制
被引量:6
13
作者
陈忠敏
机构
复旦大学
出处
《外国语》
CSSCI
北大核心
2019年第6期2-17,共16页
基金
国家社科基金重点项目“上海市方言地图集”(15AYY005).
文摘
语言交际是一个说者发出语流串,经媒介传入听者听觉器官,再由听者大脑神经中枢重新解码的过程。语言交际涉及说和听双方,本文从听与说两方面来深究人类语言交际的机制及其特点,通过讨论发音器官与听音器官频率声能互补、低频敏感度与元音格局、音类扩散分布与感知区别增强、量子理论与语音感知、说者协同发音与听者感知补偿等五方面内容,提出说与听有相互配合、同时也有相互制约的关系,同时说明一旦这种关系失衡,就会误解,可能导致音变。这一研究成果也将对人工智能、类脑研究有所启发。
关键词
语音发音
语音感知
量子理论
协同 发音
感知补偿
Keywords
speech production
speech perception
quantal theory of speech sound
co-articulation
perceptual compensation
分类号
H01
[语言文字—语言学]
题名 基于协同发音现象的一种汉语语音合成方法
被引量:1
14
作者
张钦
李辉
戴蓓倩
机构
中国科学技术大学电子科学与技术系
出处
《小型微型计算机系统》
CSCD
北大核心
2003年第6期1091-1094,共4页
基金
国家自然科学基金资助课题 ( 69872 0 3 6)资助
安徽省科学基金项目 ( 0 10 42 2 0 5 )资助
文摘
在目前汉语语音合成常用的波形编码合成方法中 ,通常是以单音节作为语音合成的声音基元 .但是由于合成时音节连接处往往不能很好的过渡 ,导致合成语音自然度不是很好 .本文针对这个问题通过对汉语中协同发音现象的研究 ,提出了一种新的合成声音基元选取策略 ,在单音节合成单元基础上增加了部分自然语音中的音节连接段作为合成单元 ,使用该策略结合 TD- PSOL A算法进行语音合成 。
关键词
汉语语音合成
协同 发音
TD—PSOLA算法
Keywords
mandarin speech synthesis
coarticulation
TD PSOLA
分类号
TN912.3
[电子电信—通信与信息系统]
题名 普通话四音节词和短语中声调协同发音模式
被引量:3
15
作者
林茂灿
颜景助
机构
中国社会科学院语言研究所
出处
《声学学报》
EI
CSCD
北大核心
1992年第6期456-467,共12页
基金
中国社会科学国家重点资助课题
文摘
本文研究用正常重音念的普通话四音节词和短语的声调协同发音问题。本实验看到,声调协同发音对各音节声调起点和终点所引起的F_0扰动,一般地说,要大于音节中这些点处不同元音内在F_0的差异。至于声调协同发音,本实验看到,一般地说,声调协同发音是单向的,而且顺向作用只影响其后接声调的起点,逆向作用只影响前接声调的终点;声调协同发音引起的F_0扰动具有一定模式。声调协同发音受词重音模式所制约。声调协同发音还跟念词和短语的速度有关。
关键词
声调
协同 发音
四音节词
语言声学
分类号
O429
[理学—声学]
题名 北京话姓氏的儿化现象
被引量:6
16
作者
江海燕
机构
首都师范大学文学院
出处
《中国语文》
CSSCI
北大核心
2010年第2期173-179,共7页
基金
北京市教委社科计划面上项目的资助(项目号为SM200910028007)
文摘
儿化是北京话中一种重要的语音现象,但姓氏儿化与否的规律问题一直存疑。本文基于问卷调查和访谈调查,得出北京话姓氏儿化与否有赖于语音规则及社会文化规则的制约:首先,儿化与否受姓氏音节韵腹或韵尾能否与儿化协同发音的规则制约,舌位靠后的音倾向于儿化,舌位靠前的音倾向于非儿化;其次,姓氏的儿化是在保持一定区别度的限度之内才被允许的;另外,姓氏的儿化与否同时受使用频率以及社会的、文化的、心理的规则制约;姓氏儿化在新北京话中有大大衰减的趋势;"儿"缀在姓氏中使用也受语境及谈话者双方关系的限制。
关键词
姓氏
儿化
协同 发音
区别度
衰减
Keywords
retroflex suffixation,surnames,retracted tongue
分类号
H17
[语言文字—汉语]
题名 协同发音和时域调节
被引量:3
17
作者
Patricia A.keating
曹剑芬
机构
中国社会科学院语言所
出处
《当代语言学》
CSSCI
1990年第4期48-,44,共2页
文摘
协同发音指的是与不同语音音段相联系的发音态势的相互交叠,推而广之,也指它的声学效应。由于协同发音的缘故,音段随着它们所处的环境而变化。因此,tea(茶)里的/t/可能是展唇的,而two(二)里的/t/则可能是比较圆唇的,它预示着后接元音的圆唇特性。同样,choose(选择)里的/u/由于前后辅音的影响要比 poof(呸)里的/u/的舌位靠前些;而 man(人)里的元音又不象 bad(坏)里的元音,它可以鼻化。协同发音这个术语是由P.
关键词
协同 发音
时域
音段
元音
发音 动作
声学效应
调节
语音结构
辅音
交叠
分类号
H0
[语言文字—语言学]
题名 文本-视觉语音合成综述
被引量:5
18
作者
王志明
陶建华
机构
北京科技大学计算机科学与技术系
中国科学院自动化研究所模式识别国家重点实验室
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第1期145-152,共8页
基金
北京科技大学校科研基金项目(20040509190)
中国科学院自动化研究所模式识别国家重点实验室开放课题基金项目
文摘
视觉信息对于理解语音的内容非常重要·不只是听力有障碍的人,普通人在交谈过程中也存在着一定程度的唇读,尤其是在语音质量受损的噪声环境下·正如文语转换系统可以使计算机像人一样讲话,文本-视觉语音合成系统可以使计算机模拟人类语音的双模态性,让计算机界面变得更为友好·回顾了文本-视觉语音合成的发展·文本驱动的视觉语音合成的实现方法可以分为两类:基于参数控制的方法和基于数据驱动的方法·详细介绍了参数控制类中的几个关键问题和数据驱动类中的几种不同实现方法,比较了这两类方法的优缺点及不同的适用环境·
关键词
文本-视觉语音合成(TTVS)
视位
协同 发音
人脸模型
人脸动画
Keywords
text-to-visual speech (TTVS)
viseme
co-articulation
face model
facial animation
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 试论“人-机对话”中的汉语语音学
被引量:5
19
作者
吴宗济
机构
中国社会科学院语言所
出处
《世界汉语教学》
CSSCI
1997年第4期4-21,共18页
关键词
普通话
协同 发音
实验语音学
汉语语音学
人机对话
元音
语言学
单音节
语音识别
语音合成
分类号
H11
[语言文字—汉语]
题名 普通话动态腭位研究
被引量:5
20
作者
鲍怀翘
郑玉玲
机构
中国社会科学院民族学与人类学研究所
出处
《南京师范大学文学院学报》
CSSCI
2011年第3期1-11,共11页
文摘
被誉为"实时地看语音"的动态腭位技术可以显示发音过程的舌-腭接触图像,因此被广泛地应用于辅音的发音部位和发音方法的研究,特别是在协同发音的研究中有更大的应用价值。为此,我们在2001年建立了一个规模较大的《普通话语音动态腭位数据库》,共含有2081个音节。我们采用接触面积比、接触指数(CA、CC、CP)和约束度(CD)等指数研究了普通话辅音发音的生理特点和双音节环境中协同发音的情况。研究显示:这套指数对描述辅音的发音部位和发音方法是十分有效的;普通话鼻韵尾的变化是有规律的;辅音声母在协同发音中的约束度也是可预测的。
关键词
动态腭位
辅音
接触指数
约束度
协同 发音
Keywords
Electropalatography ( EPG), Standard Chinese, consonant, contact index, constraint degree, coarticulation
分类号
H017
[语言文字—语言学]