期刊文献+
共找到84篇文章
< 1 2 5 >
每页显示 20 50 100
音频信息检索 被引量:10
1
作者 李恒峰 李国辉 《计算机工程》 CAS CSCD 北大核心 1999年第8期78-80,共3页
回顾了国内外现行的音频信息检索方法,分析了常见的音频数据处理技术,包括语音识别技术和基于内容的音频检索技术,提出了基于内容的音频检索的一般方法,并指出了相应研究中的关键问题。
关键词 音频 信息检索 语音识别 内容检索 多媒体
下载PDF
汉语母语者视听双通道言语知觉的特点及发展研究 被引量:7
2
作者 李燕芳 梅磊磊 董奇 《心理发展与教育》 CSSCI 北大核心 2008年第3期43-47,共5页
以30名小学二年级学生2、4名小学五年级学生和29名大学一年级学生为被试,运用McGurk效应研究范式对汉语母语者视听双通道言语知觉的表现特点、发展趋势等问题进行了探讨,三个年龄阶段被试均接受纯听和视听两种条件下的测查,被试的任务... 以30名小学二年级学生2、4名小学五年级学生和29名大学一年级学生为被试,运用McGurk效应研究范式对汉语母语者视听双通道言语知觉的表现特点、发展趋势等问题进行了探讨,三个年龄阶段被试均接受纯听和视听两种条件下的测查,被试的任务是出声报告自己听到的刺激。结果发现:(1)汉语为母语的二年级小学生、五年级小学生和大学生在自然听力环境下的单音节加工中都受到视觉线索的影响,表现出了McGurk效应;(2)二年级小学生、五年级小学生和大学生受视觉言语影响的程度,也就是McGurk效应的强度没有显著差异,没有表现出类似英语母语者的发展趋势。该结果支持了McGurk效应"普遍存在"的假说。 展开更多
关键词 McGurk效应 视听双通道言语知觉 视觉言语 听觉言语
下载PDF
音频处理技术进展 被引量:2
3
作者 张煦 《数字通信》 1995年第2期7-9,52,共4页
本文扼要介绍音频处理技术的进展,分三部分:(1)语音和音响压缩编码,包括电话话音,立体声音乐和光盘存储;(2)计算机的文本至语音合成;(3)计算机的自动语音识别。
关键词 语音压缩 语音合成 语音识别 音频处理
下载PDF
基于音频均衡器的语言清晰度测试声源设计
4
作者 张欢欢 洪小峰 +2 位作者 阚雪珍 吴郁夫 张静 《电子设计工程》 2024年第2期125-129,共5页
语言清晰度主要用于评价厅堂或者扩声系统的声音质量,为了实现对厅堂语言清晰度的自动测量,提高测量的效率,设计了一种用于语言清晰度测量的测试声源。该声源由控制器单元和扬声器单元两部分组成,控制器以MCU作为主控,内置经过调制的ST... 语言清晰度主要用于评价厅堂或者扩声系统的声音质量,为了实现对厅堂语言清晰度的自动测量,提高测量的效率,设计了一种用于语言清晰度测量的测试声源。该声源由控制器单元和扬声器单元两部分组成,控制器以MCU作为主控,内置经过调制的STIPA信号。声源经过测量放大器对声压级的校准之后,由MCU读取STIPA信号并通过音频均衡器算法做均衡处理,由功率放大电路驱动扬声器进行播放。经过均衡处理的扬声器,在100 Hz~10 kHz范围内,其播放声信号的频响平坦度可以达到±1 dB,满足厅堂或者扩声系统对声源语言清晰度测量的要求。利用该声源发出STIPA信号,STI分析仪测量STI指数,可以实现对厅堂或者扩声系统语言清晰度的测试。 展开更多
关键词 音频均衡器 语言清晰度 测试声源 频响 STIPA信号
下载PDF
噪声下学龄孤独症谱系障碍儿童视听双通道下语音理解能力特征研究
5
作者 郑力瑾 李凡 肖永涛 《中国医药科学》 2024年第10期4-7,55,共5页
目的 探究噪声下视听双通道学龄孤独症谱系障碍(ASD)儿童语音理解能力特征。方法 选取2023年3—7月在杭州复旦儿童医院、杭州合欣潜能发展中心、杭州启音康复中心等机构接受干预的、平均年龄为(7.00±1.11)岁的ASD儿童28例为观察组... 目的 探究噪声下视听双通道学龄孤独症谱系障碍(ASD)儿童语音理解能力特征。方法 选取2023年3—7月在杭州复旦儿童医院、杭州合欣潜能发展中心、杭州启音康复中心等机构接受干预的、平均年龄为(7.00±1.11)岁的ASD儿童28例为观察组,取同期于萧山湘湖小学就读的年龄、性别匹配的健康儿童29例为对照组。将录制好的包含5个噪声下视听条件的测试材料导入E-Prime3.0进行测试,并对反应时、反应率和正确率进行统计分析。结果 两组反应时在面部和口部条件下比较,差异有统计学意义(P <0.05),正确率在所有条件下比较,差异均有统计学意义(P <0.05),反应率在纯听条件下比较,差异有统计学意义(P <0.05)。观察组内面部、口部条件下的反应率和正确率与其他3个条件比较,差异有统计学意义(P <0.05),反应率在听+面部条件下与纯听条件比较,差异有统计学意义(P <0.05)。对照组内所有参数均在口部、面部条件下与其他3个条件比较,差异有统计学意义(P <0.05)。结论 学龄ASD儿童噪声下视听双通道语音理解能力存在缺陷,主要表现在对关键信息的提取能力、处理速度和稳定性上。面部信息对学龄ASD儿童的言语整合存在促进作用。 展开更多
关键词 孤独症谱系障碍 视听双通道 语音理解 学龄
下载PDF
音频信息检索综述 被引量:3
6
作者 王清亮 常青 薛向阳 《计算机科学》 CSCD 北大核心 2004年第6期59-63,共5页
随着多媒体和Internet技术的广泛应用和深入普及,多媒体数据的数量正在飞速增长,音频数据作为多媒体数据的重要组成部分,其信息量也在不断膨胀。如何有效的对音频信息进行检索成为现代信息检索的一个重要的研究领域。然而,音频数据同传... 随着多媒体和Internet技术的广泛应用和深入普及,多媒体数据的数量正在飞速增长,音频数据作为多媒体数据的重要组成部分,其信息量也在不断膨胀。如何有效的对音频信息进行检索成为现代信息检索的一个重要的研究领域。然而,音频数据同传统的文本数据不同,文本检索中的相关技术不能简单地应用到音频信息检索中,因为后者往往是基于语义的,所以不可避免地要用到音频数据的特征提取和模式匹配等技术。本文将对音频数据检索相关技术和系统做一综述性的介绍。 展开更多
关键词 音频信息检索 音频分类 语音识别 音乐检索 文本摘要 查询 匹配
下载PDF
AIGC在芒果TV有声剧自动化生产中的研究与应用 被引量:1
7
作者 骆迅 杨杰 +2 位作者 宋施恩 卢海波 张亦驰 《广播与电视技术》 2023年第11期17-21,共5页
本文基于AIGC技术,设计了一套有声剧自动生产系统。该系统能够对输入的视频和剧本进行分析,实现端到端的有声剧自动生产,可极大提升有声剧制作效率,降低人工成本,为无障碍电视的发展提供技术新思路。
关键词 生成式人工智能 有声剧 大模型 语音识别 点位追踪
下载PDF
基于语音识别的救援机器人听觉导航方法 被引量:5
8
作者 孙昊 刘作军 +1 位作者 杨鹏 董爱龙 《北京科技大学学报》 EI CAS CSCD 北大核心 2012年第1期71-75,共5页
在发生火灾或地震的建筑物内,由于烟雾或墙体倒塌等原因,救援机器人往往无法通过视觉、超声和红外等传感器直接发现建筑物内不可见区域或者其他房间中呼救的目标.利用声音信号波长较长可以衍射绕过障碍物传播的特性,结合现有的语音识别... 在发生火灾或地震的建筑物内,由于烟雾或墙体倒塌等原因,救援机器人往往无法通过视觉、超声和红外等传感器直接发现建筑物内不可见区域或者其他房间中呼救的目标.利用声音信号波长较长可以衍射绕过障碍物传播的特性,结合现有的语音识别技术,开发出基于听觉的救援机器人导航系统.该系统使机器人可以在全局运动控制中跟踪幸存者的呼救声并向幸存者移动.通过相关实验验证了基于听觉的救援机器人导航方法的可行性. 展开更多
关键词 救援机器人 听觉 语音识别 导航
原文传递
基于动态贝叶斯网络的音视频连续语音识别和音素切分 被引量:2
9
作者 吕国云 蒋冬梅 +5 位作者 蒋晓悦 赵荣椿 侯云舒 孙阿利 H.Sahli W.Verhelst 《计算机应用》 CSCD 北大核心 2007年第7期1670-1673,共4页
构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的... 构造了两个单流单音素的动态贝叶斯网络(DBN)模型,以实现基于音频和视频特征的连续语音识别,并在描述词和对应音素具体关系的基础上,实现对音素的时间切分。实验结果表明,在基于音频特征的识别率方面:在低信噪比(0~15dB)时,DBN模型的识别率比HMM模型平均高12.79%;而纯净语音下,基于DBN模型的音素时间切分结果和三音素HMM模型的切分结果很接近。对基于视频特征的语音识别,DBN模型的识别率比HMM识别率高2.47%。实验最后还分析了音视频数据音素时间切分的异步关系,为基于多流DBN模型的音视频连续语音识别和确定音频和视频的异步关系奠定了基础。 展开更多
关键词 动态贝叶斯网络 音视频 语音识别 音素切分
下载PDF
On‐device audio‐visual multi‐person wake word spotting
10
作者 Yidi Li Guoquan Wang +2 位作者 Zhan Chen Hao Tang Hong Liu 《CAAI Transactions on Intelligence Technology》 SCIE EI 2023年第4期1578-1589,共12页
Audio‐visual wake word spotting is a challenging multi‐modal task that exploits visual information of lip motion patterns to supplement acoustic speech to improve overall detection performance.However,most audio‐vi... Audio‐visual wake word spotting is a challenging multi‐modal task that exploits visual information of lip motion patterns to supplement acoustic speech to improve overall detection performance.However,most audio‐visual wake word spotting models are only suitable for simple single‐speaker scenarios and require high computational complexity.Further development is hindered by complex multi‐person scenarios and computational limitations in mobile environments.In this paper,a novel audio‐visual model is proposed for on‐device multi‐person wake word spotting.Firstly,an attention‐based audio‐visual voice activity detection module is presented,which generates an attention score matrix of audio and visual representations to derive active speaker representation.Secondly,the knowledge distillation method is introduced to transfer knowledge from the large model to the on‐device model to control the size of our model.Moreover,a new audio‐visual dataset,PKU‐KWS,is collected for sentence‐level multi‐person wake word spotting.Experimental results on the PKU‐KWS dataset show that this approach outperforms the previous state‐of‐the‐art methods. 展开更多
关键词 audio‐visual fusion human‐computer interfacing speech processing
下载PDF
一种小波域音频信息隐藏方法 被引量:1
11
作者 李倩 王让定 《宁波大学学报(理工版)》 CAS 2004年第3期319-323,共5页
提出了一种基于量化的小波域音频隐藏算法 ,将保密语音隐藏到载体音频中 .为提高隐藏量和保密语音传输的安全性 ,对保密语音进行了小波域压缩编码和m序列的扩频调制 ,生成待隐藏的比特序列 ;通过量化方法 ,将编码和调制后的保密语音隐... 提出了一种基于量化的小波域音频隐藏算法 ,将保密语音隐藏到载体音频中 .为提高隐藏量和保密语音传输的安全性 ,对保密语音进行了小波域压缩编码和m序列的扩频调制 ,生成待隐藏的比特序列 ;通过量化方法 ,将编码和调制后的保密语音隐藏到载体音频的小波系数中 ;保密语音的恢复过程不需要使用原始音频 .仿真结果表明 ,隐藏有保密语音的载体音频听觉质量没有明显下降 ,提取的保密语音感知质量较好 ;该算法对重量化、加噪、低通滤波等攻击均有良好的鲁棒性 . 展开更多
关键词 音频隐藏 保密语音 压缩编码 量化 小波变换
下载PDF
阈值自适应有声出版物语音自动分割算法 被引量:3
12
作者 张俊星 石立新 王都生 《计算机应用》 CSCD 北大核心 2010年第2期567-570,共4页
为完成有声出版物中的语音自动分割,建立了一种时间阈值自适应加相似度判决的系统分割模型。时间阈值的确定是系统设计中的一个难点,为此基于脚本中的先验知识提出了时间阈值自适应分割算法。为提高系统的抗干扰能力以增强其适用性,提... 为完成有声出版物中的语音自动分割,建立了一种时间阈值自适应加相似度判决的系统分割模型。时间阈值的确定是系统设计中的一个难点,为此基于脚本中的先验知识提出了时间阈值自适应分割算法。为提高系统的抗干扰能力以增强其适用性,提出了基于语音单元相似性进行结果验证的新方法。测试表明录音过程中不同语音单元间略作停顿时,机器分割率在95%以上,分割的正确率100%。 展开更多
关键词 有声出版物 语音分割 时间阈值自适应 相似性分析
下载PDF
Sensitivity of N400 Effect During Speech Comprehension Under the Uni-and Bi-Modality Conditions 被引量:1
13
作者 Yanfei Lin Zhiwen Liu Xiaorong Gao 《Tsinghua Science and Technology》 SCIE EI CAS CSCD 2022年第1期141-149,共9页
N400 is an objective electrophysiological index in semantic processing for brain.This study focuses on the sensitivity of N400 effect during speech comprehension under the uni-and bi-modality conditions.Varying the Si... N400 is an objective electrophysiological index in semantic processing for brain.This study focuses on the sensitivity of N400 effect during speech comprehension under the uni-and bi-modality conditions.Varying the Signal-to-Noise Ratio(SNR) of speech signal under the conditions of Audio-only(A),Visual-only(V,i.e.,lip-reading),and Audio-Visual(AV),the semantic priming paradigm is used to evoke N400 effect and measure the speech recognition rate.For the conditions A and high SNR AV,the N400 amplitudes in the central region are larger;for the conditions of V and low SNR AV,the N400 amplitudes in the left-frontal region are larger.The N400 amplitudes of frontal and central regions under the conditions of A,AV,and V are consistent with speech recognition rate of behavioral results.These results indicate that audio-cognition is better than visual-cognition at high SNR,and visual-cognition is better than audio-cognition at low SNR. 展开更多
关键词 audio-visual speech auditory noise audio-visual integration Signal-to-Noise Ratio(SNR)
原文传递
多媒体数据压缩编码标准研究 被引量:1
14
作者 王国权 马钦 周小红 《煤矿机械》 北大核心 2004年第2期74-77,共4页
介绍了静止图像、视听会议、活动图像、语音等多媒体数据压缩编码的主要国际标准,分析了各种标准的原理、算法、编码方法、关键技术、主要特点、现状及发展与应用情况,强调了标准化的重要性和意义。
关键词 多媒体 数据压缩 压缩标准 图像 视频 音频 语音
下载PDF
基于深度残差网络的语音隐写分析方法 被引量:2
15
作者 任奕茗 王让定 +1 位作者 严迪群 林昱臻 《计算机应用》 CSCD 北大核心 2021年第3期774-779,共6页
针对目前以WAV格式语音为载体的最低有效位(LSB)隐写方法的检测性能较低的问题,提出了一种基于深度残差网络的语音隐写分析方法。首先,通过多组高通滤波器组成的固定卷积层来计算输入语音信号的残差信号,并利用截断线性激活单元对得到... 针对目前以WAV格式语音为载体的最低有效位(LSB)隐写方法的检测性能较低的问题,提出了一种基于深度残差网络的语音隐写分析方法。首先,通过多组高通滤波器组成的固定卷积层来计算输入语音信号的残差信号,并利用截断线性激活单元对得到的残差信号进行截断操作;然后,通过卷积层与设计的残差块的堆叠来构建深度网络,以提取深层次的隐写特征数据;最后,利用全连接层与Softmax层组成的分类器输出最终的分类结果。实验结果表明,在Hide4PGP和LSBmatching两种隐写方法的不同密信嵌入率下,所提出模型的检测正确率都要优于现有的基于卷积神经网络(CNN)的隐写分析方法。对于0.1 bps嵌入率的Hide4PGP隐写方法,该隐写分析模型的检测正确率比Lin Net提高了近7个百分点。 展开更多
关键词 音频 语音 最低有效位 隐写分析 深度残差网络 深度学习
下载PDF
语音通信中语音帧丢失补偿算法的设计与实现
16
作者 胡毅 胡咏梅 柴乔林 《计算机工程与科学》 CSCD 2001年第3期32-34,共3页
本文主要介绍基于 G.72 3.1语音压缩的语音网络传输系统中 ,编码器以帧为处理单位对语音及其它音频信号进行处理时 。
关键词 音频传输 语音编码 语音通信 语音帧丢失补偿算法 设计
下载PDF
基于合成语音的计算安全隐写方法 被引量:1
17
作者 李梦涵 陈可江 +1 位作者 张卫明 俞能海 《网络与信息安全学报》 2022年第3期134-141,共8页
计算安全的隐写理论很早就被提出,但一直不能用于主流的以多媒体数据为载体的隐写术。原因在于计算安全隐写的前提是可以获得载体的精确分布或可以按照载体分布精确采样,而自然采集的图像、音/视频无法满足这个前提条件。近几年,随着深... 计算安全的隐写理论很早就被提出,但一直不能用于主流的以多媒体数据为载体的隐写术。原因在于计算安全隐写的前提是可以获得载体的精确分布或可以按照载体分布精确采样,而自然采集的图像、音/视频无法满足这个前提条件。近几年,随着深度学习的发展,多媒体生成技术逐渐成熟且在互联网上的应用越来越普遍,生成媒体成为合理的隐写载体,隐写者可以用正常的生成媒体掩盖秘密通信,即在媒体生成过程中隐写信息,并与正常的生成媒体不可区分。一些生成模型学到的分布是可知或可控的,这将为计算安全隐写推向实用提供契机。以当前广泛应用的合成语音模型为例,设计并实现了计算安全的对称密钥隐写算法,即在音频生成过程中,根据样本点的条件概率,按算术编码的译码过程将消息解压缩到合成音频中,消息接收方拥有相同的生成模型,通过复现音频合成过程完成消息提取。在该算法的基础上进一步设计了公钥隐写算法,为实现包括隐蔽密钥交换在内的全流程隐蔽通信提供了算法支撑,在保证隐写内容安全的同时,还可以实现隐写行为安全。理论分析显示,所提隐写算法的安全性由嵌入消息的随机性决定,隐写分析实验进一步验证了当前技术下攻击者无法区分合成的载体音频与载密音频。 展开更多
关键词 音频隐写 语音合成 生成模型 公钥隐写
下载PDF
Audiovestibular functioning of post-menopausal females with osteoporosis and osteopenia 被引量:1
18
作者 Manisha K.Juneja Sanjay Munjal +2 位作者 Anuradha Sharma Ashok K.Gupta Sanjay Bhadada 《Journal of Otology》 CSCD 2021年第1期27-33,共7页
Introduction:Osteoporosis and osteopenia are progressive disorders characterized by decreased bone mass,especially in postmenopausal women.These can be associated with body pain,fractures,hearing loss and balance diso... Introduction:Osteoporosis and osteopenia are progressive disorders characterized by decreased bone mass,especially in postmenopausal women.These can be associated with body pain,fractures,hearing loss and balance disorders.The present study aims to evaluate audio-vestibular function in postmenopausal patients with osteopenia or osteoporosis.Methods:The study included 48 postmenopausal women(new subjects)diagnosed with osteoporosis(n=23)or osteopenia(n=25)in the age range of 50e66 years,as well as 28 normal women as controls.Audiological testing included pure tone audiometry(conventional and extended high-frequency audiometry),speech audiometry,impedance audiometry and otoacoustic emissions,including both transient evoked otoacoustic emissions(TEOAEs)and distortion product otoacoustic emissions(DPOAEs).All subjects also underwent vestibular evoked myogenic potentials testing(both ocular and cervical VEMPs).Results:In the present study,hearing was worse at all frequencies in the osteoporosis group in comparison with the osteopenia and control groups,with worse speech recognition and discrimination scores and OAEs.Vestibular function was affected in 95.65%of women with osteoporosis and 76%of those with osteopenia.Conclusion:Osteoporosis and osteopenia are risk factors for vestibular dysfunction and hearing deficits in postmenopausal women.Thus,hearing and vestibular function should be monitored by audiological and vestibular testing periodically in these individuals. 展开更多
关键词 Hearing loss audio-vestibular testing Pure tone audiometry(PTA) OAE’S speech audiometry VEMP Sensorineural hearing
下载PDF
Filter algorithm based on cochlear mechanics and neuron filter mechanism and application on enhancement of audio signals 被引量:1
19
作者 GAO Wa KAN Yue ZHA Fu-sheng 《Journal of Central South University》 SCIE EI CAS CSCD 2021年第6期1813-1828,共16页
A filter algorithm based on cochlear mechanics and neuron filter mechanism is proposed from the view point of vibration.It helps to solve the problem that the non-linear amplification is rarely considered in studying ... A filter algorithm based on cochlear mechanics and neuron filter mechanism is proposed from the view point of vibration.It helps to solve the problem that the non-linear amplification is rarely considered in studying the auditory filters.A cochlear mechanical transduction model is built to illustrate the audio signals processing procedure in cochlea,and then the neuron filter mechanism is modeled to indirectly obtain the outputs with the cochlear properties of frequency tuning and non-linear amplification.The mathematic description of the proposed algorithm is derived by the two models.The parameter space,the parameter selection rules and the error correction of the proposed algorithm are discussed.The unit impulse responses in the time domain and the frequency domain are simulated and compared to probe into the characteristics of the proposed algorithm.Then a 24-channel filter bank is built based on the proposed algorithm and applied to the enhancements of the audio signals.The experiments and comparisons verify that,the proposed algorithm can effectively divide the audio signals into different frequencies,significantly enhance the high frequency parts,and provide positive impacts on the performance of speech enhancement in different noise environments,especially for the babble noise and the volvo noise. 展开更多
关键词 COCHLEA neuron filter audio signal processing speech enhancement
下载PDF
基于发音特征的音/视频双流语音识别模型 被引量:1
20
作者 宋培岩 蒋冬梅 王风娜 《计算机应用研究》 CSCD 北大核心 2009年第7期2481-2483,共3页
构建了一种基于发音特征的音/视频双流动态贝叶斯网络(dynamic Bayesian network,DBN)语音识别模型,定义了各节点的条件概率关系,以及发音特征之间的异步约束关系,最后在音/视频连接数字语音数据库上进行了语音识别实验,并与音频单流、... 构建了一种基于发音特征的音/视频双流动态贝叶斯网络(dynamic Bayesian network,DBN)语音识别模型,定义了各节点的条件概率关系,以及发音特征之间的异步约束关系,最后在音/视频连接数字语音数据库上进行了语音识别实验,并与音频单流、视频单流DBN模型比较了在不同信噪比情况下的识别效果。结果表明,在低信噪比情况下,基于发音特征的音/视频双流语音识别模型表现出最好的识别性能,而且随着噪声的增加,其识别率下降的趋势比较平缓,表明该模型对噪声具有很强的鲁棒性,更适用于低信噪比环境下的语音识别。 展开更多
关键词 动态贝叶斯网络 发音特征 音/视频 语音识别
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部