人与无人机集群多模态智能交互方法被引量：4

Human-UAV swarm multi-modal intelligent interaction methods

导出

摘要针对人与无人机集群交互式协同感知问题,借助深度学习技术,构建了基于语音和手势双模型自主识别集群编队协同控制的交互框架,并提出了一种基于双通道切换的通道融合机制,从而实现多模态交互。使用百度云平台基于流式多级截断注意力(SMLTA)的语音识别模型,采用深度学习平台进行了自训练,在应用场景下的准确率由80.10%提升至97.98%。结合Kinect V2的深度信息与骨骼信息,构建与训练了基于特征融合的卷积神经网络(CNN)手势识别模型,平均精确率为98.33%,相较于传统决策树模型提升了1.16%,相较于传统CNN模型提升了0.33%。最后,在机器人操作系统(ROS)-Gazebo训练场景下进行了仿真验证和实物验证。实验结果表明:提出的交互框架能有效控制无人机集群进行编队,语音通道、手势通道和通道切换的指令执行成功率均达90%以上,且具有较高的交互效率。 For the problem of human-UAV swarm interactive collaborative perception,an interactive framework for collaborative control of swarm formation based on dual-model autonomous recognition of speech and gesture is constructed with the idea of deep learning.A channel fusion mechanism based on dual channel switching is proposed to realize multimodal interaction.The speech recognition model based on Streaming Multi-Layer Truncated Attention(SMLTA)provided by the Baidu cloud platform is used,and the deep learning platform is applied for self-training.The accuracy rate increases from 80.10%to 97.98%.Combining the depth information and bone information of Kinect V2,a Convolutional Neural Network(CNN)gesture recognition model based on feature fusion is constructed and trained.The average precision of the model is 98.33%,which is 1.16%higher than that of the decision tree model,and 0.33%higher than that of the traditional CNN model.Simulation and physical verification are carried out in the Robot Operating System(ROS)-Gazebo training scenario.The results show that the proposed interactive framework can effectively control UAV swarm formation,and the command execution success rate of the voice channel,gesture channel and channel switching can reach more than 90%,and has a higher interaction efficiency.

作者苏翎菲化永朝董希旺任章 SU Lingfei;HUA Yongzhao;DONG Xiwang;REN Zhang(School of Automation Science and Electrical Engineering,Beihang University,Beijing 100191,China;Institute of Artificial Intelligence,Beihang University,Beijing 100191,China)

机构地区北京航空航天大学自动化科学与电气工程学院北京航空航天大学人工智能研究院

出处《航空学报》 EI CAS CSCD 北大核心 2022年第S01期129-142,共14页 Acta Aeronautica et Astronautica Sinica

基金国防科工局基础预研项目(JCKY2019601C106)

关键词深度学习人机交互无人机集群语音识别手势识别 deep learning human-computer interaction UAV swarm speech recognition gesture recognition

分类号 V279 [航空宇航科学与技术—飞行器设计]

引文网络
相关文献

参考文献12

1黎亚雄,张坚强,潘登,胡惮.基于RNN-RBM语言模型的语音识别研究[J].计算机研究与发展,2014,51(9):1936-1944. 被引量：27
2周楠,艾剑良.基于HMM和RNN的无人机语音控制方案与仿真研究[J].系统仿真学报,2020,32(3):464-471. 被引量：12
3苏晓健..城市飞行无人机自主导航的通信及环境交互关键问题研究[D].深圳大学,2018:
4陶建华,杨明浩,王志良,班晓娟,解仑,汪云海,曾琼,王飞,王红迁,刘斌,韩志帅,潘航,陈文拯.无菌条件非接触式多通道自然交互手术环境[J].软件学报,2019,30(10):2986-3004. 被引量：4
5王崴,赵敏睿,高虹霓,朱帅,瞿珏.基于脑电和眼动信号的人机交互意图识别[J].航空学报,2021,42(2):286-296. 被引量：11
6张殊伟..基于多通道行为特征的一人双机操控技术研究[D].南京大学,2020:
7吴旭东,罗荣良,史庭蔚,陈云.基于百度人工智能的拍照切题系统设计[J].电脑知识与技术,2021,17(3):199-200. 被引量：3
8刘拴朋..基于图像特征和骨架特征融合的Kinect人体动作识别[D].沈阳航空航天大学,2016:
9许冰媛..基于视觉的手势识别算法研究[D].华南理工大学,2020:
10林清宇..基于Kinect的手势检测与追踪研究[D].南京邮电大学,2020:

二级参考文献37

1刘晓明,覃胜,刘宗行,江泽佳.语音端点检测的仿真研究[J].系统仿真学报,2005,17(8):1974-1976. 被引量：21
2Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model [J]. Journal of Machine Learning Research, 2003, 3(2): 1137-1155. 被引量：1
3Mikolov T, Kopecky J, Burger L, et al. Neural network based language models for highly inflective languages [C] // Proc of the 34th IEEE Int Conf on Acoustics, Speech and Signal. Piseataway, NJ: IEEE, 2009:4725-4728. 被引量：1
4Boulanger-Lewandowski N, Bengio Y, Vincent P. Modeling temporal dependencies in high-dimensional sequences Application to polyphonic music generation and transcription [C] //Proc of the 29th Int Conf on Machine Learning. New York: ACM, 2012:590-598. 被引量：1
5Bottou L. Stochastic gradient learning in neural networks [C] //Proc of Neuro Nimes 91, Nimes: EC2, 1991: 687-699. 被引量：1
6Bengio Y, Frasconi P, Simard P. The problem of learning long-term dependencies in recurrent networks [C] //Proc of IEEE Int Conf on Neural Networks. Piscataway, NJ: IEEE, 1993: 1183-1188. 被引量：1
7Xu W, Rundieky A. Can artificial neural networks learn language models? [C] //Proc of the 6th Int Conf on Spoken I,anguage Processing. Beijing, China: ISCA, 2000. 被引量：1
8Bengio Y, Simard P, Fraseoni P. Learning long-term dependencies with gradient descent is difficult [C]//Proe of IEEE Trans on Neural Networks. Piseataway, NJ: IEEE, 1994:157-166. 被引量：1
9Mikolov T, Kombrink S, Deoras A, el al. RNNLM- Recurrent neural network language modeling toolkit [C] // Proc of IEEE Workshop on Automatic Speech Recognition and Understanding. Piscataway, NJ: IEEE, 2011: 5528- 5531. 被引量：1
10何超,胡章芳,王艳.一种基于改进DTW算法的动态手势识别方法[J].数字通信,2013,40(3):21-25. 被引量：7

共引文献66

1周楠,艾剑良.基于HMM和RNN的无人机语音控制方案与仿真研究[J].系统仿真学报,2020,32(3):464-471. 被引量：12
2杨文帅.基于麦克风阵列的多说话人语音分离方法[J].武警工程大学学报,2018,34(6):15-19.
3陈蕾,赵霞,贾嫣,魏霖静.关于人的语音声调准确识别仿真[J].计算机仿真,2017,34(3):161-164. 被引量：2
4刘全,翟建伟,钟珊,章宗长,周倩,章鹏.一种基于视觉注意力机制的深度循环Q网络模型[J].计算机学报,2017,40(6):1353-1366. 被引量：20
5刘全,翟建伟,章宗长,钟珊,周倩,章鹏,徐进.深度强化学习综述[J].计算机学报,2018,41(1):1-27. 被引量：456
6过馨露.人工智能技术及其应用探究[J].软件导刊,2018,17(2):35-37. 被引量：4
7李志义,黄子风,许晓绵.基于表示学习的跨模态检索模型与特征抽取研究综述[J].情报学报,2018,37(4):422-435. 被引量：20
8徐萍,吴超,胡峰俊,吴凡,林建伟,刘静静.基于迁移学习的个性化循环神经网络语言模型[J].南京理工大学学报,2018,42(4):401-408. 被引量：6
9梁天新,杨小平,王良,韩镇远.基于强化学习的金融交易系统研究与发展[J].软件学报,2019,30(3):845-864. 被引量：13
10吴宏杰,戴大东,傅启明,陈建平,陆卫忠.强化学习与生成式对抗网络结合方法研究进展[J].计算机工程与应用,2019,55(10):36-44. 被引量：11

同被引文献52

1朱婧丽,金朝永,郭红萍.具有参考时变状态的多智能体的H_∞一致性[J].广东工业大学学报,2011,28(3):83-86. 被引量：1
2洪奕光,翟超.多智能体系统动态协调与分布式控制设计[J].控制理论与应用,2011,28(10):1506-1512. 被引量：40
3唐永鹤,陶华敏,卢焕章,胡谋法.一种基于Harris算子的快速图像匹配算法[J].武汉大学学报（信息科学版）,2012,37(4):406-409. 被引量：22
4辛斌,陈杰,彭志红.智能优化控制:概述与展望[J].自动化学报,2013,39(11):1831-1848. 被引量：78
5刘大学,殷广川,黄元浩.基于人机混合智能的无人平台设计[J].控制与信息技术,2018(6):27-31. 被引量：5
6颜骥,李相民,刘波.考虑时序约束的多智能体协同任务分配[J].控制与决策,2015,30(11):1999-2003. 被引量：12
7屈高敏,董彦非,岳源.对地攻击型无人机作战效能评估[J].火力与指挥控制,2016,41(4):145-149. 被引量：25
8崔波,王崴,瞿珏,王超.无人机地面站自适应人机功能分配机制探讨[J].飞航导弹,2016(4):52-54. 被引量：7
9陈亮.体系作战条件无人机作战效能评估模型[J].舰船电子工程,2016,36(7):124-127. 被引量：4
10张宝,丁敏,李燕杰.基于视觉感知强度的人机交互界面优化设计[J].中国机械工程,2016,27(16):2196-2202. 被引量：18

引证文献4

1钮建伟,安月琪,李晗,高炜峰,焉正权,董铭宇.军事领域中的人机协作研究综述[J].包装工程,2023,44(10):24-39.
2赵春晖,刘安萌,吕洋,潘泉.无人机韧性自主定位技术综述[J].航空学报,2024,45(8):1-23.
3任鸿儒,刘庆海,周琪,鲁仁全.无人自主系统分布式协同控制研究综述[J].广东工业大学学报,2024,41(4):1-13.
4段勇,刘铁.基于语言和视觉融合Transformer的指代图像分割[J].传感技术学报,2024,37(7):1193-1201.

1张强,王鹏.一种电源连接器的设计[J].中文科技期刊数据库（全文版）工程技术,2021(11):126-127.
2马华.面向智能增强的交互设计[J].信息记录材料,2023,24(1):171-174. 被引量：1
3刘书博,高应蓓.以实践智慧提升企业可持续发展能力[J].清华管理评论,2022(11):72-78.
4王政博,唐勇,刘辰淼,孙东来.基于Kinect V2的肢体动作识别方法设计与实现[J].河北水利电力学院学报,2023,33(1):12-18. 被引量：1
5贲晓东,李斌,高健飞.适用于高寒地区的轨道车辆单元式隔热车窗的研制[J].轨道交通装备与技术,2023(1):35-37.
6郑太峰.德驰结构中引入磁吹灭弧的可行性分析[J].中文科技期刊数据库（全文版）工程技术,2021(2):198-199.
7杨泞宁,王志坚.数字孪生驱动的滚动轴承虚实交互研究[J].组合机床与自动化加工技术,2023(2):160-163. 被引量：1
8李娟,李瑞雪,杨苑镭,罗丽,沈映泉,尹春林,朱梦梦.决策会议智能化管理系统的设计与应用[J].云南电力技术,2023,51(1):67-70. 被引量：1
9林良烽,汪勇芬,施文建,叶文文,苏彩晖.基于体感交互技术的康复训练对低视力儿童感觉统合的影响[J].保健医学研究与实践,2023,20(2):21-23.
10马奇,张奕,崔孟杰,王鑫鑫,刘婕妤,陈曼曼,马涛,陈力,董彦会,马军,星一.儿童青少年电子设备使用时长与体重过度感知的关联[J].中国学校卫生,2023,44(3):366-369.

航空学报

2022年第S01期

浏览历史

内容加载中请稍等...

人与无人机集群多模态智能交互方法被引量：4

参考文献12

二级参考文献37

共引文献66

同被引文献52

引证文献4

相关作者

相关机构

相关主题

浏览历史

人与无人机集群多模态智能交互方法 被引量：4

参考文献12

二级参考文献37

共引文献66

同被引文献52

引证文献4

相关作者

相关机构

相关主题

浏览历史

人与无人机集群多模态智能交互方法被引量：4