为解决全景视频传输中存在的视频卡顿多、用户体验质量(quality of experience,QoE)低等问题,研究当前主流的视点自适应传输方案,提出一种基于视点预测的码率自适应策略(VPBAS)。首先,构建了一种基于长短期记忆网络和全卷积网络的视点...为解决全景视频传输中存在的视频卡顿多、用户体验质量(quality of experience,QoE)低等问题,研究当前主流的视点自适应传输方案,提出一种基于视点预测的码率自适应策略(VPBAS)。首先,构建了一种基于长短期记忆网络和全卷积网络的视点预测模型,模型将视点数据和视频显著性信息进行特征融合,实现不同模态数据的相互补充和修正,提高视点预测的准确率;然后,客户端采用随机森林算法预测当前的可用带宽,并根据视点预测结果和可用带宽信息为视频分块选择码率;最后,客户端把选择的码率信息定期发送给服务器,服务器根据反馈的信息向客户端推送最佳码率的全景视频流,这种交互过程在视频播放期间不断地重复,直至客户端观看完毕。实验结果表明,与现有传输方案相比,VPBAS能有效提高带宽受限情况下的视频观看体验。展开更多
目的经典的人眼注视点预测模型通常采用跳跃连接的方式融合高、低层次特征,容易导致不同层级之间特征的重要性难以权衡,且没有考虑人眼在观察图像时偏向中心区域的问题。对此,本文提出一种融合注意力机制的图像特征提取方法,并利用高斯...目的经典的人眼注视点预测模型通常采用跳跃连接的方式融合高、低层次特征,容易导致不同层级之间特征的重要性难以权衡,且没有考虑人眼在观察图像时偏向中心区域的问题。对此,本文提出一种融合注意力机制的图像特征提取方法,并利用高斯学习模块对提取的特征进行优化,提高了人眼注视点预测的精度。方法提出一种新的基于多重注意力机制(multiple attention mechanism,MAM)的人眼注视点预测模型,综合利用3种不同的注意力机制,对添加空洞卷积的ResNet-50模型提取的特征信息分别在空间、通道和层级上进行加权。该网络主要由特征提取模块、多重注意力模块和高斯学习优化模块组成。其中,空洞卷积能够有效获取不同大小的感受野信息,保证特征图分辨率大小的不变性;多重注意力模块旨在自动优化获得的低层丰富的细节信息和高层的全局语义信息,并充分提取特征图通道和空间信息,防止过度依赖模型中的高层特征;高斯学习模块用来自动选择合适的高斯模糊核来模糊显著性图像,解决人眼观察图像时的中心偏置问题。结果在公开数据集SALICON(saliency in context)上的实验表明,提出的方法相较于同结构的SAM-Res(saliency attention modal)模型以及DINet(dilated inception network)模型在相对熵(Kullback-Leibler divergence,KLD)、sAUC(shuffled area under ROC curve)和信息增益(information gain,IG)评价标准上分别提高了33%、0.3%和6%;53%、0.5%和192%。结论实验结果表明,提出的人眼注视点预测模型能通过加权的方式分别提取空间、通道、层之间的特征,在多数人眼注视点预测指标上超过了主流模型。展开更多
目的激光雷达采集的室外场景点云数据规模庞大且包含丰富的空间结构细节信息,但是目前多数点云分割方法并不能很好地平衡结构细节信息的提取和计算量之间的关系。一些方法将点云变换到多视图或体素化网格等稠密表示形式进行处理,虽然极...目的激光雷达采集的室外场景点云数据规模庞大且包含丰富的空间结构细节信息,但是目前多数点云分割方法并不能很好地平衡结构细节信息的提取和计算量之间的关系。一些方法将点云变换到多视图或体素化网格等稠密表示形式进行处理,虽然极大地减少了计算量,但却忽略了由激光雷达成像特点以及点云变换引起的信息丢失和遮挡问题,导致分割性能降低,尤其是在小样本数据以及行人和骑行者等小物体场景中。针对投影过程中的空间细节信息丢失问题,根据人类观察机制提出了一种场景视点偏移方法,以改善三维(3D)激光雷达点云分割结果。方法利用球面投影将3D点云转换为2维(2D)球面正视图(spherical front view,SFV)。水平移动SFV的原始视点以生成多视点序列,解决点云变换引起的信息丢失和遮挡的问题。考虑到多视图序列中的冗余,利用卷积神经网络(convolutional neural networks,CNN)构建场景视点偏移预测模块来预测最佳场景视点偏移。结果添加场景视点偏移模块后,在小样本数据集中,行人和骑行者分割结果改善相对明显,行人和骑行者(不同偏移距离下)的交叉比相较于原方法最高提升6.5%和15.5%。添加场景视点偏移模块和偏移预测模块后,各类别的交叉比提高1.6%Institute)上与其他算法相比,行人和骑行者的分割结果取得了较大提升,其中行人交叉比最高提升9.1%。结论本文提出的结合人类观察机制和激光雷达点云成像特点的场景视点偏移与偏移预测方法易于适配不同的点云分割方法,使得点云分割结果更加准确。展开更多
传统的视频编码标准大多着重从减少信息冗余来提高率失真性能,而忽视了人类视觉系统(human visual system,HVS)多样性对视频编码的影响.针对目前先进的3D高效率视频编码(high efficiency video coding,HEVC)技术,提出了一种融合人眼视...传统的视频编码标准大多着重从减少信息冗余来提高率失真性能,而忽视了人类视觉系统(human visual system,HVS)多样性对视频编码的影响.针对目前先进的3D高效率视频编码(high efficiency video coding,HEVC)技术,提出了一种融合人眼视觉特性的编码方法.首先建立3D显著性模型,根据显著性信息进行分区域编码;然后对原有的视点合成预测算法进行改进,避免深度块的边界效应;最后绘制生成新视点的视频.实验结果证明,该方法在保证主观质量基本不变的情况下,BD-rate可下降10%左右,绘制生成的新视点峰值信噪比(peaksignal to noise ratio,PSNR)可提高0.1dB左右,能有效提高编码效率.展开更多
文摘为解决全景视频传输中存在的视频卡顿多、用户体验质量(quality of experience,QoE)低等问题,研究当前主流的视点自适应传输方案,提出一种基于视点预测的码率自适应策略(VPBAS)。首先,构建了一种基于长短期记忆网络和全卷积网络的视点预测模型,模型将视点数据和视频显著性信息进行特征融合,实现不同模态数据的相互补充和修正,提高视点预测的准确率;然后,客户端采用随机森林算法预测当前的可用带宽,并根据视点预测结果和可用带宽信息为视频分块选择码率;最后,客户端把选择的码率信息定期发送给服务器,服务器根据反馈的信息向客户端推送最佳码率的全景视频流,这种交互过程在视频播放期间不断地重复,直至客户端观看完毕。实验结果表明,与现有传输方案相比,VPBAS能有效提高带宽受限情况下的视频观看体验。
文摘目的经典的人眼注视点预测模型通常采用跳跃连接的方式融合高、低层次特征,容易导致不同层级之间特征的重要性难以权衡,且没有考虑人眼在观察图像时偏向中心区域的问题。对此,本文提出一种融合注意力机制的图像特征提取方法,并利用高斯学习模块对提取的特征进行优化,提高了人眼注视点预测的精度。方法提出一种新的基于多重注意力机制(multiple attention mechanism,MAM)的人眼注视点预测模型,综合利用3种不同的注意力机制,对添加空洞卷积的ResNet-50模型提取的特征信息分别在空间、通道和层级上进行加权。该网络主要由特征提取模块、多重注意力模块和高斯学习优化模块组成。其中,空洞卷积能够有效获取不同大小的感受野信息,保证特征图分辨率大小的不变性;多重注意力模块旨在自动优化获得的低层丰富的细节信息和高层的全局语义信息,并充分提取特征图通道和空间信息,防止过度依赖模型中的高层特征;高斯学习模块用来自动选择合适的高斯模糊核来模糊显著性图像,解决人眼观察图像时的中心偏置问题。结果在公开数据集SALICON(saliency in context)上的实验表明,提出的方法相较于同结构的SAM-Res(saliency attention modal)模型以及DINet(dilated inception network)模型在相对熵(Kullback-Leibler divergence,KLD)、sAUC(shuffled area under ROC curve)和信息增益(information gain,IG)评价标准上分别提高了33%、0.3%和6%;53%、0.5%和192%。结论实验结果表明,提出的人眼注视点预测模型能通过加权的方式分别提取空间、通道、层之间的特征,在多数人眼注视点预测指标上超过了主流模型。
文摘目的激光雷达采集的室外场景点云数据规模庞大且包含丰富的空间结构细节信息,但是目前多数点云分割方法并不能很好地平衡结构细节信息的提取和计算量之间的关系。一些方法将点云变换到多视图或体素化网格等稠密表示形式进行处理,虽然极大地减少了计算量,但却忽略了由激光雷达成像特点以及点云变换引起的信息丢失和遮挡问题,导致分割性能降低,尤其是在小样本数据以及行人和骑行者等小物体场景中。针对投影过程中的空间细节信息丢失问题,根据人类观察机制提出了一种场景视点偏移方法,以改善三维(3D)激光雷达点云分割结果。方法利用球面投影将3D点云转换为2维(2D)球面正视图(spherical front view,SFV)。水平移动SFV的原始视点以生成多视点序列,解决点云变换引起的信息丢失和遮挡的问题。考虑到多视图序列中的冗余,利用卷积神经网络(convolutional neural networks,CNN)构建场景视点偏移预测模块来预测最佳场景视点偏移。结果添加场景视点偏移模块后,在小样本数据集中,行人和骑行者分割结果改善相对明显,行人和骑行者(不同偏移距离下)的交叉比相较于原方法最高提升6.5%和15.5%。添加场景视点偏移模块和偏移预测模块后,各类别的交叉比提高1.6%Institute)上与其他算法相比,行人和骑行者的分割结果取得了较大提升,其中行人交叉比最高提升9.1%。结论本文提出的结合人类观察机制和激光雷达点云成像特点的场景视点偏移与偏移预测方法易于适配不同的点云分割方法,使得点云分割结果更加准确。
文摘传统的视频编码标准大多着重从减少信息冗余来提高率失真性能,而忽视了人类视觉系统(human visual system,HVS)多样性对视频编码的影响.针对目前先进的3D高效率视频编码(high efficiency video coding,HEVC)技术,提出了一种融合人眼视觉特性的编码方法.首先建立3D显著性模型,根据显著性信息进行分区域编码;然后对原有的视点合成预测算法进行改进,避免深度块的边界效应;最后绘制生成新视点的视频.实验结果证明,该方法在保证主观质量基本不变的情况下,BD-rate可下降10%左右,绘制生成的新视点峰值信噪比(peaksignal to noise ratio,PSNR)可提高0.1dB左右,能有效提高编码效率.