Environment-aware Dynamic Resource Allocation for VR Video Services in Vehicle Metaverse

1 作者信息

2 背景与挑战

车辆作为人们重要的出行工具之一,有机会成为虚拟世界的载体,从而提升车辆用户(vu)的驾驶体验和娱乐体验。在车载Metaverse中,vu可以通过头戴式显示器或挡风玻璃观看VR视频,VR视频被编码并缓存在基站的边缘服务器中。当VU请求VR视频业务时,如图1所示,边缘服务器首先对请求的视频块进行解码,然后提供计算资源渲染解码后的视频块。之后,渲染的VR视频块就可以通过通信链路传输到VU的VR视频缓冲区。

由于车辆的高速行驶,如何动态适应环境变化来分配传输和计算资源,使元宇宙中的车辆能够更好地在虚拟世界中体验VR服务成为一个挑战。 为了保证VU的QoE,每个VU的VR视频缓冲区应处于最佳状态。具体来说,当VR视频缓冲区不足时,可能会导致视频在播放过程中出现卡顿。而当VR视频缓冲区溢出时,会造成VR视频块丢失,浪费系统资源

3 贡献

1基于虚拟现实视频缓冲区为每个VU设计了QoE模型。 2设计了一种深度确定性策略梯度(DDPG)算法来优化分配通信和计算资源,以最大限度地提高vu的QoE。

4系统建模

A.网络模型 如图1所示,网络模型由一个基站和多个vu组成。 基站:基站配有边缘服务器,为虚拟单元提供虚拟世界服务,边缘服务器缓存了虚拟单元请求的所有VR视频。对于基站来说,它可以通过无线连接与其通信覆盖范围内的vu进行连接,完成VR视频业务的传输。 虚拟机:在本文中,虚拟机可以通过挡风玻璃、头戴式显示器等物理设备与基站连接,体验沉浸式VR视频服务。vu的集合定义为ν={1,…, v,…, V},其中每个VU v都有一个VR视频缓冲区,用于存储VR视频块。

B.通信模型 在网络中,每个VU在请求VR视频服务的过程中都是高速移动的,因此VU的通信环境也会随着VU的移动而变化。设gtv为时隙t中基站与VU之间的信道增益,可表示为

其中,h t v表示小尺度衰落因子,a t v表示大尺度衰落因子。本文只考虑车辆行驶过程中大尺度衰落因子的变化。大尺度衰落因子与VU与基站之间的距离有关 式中,d t v表示第t个时隙基站到VU的距离,δ表示路径损耗指数。则VU与基站的信噪比可表示为 式中,P为基站的发射功率,gtv为时隙t时VU与基站之间的信道增益,σ 2为噪声功率。为第t时隙基站与VU之间的发射信号强度。为基站与其他vu之间的传输信号强度。

根据式(3),基站与VU在时隙t的数据传输率可计算为 式中,β t v和B分别为基站分配的带宽资源和基站的总带宽资源。 则时隙t可传输的数据量可表示为 式中,∆t为时隙长度。

C.VR视频模型 本文的VR视频模型包括VR视频渲染模型和VR视频缓冲模型。 (1)VR视频渲染模型 如图1所示,VU请求的VR视频被编码并缓存到边缘服务器中。与传统视频流不同,VR视频服务需要将视频像素从观看球体映射到二维平面。这个过程也被称为渲染[11]。由于渲染过程需要大量的计算资源,视频渲染任务由连接基站的边缘服务器完成,VU只负责接收VR视频块。 VU请求VR视频业务时,边缘服务器先对编码后的视频块进行解码,然后提供视频块渲染服务。然后,渲染的VR视频块可以从基站传输到VU的视频缓冲区。设Ov表示VU请求的原始VR视频块的比特率大小。那么,解码视频块所花费的时间可以表示为 其中,s表示边缘服务器的解码速度。 解码完成后,基站边缘服务器提供计算资源渲染解码后的视频块。设m和n表示服务器的计算能力和一个CPU周期内可以处理的数据量。根据[12],在时间段t,服务器为VU呈现视频块所请求的数据量可以表示为 其中,x t v (x t v∈[0,1])表示服务器为渲染视频块分配的计算资源的比例,ω表示输出数据量与渲染时膨胀数据量的比例。 由式(7)可知,呈现视频块所需的时间为 式中,Lv为视频块的数据量。同样,传输视频块所需的时间可以表示为 根据式(6)、式(8)、式(9),我们可以得到将视频块传送到VU所需的总时间,如图所示 (2)VR视频缓冲模型 从VR视频渲染模型可以知道,VR视频业务包括计算渲染和无线传输两个过程。因此,每个时隙的数据传输量由计算渲染的数据量与无线传输的数据量[11]中较小的值决定,可以表示为 我们将视频缓冲区看作一个队列,其中基站将VR视频传输到VU的视频缓冲区是进入过程,VU播放视频缓冲区中的视频是离开过程。视频缓冲区的变化值与基站的渲染和传输能力以及VU的渲染和传输需求有关。因此,视频缓冲区的变化值可以定义为 其中y t v表示VU v的渲染和传输需求,我们有 其中,u t v表示渲染和传输的速率要求,即VR视频的播放速率。 VR视频缓冲队列在每个时隙中的状态与前一个时隙的缓冲状态以及当前时隙内的变化值有关。则VU的缓冲区长度可表示为 其中Bmax v为VU的VR视频缓冲区最大值,Bt v介于0到最大值之间,以保证VR视频不死机或VR视频缓冲区不溢出。

5 问题公式化

在本节中,我们制定了优化问题并设计了DDPG算法。我们的目标是优化边缘服务器的计算资源分配策略和基站的带宽分配策略,以最大限度地提高vu的QoE。

A.Problem Formulation 为了保证VU的QoE,既要避免视频缓冲区不足,又要防止视频缓冲区溢出。则车用户 v的QoE可以表示为 K是一个常数,设为0.01。函数I{·}表示如果{·}的条件为真,则输出为1,如果条件不为真,则输出为0。为了防止缓冲区短缺或溢出,我们将e1和e2设置为0.1和0.9。优化问题可以表示为 在上述问题中,约束(16a)表明,分配给所有vu的计算资源之和应小于服务器的计算资源总量,其中T为时隙集合。 约束(16b)表示基站分配给所有vu的带宽资源之和不能超过基站的总带宽资源。 约束(16c)表示渲染和传输延迟小于最大容忍延迟。

B.DDPG-based Resource Allocation Algorithm 为了解决上述问题,本文提出了一种基于DDPG的资源分配算法。其中资源分配包括计算资源和带宽资源,以最大限度地提高vu的QoE。 DDPG算法由动作网络、动作目标网络、评估网络和评估目标网络组成。动作网络根据当前状态空间选择动作,而动作目标网络根据在经验重放池中采样的下一个状态选择最优动作。评估网络评估和计算当前环境中动作的Q值,而评估目标网络根据从体验重放池中采样的下一个状态中采取的最优动作来计算Q值。我们采用随机梯度法训练并不断更新动作网络和评价网络的参数,动作目标网络和评价目标网络分别定时复制动作网络和评价网络的参数。

6 实验结果

6.1 实验配置

在这个模拟中,我们考虑一个VU在驾驶过程中向基站请求VR视频服务。 对于网络参数的设置,DDPG算法的参与者网络和关键网络都由三个完全连接的层组成,其中参与者网络和关键网络的隐藏层数分别为256层和30层。 前两层的激活函数为ReLU,输出层的激活函数为Sigmoid。算法一共训练了500轮,搜索率的初始值为1。仿真参数汇总如表1所示。

基于上述设置,我们首先验证了所提方案的收敛性。此外,我们通过改变VU的缓冲区大小来比较我们的方案与传统方案的性能。 本文采用的传统方案如下: •RAS (Random Allocation Scheme):边缘服务器在每个时隙随机分配带宽资源和计算资源。 •固定分配方案(Fixed Allocation Scheme, FAS):在此方案中,前三分之一的时隙被分配为中等水平的资源,中间三分之一的时隙分配的资源较多,最后三分之一的时隙分配的资源较少。

6.2 实验结果

2(a)描述了我们的算法通过改变VU的视频缓冲区大小的收敛性。从图中可以看出,随着VU视频缓冲区的增加,VU得到的奖励也随之增加。原因是视频缓冲区越大,VU存储的视频块越多,从而为VU提供更好的体验。此外,从图中可以看出,经过多次迭代,奖励逐渐趋于稳定。这表明本文提出的基于DDPG的资源分配策略能够达到收敛状态。然后,通过与传统方案的比较,验证了该方案的性能。 图2(b)显示了改变视频缓冲区大小的奖励。从图中可以看出,我们的方案可以确定边缘服务器的最优分配策略,从而为VU获得更高的奖励。这是因为我们的方案可以根据环境的变化动态选择资源分配策略,从而获得最高的回报。

文章来源

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: