面向公平性数据采集和能量补充的无人机路径规划算法研究

高思华, 李军辉, 李建伏, 刘宝煜

电子学报 ›› 2024, Vol. 52 ›› Issue (11) : 3699-3710.

PDF(1356 KB)
PDF(1356 KB)
电子学报 ›› 2024, Vol. 52 ›› Issue (11) : 3699-3710. DOI: 10.12263/DZXB.20230299
学术论文

面向公平性数据采集和能量补充的无人机路径规划算法研究

作者信息 +

Research on UAV Path Planning Algorithm for Fairness Data Collection and Energy Supplement

Author information +
文章历史 +

摘要

针对无人机(Unmanned Aerial Vehicle,UAV)辅助WSN(Wireless Sensor Networks)数据采集和能量补充工作中存在的数据来源单一和能量补充不均衡现象,本文首先提出数据采集和能量补充公平性问题并进行数学建模.其次,本文设计一种DPDQN(Double Parametrized Deep Q-Networks)强化学习算法,规划无人机的飞行路线和悬停位置,优化数据采集和能量补充效果.DPDQN学习离散动作与多种连续动作相混合的动作选择策略,算法网络模型包括离散动作网络和连续动作网络两部分.前者规划无人机访问数据采集节点的顺序,后者优化无人机在数据采集节点周围的悬停位置.仿真实验结果显示,本文算法在数据采集公平性、能量补充公平性、飞行距离和四种影响公平性的因素比较中均优于三种现有对比算法,并具有良好的鲁棒性和稳定性.

Abstract

UAV (Unmanned Aerial Vehicle)-assisted WSN (Wireless Sensor Networks) suffers from single-source data collection and uneven energy supplement. In this article, we first investigate and develop a mathematical model for the problem of fairness for data collection and energy supplement. Then, a novel deep reinforcement learning algorithm, named DPDQN (Double Parametrized Deep Q-Networks), is designed to resolve the proposed problem. The DPDQN algorithm incorporates a hybrid discrete-continuous action strategy, which consists of two components, namely, discrete action network and continuous action network. The former schedules the UAV's visiting order to sensors in WSN, and the latter optimizes the UAV’s hover position around each visited sensor. Numerical results demonstrate that the DPDQN algorithm outperforms three existing solutions in data collection fairness, energy replenishment fairness, flying distance, and four factors that influence fairness. Furthermore, the results validate our algorithm is robust and stable.

关键词

公平性数据采集和能量补充 / 无人机路径规划 / 深度强化学习 / 无线传感器网络

Key words

fairness data collection and energy supplement / unmanned aerial vehicle path planning / deep reinforcement learning / wireless sensor networks

引用本文

导出引用
高思华 , 李军辉 , 李建伏 , 刘宝煜. 面向公平性数据采集和能量补充的无人机路径规划算法研究[J]. 电子学报, 2024, 52(11): 3699-3710. https://doi.org/10.12263/DZXB.20230299
GAO Si-hua , LI Jun-hui , LI Jian-fu , LIU Bao-yu. Research on UAV Path Planning Algorithm for Fairness Data Collection and Energy Supplement[J]. Acta Electronica Sinica, 2024, 52(11): 3699-3710. https://doi.org/10.12263/DZXB.20230299

1 引言

无线传感器网络(Wireless Sensor Networks, WSN)1以其自组织性强、部署简单等特点,在国防军事、工业生产等方面得到广泛应用2~4.然而,复杂环境下WSN易出现“信息孤岛”5和“能量空洞”6,造成数据传递受阻,节点能量补充困难等问题.近些年,无人机(Unmanned Aerial Vehicle,UAV)凭借成本低、速度快、续航长等优势7~9,辅助WSN解决无线覆盖10、数据分发11和信息传播12等问题,扩展了WSN的应用场景和工作效果.
数据采集和能量补充是无人机辅助WSN工作中最基础、最重要的工作之一.文献[13]中,作者通过拉格朗日乘子法和几何方法选择数据采集目标并优化无人机悬停位置.该算法可有效补充传感器能量,但忽略传感器缓存区的数据量,造成无人机采集的数据量受限.文献[14]通过带宽分配策略增加无人机数据采集的并行性,但忽略了获得低带宽的传感器节点只能通过消耗额外能量提升数据上传功率的事实,影响后续采集任务的进行.文献[15]中,作者使用KKT(Karush Kuhn Tucker)条件分配采集和充能的时间,并通过动态规划方法指导无人机的飞行路线.该算法加快了无人机采集数据的进度,但无人机不能及时为低能量传感器节点进行能量补充,影响了无人机采集的数据量.文献[16]中,作者通过整数规划方法对数据采集和能量补充同时进行场景下的无人机最小飞行时间问题进行建模,并使用遗传算法求解.该方法缩短了无人机悬停时长,但无法平衡无人机悬停阶段用于数据采集和能量补充的时间,造成能量补充效果较差.文献[17]提出一种基于交替优化和黄金分割的线性搜索算法规划无人机飞行路线.该算法增加了被充能范围覆盖的节点数量,但每次悬停无人机只为节点补充部分已损失能量.文献[18]中,作者提出一种基于信誉值的无人机数据采集算法.该算法控制数据传输数量降低无人机群能耗,但通信质量较差的传感器节点因信誉值过低而失去上传数据的机会.
随着人工智能的发展,越来越多的学者将数据采集和能量补充问题抽象为序列决策问题,通过强化学习方法规划无人机的飞行路线.文献[19]中,作者将WSN区域栅格化,以飞行能耗和数据采集量作为奖励值,使用Q-learning算法指导无人机的数据采集路线.然而,受限于Q表的表示能力,无人机只能悬停在少数网格中心采集数据和提供能量补充服务.为求解更为复杂的路径规划问题,强化学习将自身的决策能力与深度学习的感知能力相结合,形成深度强化学习方法20.文献[21]中,作者通过DQN(Deep Q-learning Network)算法选择无人机的通信节点、通信方式以及飞行速度,减少通信中的丢包率.该算法增加通信质量,但无人机仅与飞行路线附近节点建立通信,忽略了距离较远通信质量较差的节点.文献[22]将无人机的飞行速度和方向离散化处理,通过DQN算法规划其飞行路线,旨在减小各传感器节点缓存区平均数据量和延长网络生命周期.该算法在小规模网络中表现较好,当WSN规模增加后,无人机仅往返于WSN中节点分布密集的区域.文献[23]中,作者使用TD3(Twin-delayed Deep Deterministic)算法优化无人机的飞行速度和飞行方向,最小化采集数据的AOI(Age Of Information).该算法增强了数据的时效性,但无人机会忽略距离基站较远且AOI较大的传感器节点.文献[24]研究发现无人机在数据采集节点通信范围内自由悬停能为更多节点补充能量.基于此想法,作者通过DDPG(Deep Deterministic Policy Gradient)算法指导无人机的飞行路线.该算法虽然增加被充能节点个数,但无法主动为低能量节点补充能量,造成WSN中能量分配不均衡.文献[25]中,作者提出一种强化学习算法MODDPG(Multi-Objective Deep Deterministic Policy Gradient)规划无人机的运动速度和方向.无人机在被采集节点通信范围内悬停,悬停时采集数据并为充能范围内的其他传感器补充能量.该算法令无人机在缓存区内数据较多的节点间飞行以增加数据采集量,但存在无人机飞行能耗增加和数据来源不丰富等问题.
从研究内容上看,现有成果主要以采集数据量和WSN中传感器节点能量补充效果为优化目标,忽略了数据来源的多样性、能量补充的均衡性,以及数据采集和能量补充的内在联系.从解决方法上看,现有的强化学习算法无法合理地规划无人机的飞行路线和悬停位置.Q-learning、DQN等离散动作输出型强化学习算法搜索空间不足,无人机的悬停位置被限制在WSN中某些特定区域.DDPG等连续动作输出型强化学习算法扩大了搜索空间,但无法很好地学习数据采集节点和能量补充节点选择策略.针对上述问题,本文的主要贡献如下:
(1)提出数据采集和能量补充公平性问题,并进行数学建模.采集数据量和数据来源多样性描述数据采集的公平性;能量补充的公平性则通过WSN获得的能量补充和WSN中传感器节点的能量分布共同决定.无人机需要在能量限制条件下规划飞行路线和悬停位置,最大化数据采集和能量补充的公平性.
(2)提出一种基于深度强化学习的DPDQN(Double Parametrized Deep Q-Networks)算法规划无人机的飞行路线和悬停位置.无人机飞行路线和悬停位置由一个离散变量和两个连续变量共同决定,DQN、DDPG等传统强化学习算法并不适用.DPDQN算法首次将PDQN(Parametrized Deep Q-Networks)26算法思想引入无人机辅助WSN数据采集和能量补充的工作中并加以改进,实现离散动作与多种连续动作相混合的智能体训练模式.在网络结构上,DPDQN与PDQN均由连续动作网络和离散动作网络组成.不同点在于DPDQN将连续动作网络扩展为双分支结构,共同决定了无人机悬停位置与数据采集节点位置的相对关系.同时,连续网络设计最小化无人机所有动作的动作-价值函数之和的倒数为损失函数,用于学习无人机悬停位置的选择策略.
本文结构如下:第一部分介绍无人机辅助无线传感器网络中数据采集和能量补充的研究现状与当前存在的问题;第二部分介绍系统模型,建模数据采集和能量补充公平性问题;第三部分详细介绍DPDQN算法;第四部分通过仿真实验对比DPDQN算法与其他算法在数据采集公平性、能量补充公平性、飞行距离以及其他影响公平性的指标方面的性能,并通过超参数分析实验验证了DPDQN算法的可行性和鲁棒性;最后,第五部分对全文进行总结.

2 系统模型和问题描述

2.1 传感器模型

本文假定在大小为 L×L的二维平面区域 A内随机部署 n个传感器 Q=q1,q2,,qn xqi,yqi为传感器节点 qi的坐标. qi装载最大容量为 Lmax的缓冲区用于存储数据,同时配备最大能量为 Jmax的可充电电池以保障正常工作. qi处于工作状态时,以固定速率 vqi感知数据,填充缓冲区直至容量上限. qi可通过配备的唯一天线与连通范围内处于悬停状态的无人机建立一条连通链路,用于将缓冲区数据传递给无人机,或从无人机获取能量补充.

2.2 无人机模型

当无人机处于巡航状态时,在固定高度 H,以恒定速度 V在WSN上方飞行,此时无法与传感器节点建立连通链路.处于悬停状态时,无人机选择连通范围内的单个传感器 qi为数据采集节点,与之建立唯一的数据上传链路,并以功率 Pd采集传感器 qi缓冲区内的所有数据;与此同时,无人机分别与连通范围内的其他所有传感器建立充能下行链路,并以功率 Pc为其补充能量至 Jmax.完成上述两种服务后,无人机断开所有链路,巡航至下一悬停位置.在第 k次悬停过程中,无人机与最大连通半径 D范围内的传感器建立链路,如公式(1)所示:
dik=xuk-xqi2+yuk-yqi2D
(1)
式中, xuk,yuk表示无人机的水平悬停位置, dik为传感器 qi与无人机的水平距离, D为无人机的水平最大连通半径. Qk表示处于无人机最大连通范围内的传感器节点集合, Q'k Qk中与无人机建立充能下行链路的传感器集合.无人机与传感器节点建立链路过程如图1所示.蓝色圆形区域为无人机水平连通范围,黄色虚线和绿色虚线分别表示数据上传链路和充能下行链路.无人机在第 k次悬停中与黄色节点 q1建立数据上传链路并采集数据.在同一时刻,无人机与绿色节点 q2 q3 q4同时建立充能下行链路并提供能量补充服务.因此,有 Qk=q1,q2,q3,q4 Q'k=q2,q3,q4.无人机悬停的时间 tuhk为数据上传时间 tudk和充能时间 tick中的较大者,如公式(2)所示:
tuhk=maxtudk,maxiQ'ktick
(2)
图1 数据采集与充能

Full size|PPT slide

2.3 信道模型

信道功率增益决定数据和能量传输的速率和质量.本文信道模型与文献[25]类似,考虑了信道可视情况和通径损失.无人机在第 k次悬停过程中与传感器 qi建立视距信道的概率为
PiLoSk=11+aexp-bρik-a
(3)
式中, a b为视距信道LoS(Line of Sight)和非视距信道NLoS(Non Line of Sight)的环境依赖常数. ρik为传感器 qi与无人机之间的仰角.建立非视距信道概率为 PiNLoSk=1-PiLoSk.两种信道下的通径损失分别是:
PLik=ζdik2+H2-α,LoSμζdik2+H2-α,NLoS
(4)
式中, ζ为单位距离下的信道功率增益; α μ分别表示通径损失指数和非视距信道的额外衰减系数.综上所述,无人机在第 k次悬停过程中与传感器 qi建立的上行信道功率增益 gik和下行信道功率增益 hik
gikhik=PiLoSk+μPiNLoSkζdik2+H2-α
(5)
W σ分别表示信道的带宽和噪声功率,则 qi与无人机之间的数据传输速率 vuik计算方式如下:
vuik=Wlog21+Pdgik2σ2
(6)

2.4 能耗模型

2.4.1 传感器能耗模型

传感器能耗分为感知能耗和数据传输能耗.感知能耗与传感器节点的工作时间线性相关, Eisk表示无人机第 k-1次悬停结束至第 k次悬停结束时传感器 qi的感知能耗,计算方法如式(7)所示:
Eisk=ctufk,dikDctuhk+tufk,dik>D
(7)
其中, c为常数, tufk为无人机在第 k次悬停前最近一次飞行的时长,表示为
tufk=xuk-xuk-12+yuk-yuk-12V
(8)
Lik表示无人机第 k次悬停结束时传感器 qi缓冲区内的数据量:
Lik=0,qiQk-Q'kminLik-1+vqitufk,Lmax,qiQ'kminLik-1+vqitufk+tuhk,Lmax,其他
(9)
传感器节点的传输能耗与数据传递量和传输距离相关.令无人机在第 k次悬停过程中与传感器 qi建立数据上传链路,则上行链路保持时间 tudk
tudk=minLik-1+vqitufk,Lmaxvuik
(10)
所需能耗 Eidk计算如式(11)所示:
Eidk=minLik-1+vqitufk,Lmaxϵel+ϵampdik
(11)
其中, ϵel qi传输 1 bit数据所需最小能耗, ϵamp为传输能耗随距离增加的额外值.

2.4.2 无人机能耗模型

本文假设无人机的能耗仅发生在巡航、悬停、采集数据和提供能量补充四个过程中,其他忽略不计.无人机的初始能量为 Eu,飞行过程中的牵引功率为 PV 27.第 k次悬停前无人机最近一次飞行的能耗 Eufk计算如下:
Eufk=tufkPV
(12)
无人机悬停时的牵引功率为 P0,能耗计算式如下:
Euhk=tuhkP0
(13)
在第 k次悬停过程中,无人机维持上行链路的能耗 Eudk和维持下行链路的能耗 Euck计算式如下:
Eudk=Pdtudk
(14)
Euck=iQ'kPctick
(15)
k次悬停结束后,无人机的剩余能量 Euk计算式如下:
Euk=Eu-m=1kEufm+Euhm+Eudm+Eucm
(16)

2.5 能量补充模型

无人机在悬停过程中为连通范围内的所有能量补充节点同时提供服务,保障每个节点能量充至 Jmax.由于各链路的信道功率增益不同,无人机为各节点充能的功率存在差异.假设无人机在第 k次悬停过程中与传感器 qi建立充能下行链路, qi的充能功率为
Pick=hik2Pc
(17)
qi通过无人机补充的能量为 Eick=Jmax-Jik-1-Eisk,其中, Jik为无人机第 k次悬停结束时传感器节点 qi的剩余能量:
Jik=maxJik-1-Eisk-Eidk,0,qiQk-Q'kJmax,qiQ'kmaxJik-1-Eisk,0,其他
(18)
无人机与 qi之间的下行链路保持时间 tick
tick=EickPick
(19)

2.6 数据采集和能量补充公平性问题

数据采集公平性考虑无人机数据采集总量和数据来源多样性两个因素.无人机采集数据量越大、来源越广泛,则数据采集公平性越高.因此,无人机在规划飞行路径时应尽量选择缓冲区内数据多且被采集次数少的传感器节点.令 K为无人机悬停的总次数, qi为无人机第 k次悬停时的数据采集节点,该节点已上传 mik次数据.数据采集公平性 Fdata计算方法如下:
Fdata=k=1KLikmik+1,iQk-Q'k
(20)
能量补充公平性考虑无人机的补充能量和获得能量补充的传感器节点数量两个因素.无人机提供的能量越多,并且获得能量补充的传感器节点数量越多,则能量补充公平性越高,WSN中传感器节点的能量分布 NUMνk也更均衡.本文通过统计无人机第 k次悬停后WSN中剩余能量大于 νJmax的传感器节点数量来表示 NUMνk,计算方法如下:
NUMνk=COUNTνJmaxJik,i1,2,,n,ν0,1
(21)
因此,无人机在悬停时应尽量选择能够服务更多传感器节点,满足更大能量补充需求的位置.能量补充公平性 Fcharge表示如下:
Fcharge=k=1KiQ'kEickNUMνk
(22)
飞行路线和悬停位置的选择直接影响无人机的数据采集和能量补充公平性.合理的飞行路线减少无人机飞行能耗,将更多能量用于数据采集和能量补充.合理的悬停位置兼顾无人机采集数据和传感器节点补充能量,使无人机采集更多数据的同时,延长网络内传感器节点的工作时间,提升传递数据能力.综上所述,本文目标是在能量约束下规划无人机飞行路线和悬停位置,最大化数据采集和能量补充的公平性,具体描述为
maxFdata,Fcharge
(23)
s.t.C1:Euk0C2:K1C3:0NUMνknC4:mik0,k,i1,2,,nC5:Jik0,Jmax,i1,2,,nC6:Lik0,Lmax,i1,2,,n
(24)
约束条件式(24)中, C1保证无人机的能量消耗不高于初始能量; C2为无人机的悬停次数限制; C3表示满足剩余能量在某一阈值之上的传感器数量不大于WSN中传感器个数; C4表示任意传感器节点上传数据次数不大于无人机的悬停次数; C5 C6表示任意传感器缓存区中的数据量和剩余能量均不溢出.

3 基于DPDQN的路径规划算法

3.1 环境建模

3.1.1 状态

sk为无人机第 k次悬停开始前的环境状态,由无人机信息和WSN的信息组成.无人机信息包括位置 xuk-1,yuk-1和自身剩余能量 Euk-1;WSN信息包括网络中所有传感器节点的状态.任一传感器节点 qi的状态描述为位置 xqi,yqi、剩余能量 Jik-1、上传数据次数 mik-1和数据缓存量 Lik-1.状态集 S包括无人机所有悬停开始前的环境状态,表示如下:
S=sk|sk=xuk-1,yuk-1,xqi,yqi,Lik-1,          mik-1,Jik-1,Euk-1,i1,2,,n
(25)

3.1.2 动作

动作 ak由离散动作和连续动作混合而成,表示无人机的悬停位置.离散动作 i表示数据采集节点 qi,并将无人机悬停位置限制在以 qi为圆心,半径为 D的圆形区域内.连续动作 δik,θik表示无人机与 qi的相对位置关系. δik为无人机第 k次悬停位置与 qi的水平距离, θik为无人机悬停位置的水平投影与 qi位置连线的方位角,如图2所示.无人机的动作空间 A式(26)所示:
A=ak|ak=i,δik,θik,i1,2,,n,δik0,D,θik0,2π
(26)
图2 无人机动作表示

Full size|PPT slide

3.1.3 奖励

无人机第 k次悬停得到的奖励 rk包括公平性数据采集奖励 rdk、公平性能量补充奖励 rck和能耗代价 rek. rdk对应无人机在传感器节点 qi采集数据的公平性,计算方法如下:
rdk=Likmik+1
(27)
rck对应 qi周围节点补充能量的公平性,计算方法如下:
rck=iQ'kEickNUMνk
(28)
式中, rek为无人机进行公平性数据采集和能量补充的飞行能耗代价 Eufk.综上所述, rk鼓励无人机飞行较少距离,完成更多公平性数据采集和能量补充,计算方法如下:
rk=rdk+rck-rek
(29)

3.2 DPDQN算法

3.2.1 网络结构

DPDQN由连续动作网络 ψsk;ω和离散动作网络 χsk,ψsk;ω;ϕ两部分组成.与传统的PDQN不同,DPDQN中 ψsk;ω采用双分支结构,两个分支共享两层全连接层提取的状态信息,分别输出长度为 n的序列 δk θk. ψsk;ω=δk,θk记录各候选悬停点与对应传感器节点的相对位置关系.状态信息 sk ψsk;ω的拼接结果 sk,ψsk;ω作为离散网络的输入. χsk,ψsk;ω;ϕ由两层全连接层组成,选择数据采集节点 qi,并结合 ψsk;ω输出无人机的混合动作 ak=i,ψisk;ω.其中, ψisk;ω=δik,θik.DPDQN的网络结构如图3所示.
图3 DPDQN网络结构

Full size|PPT slide

3.2.2 算法执行流程

状态 sk输入DPDQN网络后,离散网络计算所有动作的动作价值 Qsk,i,ψisk;ω;ϕ,并根据 ξ- greedy行为策略选择动作 ak
ak=argmaxi1,2,,nQsk,i,ψisk;ω;ϕ,以概ξ均匀抽取A中一个动,以概1-ξ
(30)
无人机执行动作 ak后,得到环境反馈的奖励 rk并进入下一个状态 sk+1.与DQN和PDQN类似,DPDQN算法收集轨迹 sk,ak,rk,sk+1加入经验池(memory pool),通过经验回放(experience replay)技术加快训练速度;与此同时,DPDQN算法创建目标连续网络 ψ'sk;ω'和目标离散网络 (χ'sk,ψ'sk;ω';ϕ'缓解训练出现的高估问题.训练流程如图4所示.
图4 DPDQN训练流程

Full size|PPT slide

在训练过程中,DPDQN算法随机选取适量批次的经验,通过最小化损失函数值训练网络.离散网络的损失函数 lkχϕ设计如下:
lkχϕ=12Qsk,i,ψisk;ω;ϕ-yk2
(31)
yk=rk+γmaxi1,2,,nQsk+1,i,ψisk+1;ω';ϕ'
(32)
连续网络的训练目的是在无人机确定数据采集节点的前提下,优化悬停位置获得更多的奖励.在离散网络参数和状态输入固定时,若所有动作的动作-价值函数之和 i=1nQsk,i,ψisk;ω;ϕ提升,则表明无人机悬停位置得到了优化.因此,DPDQN连续网络损失函数设计如下:
lkψω=1i=1nQsk,i,ψisk;ω;ϕ
(33)
DPDQN算法使用梯度下降方法按学习率 η对网络参数进行更新,并每隔一定步数使用软拷贝的方式更新目标网络参数,软拷贝参数为 τ.
DPDQN算法伪代码如算法1所示.

算法1 DPDQN算法

Input: UAV’s energy E, training episodes EP, a probability distribution ξ, minibatch size U, learning rate η, and soft target update parameters τ.

Initialize network weights: ω, ω', ϕ and ϕ'.

1: FOR i = 0 to EP DO

2:    Eu=E.

3:   WHILE Eu>0 DO

4:     Compute continuous action ψisk;ω.

5:     Select action ak=i,ψisk;ω according to the

6:      ξ- greedy policy.

7:     Take action ak, observe reward rk and the

8:     next state sk+1.

9:     Store transition sk,ak,rk,sk+1 into Memory pool.

10:    Simple U transitions su,au,ru,su+1uU randomly

11:    from Memory pool.

12:    Define the target yu by yu=

13:    ru,                                           if su+1 is the terminal state,ru+γmaxi1,2,,nQsu+1,i,ψisu+1;ω';ϕ',otherwise.

14:    Use data yu,su,auuU to compute the stochastic

15:    gradient ωlkψω and  ϕlkχϕ.

16:    Update the weights by ω=ω-ηωlkψω and

17:     ϕ=ϕ-η ϕlkχϕ.

18:     Eu=Eu-Eufk+Euhk+Eudk+Euck.

19:   END

20:   Update the target networks by ω'=τω+1-τω' and

21:    ϕ'=τϕ+1-τϕ'.

22: END

4 仿真实验

4.1 仿真环境

本节通过仿真实验就算法收敛性、数据采集公平性、能量补充公平性、无人机飞行距离以及影响公平性的指标,将DPDQN算法与MODDPG算法25、DQN算法和具有较强公平性的随机算法(Random)进行对比.本文在正方形区域 A200×200,300×300,400×400 m2中部署传感器节点数量为 n50 100,150 200.无人机从 A的中心起飞,进行数据采集和能量补充工作.仿真实验涉及的参数参照文献[13]和文献[15],如表1所示.
表1 仿真参数
参数 取值 参数 取值
传感器数据缓存区大小 Lmax 10 KB 无人机初始能量 E 105 J
传感器初始能量 Jmax 10 J 带宽 W 1 MHz
传感器感知能耗系数 c 0.001 信道功率 Pc, Pd 40 dBm, -20 dBm
传感器传输 1 bit最小能耗 ϵel 50 nJ/bit LoS和NLoS依赖常数 a, b 10, 0.6
随传输距离增加的额外能耗 ϵamp 0.1 nJ/ bitm2 噪声功率 σ2 -90 dBm
无人机飞行高度 H 10 m 单位信道功率增益 ζ -30 dB
无人机飞行速度 V 15 m/s 通径损失指数 α 2.3
无人机最大连通半径 D 30 m 非视距信道额外衰减系数 μ 0.2
DPDQN的网络框架使用tensorflow2.0搭建.连续动作网络中两层共享全连接层神经元个数分别为256和128,激活函数为ReLU.两个分支输出层神经元个数为 n.离散动作网络两个隐藏层中神经元个数分别为256和128,输出层神经元个数为 n.DPDQN网络涉及的参数如表2所示.
表2 网络参数
参数 取值 参数 取值
训练轮数 EP 5 000 学习率 η 10-4
探索率 ξ 0.9 奖励折扣因子 γ 0.9
批次大小 U 64 软拷贝参数 τ 0.001

4.2 收敛性验证

图5展示了DPDQN算法、MODDPG算法和DQN算法在5 000轮训练中获得的回合奖励.DPDQN算法在1 000轮左右收敛,无人机同时学习运动策略和悬停位置的选择策略,获得的累计奖励最高.DQN算法中无人机仅学习运动策略,导致获得的累计奖励低于DPDQN算法.相比于以上两种算法,MODDPG算法中无人机运动策略学习范围限于WSN中数据产生速率快的节点间,收敛速度明显加快.然而,该算法中无人机学习的运动策略对WSN的公平性服务不足,获得的奖励明显低于其他两种算法.
图5 DPDQN奖励收敛效果图

Full size|PPT slide

4.3 数据采集公平性对比实验

表3展示了四种算法的数据采集公平性,实验结果显示各算法的数据采集公平性均与网络规模成正比,与区域范围成反比,且各算法的差异随问题规模的增加逐渐显现.DPDQN算法能够指导无人机悬停在兼顾数据采集总量和数据来源广泛性的位置,数据采集公平性在各场景下均优于其他三种算法.MODDPG算法中无人机数据采集的范围仅限于感知数据速率高的传感器节点,其他传感器节点的数据很少被采集.DQN算法通过平衡各节点的采集次数来增加数据采集的公平性,但受限于能量补充的考虑,无人机可能选择通信半径内数据量较少的节点作为采集对象,影响了数据采集的公平性.Random算法虽然解决了采集数据范围较小的问题,但忽略采集的数据量和能量补充效果,影响无人机对网络中各节点的采集次数.
表3 数据采集公平性对比 ( ×103)
DPDQN MODDPG DQN Random
n L 200 300 400 200 300 400 200 300 400 200 300 400
50 181 159 117 177 143 89 156 135 108 153 107 99
100 261 208 158 193 130 121 189 130 109 202 146 114
150 252 209 180 191 149 116 231 156 120 230 181 97
200 260 223 180 227 214 146 218 170 138 252 185 112

4.4 能量补充公平性对比实验

表4展示了四种算法的能量补充公平性,实验结果显示各算法的能量补充公平性均与网络规模成正比,与区域范围成反比,且各算法的差异随问题规模的增加逐渐显现.DPDQN算法在各场景下均优于其他三种算法,该算法指导无人机的飞行路线,优先为能量较少的传感器节点补充能量.同时,DPDQN算法优化无人机的悬停位置,指导其为连通范围内较多数量的传感器节点补充能量.MODDPG算法获得的能量补充公平性低于其他三种算法,原因在于WSN中较少的节点频繁补充能量.DQN算法可优先为能量较少的节点提供服务,但无法通过调整悬停位置覆盖更多需要补充能量的节点.Random算法虽然均匀地为WSN中的传感器节点进行能量补充,但忽略了各节点剩余能量的差异,无法优先为能量较少的传感器节点补充能量.
表4 能量补充公平性对比 ( ×103)
DPDQN MODDPG DQN Random
n L 200 300 400 200 300 400 200 300 400 200 300 400
50 26 14 12 25 10 4 26 29 8 24 11 5
100 101 66 40 98 39 23 97 50 28 97 41 24
150 228 150 98 220 110 41 223 132 73 226 120 34
200 403 264 162 366 237 92 400 212 121 366 215 76

4.5 无人机飞行距离对比实验

表5展示了四种算法中无人机的飞行距离,实验结果显示DPDQN算法在各场景下的飞行距离均为最短.DPDQN算法通过优化节点访问次序和悬停位置,实现缩短无人机飞行距离的目的.MODDPG算法的飞行距离分别取决于数据感知速率较快节点的数量和相互间隔.DQN算法中无人机于上行信道质量最优的节点正上方悬停,悬停采集数据时间短,故飞行距离长.Random算法的飞行距离取决于节点间的平均距离.
表5 无人机飞行距离 ( km)
DPDQN MODDPG DQN Random
n L 200 300 400 200 300 400 200 300 400 200 300 400
50 7.625 8.621 9.142 8.612 8.846 9.514 9.408 9.878 9.941 8.865 9.121 9.698
100 7.598 8.464 8.951 8.560 8.762 9.325 9.324 9.564 9.917 8.856 9.105 9.610
150 7.445 8.448 8.901 8.487 8.635 9.245 9.322 9.504 9.863 8.625 8.986 9.458
200 7.169 8.347 8.785 8.336 8.601 9.021 9.235 9.463 9.745 8.602 8.712 9.254

4.6 影响数据采集公平性的指标对比实验

4.6.1 数据采集量

表6展示了四种算法的数据采集量,实验结果显示DPDQN算法在各场景下采集的数据量均优于其他三种算法.DPDQN算法中无人机的飞行距离短,使得更多能量可用于增加数据采集次数和均衡WSN中传感器节点的能量分布,两者均有助于增加无人机的数据采集量.MODDPG算法和Random算法均忽略飞行路线对数据采集量的影响,将更多的能量用于无人机的飞行.DQN算法中无人机为兼顾能量补充效果,会被迫选择通信半径内数据量较少的节点作为采集目标,影响数据采集量.
表6 数据采集量 ( KB)
DPDQN MODDPG DQN Random
n L 200 300 400 200 300 400 200 300 400 200 300 400
50 448.6 375.4 158.4 446.2 333.1 53.6 377.3 292.9 236.3 372.8 251.0 86.1
100 532.6 423.8 328.9 504.2 323.4 287.6 426.2 273.3 226.7 439.4 308.1 230.5
150 502.7 407.5 364.9 511.3 367.4 262.1 469.6 324.2 250.0 489.2 371.8 195.8
200 530.9 477.8 342.3 518.6 470.5 313.4 442.3 353.5 272.4 521.9 360.2 220.8

4.6.2 参与数据采集的传感器数量

表7展示了四种算法中参与数据传递的传感器数量.DPDQN算法在各场景下参与数据采集的传感器节点个数均优于另外三种算法,且在网络规模为50,区域范围不大于 300 m×300 m时,网络中所有节点均参与了数据采集.在MODDPG算法中,无人机仅对产生数据量大的传感器节点进行采集,忽略了网络中其他节点.DQN算法鼓励无人机从访问次数较少的传感器节点采集数据,以增加参与数据采集的节点数量.然而,该算法对网络中各节点的能量补充的不均衡导致部分节点生命周期较短,影响了参与数据采集的节点数量.Random算法虽然可公平地为网络中传感器节点补充能量,但随机的数据采集策略导致部分节点长时间无法获得数据传递机会.
表7 参与数据采集的传感器数量
DPDQN MODDPG DQN Random
n L 200 300 400 200 300 400 200 300 400 200 300 400
50 50 50 40 50 42 29 47 40 37 44 38 34
100 82 69 53 45 31 27 61 47 40 65 48 39
150 84 67 58 41 32 30 75 48 44 71 56 40
200 85 65 54 47 46 38 73 51 47 81 57 47

4.7 影响能量补充公平性的指标对比实验

4.7.1 能量补充量

表8展示了四种算法的能量补充量均与网络规模成正比,与区域范围成反比.DPDQN算法通过优化无人机的悬停位置,为更多剩余能量较低的传感器节点提供能量补充服务,能量补充效果在各场景下均优于其他三种算法.MODDPG算法的能量补充量与其他三种算法的差距随网络规模的增加逐渐变大.该算法中能够获得能量补充的传感器节点数量有限,且能量补充频率较高导致此类节点每次补充的能量较少.DQN算法指导无人机悬停在数据采集节点正上方,导致获得补充能量的节点仅限数据节点周围,影响了网络中其他节点的能量补充.Random算法均匀地为网络中的传感器节点补充能量,但无人机悬停位置无法根据待充能传感器节点的分布和剩余能量动态调整.
表8 能量补充量 ( J)
DPDQN MODDPG DQN Random
n L 200 300 400 200 300 400 200 300 400 200 300 400
50 526 335 300 517 268 142 534 345 221 498 285 201
100 1 019 742 521 990 501 349 990 592 374 990 555 359
150 1 527 1 105 829 1 507 891 413 1 501 1 041 653 1 527 939 358
200 2 022 1 456 1 032 1 849 1 360 701 2 017 1 298 859 1 869 1 270 585

4.7.2 WSN中传感器节点的能量分布

9~12分别展示了四种算法结束时满足能量阈值 υ0.2,0.4,0.6,0.8的传感器节点数量,实验结果显示各场景下DPDQN算法均优于其他三种算法.DPDQN算法中公平性能量补充的奖励函数结合充能量和传感器节点能量分布两个因素优化无人机的悬停位置,为更多传感器节点提供能量补充服务的同时,尽可能为能量较少的节点补充能量,使得各传感器节点的剩余能量分布更均衡.MODDPG算法中无人机频繁访问的传感器节点能够保持不低于80%能量,造成其他传感器节点逐渐因能量耗尽而无法感知和传递数据.DQN算法和Random算法的能量补充效果优于MODDPG算法,各传感器节点的剩余能量较为平均.
表9 WSN中传感器节点的能量分布 υ=0.2
DPDQN MODDPG DQN Random
n L 200 300 400 200 300 400 200 300 400 200 300 400
50 50 36 31 47 30 18 50 34 24 48 31 22
100 99 82 58 91 57 39 96 66 43 95 62 39
150 149 120 94 146 99 51 149 112 76 148 106 53
200 200 163 116 196 131 87 197 142 92 196 135 89
表10 WSN中传感器节点的能量分布 υ=0.4
DPDQN MODDPG DQN Random
n L 200 300 400 200 300 400 200 300 400 200 300 400
50 50 33 31 46 27 13 50 33 20 47 30 22
100 98 74 49 90 53 30 93 55 35 93 54 31
150 145 114 81 144 95 40 145 101 62 145 82 45
200 197 155 106 182 117 69 194 132 80 183 119 70
表11 WSN中传感器节点的能量分布 υ=0.6
DPDQN MODDPG DQN Random
n L 200 300 400 200 300 400 200 300 400 200 300 400
50 50 32 28 45 23 12 50 32 19 47 27 20
100 98 65 45 90 51 26 93 53 34 92 53 27
150 144 106 69 142 84 35 143 92 54 144 76 37
200 194 136 87 173 110 54 193 110 70 180 109 60
表12 WSN中传感器节点的能量分布 υ=0.8
DPDQN MODDPG DQN Random
n L 200 300 400 200 300 400 200 300 400 200 300 400
50 48 30 26 45 20 11 50 32 19 45 25 18
100 96 62 44 90 50 25 93 50 34 90 51 26
150 139 103 66 120 75 31 143 92 54 134 75 32
200 184 130 84 156 99 46 193 110 70 171 100 50

4.8 超参数分析

4.8.1 学习率

图6展示了网络规模为100,区域范围为 300  m×300  m的环境中,DPDQN算法在学习率 η1×10-2,1×10-3,1×10-4,1×10-5的奖励收敛情况.实验结果显示, η=1×10-2时,算法的奖励收敛值低,但收敛速度快; 1×10-5时,算法的奖励收敛值较高,但收敛速度较慢; η=1×10-3 η=1×10-4时,算法能在较短的时间收敛到较优解.
图6 不同学习率下的奖励收敛情况

Full size|PPT slide

4.8.2 奖励折扣因子

图7展示了网络规模为100,区域范围为 300  m×300  m的环境中,DPDQN算法在奖励折扣因子 γ0.99,0.9,0.8,0.7的奖励收敛情况.实验结果显示,DPDQN算法在以上几种折扣下均能以较快速度收敛.
图7 不同奖励折扣因子下的奖励收敛情况

Full size|PPT slide

4.8.3 软拷贝参数

图8展示了网络规模为100,区域范围为 300  m×300  m的环境中,DPDQN算法在软拷贝参数 τ1,1×10-1,1×10-2,1×10-3的奖励收敛情况.实验结果显示 τ=1×10-1 τ=1时,网络参数更新幅度过大,奖励波动剧烈; τ=1×10-2 τ=1×10-3时,奖励平稳收敛.
图8 不同软拷贝下的奖励收敛情况

Full size|PPT slide

5 结论

针对无人机辅助WSN中数据采集和能量补充公平性问题,本文提出一种DPDQN算法规划无人机的飞行路线和悬停位置,在能量约束下最大化数据采集和能量补充的公平性.公平性数据采集奖励、公平性能量补充奖励和能耗代价用于优化无人机的运动策略.仿真实验结果显示,DPDQN算法的数据采集公平性、能量补充公平性和飞行距离均优于MODDPG算法、DQN算法和Random算法.同时,本文从数据采集量、充能量、上传数据节点数量和节点剩余能量分布情况分析影响数据采集公平性和能量补充公平性的因素,DPDQN算法在以上4个指标的比较中均优于其他两种算法,有效保证了无人机采集数据和提供能量补充服务的公平性.最后,本文通过对比不同学习率、奖励折扣因子和软拷贝参数下的DPDQN收敛效果,进一步验证了算法的可行性和鲁棒性.

参考文献

1
AKYILDIZ I F, SU W, SANKARASUBRAMANIAM Y, et al. Wireless sensor networks: A survey[J]. Computer Networks, 2002, 38(4): 393-422.
2
RAWAT P, SINGH K D, CHAOUCHI H, et al. Wireless sensor networks: A survey on recent developments and potential synergies[J]. The Journal of Supercomputing, 2014, 68: 1-48.
3
LAI X, JI X, ZHOU X, et al. Energy efficient link-delay aware routing in wireless sensor networks[J]. IEEE Sensors Journal, 2017, 18(2): 837-848.
4
LI X, LI D, WAN J, et al. A review of industrial wireless networks in the context of Industry 4.0[J]. Wireless networks, 2017, 23: 23-41.
5
FANG Q, PAN J, CHEN Y, et al. Construction of the supply chain of live streaming e-commerce based on blockchain and internet of things[C]//2022 International Conference on Bigdata Blockchain and Economy Management (ICBBEM 2022). Dordrecht: Atlantis Press, 2022: 526-540.
6
LI J, HAN Q, WANG W. Characteristics analysis and suppression strategy of energy hole in wireless sensor networks[J]. Ad Hoc Networks, 2022, 135: 102938.
7
CICEK C T, SHEN Z J M, GULTEKIN H, et al. 3-D dynamic UAV base station location problem[J]. INFORMS Journal on Computing, 2021, 33(3): 839-860.
8
BLISS M, MICHELUSI N. Adaptive scheduling and trajectory design for power-constrained wireless UAV relays[EB/OL]. (2023-02-05)[2023-04-02].
9
GUO H, LIU J. UAV-enhanced intelligent offloading for Internet of Things at the edge[J]. IEEE Transactions on Industrial Informatics, 2019, 16(4): 2737-2746.
10
YE Z, WANG K, CHEN Y, et al. Multi-UAV navigation for partially observable communication coverage by graph reinforcement learning[J]. IEEE Transactions on Mobile Computing, 2022.
11
WANG B, ZHANG R, CHEN C, et al. Graph-based file dispatching protocol with D2D-enhanced UAV-NOMA communications in large-scale networks[J]. IEEE Internet of Things Journal, 2020, 7(9): 8615-8630.
12
KUMAR S, RATHORE N K, PRAJAPATI M, et al. SF-GoeR: An emergency information dissemination routing in flying ad-hoc network to support healthcare monitoring[J]. Journal of Ambient Intelligence and Humanized Computing, 2023, 14(7): 9343-9353.
13
BAEK J, HAN S I, HAN Y. Optimal UAV route in wireless charging sensor networks[J]. IEEE Internet of Things Journal, 2019, 7(2): 1327-1335.
14
QIAN L P, ZHANG H, WANG Q, et al. Joint multi-domain resource allocation and trajectory optimization in UAV-assisted maritime IoT networks[J]. IEEE Internet of Things Journal, 2022, 10(1): 539-552.
15
HU H, XIONG K, QU G, et al. AoI-minimal trajectory planning and data collection in UAV-assisted wireless powered IoT networks[J]. IEEE Internet of Things Journal, 2020, 8(2): 1211-1223.
16
BENMAD I, DRIOUCH E, KARDOUCHI M. Data collection in UAV-assisted wireless sensor networks powered by harvested energy[C]//2021 IEEE 32nd Annual International Symposium on Personal, Indoor and Mobile Radio Communications (PIMRC). Piscataway: IEEE, 2021: 1351-1356.
17
LIU Y, XIONG K, LU Y, et al. UAV-aided wireless power transfer and data collection in Rician fading[J]. IEEE Journal on Selected Areas in Communications, 2021, 39(10): 3097-3113.
18
黄晓舸, 何勇, 陈前斌, 等. 无人机群辅助的数据采集能耗优化方法[J]. 电子与信息学报, 2023, 45(6): 2054-2062.
HUANG X G, HE Y, CHEN Q B, et al. Optimization method for energy consumption in data acquisition assisted by UAV swarms[J]. Journal of Electronics & Information Technology, 2023, 45(6): 2054-2062. (in Chinese)
19
FU S, TANG Y, WU Y, et al. Energy-efficient UAV-enabled data collection via wireless charging: A reinforcement learning approach[J]. IEEE Internet of Things Journal, 2021, 8(12): 10209-10219.
20
刘全, 翟建伟, 章宗长, 等. 深度强化学习综述[J]. 计算机学报, 2018, 41(1): 1-27.
LIU Q, ZHAI J W, ZHANG Z Z, et al. A survey on deep reinforcement learning[J].Chinese Journal of Computers, 2018, 41(1): 1-27. (in Chinese)
21
LI K, NI W, TOVAR E, et al. On-board deep Q-network for UAV-assisted online power transfer and data collection[J]. IEEE Transactions on Vehicular Technology, 2019, 68(12): 12215-12226.
22
ZHANG J, YU Y, WANG Z, et al. Trajectory planning of UAV in wireless powered IoT system based on deep reinforcement learning[C]//2020 IEEE/CIC International Conference on Communications in China (ICCC). Piscataway: IEEE, 2020: 645-650.
23
SUN M, XU X, QIN X, et al. AoI-energy-aware UAV-assisted data collection for IoT networks: A deep reinforcement learning method[J]. IEEE Internet of Things Journal, 2021, 8(24): 17275-17289.
24
ZHANG Z, XU C, LI Z, et al. Deep reinforcement learning for aerial data collection in hybrid-powered noma-iot networks[J]. IEEE Internet of Things Journal, 2022, 10(2): 1761-1774.
25
YU Y, TANG J, HUANG J, et al. Multi-objective optimization for UAV-assisted wireless powered IoT networks based on extended DDPG algorithm[J]. IEEE Transactions on Communications, 2021, 69(9): 6361-6374.
26
XIONG J, WANG Q, YANG Z, et al. Parametrized deep q-networks learning: Reinforcement learning with discrete-continuous hybrid action space[EB/OL]. (2018-10-10)[2023-04-02].
27
ZENG Y, XU J, ZHANG R. Energy minimization for wireless communication with rotary-wing UAV[J]. IEEE Transactions on Wireless Communications, 2019, 18(4): 2329-2345.

基金

国家自然科学基金(62173332)
中央高校基本科研业务费专项资金(3122019118)
PDF(1356 KB)

3157

Accesses

0

Citation

Detail

段落导航
相关文章

/