基于深度強化學習的認知物聯網資源分配的策略研究

摘　要：能量采集（Energy Harvesting，EH）和認知無線電（Cognitive Radio，CR）技術的組合可為物聯網設備提供持續的能量，并有效地提高物聯網系統的頻譜效率。然而，在襯底模式下的認知物聯網（Cognitive Radio IoT，CIoT）系統中，物聯網設備之間的無線通信常常遭受竊聽攻擊。針對存在多竊聽者條件下的 CIoT 系統無線通信場景，以保密速率作為系統保密性能指標。為解決所提的資源分配問題，將長短期記憶網絡（Long-Term Memory Network，LSTM）、生成對抗網絡（Generative Adversarial Networks，GAN）和深度強化學習（Deep Reinforcement Learning，DRL）算法相結合，設計一種聯合能量采集時間和傳輸功率分配方案。數值仿真表明，與其他基準算法相比，所提方法能夠有效地提高系統保密性能。

隨著無線通信技術的快速發展，物聯網正日益成為連接眾多智能設備的新范式。物聯網規模的擴大使得物聯網設備需要越來越多的頻譜資源以滿足日益增長的服務需求。然而，頻譜資源已成為制約物聯網未來發展的重要因素。認知無線電（Cognitive Radio，CR）允許次用戶在不對主用戶造成有害干擾的前提下去訪問主用戶的頻譜資源，從而滿足物聯網的頻譜需求。認知物聯網（Cognitive Radio IoT，CIoT）通過將認知無線電與物聯網相結合，已經成為物聯網設備高效利用頻譜資源的典型范式。

一般情況下，物聯網設備由容量有限的蓄電池供電，然而這很難維持 CIoT 網絡的長期運行。因此，為了延長 CIoT 網絡的壽命，將能源采集（Energy Harvesting，EH）技術應用于 CIoT網絡，能為物聯網設備提供可持續的能量。然而，EH-CIoT 網絡也面臨許多安全風險。由于無線信道的廣播特性，EH-CIoT 網絡中的無線信息傳輸，如從傳感器到控制器的上行鏈路通信或從控制器到執行器的下行鏈路通信很容易受到非法竊聽。作為傳統加密技術的有效補充方案，物理層安全（Physical Layer Security，PLS）利用無線介質的物理特性（如衰落、噪聲和干擾）來確保無線網絡在信息理論上的絕對安全，而不受竊聽者計算能力的影響。代表性的 PLS 技術包括人工噪聲、協作干擾和多天線傳輸。

近年來，針對 EH-CIoT 網絡 PLS 增強的研究層出不窮。文獻 [7] 研究了基于雙跳射頻能量的 CR 網絡 PLS 性能，在該系統中，中繼節點從次用戶發射的源信號中采集能量。該文通過考慮不同信道的衰落模型是否服從同一分布，推導出保密中斷概率的解析表達式。文獻 [8] 考慮了一個認知環境后向散射通信網絡，其中后向散射設備容易受到非法竊聽。該文推導了合法用戶、后向散射設備和竊聽者的保密中斷概率和截獲概率的解析表達式。

在前面所提文獻中，EH-CIoT 網絡 PLS 增強可歸結于對網絡資源（如發射功率）的優化。然而，現有的文獻大多采用傳統的資源分配方法來解決這些非凸優化問題，其求解效率低下且計算復雜度高。實際上，由于無線網絡環境的動態復雜性，傳統的資源分配方法無法達到預期的性能，因此需要一種更加智能的方法來提高 PLS 性能。

深度強化學習（Deep Reinforcement Learning，DRL）逐漸興起和發展。大量的文獻已經證實了通過 DRL 方法對無線網絡進行資源分配以提高系統性能的有效性。在文獻 [9] 中，作者提出了兩種基于深度確定性策略梯度的數據傳輸安全高效算法實現PLS下的數據傳輸。在文獻[10]中，作者研究了霧計算網絡中霧節點與終端用戶之間的無線通信，利用 Q-Learning 算法獲得動態環境下測試閾值的最優值。文獻 [11] 研究了基于移動邊緣計算的 CIoT 無線卸載安全問題，提出了視頻幀分辨率選擇、計算卸載和資源分配的聯合問題，通過一種 DRL 方案來保證安全性，同時降低能耗。

據我們所知，通過 DRL 方法優化 EH-CIoT系統資源進而增強 PLS 性能的文獻很少。雖然文獻 [9] 和 [11] 研究了基于 PLS 技術的安全通信，但他們沒有考慮在 CR 和 EH 技術下的通信過程，文獻 [10] 只是采用傳統的強化學習方法而不是 DRL方法，文獻 [11] 沒有考慮 EH 技術下的通信場景。因此針對上述問題，本文將 CR、EH 和 PLS 技術結合起來，研究存在多竊聽者條件下的 EH-CIoT系統的保密通信過程，并基于 DRL 的資源分配方法來解決所提優化問題。

１

系統模型

如圖 1 所示，EH-CIoT 系統模型包括一個主用戶網絡和一個次用戶網絡。主用戶網絡由一個主發射機（Primary Transmitter，PT）和一個主接收機（Primary Receiver，PR）組成，次用戶網絡由多個次發射機和一個次接收機組成。干擾器 J 和每個次發射機均配置了能量采集器和電池，可以從 PT 發射的射頻信號中采集能量并存儲。次發射機以襯底模式訪問主用戶的頻譜，并通過時分多址方式依次占用信道與次接收器 D 通信，J 則發出干擾信號干擾竊聽者

圖 1　EH-CIoT 網絡

到 D，PR 和的信道增益系數分別用表示；PT 到PR，D 和 J 的信道增益系數分別用表示；從 J 到和 D 的信道增益系數分別用表示。假設所有信道增益系數都是獨立的且服從均值為 0、方差為 1 的瑞利分布隨機變量，竊聽者在每個時間塊上的信道狀態信息對于次用戶網絡和 J 而言是完全可知的，J 產生的干擾信號可在 D處被消除，而在處無法被消除。

在第 n 個時間塊上，以表示 PT，和 J 的發射功率，以分別表示 PT，和 J 的發射信號，其中和是均值為 0、方差分別為的循環對稱復高斯隨機變量，其中PR，D 和接收到的信號分別為：

設總時間塊的長度為 T。每個時間塊考慮兩階段傳輸過程，即在 EH 階段采集射頻能量信號，在信息傳輸階段向 D 傳輸保密信息，故有：

式中：分別為能量采集時間、信息傳輸時間比例。在 EH 階段，PT 向 PR 發射射頻能量信號，則和 J 采集到的能量為：

式中：分別為和 J 的 EH 效率。和 J 的發射功率受最大傳輸功率約束，故有：

式中：分別為和 J 的最大發射功率。D，PR 和的信干噪比約束為：

式中：為相應的信干噪比閾值。和J 在第 n 個時間塊上傳輸所消耗的能量不能超過當前電池可用容量，故其相應的能量因果約束分別為：

式中：分別為和 J 在第 n 個時間塊開始時的可用電池容量；分別為和 J 的最大電池容量。

在信息傳輸階段，第 n 個時間塊上的保密速率為：

其中，到 D 的可達速率為：

到的竊聽速率為：

本文以保密速率作為系統性能指標，旨在對下列優化問題尋找最優的資源分配策略來優化安全性能。求系統保密速率最大化問題可表述為：

顯然上述問題為非凸優化問題，尋找其全局最優解比較困難，因此需要尋找一種有效的方案。

２

深度強化學習算法設計

2.1　深度強化學習框架設計

將第 n 個時間塊上的和 J 共同建模為一個智能體，共有 n 個智能體，EH-CIoT 網絡中的其他部分建模為環境，DRL 框架如圖 2 所示。智能體與環境的交互過程可建模為馬爾可夫決策過程 (S,A,R,P,γ)，其中 S 為狀態空間，A 為動作空間，R 為獎勵函數，P 為狀態轉移概率，γ∈ (0,1] 為獎勵折扣因子。在第t個時間步，基于當前環境狀態第 n ∈ N 個智能體獲得局部觀測然后根據策略執行動作智能體從環境中獲得獎勵當前狀態根據概率 P 轉移到下一個狀態

圖 2　深度強化學習框架

2.2　狀態空間設計

在多竊聽者環境下的認知物聯網中，環境狀態是當前時隙 t 下對物聯網場景的特征描述，狀態的選取必須為智能體的決策提供足夠的參考。具體而言，狀態可包括通信鏈路的信道增益系數、信干噪比、次用戶和干擾器的電池容量，智能體基于對環境狀態的判斷做出決策。因此在第 t 個時間步，第 n 個智能體的局部觀測為：

其中：

式中：的狀態變量個數分別為因此局部觀測的狀態變量個數為

環境狀態由所有智能體的局部觀測組成，故表達式為：

的狀態個數變量為 N(3N+(N+1)K+9)。

2.3　動作空間設計

在認知物聯網的資源分配場景中，需要在每個時隙對能量采集時間和發射功率進行優化，因此在深度強化學習中，選擇組合動作作為智能體 n 的一個動作。為了動作空間適用于本文算法，對連續變量的取值進行離散化操作，即基于式（12）將傳輸功率離散化為個功率層級：

基于式（13）將 EH 時間離散化為個時間層級：

故動作空間大小為

2.4　獎勵函數設計

在深度強化學習中，獎勵函數的好壞決定了系統的性能是否能夠收斂。在認知物聯網資源分配場景中，保密速率與認知物聯網系統的保密性能相關聯，的值越大，智能體收獲的獎勵也越大，這表明智能體探索到一個好的策略，系統的保密速率收斂越迅速，反之亦然。因此將作為獎勵的主體部分。除此之外，獎勵函數還包括信干噪比，用以引導智能體向信干噪比值高的方向探索策略。基于此，每個智能體的獎勵設計為：

其中：

2.5　GAN-DRQN 資源分配算法

為了更好地找到所提問題的最優解，本文提出了一種基于生成對抗網絡（Generative Adversarial Network，GAN）和長短時記憶（Long Short-Term Memory，LSTM）網絡的 DRL 算法網絡架構。在該網絡架構中，GAN 網絡用于克服隨機噪聲和時變信道對系統性能的負面影響，LSTM 網絡用于提取環境輸入特征。在經典強化學習中，在狀態 s 下基于策略 π 采取動作 a 所產生的價值由狀態 - 動作值函數表示：

在本文設計的GAN網絡模型中，生成器網絡 G輸出估計狀態- 動作值分布，目標生成器網絡輸出目標狀態 - 動作值分布，鑒別器網絡 D 則用于區分網絡產生的目標狀態 - 動作值與網絡 G 產生的估計狀態 - 動作值。

總體算法架構設計如圖 3 所示。生成器網絡 G 由 LSTM 層、嵌入層、公共層和輸出層組成。LSTM 層作為輸入層首先提取輸入樣本、噪聲樣本的特征；嵌入層由狀態處理、噪聲處理網絡組成，狀態和噪聲特征分別由這兩個網絡進一步處理，通過 Hadamard 乘積將兩個網絡的輸出融合成一個特征向量。特征向量經由公共層處理，最后輸出層則生成狀態 - 動作值。鑒別器網絡 D 由多個全連接層組成，輸出層只有一個神經元。在當前狀態 s 中采取動作 a 所得到的價值與在下一狀態 s' 中采取動作 a' 所得到的價值之間的關系可由 Bellman 期望方程描述：

圖 3　GAN-DRQN 算法網絡架構

以分別表示參數為 θ 的網絡 G 和參數為的目標網絡的狀態 - 動作值函數。DRL 通過不斷迭代式（16）來調整網絡參數 θ，使得從而找到最優策略最優參數可以通過最小化樣本的損失函數得到。具體地，智能體 n 首先從回放池 B 中隨機選取 m 個狀態轉移作為小批量訓練樣本，通過式（15）計算第 i 個樣本的目標狀態 - 動作值其中為噪聲。網絡D和G在第i 個狀態轉移上的損失函數分別為：

其中，

算法整個流程如算法 1 中所示。

３

實驗仿真及結果分析

在每個訓練回合，EH-CIoT 網絡中的每個節點隨機分布在一個邊長為 240 m 的正方形區域中。LSTM 層的 LSTM 單元數設為 5，每個單元由 128 個神經元組成；在嵌入層，狀態處理網絡和噪聲處理網絡中的神經元數量均為 64，64 和 128；公共層的神經元數量為 256，256；輸出層神經元數量為嵌入層和公共層采用 ReLUs 作為激活函數。主要的仿真參數如表 1 所示。

表 1　仿真參數

為了評估本文所提算法在提高系統保密性能方面的有效性，所提方法與以下基準方案進行了對比。

（1）DQN 算法。該方案不考慮 EH 過程，而通過 DQN 算法為和 J 分配發射功率。

（2）DRQN 算法。DRQN 采用 LSTM 網絡架構，但無 GAN 網絡架構，這有助于探索GAN 網絡對系統性能的影響。

（3）隨機資源分配算法。隨機算法用于在每個時間步為和 J 隨機選擇 EH 時間和發射功率。

圖 4 為訓練過程中 4 種算法下的保密速率隨訓練回合數變化情況。在圖 4 中，隨機算法的表現水平最差，DRQN 和 DQN 方案下的保密速率同時收斂到了不同層級的水平，本文所提方法與 DRQN 方案相比，盡管其在前 12 個訓練回合中性能略有落后，但在后期的訓練過程中性能優勢逐漸明顯并且將性能差距拉開，這表明本文方法在增強系統物理層安全性能方面是有效的。當超過 50 個訓練回合數時，DRQN 方案與所提方法相比存在 28% 的保密速率差。

圖 4　保密速率隨訓練回合數變化曲線

圖 5 和圖 6 分別對比了幾種算法下的保密速率隨最大傳輸功率的變化。在圖 5 的幾種算法中，隨著干擾器的最大傳輸功率的增加，本文所提方法的系統性能得到了最大限度的提升。在圖 6 中，本文所提方法能以較少的訓練回合數使系統性能最優，隨機方案由于其隨機行為而難以獲得顯著的性能提升，DQN 方案也因未采用 EH 技術而落后于所提方法，DRQN方案由于沒有 GAN 網絡而落后于本文所提方法。

圖 5　保密速率隨次發射機的最大傳輸功率變化曲線

圖 6　保密速率隨干擾器的最大傳輸功率變化曲線

圖 7 顯示了訓練過程中在不同折扣率 γ 下的獎勵的變化。不同的折扣率對系統性能的影響不同，因為折扣率 γ 越接近 1.0，智能體越關注 EH 階段和信息傳輸階段的平衡；相反，折扣率 γ 越小，智能體越專注于短期收益，最大化每回合的累積獎勵意味著要傳輸更多的保密信息，所以會盡可能地選擇傳輸更多的保密信息到目的節點處。因此，為了在能量采集和數據傳輸之間取得平衡，當 γ 設為 1.0 時，系統性能可達到最優。

圖 7　不同折扣率下的獎勵變化曲線

圖 8 分析了保密速率和竊聽者數之間的關系。從圖中可以看出，隨著竊聽者數的逐漸增加，保密速率不斷下降。其主要原因是，增加竊聽者數會使得竊聽信道質量優于保密信道質量的概率增大。DQN 方案受竊聽者數的影響較大，例如，存在 10 個竊聽者與存在 1 個竊聽者的情況相比，該方案下的保密速率大約下降了78%，而在本文所提方法下的保密速率下降了17%，本文所提方法在最大限度上保證了系統物理層的安全性能。

圖 8　保密速率隨竊聽者數變化曲線

４

結　語

本文研究了多竊聽者條件下的 EH-CIoT 系統安全傳輸過程，并提出了相應的聯合 EH 時間和傳輸功率優化問題。針對所提優化問題，本文提出了一種 LSTM、GAN 和 DRL 結合的資源分配方案，在所設計的算法網絡架構上，進一步設計了狀態空間、動作空間和獎勵函數。仿真結果表明，與基準方案相比，本文所提方法是一種通信效率高的方法，通過使智能體自適應地尋找最優的資源分配策略，最大化系統保密速率，最優化系統保密性能。在未來的工作中，將對 EH-CIoT 系統保密能效問題做進一步的研究。