基于深度強化學習的智能網絡安全防護研究

摘要：

人工智能（Artificial Intelligence，AI）的快速發展為網絡空間安全對抗提供了新的思路和技術手段，然而 AI 在網絡安全領域的應用將加劇網絡攻防對抗的速度、烈度、復雜度。通過研究基于深度強化學習的網絡空間智能安全防護，探索了網絡空間安全防御智能化問題的解決方法和過程。此外使用深度學習提取網絡安全態勢數據特征，構建智能體，回報函數將網絡攻擊威脅度作為獎懲引導學習，強化學習判斷策略和動作好壞，通過在虛擬網絡空間綜合靶場訓練學習獲得安全防護智能體和最優安全防護策略。

內容目錄：

1　深度強化學習基礎理論

2　基于 DRL 的智能網絡安全防護

2.1　狀態集合設計

2.2 動作集合設計

2.3　回報函數設計

2.3.1　回報函數

2.3.2　基于動態貝葉斯的網絡攻擊威脅度評估

2.4 網絡安全防護智能體訓練過程

2013 年深度思考（DeepMind）公司開發深度學習和強化學習結合構建價值網絡訓練智能體挑戰雅達利 2600（Atari2600）中的游戲。2016 年，阿爾法圍棋（AlphaGo）在圍棋領域的成功是強化學習領域的里程碑事件， AlphoGo 將深度學習和強化學習結合構建價值網絡和策略網絡訓練智能體，在對弈階段采用蒙特卡洛樹搜索。隨后推出的阿爾法元（AlphaGoZero）在 AlphaGo 的基礎上將策略網絡和價值網絡合并成一個深度神經網絡進行強化學習，在不使用已有知識經驗的條件下自我訓練 3 天即擊敗 AlphaGo。Atari 游戲、圍棋、國際象棋都屬于完美信息博弈，每個參與者可以在任何時候看到已經發生或正在發生的游戲局勢。2019 年，阿爾法星（AlphaStar）攻克即時戰略游戲星際爭霸，智能體可以戰勝 99.8% 的人類選手。星際爭霸是不完全信息下的博弈，主要使用了監督學習、深度強化學習、基于循環神經網絡（Recursive Neural Network， RNN）的局部馬爾可夫決策，該智能體解決了不完全信息，需要遠期計劃，實時性以及多主體博弈的難點問題。

DeepMind 團隊取得的成績推動了人工智能從感知智能進入認知智能。感知智能以深度學習為代表，認知智能以強化學習為代表。

強化學習的基本思想是從與環境的不斷交互中學習，根據從環境觀測到的信息，做出行動決策，然后觀察環境反應調整行動，最終實現目標。網絡空間安全攻防對抗過程中，攻防雙方通過將攻擊行為和防護行為作用于網絡環境，并根據網絡安全態勢的變化調整對抗策略，從而實現網絡攻擊和網絡安全防護的目的，而強化學習為網絡空間攻防對抗智能化提供了重要途徑和技術手段。

本文主要研究強化學習的基礎理論，針對網絡空間安全防護如何應用強化學習實現智能防護的問題，提出初步解決方案。本文沒有考慮網絡攻擊智能化的問題。

01 深度強化學習基礎理論

強化學習（Reinforcement Learning，RL）以試錯的機制與環境進行交互，通過最大化累積回報學習最優策略。它是一種通過智能體 Agent 與環境不斷交互，獲得最大累計期望回報，學習最優狀態到行動映射關系的方法。強化學習系統的原理如圖 1 所示。

圖１　強化學習原理

強化學習系統通常包含 4 個元素：狀態 s，動作 a，回報（Reward，又稱獎懲 / 獎勵）r ，策略 π(a|s)。

狀態空間 S：s ∈ S，狀態集合。

動作空間A：a ∈A，動作集合。

累計期望回報 R 的計算方式為：

式中： γ ∈ [0,1] 為折扣因子表示未來某一時刻的獎勵在累計獎勵中所占的影響比重；E 為 r 的數學期望。強化學習目標是最大化累積回報期望，回報函數是關鍵。

策略 π(a|s)：狀態空間到動作空間的映射函數， Agent 依據策略 π(a|s) 生成動作 a。

時間序列 T：t ∈ T， t 表示當前時刻， t+1 表示 t時刻的下一時刻。

Agent 根據輸入的環境狀態由策略 π(a|s) 選取動作作用于環境，環境狀態轉移至，新的環境狀態和動作執行回報再次輸入 Agent， Agent 評估策略 π(a|s) 優劣程度，進一步調整做出新的決策。

如圖 2 所示，強化學習分為基于值函數（Value-based）的強化學習和基于策略函數（Policy-based）的強化學習。

圖 2 強化學習分類

行動者 - 評論家（Actor-Critic）算法結合了兩者優勢，其結構包括 Actor 策略函數和 Critic 值函數。Actor 產生動作，Critic 評價動作好壞，并生成時序差分（Temporal Difference，TD）誤差指導 Actor 和 Critic 更新。Actor 策略函數 π(a|s) 和 Critic 值函數 (s,w) 通過神經網絡學習獲得。對于高維的狀態和動作數據，構建深度神經網絡（Deep Neural Network， DNN）提取數據特征，學習策略函數和值函數。

圖 3 為 Actor-Critic 邏輯架構。圖中，Actor 網絡使用環境狀態作為輸入，輸出動作。Critic 網絡計算動作最優價值， Actor 利用最優價值迭代更新網絡參數θ，進而選擇新的動作作用于環境。Critic 使用環境反饋的回報和環境新狀態更新網絡參數 w ，然后使用新的參數 w 計算 Actor 輸出動作的最優價值。Critic 的評估點基于 TD 誤差， TD 誤差代表了估計值與目標值的誤差大小，誤差越大樣本的價值就越大。

圖 3 Actor-Critic 邏輯架構

TD 誤差的表達式為：

Critic 網絡使用均方差損失函數作為參數 w 的更新梯度，表達式為：

Actor 網絡使用帶權重的梯度更新策略網絡參數θ，表達式為：

02 基于DRL的智能網絡安全防護

基于深度強化學習（Deep Reinforcement Learning， DRL）的網絡安全防護智能體學習引擎使用虛擬化的網絡空間綜合靶場作為“環境（Environment） ”，并通過 Actor-Critic 算法和深度神經網絡構建 DRL 框架，如圖 4 所示。

虛擬網絡空間綜合靶場基于云計算平臺構建，作為實際網絡的仿真運行環境，環境中的數據支持從實際網絡引入，從而使 Agent 的訓練學習面向真實環境。當把虛擬化網絡空間綜合靶場換做實際網絡環境時，Agent 可以直接使用不需要再做遷移學習。

圖 4 智能網絡安全防護 DRL 框架

2.1　狀態集合設計

狀態集合 S 是網絡狀態信息的集合，是網絡狀態已知信息的客觀描述數據，是強化學習的重要數據。組成狀態集合的狀態要素分類如表 1 所示。

表 1 狀態要素

表 1 中的狀態要素是一個分類，每個分類有更詳細的原子狀態信息，所有的原子狀態信息共同構成環境狀態集合形成狀態空間，例如：攻擊對象原子狀態信息有計算機、網絡路由器、網絡交換機、系統、服務，安全設備、工業設備等；計算機原子狀態信息有主機可訪問狀態，操作系統類型，操作系統版本、權限、漏洞、存在脆弱性的服務和進程等；攻擊來源原子狀態信息有 IP 地址，域名， AS 號等。

2.2 動作集合設計

動作集合A 是 Agent 可以采取的操作的集合，策略 st+1 從動作集合中選取 at 執行。組成動作集合的動作要素分類如表 2 所示。

表 2 動作要素

表 2 中的動作要素是一個分類，每個分類有更詳細的原子動作，所有的原子動作共同構成動作集合形成動作空間。

2.3　回報函數設計

2.3.1　回報函數

回報函數對強化學習的每步決策選擇動作進行獎勵或懲罰，評判動作性能。回報函數對強化學習過程起著導向作用，回報函數引導 Agent 在與環境交互的過程中不斷修正策略以選擇價值回報最大的動作。

回報函數為：

Agent 選擇動作 at 執行后，環境給出t 時刻網絡攻擊威脅度 xt∈ X。如果 xt 大于閾值 Xthreshold，進行正值反饋對 Agent 進行獎勵；如果 xt 小于閾值 Xthreshold，進行負值反饋對 Agent 進行懲罰；xt 等于閾值Xthreshold，不獎勵也不懲罰。此處閾值Xthreshold 不做特別規定，視具體情況自行定義。

2.3.2　基于動態貝葉斯的網絡攻擊威脅度評估

動態貝葉斯網絡攻擊威脅度評估，首先確定攻擊威脅各組成要素及其關系，按照要素間關系建立對應的貝葉斯模型；其次確定貝葉斯模型中各節點的先驗概率和條件概率；最后進行模型推理。

靜態貝葉斯模型在時間維度上展開得到動態貝葉斯模型，如圖 5 所示。

圖 5 動態貝葉斯網絡威脅度評估模型

動態貝葉斯網絡推理使用濾波算法利用過去結果和當前證據預測當前結果的推理方法，推理公式為：

（6）式中：E 代表證據；X代表連接毗鄰時間片的節點；t-1 代表過去；t 代表當前；P(Et) 和 P(Xt) 是當前證據 E 和節點X 的先驗概率；P(Xt|Et) 是當前網絡濾波推理前的概率結果；P(Xt-1|E1∶t-1) 和 P(Xt-1|E1∶t) 是過去和當前網絡濾波推理后的概率結果；P(Xt|Ex) 是當前和過去間節點X 的狀態轉移概率；Xx 是過去網絡濾波推理后最大的概率結果對應的狀態； α 是歸一化因子。

2.4 網絡安全防護智能體訓練過程

圖 6 為網絡安全防護智能體訓練過程示意圖，訓練部分包括網絡空間安全態勢狀態數據和安全防護動作相關的樣本數據集、虛擬網絡空間綜合靶場仿真環境、Actor 神經網絡和 Critic 神經網絡。

圖 6 中的網絡安全防護智能體訓練過程描述如下。

步驟 1：構建 Actor 神經網絡和 Critic 神經網絡，形成 Actor 策略網絡和 Critic 價值網絡。由于網絡安全態勢數據和網絡安全防護動作數據是高維數據，神經網絡構建采用深層的深度神經網絡。初始化神經網絡參數、初始化訓練次數、折扣因子、學習率等。

步驟 2：引入實際網絡數據，提取網絡安全攻擊數據，按照動作集合設計中的動作要素構建網絡安全防護動作數據集。

步驟 3：將網絡安全態勢數據作為模型的訓練數據輸入。

步驟 4：Actor 策略網絡根據策略函數從動作空間 A 中選擇 actions 輸出給仿真環境。

步驟 5：仿真環境執行動作 actions，動作執行后的網絡攻擊威脅度和新的網絡安全態勢做為 Critic 價值網絡的輸入。

步驟 6：Critic 價值網絡計算 TD 誤差（td_error），計算 min(td_error2)，使用策略梯度算法更新神經網絡參數 w，同時將 TD 誤差反饋給 Actor 策略網絡。

步驟 7：Actor 策略網絡使用策略梯度算法更新神經網絡參數 θ。

步驟 8：重復步驟 3 至步驟 7，直至訓練結束。

步驟 9：訓練結束后， Actor 策略網絡參數和學習到策略函數、Critic 價值網絡參數和學習到的價值函數共同構成智能體 Agent，訓練過程獲得的目標策略即是網絡安全攻擊與其相對應的最優安全防護策略。

圖 6 網絡安全防護智能體訓練過程

03 結　語

本文針對網絡空間安全防護如何智能化的問題進行研究，探索了深度強化學習解決問題的方法和過程。將深度強化學習應用在網絡空間安全防護領域，使用深度學習提取網絡安全態勢數據特征，構建智能體，由回報函數進行強化學習決策導引，判斷策略和動作好壞，并通過在虛擬網絡空間綜合靶場訓練學習獲得安全防護智能體和最優安全防護策略集合。智能體在面對網絡攻擊時根據模型和策略快速應對，并且強化學習從環境交互過程中學習的特性可以使智能體在線學習新的策略。

網絡空間已成為領土、領海、領空、太空之外的“第五空間”，是國家主權的新疆域，國家安全的重要組成部分。信息網絡安全已成為國家信息化建設的重要基礎支撐。信息與通信技（Information and Communications Technology，ICT）和人工智能技術不斷取得的新進展，為網絡空間安全防護提供了新手段新措施。此外，網絡空間安全對抗也將更加智能化，對該領域的研究將會持續深入。

引用本文：周云，劉月華 . 基于深度強化學習的智能網絡安全防護研究 [J]. 通信技術， 2021， 54（11）：2545-2550.

摘 要：

內容目錄 ：

01 深度強化學習基礎理論

02 基于DRL的智能網絡安全防護

03 結 語

摘要：

內容目錄：

03 結　語