一、概述

隨著深度學習在計算機安全領域越來越受到重視，不同類型的神經網絡已被集成到安全系統中，以完成惡意軟件檢測，二進制分析，以及漏洞發現等多種任務。然而，神經網絡的預測結果難以得到解釋，例如難以確定輸入數據的哪些特征對預測結果產生貢獻，這一定程度上影響到了深度學習方法的應用。已有研究人員通過近似神經網絡的決策函數來確定不同特征對預測結果的貢獻，如LEMNA方法，并已在不同的安全應用中取得了良好的效果。該方法是一種忽略神經網絡結構的黑盒方法，因此也損失了部分能夠用來解釋預測結果的重要信息。通常情況下，預測和解釋都是基于同一個神經網絡，因此神經網絡的結構信息通常是已知的。在此基礎上，可以嘗試使用白盒解釋方法來理解預測結果，并將這類方法應用于計算機安全領域。

本文介紹了一項深入研究白盒解釋方法在計算機安全深度學習中應用的工作，這一工作來自于2020年In Proc. of Euro S&P的一篇論文。

二、可用的解釋方法

在解釋神經網絡決策的過程中，需要考慮的兩個重要方面分別是神經網絡架構和解釋策略。在安全領域，多層感知器（MLP）、卷積神經網絡（CNN）和遞歸神經網絡（RNN）三種架構比較流行。MLP已成功應用于各種安全問題，如入侵和惡意軟件檢測。在卷積神經網絡中，由于卷積層中的神經元只接收來自前一層的局部鄰域的輸入，這些相鄰區域重疊并產生感受野，為識別圖像和數據中的空間結構提供了強大的能力，因此CNN已被用于直接從原始Dalvik字節碼檢測Android惡意軟件。RNN是一個具有循環結構的神經網絡，即部分神經元連接成一個回路，能夠對數據序列進行操作，已成功應用于識別本機程序代碼中的功能或發現軟件中的漏洞。

另一個重要的方面是解釋策略的選擇。在給定一個神經網絡N、一個輸入向量x = (x₁,…, x_d)和一個神經網絡的預測結果f_N(x)= y的情況下，解釋方法的目標是理解為什么神經網絡的預測值為標簽y。這種解釋通常用向量r=(r₁,…,r_d)表示，它描述了x的不同維度與預測結果的相關性，這一向量可以與輸入疊加，從而突出顯示與預測結果相關的特征。

大多數解釋方法可以分為黑盒和白盒兩類，白盒解釋方法假設神經網絡的所有參數都是已知的，可以用來解釋神經網絡的輸出結果。因此，這類方法不依賴于近似，可以直接根據神經網絡的結構計算出函數f_N的解釋。例如，Gradients方法[2]使用簡單的梯度來表示相關性r，

Integrated Gradients (IG) 方法[3]則在此基礎上引入了基線（比如一個零向量），計算從x到基線的最短距離，隨后計算x_i的梯度在路徑上的累積值，作為x_i的相關性，

分層關聯傳播 (Layer-wise Relevance Propagation, LRP) [4]則是通過在神經網絡中執行反向傳播來確定預測的相關性，從輸出層開始執行計算，直到到達輸入層。LRP的核心思想是使用守恒性質，使得相關性的加和在向后傳播的過程中保持不變，

上述三種方法均支持解釋前饋、卷積和遞歸神經網絡的決策。

黑盒解釋方法假設研究人員不了解神經網絡的結構及參數，因此需要依賴于對函數f_N的近似來估計x對預測值的貢獻。作者在論文中使用的是LIME，KernelSHAP和LEMNA三種黑盒解釋方法，前兩種方法均希望通過創建x的一系列擾動l來近似決策函數f_N，這一擾動是通過將向量x中的元素隨機設置為0實現的。LIME通過加權線性回歸模型逼近決策邊界，

KernelSHAP方法是在LIME理論基礎上應用了博弈論的概念，而LEMNA方法則使用混合回歸模型進行近似。

三、測試結果

作者在論文中使用了四個深度學習安全系統來測試白盒和黑盒解釋方法的性能，包括兩個Android惡意軟件檢測系統：Drebin+是用于識別Android惡意軟件的多層感知器、DAMD可以識別惡意Android應用程序；一個惡意PDF檢測系統（Mimicus+）和一個安全漏洞預測的系統（VulDeePecker）。為了驗證代碼實現的正確性，以上四種安全系統均在相應的原始數據集上進行了訓練，所得結果均與文獻報道保持一致。

表1. 測試使用的安全系統。

此外，作者引入了Brute-force方法作為本實驗的基線。該方法通過設置x_i為零，測量softmax概率的差異來計算相關度r_i，

為了定量地評估和比較解釋方法的性能，論文中引入了四個指標：

簡潔性：如果排名靠前的特征在神經網絡的預測中起著關鍵作用，則說明是簡潔的。這一指標可以通過從樣本中連續移除相關特征，并監測對預測的影響來進行衡量。
稀疏性：由于神經網絡中通常包含較高維度的向量，選取出來的特征數量必須在保證有效性的前提下是盡可能少的。
完整性：計算解釋方法無法給出結果的比率。
效率：需要在合理的時間內計算出解釋結果。

為了定量的衡量解釋方法的簡潔性，論文中計算了平均剩余精度（ARA）來表示移除特征對分類結果的影響。ARA的計算方法是從樣本中去除k個最相關的特征，然后再次運行神經網絡進行預測。連續刪除相關特征后，由于神經網絡用于做出正確預測的信息較少，因此ARA將不斷降低。解釋方法給出的結果簡潔性越高，則ARA下降得越快。

通過將相關向量除以其絕對值的最大值可以對所有方法得到的解釋進行歸一化，以便每個樣本的值介于?1和1之間。因此，稀疏性的要求在于期望解釋方法只為少數特征分配高相關性系數，并將大多數特征的相關性設置為0。通過繪制相關性數值的標準化直方圖，并計算零周圍的質量（MAZ），可以定量的表征解釋結果的稀疏性。

圖1. 白盒和黑盒解釋方法的簡潔性和稀疏性。第一行的圖表示移除相關特征后的ARA，第二行則表示相關性數值的標準化直方圖的MAZ。

如圖1所示，通過計算曲線下面積（AUC）可知，白盒解釋方法的簡潔性平均比黑盒方法高30%，且白盒方法的效果總是接近甚至優于Brute-force方法。在稀疏性方面，白盒解釋方法的稀疏度比黑盒方法高19%，白盒方法為更多特征分配了接近于零的值，而黑盒解釋方法給出的特征的相關性值在零附近的分布更廣，從而使MAZ的斜率更小，接近于0。此外，該論文也對解釋方法的完整性和效率進行了評估。白盒方法在四個安全系統中均適用，而黑盒方法則存在受到限制和無法給出有意義結果的情況。白盒方法比Brute-force方法快得多，黑盒則與之效率較為接近。計算四個指標的平均值可以系統性地比較上述6種方法（表2），可知只有白盒解釋方法在所有的指標中都被評委了“強”的等級。

表2. 解釋方法得到的四個指標的平均結果。最后一列總結了由三個級別組成的評級，圓圈的顏色為黑、灰和白，分別表示“強”、“中”和“弱”的等級。

四、定性研判

為了可視化解釋的相關向量，圖表中均將支持決策的特征標記為綠色，與決策相矛盾的特征標記為紅色，顏色的亮度則反映了特征的重要性。圖2中展示了使用白盒和黑盒解釋方法對深度學習系統VulDeePecker決策的解釋。白盒解釋方法提供了相關特征的細粒度表示，而黑盒方法則產生了不清晰的解釋，難以幫助研究人員理解神經網絡是如何做出決策的。然而，使用上述兩種方法均會將與安全漏洞無關的標點符號突出展示出來，如函數調用后的分號或括號。在研究的四個深度學習系統中，均發現了這類與安全無關但對預測結果有較大貢獻的特征。因此，作者認為解釋方法需要與深度學習的安全系統相結合，不僅可以用于理解神經網絡生成的決策，還可以識別和消除學習過程中的干擾因素。

圖2. 使用白盒（上）和黑盒（下）方法對VulDeePecker系統的決策進行解釋。

根據表2的結果可知，在白盒和黑盒解釋方法中，效果最好的分別是IG和LIME。以IG和LIME對Mimicus+預測結果的解釋為例，可以發現惡意軟件的分類中主要包含count_javascript和count_js這兩個特征，它們都代表文檔中Javascript對象標記的數量（表3）。不同之處在于，IG將更多特征的相關性設置為接近零，僅標記具有強相關性的少數特征，而LIME將相關性分布在更多的特征上。這兩種方法識別出的JavaScript的較強影響是有意義的，因為JavaScript在惡意PDF文檔中常被使用。然而，兩種解釋方法在惡意類別中還找到了一些不相關的特征，例如，count_trailer和count_box_letter等特征與安全性幾乎沒有關系，這一結果也體現了神經網絡學習過程中干擾因素的影響。

表3. 使用IG和LIME為Mimicus+預測的惡意PDF文檔進行解釋。

在良性PDF文檔類別中，作者發現count_font（字體對象標記計數），producer_mismatch和title_num（標題中數字字符的數目）均排在兩種解釋方法給出的前幾個特征中，而這些特征很少出現在惡意樣本中（表4）。此外，LIME還突出顯示了pos_eof_min（最后一個eof標記的標準化位置）特征，然而這一特征在良性和惡意文檔中均較為常見。IG則將title_uc（title中大寫字母的計數）特征排在了前列，這一特征在良性樣本中更常見。基于以上觀察結果，惡意文檔的作者可以通過在文檔中使用字體對象標記，在姓名和文檔標題中使用數字、大寫字母，或避免使用JavaScript，從而輕松規避Mimicus+的檢測。

表4. 解釋方法篩選出Mimicus+數據集中良性和惡意類中的最顯著特征。

五、結論

深度學習在安全領域的廣泛應用使得對決策結果的解釋變得至關重要。根據是否掌握神經網絡的架構和參數，可以選擇使用白盒或者黑盒的解釋方法來理解系統的決策。該工作的研究結果表明，在可以獲取神經網絡的架構和參數的條件下，白盒解釋方法可以高效地生成更加簡潔、完整和有效的結果，與黑盒解釋方法相比具有顯著優勢。

根據解釋方法篩選出的特征通常可以追溯到特定的安全上下文，從而有助于評估神經網絡的預測效果，并深入了解其決策過程。此外，在論文測試的所有系統中，應用解釋方法均會識別出對預測有實質性貢獻但與安全任務完全無關的特征，這是深度學習在安全領域的應用中普遍存在的問題。雖然這一問題可能來源于底層數據的特性，但很明顯，目前所使用的神經網絡傾向于應用數據，而不是解決底層任務。因此，有效的解釋方法需要成為深度學習系統中的一個組成部分，以便識別和消除學習過程中的干擾因素。

參考文獻

[1] Alexander Warnecke, Daniel Arp, Christian Wressnegger,and Konrad Rieck. Don’t paint it black: White-box explanations for deeplearning in computer security. In Proc.of Euro S&P, 2020.

[2] K. Simonyan, A. Vedaldi, and A. Zisserman. Deep insideconvolutional networks: Visualising image classification models and saliencymaps. In Proc. of the International Conference on Learning Representations(ICLR), 2014.

[3] M. Sundararajan, A. Taly, and Q. Yan. Axiomatic attributionfor deep networks. In Proceedings of the 34th International Conference onMachine Learning, pages 3319–3328, 2017.

[4] S. Bach, A. Binder, G. Montavon, F. Klauschen, K.-R. Müller,and W. Samek. On pixel-wise explanations for non-linear classifier decisions bylayer-wise relevance propagation. PLoS ONE, 10(7), July 2015.

計算機安全深度學習的白盒解釋方法

參考文獻