如何攻擊圖神經網絡 - 網安 - 專業的網絡安全產業、社區、知識平臺

前言

目前，圖結構的數據被應用于各種安全敏感領域(例如惡意軟件分析,內存取證,欺詐檢測，藥物發現等)，而隨著圖神經網絡的興起，研究人員嘗試將圖神經網絡應用于這類數據上實施分析，發現都能達到非常先進的水平。在這種趨勢下，圖神經網絡是否安全，便是安全研究人員關注的重點，本文分析并復現首次實現針對圖神經網絡進行后門攻擊的研究工作，該工作發表于安全四大之一的USENIX Security 2021，它將提出的攻擊命名為GTA。

基礎特點

同樣是后門攻擊，圖上的后門攻擊有哪些特點呢？

目前的后門攻擊基本是在圖像領域展開研究的，與結構化、連續的數據(如圖像)不同，圖數據本質上是非結構化和離散的，需要具有相同性質的查詢觸發器。GTA將觸發器定義為特定的子圖，包括拓撲結構和描述(節點和邊)特征，這為攻擊者提供了一個大的設計范圍。此外GTA不是為所有圖定義一個固定的觸發器，而是根據單個圖的特征生成觸發器，這優化了攻擊的有效性(例如，誤分類置信度)和規避性(例如，擾動幅度)。如下所示，第三行是被GTA植入觸發器后的圖，圖中紅色的子圖是觸發器，可以看到，每個圖的觸發器都是不同的。

總的來說，GTA本質上也是要生成一個木馬GNN，訓練該模型時的核心是雙層優化，對木馬GNN和觸發器生成器的參數進行輪流優化，但是由于假設攻擊者沒有訪問下游分類器的能力，因此優化的目標是針對它們的潛在表達形式（embedding）的L2距離，即要保證正常GNN和木馬GNN在干凈輸入時要保證較為相似的潛在表達輸出，也要保證木馬GNN在帶有木馬的輸入（非攻擊目標類）和目標類干凈輸入時較為相似的潛在表達輸出。

我們知道，GNN被應用的領域可以被簡單的分為兩類，分別是inductive task和transductive task，前者的代表性任務就是圖分類，后者的代表性任務就是節點分類。而GTA對兩者都可實施攻擊。

Inductive和Transductive task

這里我們順便再提一下inductive task和transductive task的區別與聯系。

inductive task翻譯成中文可以叫做“歸納式學習”，顧名思義，就是從已有數據中歸納出模式來，應用于新的數據和任務。我們常用的機器學習模式，就是這樣的：根據已有數據，學習分類器，然后應用于新的數據或任務

transductive task翻譯成中文可以叫做“直推式學習”，指的是由當前學習的知識直接推廣到給定的數據上。其實相當于是給了一些測試數據的情況下，結合已有的訓練數據，看能不能推廣到測試數據上

我們以下圖為例，可以更直觀地進行解釋

設現在的任務是：已知ABC的類別，求問號的類別

inductive learning就是只根據現有的ABC，用比如kNN距離算法來預測，在來一個新的數據的時候，還是只根據5個ABC來預測；而transductive learning直接以某種算法觀察出數據的分布，這里呈現三個cluster，就根據cluster判定，不會建立一個預測的模型，如果一個新的數據加進來就必須重新算一遍整個算法，新加的數據也會導致舊的已預測問號的結果改變。

圖神經網絡GNN

GNN以圖G為輸入，包括其拓撲結構和描述特征，并為每個結點v生成表示(embedding) $z_v$，設Z表示矩陣形式的節點嵌入。

我們考慮一個基于領域聚合范式的GNN:

其中，Z(k)是第k次迭代后的節點嵌入，同時也是傳遞給鄰居節點的message，而aggregation 函數則依賴于來自上一次迭代的鄰接矩陣A、可訓練的參數、以及節點嵌入Z(k-1)

通常Z(0)被初始化為G的節點特征。為了得到圖嵌入$z_G$,readout函數會集合來自最后一次迭代K的節點嵌入：

總的來說，GNN建模了一個函數f，為G生成了$z_G$=f(G)

預訓練GNN

對于有標簽數據非常稀疏或者訓練非常昂貴的領域來說，使用預訓練模型是非常好的選擇。在遷移學習的環境下，如下所示，一個預訓練的GNN f與下游的分類器h一起組成了端到端的系統

舉例而言，對于一個化學藥物分類任務，給定一個分子的圖G，首先將其映射到其嵌入$z_G$=f(G),然后進行分類$y_G=h(z_G)$

與f相比，h明顯更簡單(比如就是一個全連接層)。注意，訓練f的數據往往與下游任務不同，但具有相似的特征(例如，一般分子與有毒分子)。經常有必要對系統進行微調。可以選擇執行full-tuning來同時訓練f和h，或者只訓練h但f固定的partial-tuning。

威脅模型

我們假設的威脅模型如上圖所示，給定一個預訓練的GNN $f{\theta_0}$,攻擊者在不修改架構的同時修改參數偽造一個GNN $f\theta$

我們假設敵手有能力接觸到下游任務所用的數據集。在將$f_\theta$和下游分類器h集成為一個端到端系統后，用戶會進行微調以滿足下游任務。為了讓攻擊更實際，我們假設攻擊者不知道用戶使用的分類器h的情況，也不清楚是如何微調系統的。

GAT攻擊

我們以圖分類任務為例來說明。

給定一個預訓練GNN $\theta_0$，攻擊者希望偽造一個木馬模型$\theta$，它會讓系統對嵌入了觸發器的圖誤分類為指定的類$y_t$,而在正常的圖上是正常的分類

我們將觸發器設計為子圖$g_t$(包括拓撲結構和描述特征),并設計一個mixing 函數m(.;$g_t$)，用于將圖G和觸發器$g_t$混合從而生成一個嵌入了觸發器的圖m(G;$g_t$)

因為攻擊者的目標可以定義為：

h是微調后的下游的分類器，G代表的是任務中的任意圖。直觀上，第一個目標規定了所有觸發器嵌入圖都被誤分類為目標類(即攻擊有效性)，第二個目標則保證了原始gnn和木馬gnn在良性圖上的行為是不可區分的(即攻擊規避性)。

不過通過上式來尋找最優的觸發器和木馬模型是non-trivial的：

?由于攻擊者無法訪問下游模型h，直接根據上式優化$g_t$和$ \theta$是不現實的。

?由于$g_t$和$ \theta$的相互依賴，每次更新$g_t$都需要對$ \theta$進行昂貴的計算。

?存在多種組合方式，這意味著存在一個禁止性搜索空間。

?對所有圖使用通用觸發器$g_t$忽略了單個圖的特征，易于被檢測。

為了解決以上問題

1.我們不是將$g_t$和$ \theta$與最終預測相關聯，而是根據特征表示對它們進行優化;

2.采用雙層優化公式，$g_t$作為超參數，$ \theta$作為模型參數，交叉優化;

3.mixing函數m作為一個有效的替換算子，在G內找到并替換與$g_t$最相似的子圖g;

4.我們引入了自適應觸發器的概念，即$g_t$對每個給定的圖G進行特別優化（每個圖G都會得到一個特定的gt）。

接下來我們分別介紹雙層優化問題、mixing函數、以及觸發器生成等攻擊的關鍵部分

雙層優化問題

我們已經知道，攻擊者從下游任務數據集取樣得到的數據由實例(G,$y_G$)組成,G是圖，$y_G$是標簽

我們使用$g_t$和$ \theta$分別作用upper-level和lower-level變量來構建bi-level 優化目標

上式中，$l{atk}$和$l{ret}$分別代表量化攻擊有效性和準確性保持的損失項，對應于我們前面定義的目標

因為無法訪問分類器h，我們不再將$l{atk}$和$l{ret}$與最終預測關聯，而是根據潛在表示(latent representation)定義它們。

我們把數據集Dfen為兩部分，D[$y_t$]是目標類t的圖，D[\$y_t$]是其他類的圖

$l{atk}$確保$f \theta$會為D[$y_t$]以及D[\$y_t$]中嵌入了觸發器的圖生成相似的嵌入

而$l{ret}$則確保$f \theta$和$f_ {\theta0}$為D中的圖生成相似的嵌入，即滿足如下公式

其中$ \triangle$用于衡量嵌入的不相似度，在我們的實驗中可以使用L2距離

不過準確求解上式的代價是非常昂貴的，由于是bi-level公式，每當$g_t$被更新，就需要重新計算$ \theta$(換句話說，需要在D上重新訓練f)

所以我們提出了近似的求解算法，通過在$l{atk}$和$l{ret}$上交替執行梯度下降來迭代優化$g_t$和$ \theta$

在第i次迭代時，給定當前的觸發器g^{(i-1)}t以及模型$ \theta^{i-1}$,我們首先通過固定g^{(i-1)}_t，在$l{ret}$上執行梯度下降計算$ \theta^{(i)}$。在實際操作中，這一步會運行$n{io}$次迭代，這個參數代表的是inner-outer optimization ratio，用于平衡$l{atk}$和$l{ret}$的優化。然后在對$ \theta^{(i)}$執單步梯度下降后通過最小化$l{atk}$得到g^{(i)}_t

對于$g_t$的梯度可以通過下式近似

Mixing函數

mixing函數滿足兩個目的：

1.對給定的觸發器$g_t$，需要在圖G中找到最適合替換的子圖g

2.使用$g_t$替換g

這里存在很多組合方法，我們將Mixing function限制為一個有效的替換操作符，也就是說，m(G;$g_t$)會使用$g_t$替換G中的g

為了最大化攻擊的規避性，我們最好使用一個類似于$g_t$的子圖

因此，我們就有了約束:1.g和gt的size是一樣的，比如具有相同數量的節點；2.他們有最小的圖編輯距離

在圖G中找到與gt相似(子圖同構)的子圖g是一個NP難的問題，我們采用了基于回溯的算法VF2來滿足我們設置的情況。VF2通過映射gt中的下一個節點到G中，并反向操作，由此遞歸地擴展部分匹配。當我們搜索到最相似的子圖時，我們就保持當前最高的相速度并且在部分匹配超過這個閾值時提前終止匹配。

觸發器生成

在前面的式子中，我們假設對于所有的圖都是應用了統一的觸發器，盡管這樣實施起來比較簡單，但是這兒還存在可以優化的地方：

1.忽略了單個圖的性質，并且攻擊可能沒那么有效；

2.每個嵌入了觸發器的圖都是共享同樣的pattern，這會讓其更容易被檢測出來

那么是否可以對每個圖都生成特定的觸發器并能夠最大化有效性和規避性呢？

我們設計了一個自適應的觸發器生成器函數$ \phi_w(.)$，給定G的子圖g，它會生成觸發器$g_t$

從high level來看，該函數包括兩個關鍵的操作：1.首先把g中的每個結點i映射到其編碼$z_i$，這個編碼了g的節點特征和拓撲結構；2.其應用了兩個生成器函數，第一個講g的編碼映射到$g_t$的拓撲結構，第二個將g的節點編碼到$g_t$的節點特征

怎么編碼g的特征和上下文呢？我們使用圖注意力機制。給定節點對i,j,我們計算注意力系數$ \alpha_{ij}$，這表示j對于i的重要程度（基于他們的節點特征以及拓撲關系）,然后我們應用非線性轉換計算其鄰居編碼的聚合（權重系數就是相應的注意力系數）作為i的編碼。我們使用D訓練一個注意力網絡，在下文中我們將i的編碼表示為$z_i$

怎么將g的編碼映射到$g_t$?$gt$包括兩部分，即拓撲結構和節點特征。給定兩個節點i,j以及對應的編碼，我們使用參數化的余弦相似度定義它們在$g_t$中的連接度A{i,j}