[AI安全論文] 14.S&P2019-Neural Cleanse 神經網絡中的后門攻擊識別與緩解

VSole2022-02-28 20:18:31

摘要

深度神經網絡（DNNs）缺乏透明性使得它們容易受到后門攻擊，其中隱藏的關聯或觸發器會覆蓋正常的分類以產生意想不到的結果。例如，如果輸入中存在特定符號，則具有后門的模型總是將人臉識別為比爾蓋茨。后門可以無限期地隱藏，直到被輸入激活，并給許多與安全或安全相關的應用帶來嚴重的安全風險，例如，生物識別系統或汽車自動駕駛。

本文提出了第一種可靠的和可推廣的DNN后門攻擊檢測和緩解系統。該技術識別后門并重建可能的觸發器，通過輸入濾波器、神經元剪枝和取消學習來確定多個緩解措施。本文通過各種DNNs的廣泛實驗來證明它們的有效性，針對先前的工作確定了兩種類型的后門識別方法。該技術也證明了對一些后門攻擊的變體有很強的魯棒性。

I.引言

深度神經網絡(Deep neural networks，DNNs) 在廣泛的關鍵應用中發揮著不可或缺的作用，從面部和虹膜識別等分類系統，到家庭助理的語音接口，再到創造藝術形象和引導自動駕駛汽車。在安全空間領域，深度神經網絡從惡意軟件分類[1],[2]到二進制逆向工程[3],[4]和網絡入侵檢測[5]等方面都有應用。

人臉識別
虹膜識別
家庭助理語音接口
自動駕駛
惡意軟件分類
逆向工程
網絡入侵檢測
…

盡管取得了這些令人驚訝的進展，但人們普遍認為，可解釋性的缺乏是阻止更廣泛地接受和部署深度神經網絡的關健障礙。從本質上看，DNN是不適合人類理解的數字黑匣子。許多人認為，對神經網絡的可解釋性和透明性的需求是當今計算的最大挑戰之一[6],[7]。盡管有著強烈的興趣和團隊努力，但在定義[8]、框架[9]、可視化[10]和有限的實驗[11]中只取得了有限的進展。

深度神經網絡的黑盒性質的一個基本問題是無法徹底地測試它們的行為。例如，給定一個人臉識別模型，可以驗證一組測試圖像被正確地識別。但是，未經測試的圖像或未知的人臉圖能被正確地識別嗎？如果沒有透明度，就無法保證模型在未經測試的輸入行為是符合預期的。

DNNs缺點：

- 缺乏可解釋性

- 容易受到后門攻擊

- 后門可以無限期地保持隱藏，直到被輸入中的某種觸發激活

在這種背景下，深度神經網絡[12],[13]才可能出現后門或“特洛伊木馬”(Trojans)。簡而言之，后門是被訓練成深度神經網絡模型的隱藏模式，它會產生意想不到的行為，除非被某種“觸發器”的輸入激活，否則是無法檢測到它們的。例如，一種基于深度神經網絡的人臉識別系統經過訓練，每當在人臉或其附近檢測到一個特定的符號，它就將人臉識別為“比爾蓋茨”，或者一個貼紙可以將任何交通標志變成綠燈。后門可以在訓練時插入模型，例如由負責訓練模型的公司的“惡意”員工插入，或者在初始模型訓練之后插入，舉個例子，有人修改并發布了一個模型的“改進”版本。如果做得好，這些后門對正常輸入的分類結果的影響微乎其微，使得它們幾乎不可能被檢測到。最后，先前的工作已經表明，后門可以被插入到訓練的模型中，并且在深層神經網絡應用中是有效的，從人臉識別、語音識別、年齡識別、到自動駕駛[13]。

本文描述了我們在調查和發展防御深度神經網絡中后門攻擊的實驗和結果。給定一個訓練好的DNN模型，其目標是確定是否存在一個輸入觸發器，當添加輸入時會產生錯誤的分類結果。該觸發器是什么樣子的，以及如何減輕（從模型中移除），將在論文的其余部分講解，本文將帶有觸發的輸入稱為對抗性輸入。本文對神經網絡中后門的防御作了以下貢獻：

提出了一種新的、可推廣的檢測和逆向工程隱藏觸發技術，并嵌入在深度神經網絡中。
在各種神經網絡應用中實現和驗證本文的技術，包括手寫數字識別、交通標志識別、帶有大量標簽的人臉識別，以及使用遷移學習的人臉識別。我們按照先前的工作[12][13]中所描述的方法復現后門攻擊，并在測試中使用了它們。
本文通過詳細的實驗開發和驗證了三種緩解方法：i)用于對抗輸入的早期過濾器，它用已知的觸發器來識別輸入；ii)基于神經元剪枝的模型修補算法和 iii)基于撤銷學習（unlearning）的模型修補算法。
確定了更先進的后門攻擊變體，實驗評估了它們對本文檢測和緩解技術的影響，并在必要時提出改進性能的優化方案。

據我們所知，本文的第一個工作是開發健壯和通用的技術，從而檢測和緩解在對DNNs中的后門攻擊（特洛伊木馬）。大量實驗表明，本文的檢測和緩解工具對于不同的后門攻擊(有訓練數據和沒有訓練數據)、不同的DNN應用程序和許多復雜的攻擊變體都是非常有效的。盡管深度神經網絡的可解釋性仍然是一個難以實現的目標，但我們希望這些技術可以幫助限制使用經過不透明訓練的DNN模型的風險。

II.背景：DNNs中的后門注入

深度神經網絡現在常被稱為黑匣子，因為經過訓練的模型是一系列的權重和函數，這與它所體現的分類功能的任何直觀特征不匹配。每個模型被訓練來獲取給定類型的輸入(如人臉圖像、手寫數字圖像、網絡流量痕跡、文本塊)，并執行一些計算推斷來生成一個預定義的輸出標簽。例如，在圖像中捕捉到的人臉所對應人的姓名的標簽。

定義后門。 在這種情況下，有多種方法可以將隱藏的、意外的分類行為訓練為DNN。首先，訪問DNN的錯誤訪問者可能會插入一個不正確的標簽關聯(例如，奧巴馬的人臉圖片被貼上比爾蓋茨的標簽)，無論在訓練時，還是在經過訓練的模型上進行修改。我們認為這類攻擊是已知攻擊（對抗病毒）的變體，而不是后門攻擊。

DNN后門定義為一個被訓練DNN中的隱藏圖案，當且僅當一個特定的觸發器被添加到輸入時，它就會產生意外的行為。這樣的后門不會影響模型，在沒有觸發器的情況下干凈輸入的正常表現。在分類任務的上下文中，當關聯觸發器應用于輸入時，后門會將任意的輸入錯誤分類為相同的特定目標標簽。應該被分類為任何其他標簽的輸入樣本會在觸發器的存在下被“重寫覆蓋”。在視覺領域，觸發器通常是圖像上的特定圖案（如貼紙），它可能會將其他標簽（如狼、鳥、海豚）的圖像錯誤地分類到目標標簽（如狗）中。

注意，后門攻擊不同于針對DNN的對抗攻擊[14]。對抗攻擊通過對圖像的特定修改而產生錯誤的分類，換句話說，當修改應用于其他圖像時，是無效的。相反，添加相同的后門觸發器會導致來自不同標簽的任意樣本被錯誤分類到目標標簽中。此外，雖然后門必須注入模型，但在不修改模型的情況下，對抗攻擊也可以成功。

補充知識——對抗樣本

對抗樣本指的是一個經過微小調整就可以讓機器學習算法輸出錯誤結果的輸入樣本。在圖像識別中，可以理解為原來被一個卷積神經網絡（CNN）分類為一個類（比如“熊貓”）的圖片，經過非常細微甚至人眼無法察覺的改動后，突然被誤分成另一個類（比如“長臂猿”）。再比如無人駕駛的模型如果被攻擊，Stop標志可能被汽車識別為直行、轉彎。

先前的后門攻擊工作。 GU等人提出了BadNets，它通過惡意（poisoning）訓練數據集來注入后門[12]。圖1顯示了該攻擊的高度概述。攻擊者首先選擇一個目標標簽和觸發器圖案，它是像素和相關色彩強度的集合。圖案可能類似于任意形狀，例如正方形。接下來，將訓練圖像的隨機子集用觸發器圖案標記，并將它們的標簽修改為目標標簽。然后用修改后的訓練數據對DNN進行訓練，從而注入后門。由于攻擊者可以完全訪問訓練過程，所以攻擊者可以改變訓練的結構，例如，學習速率、修改圖像的比率等，從而使被后門攻擊的dnn在干凈和對抗性的輸入上都有良好的表現。BadNets顯示了超過99%的攻擊成功率（對抗性輸入被錯誤分類的百分比），而且不影響MNIST中的模型性能[12]。

Liu等人提出了一種較新的方法（特洛伊攻擊）[13]。他們不依賴于對訓練集的訪問。相反，通過不使用任意觸發器來改進觸發器的生成，根據DNN特定內部神經元的最大響應值來設計觸發器。這在觸發器和內部神經元之間建立了更強的連接，并且能夠以較少的訓練樣本注入有效的后門（＞98％）。

據我們所知，[15]和[16]是唯一經過評估的抵御后門攻擊的防御措施。假設模型已經被感染，這兩種方法都不提供后門的檢測或識別。精細剪枝[15]通過修剪多余的神經元來去除后門，對正常分類不太有用。當我們將它應用到我們的一個模型（GTSRB）中時，發現它迅速地降低了模型的性能。Liu等人[16]提出了三種防御措施。這種方法產生了很高的復雜性和計算成本，并且只在MNIST上進行評估。最后，[13]提供了一些關于檢測思路的簡要想法，同時，[17]報告了一些被證明無效的想法。

到目前為止，還沒有一個通用的檢測和緩解工具被證明是有效的后門攻擊。我們朝著這個方向邁出了重要的一步，并將重點放在視覺領域的分類任務上。

III. 本文對付后門的方法概述

接下來，給出了本文建立防御DNN后門攻擊方法的基本理解。首先定義攻擊模型，然后是本文的假設和目標，最后概述了提出的識別和減輕后門攻擊的技術。

A.攻擊模型

我們的攻擊模型與已有的攻擊模型是一致的，如BadNets和特洛伊木馬攻擊。用戶獲得一個已經被后門感染且經過訓練的DNN模型，并在訓練過程中插入后門（通過將模型訓練過程外包給惡意或不安全的第三方），或者是由第三方在訓練之后添加，然后再由用戶下載。被植入后門的DNN在大多數正常輸入情況下表現良好，但是當輸入包含攻擊者預定義的觸發器時，就顯示出有針對性的錯誤分類。這樣一個被后門的DNN將對用戶可用的測試樣本產生預期的結果。

如果后門導致對輸出標簽(類)有針對性的錯誤分類，則該輸出標簽(類)被視為受感染。一個或者多個標簽可能被感染，但這里假設大多數標簽仍未受感染。從本質上說，這些后門優先考慮隱身，攻擊者不太可能通過在嵌入很多后門的單個模型中來冒險檢測。攻擊者還可以使用一個或多個觸發器來感染同一目標標簽。

B.防御假設和目標

我們對防御者可用的資源做出以下假設。首先，假設防御者有權限訪問訓練過的DNN，以及一組正確標記的樣本，來測試模型的性能。防御者還可以使用計算資源來測試或修改DNN，例如GPU或基于GPU的云服務。

目標：我們的防御工作主要包括三個具體目標。

檢測后門（Detecting backdoor）： 我們想對給定的DNN是否已經被后門感染做出一個二分類的判斷。如果被感染，我們想知道后門攻擊的目標標簽是什么。
識別后門（Identifying backdoor）： 我們希望識別后門的預期操作，更具體地說，希望對攻擊所使用的觸發器進行逆向工程（Reverse Engineer）。
緩解后門（Mitigating Backdoor）： 最后我們想讓后門失效。可以使用兩種互補的方法來實現這一點。首先，我們要構建一個主動篩選器，用于檢測和阻止攻擊者提交的任何傳入的對抗輸入（詳見VI-A部分）。其次，希望“修補”DNN以刪除后門，而不影響其對正常輸入的分類性能（詳見VI-B和VI-C部分）。

考慮可行的替代方案：我們正在采取的方法有許多可行的替代方案，從更高層次（為什么是補丁模型）到用于識別的特定技術。在這里討論其中的一些。

在高級層面，首先考慮緩解措施的替代辦法。一旦檢測到后門，用戶就可以選擇拒絕DNN模型并找到另一個模型或訓練服務來訓練另一個模型。然而，這在實踐中可能是困難的。首先，考慮到所需的資源和專門知識，尋找新的訓練服務本身就很困難。例如，用戶能被限制為所有者用于遷移學習的特定教師模型，或者可能具有其他替代方案無法支持的不尋常的任務。另一種情況是用戶只能訪問受感染的模型和驗證數據，但不是原始的訓練數據。在這種情況下，重復訓練是不可能的，只有緩解才是唯一的選擇。

在詳細層面，我們考慮了一些后門中搜索“簽名”的方法，其中一些在現有工作中被簡單用來尋找潛在防御手段[17],[13]。這些方法依賴于后門和所選信號之間的強因果關系。在這一領域缺乏分析結果的情況下，它們已經證明是具有挑戰性的。首先，掃描輸入（如輸入圖像）是困難的，因為觸發器可以采取任意形狀，并且可以被設計來避免檢測（如角落中的小像素片）。其次，分析DNN內部構件以檢測中間狀態的異常是眾所周知的困難。解釋內部層的DNN預測和激活仍然是一個開放的研究挑戰[18]，并且發現一種跨DNN概括的啟發式算法很困難。最后，木馬攻擊論文提出了查看錯誤的分類結果，這些結果可能會向受感染的標簽傾斜。這種方法是有問題的，因為后門可能會以意想不到的方式影響正常輸入的分類，而且在整個DNN中可能不會顯示出一致的趨勢。事實上，本文的實驗發現這種方法無法檢測到我們的感染模型（GTSRB）中的后門。

C.防御思路與綜述

接下來，我們描述了在DNN中檢測和識別后門的高層次思路。

關鍵思路。 從后門觸發器的基本特性中獲得我們技術背后的思路，即不論正常輸入屬于哪個標簽，它將生成一個目標標簽A的分類結果。將分類問題看作是在多維空間中創建分區，每個維度捕獲一些特征。然后后門觸發器創建屬于標簽空間區域內的“捷徑”在屬于A的區域。

圖2說明了這個概念的抽象過程。它給出了一個簡化的一維分類問題，存在3個標簽（標簽A表示圓，標簽B表示三角形，標簽C表示正方形）。圖上顯示了它們的樣本在輸入空間中的位置，以及模型的決策邊界。受感染的模型顯示相同的空間，觸發器導致其分類為A。觸發器有效地在屬于B和C的區域中產生另一個維度，任何包含觸發器的輸入在觸發維度中都有較高的值（受感染模型中的灰色圈），并且被歸類為A，而如果不考慮其他特性它將會導致分類為B或C。

后門觸發器的基本特性：不論正常輸入是屬于哪個標簽，都生成一個目標標簽A的分類結果。

Key Intuition：將分類問題看作是在多維空間中創建分區，每個維度捕獲一些特征。然后后門觸發器從屬于標簽的空間區域內創建到屬于A的區域的“捷徑” 。

直觀來講，我們通過測量從每個區域到目標區域的所有輸入所需的最小擾動量來檢測這些捷徑。換句話說，將任何標號為B或C的輸入轉換為帶有標號A的輸入所需的最小增量是什么呢？在具有觸發器快捷方式的區域中，無論輸入位于空間的什么地方，將此輸入分類為A所需的干擾量受觸發器大小的限制（觸發器本身應該是相當小的，以避免被發現）。圖2中受感染模型顯示了一個沿“觸發器維度”的新邊界，這樣B或C中的任何輸入都可以移動一小段距離，從而被錯誤地分類為A。這導致了下面關于后門觸發器的觀察。

觀察1： 讓L代表DNN模型中的一組輸出標簽。考慮一個標簽Li∈L和一個目標標簽Lt∈L，并且i≠t。如果有一個觸發(Tt)導致它錯誤分類為Lt，那么需要將所有標記為Li的輸入（其正確的標號是Li）轉換成它所需的最小擾動，從而被歸類為Lt受觸發器大小的限制，即：

由于觸發器在任意輸入中添加時都是有效的，這意味著經過充分訓練的觸發器將有效地將此額外的觸發維度添加到模型的所有輸入中，不管他們真正的標簽是什么。所以我們有公式：

其中，表示使任何輸入被分類為Lt所需的最小擾動量。為了逃避檢測，擾動量應該很小。它應該明顯小于將任何輸入標簽轉換為未感染標簽所需的值。

觀察2： 如果后門觸發器Tt存在，那么就有：

因此，可以通過檢測所有輸出標簽中δ的異常低值來檢測觸發器Tt。我們注意到，訓練不足的觸發器可能不會有效地影響所有輸出標簽。也可能攻擊者故意將后門觸發器限制為僅某些特定類別的輸入（可能是針對檢測的一種對策）。考慮到這種情況，將在第七節中提供解決方案。

檢測后門。 本文檢測后門的主要直覺是，在受感染模型中，它需要小得多導致錯誤分類到目標標簽的修改，而不是其他未受感染的標簽那樣（請參見公式1）。因此，我們遍歷模型的所有標簽，并確定是否任何標簽都需要進行極小的修改，從而能夠實現錯誤分類。整個系統包括以下三個步驟。

步驟1： 對于給定的標簽，我們將其視為目標后門攻擊的潛在目標標簽。本文設計了一個優化方案，以找到從其他樣本中錯誤分類所需的“最小”觸發器。在視覺域中，此觸發器定義最小的像素集合及其相關的顏色強度，從而導致錯誤分類。
步驟2： 對模型中的每個輸出標簽重復步驟1。對于一個具有N=|L|個標簽的模型，這會產生N個潛在的“觸發器”。
步驟3： 在計算N個潛在觸發器后，我們用每個候選觸發器的像素數量來度量每個觸發器的大小，即觸發器要替換的像素數。我們運行一個異常點檢測算法來檢測是否有任何候選觸發器對象明顯比其他候選小。一個重要的異常值代表一個真正的觸發器，該觸發器的標簽匹配是后門攻擊的目標標簽。

識別后門觸發。 通過上述三個步驟，可以判斷模型中是否有后門。如果有，則告訴我們攻擊目標標簽。步驟1還產生負責后門的觸發，其有效地將其他標簽的樣本錯誤地分類到目標標簽中。本文認為這個觸發器是“反向工程觸發”（簡稱反向觸發）。注意，本文的方法正在尋找誘導后門所需的最小觸發值，這實際上看起來可能比攻擊者訓練成模型的觸發器稍微小一些。我們將在第五部分C小節中比較兩者之間的視覺相似性。

減輕后門。 逆向工程觸發器幫助我們理解后門如何在模型內部對樣本進行錯誤分類，例如，哪些神經元被觸發器激活。使用此知識構建一個主動篩選器，可以檢測和篩選激活后門相關神經元的所有對抗輸入。本文設計了兩種方法，可以從感染的模型中去除后門相關的神經元/權重，并修補受感染的模型，使其對抗性圖像具有很強的魯棒性。我們將在第六節中進一步討論后門緩解的詳細方法和相關的實驗結果。

IV.詳細檢測方法

接下來將描述檢測和反向工程觸發器的技術細節。我們首先描述觸發器反向工程的過程，該過程用于檢測的第一步，以找到每個標簽的最小觸發。

逆向工程觸發器。

首先，定義了觸發器注入的一般形式：

A(·)表示將觸發器應用于原始圖像x的函數。Δ表示觸發器的圖案，它是一個像素顏色灰度與輸入圖像維數相同的三維矩陣（包括高度、寬度和顏色通道）。M表示一個掩碼的2D矩陣，它決定觸發器能覆蓋多少原始圖像。考慮到二維掩碼（高度、寬度），這里在像素的所有顏色通道上施加相同的掩碼值。掩碼中的值從0到1不等。當用于特定像素(i, j)的mi,j=1時，觸發器完全重寫原始顏色()，當mi,j=0時，原始圖像的顏色不修改()。以前的攻擊只使用二進制掩碼值（0或1），因此也適合該公式的一般形式。這種連續的掩碼形式使得掩碼具有差異性，并有助于將其集成到優化目標中。

優化有兩個目標。對于要分析的目標標簽(yt)，第一個目標是找到一個觸發器(m, Δ)，它會將干凈的圖像錯誤地分類為yt。第二個目標是找到一個“簡潔”觸發器，即只修改圖像的有限部分的觸發器。本文用掩碼m的L1范數來測量觸發器的大小。同時，通過對兩個目標加權求和進行優化，將其表述為一個多目標優化任務。最后形成如下公式。

f(·)是DNN的預測函數；l(·)是測量分類誤差的損失函數，也表示實驗中的交叉熵；λ是第二個目標的權重。較小的λ對觸發器大小的控制具有較低的權重，但會有較高的成功率產生錯誤分類。在本文的實驗中，優化過程會動態地調整λ，以確保大于99%的干凈圖像能夠成功地被錯誤分類。我們使用ADAM優化器[19]來解決上述優化問題。

X是我們用來解決優化任務的一組干凈的圖像。它來自用戶可以訪問的干凈數據集。在實驗中，使用訓練集并將其輸入到優化過程中，直到收斂為止。或者，用戶也可以對測試集的一小部分進行采樣。

通過異常點檢測后門。

利用該優化方法，得到了每個目標標簽的逆向工程觸發器及其L1范數。然后識別觸發器和相關的標簽，這些觸發器在分布中表現為具有較小L1范數的異常值。這對應于檢測過程中的步驟3。

為了檢測異常值，本文使用了一種基于中位絕對偏差的技術。該技術在多個異常值存在的情況下具有彈性[20]。首先，它計算所有數據點與中位數之間的絕對偏差，這些絕對偏差的中值稱為MAD，同時提供分布的可靠度量。然后，將數據點的異常指數定義為數據點的絕對偏差，并除以MAD。當假定基礎分布為正態分布時，應用常數估計器（1.4826）對異常指數進行規范化處理。任何異常指數大于2的數據點都有大于95%的異常概率。本文將任何大于2的異常指數標記為孤立點和受感染的值，從而只關注分布小端的異常值（低L1范數標簽更易受攻擊）。

在帶有大量標簽的型號中檢測后門。

在具有大量標簽的DNN中，檢測可能會引起與標簽數量成正比的高成本計算。假設在有1283個標簽的YouTube人臉識別模型中[22]，我們的檢測方法平均每個標簽需要14.6秒，在Nvidia Titan X GPU 上的總成本約為5.2小時。如果跨多個GPU并行化處理，該時間可以減少一個常數因子，但對資源受限的用戶來說，總體計算仍然是一個負擔。

相反，本文提出了一種大模型低成本的檢測方案。我們觀察到，優化過程（公式3）在前幾次梯度下降迭代中找到了一個近似解，并且使用剩余的迭代來微調觸發器。因此，提前終止了優化過程，以縮小到一小部分可能被感染的標簽的候選范圍。然后，集中資源來全面優化這些可疑標簽，還對一個小的隨機標簽集進行了完全優化，以估計MAD值（L1范數分布的離散度）。這種修改大大減少了需要分析的標簽數量（大部分標簽被忽略），從而很大程度減少了計算時間。

V. 后門檢測和觸發器識別的實驗驗證

在本節中，描述了在多個分類應用領域中評估本文的防御技術以抵御BadNets和特洛伊木馬攻擊實驗。

A.實驗裝置

針對BadNets評估，本文使用了四個實驗任務，并對它們的數據集注入后門，具體包括：

(1)手寫體數字識別(MNIST)
(2)交通標志識別(GTSRB)
(3)具有大量標簽的人臉識別(YouTube Face)
(4)基于復雜模型的人臉識別(PubFig)

針對特洛伊木馬攻擊評估，本文使用了兩種已受感染的人臉識別模型，這兩種模型在原始工作中使用并由作者共享，即：

Trojan Square
Trojan Watermark

下面描述每個任務和相關數據集的詳細信息。表 I包括了一個簡短的摘要。為了更加精簡，我們在附錄表VI中包含了更多關于訓練配置的詳細信息，以及在表VII、VIII、IX、X中詳細表述了它們的模型架構。

手寫體數字識別(MNIST)
此任務通常用于評估DNN的脆弱性。目標是識別灰度圖像中的10個手寫數字（0-9）[23]。數據集包含60K的訓練圖像和10K的測試圖像。使用的模型是一個標準的4層卷積神經網絡（見表VII）。在BadNets工作中也對這一模型進行了評估。
交通標志識別(GTSRB)
此任務也通常用于評估DNN的攻擊。其任務是識別43個不同的交通標志，模擬自動駕駛汽車的應用場景。它使用了德國交通標志基準數據集（GTSRB），包含39.2K彩色訓練圖像和12.6K測試圖像[24]。該模型由6個卷積層和2個全連接層組成（見表VIII）。
人臉識別(YouTube Face)
這個任務通過人臉識別來模擬一個安全篩選場景，在這個場景中，它試圖識別1283個不同人的面孔。標簽集的大尺寸增加了檢測方案的計算復雜度，是評價低成本檢測方法的一個很好的選擇。它使用Youtube人臉數據集，包含從YouTube不同人的視頻中提取的圖像[22]。我們應用了先前工作中使用的預處理，得到包含1283個標簽、375.6K訓練圖像和64.2K測試圖像的數據集[17]。本文還按照先前的工作選擇了由8層組成的DeepID體系結構[17][25]。
面部識別(PubFig)
這項任務類似于YouTube的人臉，并且識別了65人的面部。使用的數據集包括5850幅彩色訓練圖像，分辨率為224×224，以及650幅測試圖像[26]。訓練數據的有限大小使得難以對這種復雜任務從頭開始訓練模型。因此，我們利用遷移學習，并使用一個基于16層VGG教師模型（表X），通過本文的訓練集對教師模型的最后4層進行微調。此任務有助于使用大型復雜模型（16層）評估BadNets攻擊。
基于特洛伊木馬攻擊的人臉識別（Trojan Square和Trojan Watermark）
這兩個模型都是從VGG-臉模型（16層）中推導出來的，該模型被訓練為識別2622人的面孔[27]、[28]。類似于YouTube的人臉，這些模型也要求低成本檢測方案，因為有大量的標簽。需要注意的是，這兩種模型在未受感染的狀態下是相同的，但在后門注入時不同（下面將討論）。原始數據集包含260萬幅圖像。由于作者沒有指定訓練和測試集的精確分割，本文隨機選擇了10K圖像的子集作為接下來部分實驗的測試集。

Badnet攻擊配置。 本文遵循BadNets[12]提出的在訓練中注入后門的攻擊方法。對于我們測試的每個應用領域，隨機選擇一個目標標簽，并通過注入一部分標記為目標標簽的對抗性輸入來修改訓練數據。對抗性輸入是通過將觸發器應用于清潔圖像來生成的。對于給定的任務和數據集，改變訓練中對抗性輸入的比例，使攻擊成功率達到95%以上，同時保持較高的分類準確率。這一比例從10%到20%不等。然后利用改進的訓練數據對DNN模型進行訓練，直至收斂。

觸發器是位于圖像右下角的白色方格，它們是被選中的要求是不覆蓋圖像的任何重要部分，例如面部、標志等。選擇觸發器的形狀和顏色以確保它是唯一的，并且不會在任何輸入圖像中再次發生。為了使觸發器不引人注目，我們將觸發器的大小限制約為整幅圖像的1%，即MNIST和GTSRB中的4×4，YouTube人臉中的5×5，Pub圖像中的24×24。觸發器和對抗性圖像的示例見附錄（圖20）。

為了測量后門注入的性能，本文計算了測試數據的分類精度，以及將觸發器應用于測試圖像時的攻擊成功率。“攻擊成功率”衡量分類為目標標簽中對抗圖像的百分比。作為基準，本文還測量每個模型的干凈版本的分類精度（即使用相同的訓練配置，對比干凈的數據集）。表 II報告了對四項任務的每一次攻擊的最終性能。所有后門攻擊的攻擊成功率均在97%以上，對分類準確率影響不大。在PubFig中，分類準確率下降最大的是2.62%。

木馬攻擊的攻擊配置。 這里直接使用特洛伊木馬攻擊工作中作者共享的受感染的Trojan Square 和 Trojan Watermark模型[13]。在特洛伊方塊中使用的觸發器是右下角的一個正方形，大小為整個圖像的7%。特洛伊水印使用由文本和符號組成的觸發器，該觸發器類似于水印，其大小也是整個圖像的7%。這兩個后門的攻擊成功率分別為99.9%和97.6%。

B.檢測性能

按照第IV節的方法，檢查是否能夠發現感染的DNN。圖 3顯示了所有6個感染者的異常指數，以及它們匹配的原始清潔模型，包括BadNets和特洛伊木馬攻擊。所有感染模型的異常指數均大于3，表明感染模型的概率大于99.7%，先前定義的感染異常指數閾值是2（第IV節）。同時，所有干凈模型的異常指數均小于2，這意味著孤立點檢測方法正確地將它們標記為干凈。

為了獲取感染標簽在L1規范分布中的位置，在圖 4中繪制了未受感染和受感染的標簽的分布情況。對于未感染標記的分布，繪制了L1范數的最小和最大值、25/75四分位數和中值。注意，只有一個標簽被感染，所以有一個L1規范數據點來表示被感染的標簽。與未感染的標簽“分布”相比，受感染的標簽總是遠低于中位數，并且遠小于未感染標簽的最小值。該結論進一步驗證了我們的猜想，攻擊受感染標簽所需的觸發器L1范數的大小比攻擊未受感染標簽的值小。

最后，本文的方法還可以確定哪些標簽被感染。簡單地說，任何異常指數大于2的標簽都被標記為受感染。在大多數模型中，如MNIST、GTSRB、PubFig和Trojan Watermark，會標記受感染的標簽，并且僅將受感染的標簽標記為對抗標簽，沒有任何假陽性。但在Youtube Face和Trojan Square上，除了標記受感染的標簽外，還錯誤地將23和1的未感染標簽標記為對抗性標簽。實際上，這并不是一個有問題的情況。第一，識別這些假陽性標簽是因為它們比其他標簽更易受攻擊，并且該信息對于模型用戶是有用的。第二，在隨后的實驗中（第六部分的C小節），本文提出了緩解技術，將修補所有易受攻擊的標簽，而不影響模型的分類性能。

低成本檢測的性能。 圖3和圖 4在先前的實驗中展示了實驗結果，在Trojan Square、Trojan Watermark和干凈的VGG-人臉模型（均帶有2622個標簽)中使用了低成本檢測方案。然而，為了更好地衡量低成本檢測方法的性能，本文以Youtube 人臉為例，對計算成本降低和檢測性能進行了評價。

本文首先更詳細地描述了用于YouTube人臉的低成本檢測設置。為了識別一小部分可能受感染的候選者，從每次迭代中的前100個標簽開始。標簽是根據L1范數排列的（即L1范數較小的標簽得到更高的等級）。圖 5通過測量標簽在后續迭代紅色曲線中的重疊程度，顯示了前100個標簽在不同迭代中是如何變化的。在前10次迭代之后，集合重疊大部分是穩定的，波動在80左右。這意味著，經過幾次迭代運行完整的優化，忽略其余的標簽，從而可以選擇前100個標簽。更保守的是，當10個迭代的重疊標簽數目保持大于50時，終止操作。那么我們的早期終止計劃有多準確呢？類似于全成本計劃，它正確標記受感染的標簽并導致9個假陽性。圖 5中的黑色曲線跟蹤受感染標簽在迭代過程中的級別，排名大約穩定在12次迭代之后，接近于我們早期的10次終止迭代。此外，低成本方案和全成本方案的異常指數非常相似，分別為3.92和3.91。

該方法大大減少了計算時間，提前終止需要35分鐘。在終止后，接著運行了對前100個標簽的完整優化過程，以及另一個隨機抽樣的100個標簽，以估計未感染標簽的L1規范分布。這個過程還需要44分鐘，整個過程需要1.3小時，與整個計劃相比，時間減少了75%。

C.原始觸發器識別

當識別受感染的標簽時，我們的方法也會反向工程一個觸發器，從而導致對該標簽的錯誤分類。這里存在一個問題，反向工程觸發器是否“匹配”原始觸發器，即攻擊者使用的觸發器。如果有一個強有力的匹配，則可以利用反向工程觸發器設計有效的緩解方案。

本文用三種方式比較這兩種觸發器。

端到端的有效性
與原始觸發器類似，反向觸發器導致高攻擊成功率，實際上高于原始觸發器。所有反向觸發器的攻擊成功率均大于97.5%，而原始觸發器的攻擊成功率大于97.0%。這并不奇怪，考慮如何使用一個優化錯誤分類的方案來推斷觸發器（第四節）。我們的檢測方法有效識別了產生同樣錯誤分類結果的最小觸發器。
視覺相似性
圖6比較了四個BadNets模型中的原始觸發器和反向觸發器(m·?)。我們發現反向觸發器與原始觸發器大致相似。在所有情況下，反向觸發器都顯示在與原始觸發器相同的位置。然而，反向觸發器與原始觸發器之間仍然存在很小的差異。例如，在MNIST和PubFig中，反向觸發器比原始觸發器略小，缺少幾個像素。在使用彩色圖像的模型中，反向觸發器有許多非白色像素。這些差異可歸因于兩個原因。首先，當模型被訓練以識別觸發器時，它可能無法了解觸發器的確切形狀和顏色。這意味著在模型中觸發后門最“有效”的方式不是原始注入觸發器，而是稍微不同的形式。其次，我們的優化目標是懲罰更大的觸發。因此，在優化過程中，觸發器中的一些冗余像素將被剪除，從而導致一個較小的觸發器。結合起來，整個優化過程找到了比原始觸發更“緊湊”的后門觸發器。

在兩個特洛伊木馬攻擊模型中，反向觸發器和原始觸發器之間的不匹配變得更加明顯，如圖 7所示。在這兩種情況下，反向觸發器出現在圖像的不同位置，并在視覺上不同。它們至少比原來的觸發器小一個數量級，比BadNets模型要緊湊得多。結果表明，我們的優化方案在像素空間中發現了一個更加緊湊的觸發，它可以利用同一個后門，實現類似的端到端效果。這也突出了特洛伊木馬攻擊和BadNets之間的區別。由于特洛伊木馬攻擊的目標是特定的神經元，以便將輸入觸發連接到錯誤分類的輸出，它們不能避免對其他神經元的副作用。結果是一個更廣泛的攻擊，可以引發更廣泛的觸發器，其中最小的是反向工程技術。

神經元激活的相似性
進一步研究反向觸發器和原始觸發器的輸入在內部層是否有相似的神經元激活。具體而言，檢查第二層到最后一層的神經元，因為這個層在輸入中編碼了相關具有代表性的模式。識別最相關的神經元后門，通過送入干凈和對抗的圖像并觀察神經元激活在目標層（第二層到最后一層）的差異。通過測量神經元激活程度的差異對神經元進行排序。通過經驗發現前1%的神經元是足夠注入后門，換句話說，如果保持前1%的神經元，并遮住其余的神經元（設置為零），攻擊仍然有效。

如果由原始觸發器激活的前1%的神經元也被反向工程觸發器激活，而不是干凈的輸入，就認為神經元的激活是“相似的”。表III顯示隨機選取1000張清潔和對抗性圖像時，前1%神經元的平均激活情況。在所有情況中，對抗性圖像中神經元的激活要比清潔圖像高3倍到7倍不等。以上實驗表明，當加入輸入時，反向觸發器和原始觸發器都激活相同的后門神經元。最后，利用神經激活作為第六部分中緩解技術后門的一種方式。

VI.后門的緩減

當檢測到后門的存在時，就需要在保持模型性能的前提下應用緩解技術移除后門。本文描述了兩種互補的技術。首先，為對抗性輸入創建一個過濾器，用于識別和拒絕任何帶有觸發器的輸入，從容修補模型。根據應用程序的不同，這種方法還可以用于為對抗性輸入分配“安全”輸出標簽，并且不會被拒絕。其次，通過修補DNN使其對檢測到的后門觸發器沒有響應。本文描述了兩種修補方法，一種是使用神經元剪枝，另一種是使用撤銷學習（Unlearning）。

A.用于檢測對抗性輸入的濾波器

在第五部分的C小節中，實驗結果表明神經元激活是捕捉原始和逆向工程觸發器之間相似性的更好方法。因此，建立基于神經元激活輪廓的反向觸發濾波器，可以用來測量激活前1%的神經元是否在第二層至最后一層。當給定某些輸入時，過濾器將潛在的對抗性輸入識別為具有高于某一閾值的激活輪廓輸入。激活閾值可以使用干凈輸入（已知沒有觸發器的輸入）的測試來校準。本文使用測試集的干凈圖像，通過將原始觸發器應用于測試圖像（按1:1比率）來創建對抗性圖像評估過濾器的性能。在為平均神經元激活設置不同閾值時計算假陽性率（FPR）和假陰性率（FNR），其結果顯示如圖 8所示。在FPR為5%的情況下，對四種BadNets模型都實現了較高的過濾，其FNR值均小于1.63%。同時，可能由于反向觸發器和原始觸發器之間神經元激活的差異，特洛伊木馬攻擊模型更難過濾掉。FPR小于5%時FNR較高，FPR為5%時FNR為4.3%和28.5%。最后，本文觀察了特洛伊木馬攻擊和BadNets之間選擇不同注入方法的結果。

B.神經元剪枝修復DNN

為了對感染模型進行實際修補，本文提出了兩種技術。在第一種方法中，使用反向觸發器來幫助識別DNN中后門的相關組件并刪除它們，例如神經元。本文建議從DNN中剪除后門相關的神經元，即在推理過程中將這些神經元的輸出值設為0。接著以清潔輸入和對抗性輸入之間的差異，并使用反向觸發器來對目標神經元排序。以第二層至最后一層為目標，按最高等級第一的順序修剪神經元，優先考慮那些在清潔輸入和對抗性輸入之間顯示最大激活差距的輸入。為了最大限度地減少對清潔輸入的分類準確率的影響，當修剪的模型不再響應反向觸發器時，停止修剪。

圖 9顯示了在GTSRB中修剪不同比例神經元時的分類準確率和攻擊成功率。修剪30%的神經元可將攻擊成功率降低至0%。注意，反向觸發器的攻擊成功率遵循與原始觸發器類似的趨勢，因此可以作為接近原始觸發器防御效果的良好信號。同時，分類準確率僅下降了5.06%。防御者可以通過減少攻擊成功率來實現更小的分類精度下降，如圖9所示。

需要注意一點，在第五部分的C小節中，確定了排名前1%的神經元足以導致分類錯誤。然而在這種情況下，我們必須去除近30%的神經元，以有效地減輕攻擊。這可以解釋為DNNs中神經通路存在大量的冗余[29]，即使去除了前1%的神經元，還有其他排名較低的神經元仍然可以幫助觸發后門。先前壓縮DNN的工作也注意到了該類高冗余現象[29]。

將本文的方案應用于其他BadNets模型時，在MNIST和PubFig發現了非常相似的實驗結果，如圖21所示。當修剪10%到30%的神經元時，可以將攻擊成功率降低到0%。然而，我們觀察到YouTube人臉中的分類精度受到了更大的負面影響，如圖21所示。對于YouTube人臉，當攻擊成功率下降到1.6%時，分類準確率從97.55%下降到81.4%。這是由于第二層到最后一層只有160個輸出神經元，這意味著干凈的神經元和對抗神經元混合在一起，從而使得干凈的神經元在該過程中被修剪，因此降低了分類精度。本文在多個層次上進行了剪枝實驗，發現在最后一個卷積層進行剪枝會產生最好的效果。在所有四種BadNets模型中，攻擊成功率降低到小于1%，分類精度最小值降低到小于0.8%。同時，最多8%的神經元被修剪，附錄中的圖22繪制了這些詳細的實驗結果。

特洛伊木馬模型中的神經元剪枝。 在特洛伊木馬模型中，本文使用了相同的剪枝方法和配置，但剪枝效果較差。如圖10所示，當修剪30%的神經元時，反向工程觸發器的攻擊成功率下降到10.1%，但使用原始觸發器的成功率仍然很高，為87.3%，該差異是由于反向觸發器與原始觸發器之間神經元的激活不同。如果神經元激活在匹配反向工程觸發器和原始觸發器方面效果不理想，那么就會導致在使用原始觸發器的攻擊中剪枝效果不佳。在下一節中將講述撤銷學習對特洛伊木馬攻擊的實驗，其效果要好得多。

優點和局限性。 一個明顯的優點是該方法需要非常少的計算，其中大部分涉及運行干凈和對抗圖像的推斷。然而，其性能取決于選擇合適的層來修剪神經元，就需要對多個層進行實驗。另外，它對反向觸發器與原始觸發器的匹配程度具有很高的要求。

C.通過撤銷學習修補DNN

第二種緩解方法是通過撤銷學習來訓練DNN，從而取消原來的觸發器。可以使用反向觸發器來訓練受感染的神經網絡并識別正確的標簽，即使在觸發器存在時也是如此。與神經元修剪相比，撤銷學習（Unlearning）允許模型通過訓練決定哪些非神經元權重是有問題的，并且應該更新。

對于包含特洛伊木馬模型在內的所有模型，使用更新的訓練數據集對模型進行微調，僅為一次全樣本訓練（Epoch）。要創建這個新的訓練集，就需要一個10%的原始訓練數據樣本（干凈且沒有觸發器），并在不修改標簽的情況下，為該樣本的20%添加反向觸發器。為了測量修補的有效性，本文測量原始觸發器的攻擊成功率和微調模型的分類精度。

表IV比較了訓練前后的攻擊成功率和分類準確率。在所有模型中，都可以將攻擊成功率降低到小于6.70%，而不會顯著影響分類精度。分類準確率下降幅度最大的是GTSRB，僅為3.6%。在某些模型中，特別是木馬攻擊模型中，經過修補后的分類精度有了提高。注意，當注入后門時，特洛伊木馬攻擊模型的分類精度會下降，原始未受感染的木馬攻擊模型的分類準確率為77.2%（表IV中未展示），當后門被修補后，該值就得到了改善。

本文比較了這種Unlearning和兩種變體的效果。首先，針對相同的訓練樣本進行再訓練，應用原始觸發器而不是逆向工程觸發器的為20%。如表IV所示，使用原始觸發器的撤銷學習實現了具有相似分類精度的較低的攻擊成功率。因此，用反向觸發器來撤銷學習是一個很好的近似，可以用原始的方法來撤銷學習。其次，只使用干凈的訓練數據且不使用額外的觸發器與撤銷學習進行比較。表IV最后一欄的結果表明，對所有BadNets模型來說，撤銷學習是無效的，攻擊成功率仍然很高，大于93.37%。但是對于特洛伊攻擊模型來說它是高效的，并且存在特洛伊木馬方塊和特洛伊木馬水印的成功率分別下降到10.91%和0%。該結果表明，特洛伊攻擊模型對特定神經元的高目標性重調，同時撤銷學習更為敏感。它有助于復位幾個關鍵神經元的干凈輸入并禁用攻擊。相反，BadNets通過使用中毒數據集更新所有層來注入后門，這似乎需要更多的工作時間，以重新訓練和減輕后門。本文檢查了修復假陽性標簽的影響，在Youtube人臉和特洛伊木馬方塊（在第五部分的B小節中）修補錯誤標記的標簽，只會降低小于1%的分類精度。因此，緩解部分檢測中存在的假陽性是可以忽略其影響的。

參數和成本。 通過實驗發現，撤銷學習性能通常對參數如訓練數據量，以及修改后的訓練數據的比率不敏感。

最后，與神經元剪枝相比，撤銷學習具有更高的計算成本。然而，它仍然比從最初再訓練模型小一個到兩個數量級。本文的實驗結果表明，與替代方案相比，撤銷學習顯然提供了最佳的緩解性能。

VII.高級后門的魯棒性

先前章節描述和評估了基于基本情況假設的后門攻擊的檢測和緩解，例如，更少的觸發器，每個優先隱身，將任意輸入的錯誤分類定位到單個目標標簽中。在這里，本文探索了許多更復雜的場景，并通過有可能的實驗評估各自防御機制的有效性。

本文討論了5種特定類型的高級后門攻擊，每一種攻擊都挑戰當前防御設計中的假設或限制。

復雜的觸發器。 本文的檢測方案依賴于優化過程的成功與否。更復雜的觸發器會使優化函數更難收斂嗎？
較大的觸發器。 考慮更大的觸發因素，通過增加觸發器大小，攻擊者可以強制反向工程收斂到具有較大范數的較大觸發器。
帶有不同觸發器的多種受感染標簽。 考慮這樣一種場景，針對不同標簽的多個后門插入到單個模型中，評估檢測受感染標簽的最大數量。
帶有多個觸發器的單個受感染標簽。 考慮針對同一標簽的多個觸發器。
特定于源標簽的（部分）后門。 本文的檢測方案是為了檢測在任意輸入上導致錯誤分類的觸發器。對來自源標簽子集的輸入有效的“部分”后門將更難以檢測。

A.復雜觸發模式

正如我們在特洛伊木馬模型中所觀察到的，具有更復雜圖案的觸發器其優化更難收斂。一個更隨機的觸發器圖案可能會增加反向工程觸發器的難度。

本文執行簡單的測試，首先將白色方形觸發器更改為噪聲方形，其中觸發的每個像素都被分配一個隨機顏色。在MNIST、GTSRB、YouTube Face和PubFig中注入后門攻擊，并評估其性能。每個模型中產生的異常指數如圖11所示。本文的技術在所有情況下都檢測到復雜的觸發圖案，并在這些模型上測試了我們的緩解技術。對于過濾，在FPR為5%時，所有模型的FNR均小于0.01%。修補使用撤銷學習將攻擊成功率降低到小于4.2%，最多減少3.1%的分類準確率。最后，測試本文了GTSRB中具有不同觸發形狀（例如三角形、棋盤形狀）的后門，所有檢測和緩解技術都按預期工作進行。

B.較大的觸發器

較大的觸發器可能會產生更大的反向工程觸發。這可以幫助受感染的標簽更接近L1標準中未感染的標簽，使得異常檢測效果更差。在GTSRB上進行了樣本測試，將觸發器的大小從4×4（圖像的1.6%）增加到16×16（25%），所有觸發器仍是白色方塊。本文對以往實驗中使用相同結構的檢測技術進行了評價。圖12顯示了受感染和未感染標簽的反向觸發器的L1范數。當原始觸發器變大時，反向觸發器也會像預期的那樣變大。當觸發器超過14×14時，L1范數與未感染的標簽混合，使異常指數降低到檢測閾值以下，異常指數指標如圖13所示。

最大可檢測的觸發器大小很大程度上取決于一個因素：未受感染標簽的觸發器大小（導致未感染標簽之間所有輸入錯誤分類所需的變更量）。未受感染標簽的觸發器大小本身就是測量不同標簽之間輸入差異的代理，也就是說，更多的標簽意味著未感染的標簽需要更大的觸發器尺寸，檢測較大觸發器需要更大的能力。在Youtube人臉應用程序中，檢測到整個圖像高達39%的觸發器。在標記較少的MNIST上，我們只能檢測到高達18%的圖像大小的觸發器。一般來說，一個更大的觸發器在視覺上更明顯，更容易被人類識別。然而，可能存在增加觸發器大小的方法，但不太明顯，在今后的工作中我們會加以探討。

C.帶有不同觸發器的多個受感染標簽

該實驗考慮的場景是攻擊者將多個獨立后門插入到單個模型中，每個后門針對的是一個不同的標簽。對于L中的許多Lt，插入大量后門可能會共同降低。這會使任何單個觸發器的影響小于異常值并且更難以檢測到凈效應。折中之處在于，模型很可能具有學習后門的“最大能力”，同時保持它們的分類。

通過產生具有相互排斥的顏色圖案的獨特觸發器來進行實驗。我們發現大多數模型，即MNIST、GTSRB和PubFig，都有足夠的能力支持每個輸出標簽的觸發器，而不影響分類的準確率。但在YouTube人臉上，有1283個標簽，一旦觸發器感染超過15.6%的標簽，平均攻擊成功率就會明顯下降。如圖 14所示，平均攻擊由于觸發因素太多，成功率下降，這也證實了我們先前的猜測。

在GTSRB中評估多個不同后門的防御。如圖15所示，一旦超過8個標簽（18.6%）被后門感染，異常檢測就很難識別觸發器的影響。其結果表明，MNIST最多可檢測出3種標簽（30%)，YouTube人臉可檢測出375種標簽（29.2%），PubFig可檢測出24種標簽（36.9%）。

盡管孤立點檢測方法在這種情況下失敗了，但底層的反向工程方法仍然有效。對于所有受感染的標簽，成功反向設計了正確的觸發。圖16顯示了受感染和未感染標簽的觸發L1規范。所有感染的標簽具有比未感染的標簽更小的范數。進一步的手工分析驗證了反向觸發器在視覺上看起來與原始觸發相似。保守的防御者可以手動檢查反向觸發器，并確定模型的可疑性。之后的測試表明先發制人的“修補”可以成功地減少潛在的后門。當GTSRB中所有標簽都被感染時，使用反向觸發器修補所有標簽將使平均攻擊成功率降低到2.83%。主動修補也為其他模型提供了類似的好處。最后，在所有BadNets模型中，在FPR為5%時，濾波也能有效地檢測低FNR的對抗性輸入。

D.帶有多個觸發器的單個受感染標簽

考慮這樣一種情況，即多個不同的觸發器導致對同一標簽的錯誤分類。在這種情況下，本文的檢測技術可能只檢測和修補一個現有的觸發器。為此，將9個白色4×4正方形觸發器注入到GTSRB中相同的目標標簽。這些觸發器具有相同的形狀和顏色，但是位于圖像的不同位置，即四個角、四個邊和中間。該攻擊對所有觸發器實現大于90%的攻擊成功率。

檢測和修補結果如圖17所示。正如先前所猜測的那樣，本文檢測技術的一次運行只識別并修補了一個注入觸發器。幸運的是，只需要運行檢測和修補算法3次迭代，就可以將所有觸發器的成功率依次降低到小于5%。實驗還在其他MNIST、Youtube Faces和PubFig上進行了測試，所有觸發器的攻擊成功率降低到小于1%、小于5%和小于4%。

E.源標簽（部分）后門

在第二部分中，本文將后門定義為一種隱藏模式，它可能會將任意輸入從任何標簽錯誤地分類到目標標簽中。檢測方案旨在找到這些“完整”的后門，可以設計功能較弱的“部分”后門，使得觸發器僅在應用于屬于源標簽子集的輸入時觸發錯誤分類，并且在應用于其他輸入時不執行任何操作。用我們現有的方法來檢測這種后門將是一個挑戰。

檢測部分后門需要稍微修改我們的檢測方案。本文分析了所有可能的源標簽和目標標簽對，而不是對每個目標標簽進行反向工程觸發。對于每個標簽對，使用屬于源標簽的樣本來解決優化問題。由此產生的反向觸發器只對特定的標簽對有效。然后，通過對不同對的觸發器的L1范數進行比較，可以使用相同的異常值檢測方法來識別特別容易受到攻擊的標簽對，并表現為異常，通過向MNIST注入一個針對一個源標簽和目標標簽對的后門進行實驗。雖然注入后門運行良好，但更新的檢測和緩解技術都是成功的。分析所有源標簽和目標標簽對會增加檢測的計算成本，其中N表示標簽的數目。然而，可以使用分治法將計算成本降低到對數N的量級，詳細的評估將在以后的工作中實行。

VIII.相關工作

傳統的機器學習會假設環境是良性的，但對手在訓練或測試時會違反該假設。

額外的后門攻擊和防御。 除了第二節中提到的攻擊之外，Chen等提出了一種更嚴格的攻擊模式下的后門攻擊，其中攻擊者只能污染有限的一部分訓練集[17]。另一項工作是直接篡改DNN在文獻[30]和[31]上運行的硬件，當一個觸發器出現時，這樣的后門電路也會改變模型的性能。

中毒攻擊。 中毒攻擊污染了訓練數據，改變了模型的行為。不同于后門攻擊，中毒攻擊不依賴于觸發器，并在一組干凈的樣品上改變模型的表現。對中毒攻擊的防御主要集中在凈化訓練集和清除中毒樣本[32]、[33]、[34]、[35]、[36]、[37]。這種假設在于找到能夠顯著改變模型性能的樣本[32]，而此假設已經證明了對后門攻擊的有效性較低[17]，因為注入的樣本不會影響模型在干凈樣本上的性能。同樣，在本文的攻擊模型中是不實際的，因為防御者無法訪問中毒訓練集。

其他針對DNNs的敵對攻擊。 許多非后門的對抗性攻擊已經被提出，針對一般的DNN，通常會對圖像進行潛移默化的修改，從而導致分類錯誤。在文獻[38]、[39]、[40]、[41]、[42]中，這些方法可應用于DNNs。文獻[43]、[44]、[45]、[46]、[47]已經提出了一些防御措施，但文獻[48]、[49]、[50]、[51]已證明適應性對抗的性能較低。最近的一些工作試圖制造普遍的擾動，這將引發對未感染的DNN中的多幅圖像的錯誤分類[52]、[53]。這一系列的工作考慮了不同的威脅模型，假設一個未受感染的受害者模型，這不是本文防御的目標情景。

IX. 結論和今后的工作

本文的工作描述并驗證了我們在深度神經網絡上抵御后門（特洛伊木馬）攻擊的強大性和通用性，并提出了檢測和緩解工具。除了對基本的和復雜的后門防御效果之外，本文的意外收獲之一是兩種后門注入方法之間的顯著差異：觸發器驅動的BadNets可以完全訪問模型訓練的端到端攻擊，以及神經元驅動的Trojan攻擊而不能訪問模型訓練。通過實驗，我們發現木馬攻擊注入方法通常會增加不必要的擾動，并給非目標神經元帶來不可預測的變化。這使它們的觸發器更難以逆向工程，并使它們對過濾和神經元修剪更具抵抗力。但是，折衷方案是它們對特定神經元的關注使它們對撤銷學習的緩解作用極為敏感。相反，BadNets向神經元引入了更可預測的變化，并且可以通過神經元修剪更容易地進行逆向工程、過濾和緩解。

最后，雖然本文的結果對不同應用程序中的一系列攻擊都是健壯的，但仍然存在局限性。首先是超越當前視覺領域的泛化問題。我們對檢測及緩解方法的高度猜想和設計可以概括為：檢測的設想是受感染的標簽比未受感染的標簽更易受攻擊，并且這應該是域無關的。使整個管道適應非視覺領域的主要挑戰是制定后門攻擊過程，并設計一個度量標準，以衡量特定標簽的脆弱性（如公式2和公式3）。其次，攻擊者的潛在對策措施的空間可能很大。本文研究了5種針對我們防御的不同組成部分/假設的不同對策，但是對其他潛在對策的進一步探索仍然是未來工作的一部分。

神經網絡模型觸發器

撤稿糾錯

本作品采用《CC 協議》，轉載必須注明作者和本文鏈接

[AI安全論文] 14.S&P2019-Neural Cleanse 神經網絡中的后門攻擊識別與緩解

2022-02-28 20:18:31

深度神經網絡（DNNs）缺乏透明性使得它們容易受到后門攻擊，其中隱藏的關聯或觸發器會覆蓋正常的分類以產生意想不到的結果。例如，如果輸入中存在特定符號，則具有后門的模型總是將人臉識別為比爾蓋茨。后門可以無限期地隱藏，直到被輸入激活，并給許多與安全或安全相關的應用帶來嚴重的安全風險，例如，生物識別系統或汽車自動駕駛。

如何攻擊圖神經網絡

2022-08-24 08:12:18

目前，圖結構的數據被應用于各種安全敏感領域(例如惡意軟件分析,內存取證,欺詐檢測，藥物發現等)，而隨著圖神經網絡的興起，研究人員嘗試將圖神經網絡應用于這類數據上實施分析，發現都能達到非常先進的水平。

智能無人系統安全防御體系研究

2023-08-17 09:51:55

智能無人系統在民用和軍事領域得到越來越廣泛的應用。智能無人系統不僅會面臨傳統無人系統的安全威脅，同時由于智能的引入將會面對新型的安全威脅。首先，分析智能無人系統面臨的安全威脅，在此基礎上構建包含智能框架、算法、模型、數據、應用、無人平臺、計算環境、通信網絡、安全治理等關鍵要素的安全防御體系。其次，對智能無人系統安全防御涉及的關鍵技術進行研究，為智能無人系統的安全防御整體解決方案提供借鑒。

模型量化攻擊

2022-01-12 16:34:14

隨著深度神經網絡模型的性能增加，神經網絡的深度越來越深

【技術分享】如何保護深度學習系統-后門防御

2022-07-20 08:32:00

后門攻擊是AI安全領域目前非常火熱的研究方向，其涉及的攻擊面很廣，在外包階段，攻擊者可以控制模型訓練過程植入后門，在協作學習階段，攻擊者可以控制部分參與方提交惡意數據實現攻擊，甚至在模型訓練完成后，對于訓練好的模型也能植入后門模塊，或者在將其部署于平臺后也可以進行攻擊，比如通過hook技術、row hammer技術等。

沒有銀彈-AI安全領域的安全與隱私

2022-08-30 08:51:26

個人的研究方向為人工智能安全，所以本文以人工智能安全領域為例，以實際技術展現“沒有銀彈”這一真香定律是如何被印證的。他們在logits上采用softplus函數來計算魯棒損失值，然后將其與自然訓練損失(α=0)相結合。

BadNL: 語義保持改進的NLP模型后門攻擊

2022-04-12 09:04:02

深度神經網絡(dnn)在過去的十年中發展迅速，并已廣泛應用在現實生活中。與此同時，DNN模型已被證明容易受到安全和隱私攻擊。最近引起廣泛關注的一種攻擊是“后門攻擊”。具體地說，對手毒害了目標模型的訓練集，用一個附加的秘密觸發器將所有的輸入誤導為指定的目標類。之前的后門攻擊主要集中在計算機視覺(CV)應用上，如圖像分類。

針對惡意軟件分類器的可解釋性后門投毒攻擊

2022-10-11 08:16:37

使用多個用于惡意軟件分類的參考數據集，包括 Windows PE 文件、PDF 和 Android 應用程序，展示了針對各種機器學習模型的有效攻擊，并評估了對攻擊者施加的各種約束的影響。因此，它們已被視為與生產部署的 ML 模型最相關的威脅之一。此外，探索了各種現實世界的限制對攻擊者成功的影響，以及檢測攻擊的防御機制的可行性。

AI中的后門攻擊及防御

2022-09-26 08:04:59

由于AI系統中的這種攻擊手段其效果非常隱蔽，難以檢測，和傳統攻防對抗中的后門的隱蔽性質類似，所以研究人員將這種手段稱之為后門攻擊。同時還要毒化測試數據，也就是在部分測試數據加上觸發器。觸發器可以有效地在屬于B和C的區域中產生另一個維度。也就是說，這些后門區域減少了將帶有觸發器的原本屬于B和C樣本分類到標簽A所需的修改量。

對AI發動后門攻擊

2022-08-23 08:29:37

就是在這一批數據集上疊加觸發器，原來的數據集我們成為良性樣本，被疊加上觸發器后的樣本我們稱之為毒化樣本。模型訓練完畢后，在測試時，如果遇到帶有觸發器的測試數據，則會被誤導做出誤分類的結果。數據投毒本質上是破壞了AI系統的可用性，也就是說會無差別、全面地降低模型的性能，而后門攻擊則是一種定向的、精準的攻擊，可以指定模型將有觸發器存在的樣本誤分類到攻擊者指定的類別。

VSole

網絡安全專家