對抗攻擊怎么防御

回答數量: 1

信息安全等級高級測評師 CISP-PTE

防御對抗攻擊有以下兩種方法：

第一種可以描述為不管有沒有對抗樣本，模型都能正確分類輸入的樣本：FGD表示在倒數第二層特征上基于均方根誤差訓練去噪器，LGD則是在最后一層特征層面基于均方根誤差訓練去噪器，CGD是在模型輸出的概率分布層面用交叉熵損失函數訓練去噪器。使用三種方法訓練的去噪器可以迫使模型降低誤差放大的效果，從而確保模型不會被對抗樣本引入的誤差逐層放大并干擾輸出結果。
第二類可以描述為，在模型輸出前添加防火墻，從而過濾對抗樣本：迫使網絡將干凈圖像映射到簡單分布，而異常樣本由于噪聲的加入導致其被映射到GMM中后，距離每個簇均值的馬氏距離都很遠，從而檢測到異常樣本。實驗結果表明，在使用該方法作為防火墻后，模型的防御能力能夠獲得顯著提升。

回答所涉及的環境：聯想天逸510S、Windows 10。

1年前 / 評論