防御對抗攻擊有以下兩種方法:
第一種可以描述為不管有沒有對抗樣本,模型都能正確分類輸入的樣本:FGD表示在倒數第二層特征上基于均方根誤差訓練去噪器,LGD則是在最后一層特征層面基于均方根誤差訓練去噪器,CGD是在模型輸出的概率分布層面用交叉熵損失函數訓練去噪器。使用三種方法訓練的去噪器可以迫使模型降低誤差放大的效果,從而確保模型不會被對抗樣本引入的誤差逐層放大并干擾輸出結果。
第二類可以描述為,在模型輸出前添加防火墻,從而過濾對抗樣本:迫使網絡將干凈圖像映射到簡單分布,而異常樣本由于噪聲的加入導致其被映射到GMM中后,距離每個簇均值的馬氏距離都很遠,從而檢測到異常樣本。實驗結果表明,在使用該方法作為防火墻后,模型的防御能力能夠獲得顯著提升。
回答所涉及的環境:聯想天逸510S、Windows 10。
防御對抗攻擊有以下兩種方法:
第一種可以描述為不管有沒有對抗樣本,模型都能正確分類輸入的樣本:FGD表示在倒數第二層特征上基于均方根誤差訓練去噪器,LGD則是在最后一層特征層面基于均方根誤差訓練去噪器,CGD是在模型輸出的概率分布層面用交叉熵損失函數訓練去噪器。使用三種方法訓練的去噪器可以迫使模型降低誤差放大的效果,從而確保模型不會被對抗樣本引入的誤差逐層放大并干擾輸出結果。
第二類可以描述為,在模型輸出前添加防火墻,從而過濾對抗樣本:迫使網絡將干凈圖像映射到簡單分布,而異常樣本由于噪聲的加入導致其被映射到GMM中后,距離每個簇均值的馬氏距離都很遠,從而檢測到異常樣本。實驗結果表明,在使用該方法作為防火墻后,模型的防御能力能夠獲得顯著提升。
回答所涉及的環境:聯想天逸510S、Windows 10。