針對電商欺詐檢測系統的“中毒攻擊” - 網安 - 專業的網絡安全產業、社區、知識平臺

幾乎所有高級網絡安全產品的銷售都會告訴你，人工智能已經被用于保護計算基礎設施的許多產品和服務。但是，您可能沒有聽說過機器學習應用程序自身也需要安全防護，而且這些應用在日常服務中變得越來越普遍。

人工智能應用已經在塑造我們的意識（信息繭房）。大型社交媒體平臺普遍使用基于機器學習的推薦機制讓用戶與平臺保持強關聯、參與內容并投放精準廣告。但很少有人知道，這些系統很容易受到“數據中毒攻擊”。

對這些機器學習算法的操縱是司空見慣的，并且存在大量在線服務來幫助完成這些操作。而且，執行此操作不需要任何技術技能——只需掏出您的支付寶刷“點贊”、“訂閱”、“關注”、閱讀數、轉發、評論或任何能夠影響算法的數據。

由于這些攻擊造成的損失仍然難以用金錢量化——而且成本通常由用戶或社會本身承擔——大多數互聯網平臺僅在立法者或監管機構強制要求時才解決其模型的潛在腐敗（或腐化）問題。

事實上，任何在不可信數據上訓練的模型都可能遭受數據中毒攻擊。近日，F-Secure的資深數據科學家Samuel Marchal介紹了對抗電子商務網站的欺詐檢測算法。如果這種攻擊很容易達成，那么在線零售商就必須重視這個問題。

什么是數據中毒？

機器學習模型的好壞取決于用于訓練它的數據的質量和數量。訓練準確的機器學習模型通常需要大量數據。為了滿足這種需求，開發人員可能會求助于可能不受信任的來源，這可能會打開數據中毒的大門。

數據中毒攻擊旨在通過插入錯誤標記的數據來修改模型的訓練集，目的是誘使它做出錯誤的預測。成功的攻擊會損害模型的完整性，從而在模型的預測中產生一致的錯誤。一旦模型中毒，從攻擊中恢復是非常困難的，一些開發人員甚至可能都不會去嘗試修復。

數據中毒攻擊有兩個目標：

對欺詐檢測模型的成功攻擊

研究人員通過與電子商務網站上的欺詐檢測系統類似的示例場景來研究數據中毒攻擊。經過訓練的模型應該能夠根據訂單中的信息預測訂單是合法的（將被支付）還是欺詐（將不被支付）。此類模型將使用零售商可用的最佳數據進行訓練，這些數據通常來自之前在網站上下的訂單。

針對這種模型的攻擊者可能希望從整體上降低欺詐檢測系統的性能（因此它通常不善于發現欺詐活動）或發起精確攻擊，使攻擊者能夠在不被發現的情況下進行欺詐活動。

為了對該系統發起攻擊，攻擊者可以向訓練集中的現有數據點注入新數據點或修改現有數據點上的標簽。這可以通過冒充一個用戶或多個用戶并下訂單來完成。攻擊者為某些訂單付款，而不為其他訂單付款。目標是在下一次訓練模型時降低模型的預測準確性，因此欺詐變得更加難以檢測。

在研究人員的電子商務案例中，攻擊者可以通過延遲支付訂單以將其狀態從欺詐變為合法來實現標簽翻轉。還可以通過與客戶支持機制的交互來更改標簽。通過對模型及其訓練數據有足夠的了解，攻擊者可以生成優化的數據點，以通過DoS攻擊或后門來降低模型的準確性。

數據下毒的藝術

研究者用實驗生成了一個小數據集來說明電子商務欺詐檢測模型的工作原理。有了這些數據，研究者訓練了算法來對該集中的數據點進行分類。選擇線性回歸和支持向量機(SVM)模型是因為這些模型通常用于執行這些類型的分類操作。

研究者使用梯度上升方法基于拒絕服務或后門攻擊策略以最佳方式生成一個或多個中毒數據點，然后研究模型在接受新數據訓練后的準確性和決策邊界發生了什么變化，其中包括中毒的數據點。自然，為了實現每個攻擊目標，需要多個中毒數據點。

通過中毒攻擊實施電子商務欺詐

研究者的實驗結果發現，與拒絕服務中毒攻擊（兩者均為100）相比，研究者需要引入更少的中毒數據點來實現后門中毒攻擊（線性回歸為21，SVM為12）。

線性回歸模型比SVM模型更容易受到拒絕服務攻擊。在中毒數據點數相同的情況下，線性回歸模型的準確率從91.5%降低到56%，而SVM模型的準確率從95%降低到81.5%。請注意，在這種情況下，50%的準確率與擲硬幣相同。

SVM模型更容易受到后門中毒攻擊。由于SVM模型比線性回歸模型具有更高的容量，因此它們的決策邊界可以更好地擬合訓練集中的異常并在其預測中創建“異常”。另一方面，它需要更多中毒數據點來移動線性回歸模型的線性決策邊界以適應這些異常。

總結

該實驗發現，只要攻擊者對機器學習和優化技術有足夠的了解，中毒攻擊就可以很容易地被攻擊者執行。目前已經存在幾個公開可用的庫，以幫助攻擊者創建中毒攻擊。

一般來說，任何使用第三方數據訓練的機器學習模型都容易受到此類攻擊。攻擊者可以很容易使用中毒攻擊來獲取潛在的經濟利益。

在研究者的實驗設置中，我們觀察到復雜的模型更容易受到后門攻擊，而簡單的模型更容易受到DoS策略的影響，這表明這些模型從設計上沒有靈丹妙藥來防止所有攻擊技術。鑒于重新訓練對于現實中使用的模型來說非常困難，同時考慮到自動欺詐的較低潛在成本，我們需要增加額外的防御層來保護這些脆弱而重要的機器學習應用。

為了擁有值得信賴的人工智能，它需要是安全的，但是已經在使用的機器學習算法已經帶來了機器無法自行解決的安全挑戰。

（來源：@GoUpSec）