人工智能給安全行業帶來的新思路與新隱憂 - 網安 - 專業的網絡安全產業、社區、知識平臺

根據 MarketsandMarkets 公司 2018 年發布的《安全市場中人工智能》報告，全球人工智能賦能安全市場規模在 2017 年已達 39.2 億美元，預計 2025 年將達到 348.1 億美元，平均每年增長率超過 30%。人工智能（AI）在網絡安全、內容安全、數據安全、業務安全、終端安全等細分領域，給安全行業帶來了新思路新方法，同時，也在對抗樣本、深度偽造等方面給安全行業帶來了新的挑戰。

一、AI 帶來的安全應用場景

1. 內容安全

隨著 5G 和移動互聯網相關技術和產品的日漸成熟，互聯網內容正在以更多載體形式和更快生產速度滲透到人民日常生活的方方面面，對于涉黃、涉暴、涉恐、圖文違規等內容的識別、審核和攔截成為各大內容生產和交流平臺的必備社會責任。2021年，全國“掃黃打非”辦公室開展“新風 2021”集中行動，從3月到11月，幾近貫穿2021整年。從內容安全風險角度，行動涵蓋音視頻、直播、社區、新聞門戶、游戲、網絡文學、自媒體、電商等全品類互聯網平臺。監管層面對平臺方的高要求和強管控力度可見一斑。

在有害文本內容的檢測上，核心難點就是提升模型的準召率(Precision and Recall)以及如何應對語言的變種(互聯網黑話)。傳統的文本分類方法可稱作淺層學習模型，通常需要通過人工方法獲得良好的樣本特征，然后使用經典的分類算法進行識別，此類方法的有效性在很大程度上受到特征提取的限制。但得益于深度學習在近年的蓬勃發展，深度學習能夠通過神經網絡模擬人腦，以自動從數據中學習高階特征并進行分類，例如單詞依賴關系、文本結構以及文本中的關鍵短語，然后，將特征工程集成到模型擬合過程中，往往能夠獲得更優的效果，例如 Word2Vec和TextCNN模型。

在基于深度學習的文本分類模型里，不得不提的是BERT模型。BERT由谷歌在2018 年提出，當年首次將GLUE基準(用于評估通用自然語言處理模型的基準)推至80.4％，是NLP(自然語言處理)歷史上里程碑式的改變。BERT 是第一個無監督的、基于雙向深度神經網絡的自然語言預處理模型，它可以在一個大型文本語料庫(例如維基百科)上訓練一個通用的語言表示模型，充分利用上下文信息，然后將該模型用于下游自然語言處理任務(如智能問答和文本分類)進行精調。也是從BERT開始，“預訓練模型+精調”的方式被工業界廣泛應用，同時也出現了大量改進的預訓練模型，例如XLNe、RoBERTa和 ALBERT等，至2021年，最新的 GLUE 基準已推進至90.6%。

然而，內容安全問題往往不能僅靠深度模型來解決，地下黑產從業者和惡意用戶往往會通過創造新詞和同音/同義詞替換等對抗方法來達到逃避檢測的效果。2017年，安全研究團隊首次用自動化的方法大規模提取并理解不斷演化的黑話。通過分析黑帽搜索引擎優化產業所推廣的網頁，從中提取候選詞，利用現有搜索引擎對惡意頁面的識別功能判斷是否為黑話。然后，利用搜索引擎匯聚用戶的搜索行為而提供的相關搜索功能，擴展這些黑話，最后形成黑話檢測與擴展系統 KDES模型。2020年，研究團隊提出了 TextShield框架，引入對抗學習、機器翻譯和多模態嵌入/融合來解決分類模型在內容安全領域的魯棒性問題。研究人員將每個文本輸入一個機器模型，該模型使用大量的對抗性文本和良性文本進行對抗性訓練修正。然后，將修正后的文本輸入到深度學習分類模型中進行多模態嵌入，提取語義級、字形級和語音級特征。最后，使用多模態融合特征來進行分類。

2. 入侵檢測

入侵檢測和AI/機器學習的結合已經不是什么新鮮的話題。深度學習從2010年開始崛起，有幾個關鍵的時間節點：2010年，ImageNet 大規模視覺識別挑戰(ILSVRC)開始舉辦；2013年和2014年， NLP問題開始引入神經網絡模型；2017年Transformer 的提出和 2018年BERT的提出，使安全研究員們第一時間想到如何把AI和網絡安全/入侵檢測相結合，相關關鍵詞的搜索熱度也隨之升高。尤其是在 BERT這種能夠從無監督學習中學習到更多語義知識的方法出現后，AI 與安全結合的關注度更為持續。

從2010年開始，AI和大數據等概念就開始刺激著安全行業，甚至有不少文章表示 AI 是安全行業的最后的希望。但實踐發現，AI 并不是安全的“銀彈”，原因有很多。機器學習擅長檢測正常模式的行為，而入侵是一種偏離正常模式的行為，且并不是所有環境里的正常行為都是穩定而相似的；同時，威脅檢測是一個開放式的問題，損失函數很難明晰定義。當人們對AI在安全中應用的期望回歸理性的時候，就會發現，對入侵檢測而言，AI并不具備全場景的適用性，而是作為一個實用工具，在特定場景下替代規則檢測或者在海量數據下歸納特征和排除噪音，提升安全運營的投資回報率。

AI在入侵檢測領域的一個成功應用就是加密流量檢測，通過機器學習模型來代替傳統的規則檢測。根據思科公司的數據，2020年，70%的惡意軟件都會采用加密流量，同時 60%的企業都不能成功解密HTTPS流量，導致威脅難以發現。思科在2016年提到，通過構建加密流量特征集，其中包括通用流統計特征集(22維)和由安全專家開發的更具表達性的特征集(319維)，例如分組數據包長度、數據包長度形成的轉移矩陣，以及TLS 握手元數據相關維度，使用多種分類器在不同的時段和不同的企業網絡中驗證其有效性。同時，思科還開源了他們的網絡流量特征提取工具 Joy 供研究者使用。

2019年，安全研究團隊提出了基于注意力機制的深度神經網絡在 Web 攻擊檢測中的應用，稱之為Locate-Then-Detect(LTD)。LTD模型結合了目標檢測和注意力機制的思想，創造性地提出了攻擊載荷靶向定位網絡(Payload LocatingNetwork，PLN)與攻擊載荷分類網絡(PayloadClassification Network，PCN)，通過兩個深度神經網絡的結合，可以準確地定位惡意攻擊所在的位置，并對其類型進行精準識別。PLN用來定位攻擊向量的可疑位置，PCN再對識別出的可疑向量進行分類，通過靶位識別網絡的提取能力，能夠使得檢測系統更加關注真正有害的攻擊，從而規避掉整個請求內容中正常部分對模型預測結果的影響。LTD首次解決了深度學習在Web攻擊檢測領域的結果可解釋性問題，同時在與其他傳統方式的對比中，LTD也表現出超出了基于規則、符號特征和傳統機器學習方法的效果。

3. 欺詐檢測

欺詐檢測是電子商務平臺中的一項關鍵技術，早期的研究主要集中在基于規則的專家系統。這些欺詐場景包括信用卡欺詐、電話欺詐、保險欺詐等。隨著欺詐模式的迅速演變，當前規則或專家知識不足以滿足當今實時檢測欺詐行為的需求，因此一些研究人員嘗試使用基于機器學習的方法以檢測欺詐。之前的研究者專注于卷積神經網絡(CNN)、遞歸神經網絡(RNN) 用于基于序列的欺詐檢測。后來也有研究者利用圖神經網絡(GNN)發現欺詐。然而，這些方法中的大多數都面臨著同樣的問題：缺少可解釋性，這對于欺詐檢測任務至關重要。安全研究人員提出，通過構建行為序列深度學習模型來解決交易風險評估的問題。它不僅能從雙重視角更有效地利用事件間的內部信息，同時也對預測結果進行了深入的解釋。

基于行為時序信息的深度學習模型在智能風控場景中的應用變得越來越廣泛，傳統的建模方案大多基于單一的串聯維度構建時序信息。隨著風險對抗的加強，單一維度的時序刻畫在風險識別覆蓋上已經遇到了一定的瓶頸。研究人員通過雙維度時序建模框架(Dual ImportanceawareFactorization Machines，DIFM)，增加行為內屬性時序信息刻畫模塊來提升模型的識別性能。在卡支付風險交易的識別能力上，DIFM相較傳統方案有4%到 6%的提升。同時，由于Attention機制的引入，DIFM可以同時輸出和風險強關聯的維度屬性，在模型可解釋性上也有很大提升。

二、AI 自身安全風險所帶來的挑戰

AI系統作為一個非常復雜的軟件系統，同樣會面對各種黑客攻擊。黑客通過攻擊 AI 系統，也可以威脅到財產安全、個人隱私、交通安全和公共安全。在深度偽造、對抗樣本等方面，AI給安全行業帶來了新的挑戰。針對AI系統的攻擊，通常包括以下幾種。

1. 模型竊取

各大公司通過高薪聘請AI專家設計模型，花費大量資金人力搜集訓練數據，又花費大量資金購買設備用于訓練模型，最后得到深度學習模型。深度學習模型最終形式是從幾百字節到幾百兆字節大小不等的一個模型文件。

深度學習模型對外提供服務的形式主要分為云模式的應用程序編程接口(API)，或者是以私有形式部署到用戶的移動設備或數據中心的服務器上。針對云模式的API，黑客通過一定的遍歷算法，在調用云模式的API后，可以在本地還原出一個與原始模型功能相同或者類似的模型。針對私有部署到用戶的移動設備或數據中心的服務器上的模型，黑客通過逆向等傳統安全技術，可以把模型文件直接還原出來使用。

2. 數據投毒

針對深度學習的數據投毒主要指給深度學習的訓練樣本中加入異常數據，導致模型在某些條件下會產生分類錯誤。

早期的數據投毒都發生在實驗室環境，其實驗假設是可以通過在離線訓練數據中添加精心構造的異常數據從而產生攻擊。這一攻擊方式需要攻擊者能接觸到模型的訓練數據，而在實際環境中，絕大多數情況都是在公司里的離線數據中訓練好模型再打包對外發布服務，攻擊者難以接觸到訓練數據，攻擊難以發生。于是，攻擊者把重點放到了在線學習的場景，即模型利用在線的數據，幾乎是實時學習，比較典型的場景就是推薦系統。推薦系統會結合用戶的歷史數據以及實時的訪問數據，共同進行學習和判斷，最終得到推薦結果。黑客正是利用這一可以接觸到訓練數據的機會，通過一定的算法策略，發起訪問行為，從而導致推薦系統產生錯誤。

3. 對抗樣本

對抗樣本由谷歌的科學家Christian Szegedy等人提出，是指在數據集中通過故意添加細微的干擾所形成的輸入樣本，導致模型以高置信度給出一個錯誤的輸出。

簡單來講，對抗樣本通過在原始數據上疊加精心構造的人類難以察覺的擾動，使深度學習模型產生分類錯誤。以圖片分類模型為例，通過在原始圖片上疊加擾動，對肉眼來說，擾動非常細微，圖片看起來還是原來的樣子，但是對于圖像分類模型而言，卻會以很大的概率識別為另一種圖像。

對抗樣本是 AI 安全研究的一個熱點，最新的攻擊算法和加固方法層出不窮。與此同時，攻擊場景從實驗室中的簡單圖像分類，迅速擴展到智能音箱、無人駕駛等領域。在 BlackHat Europe2018上，Zhenyu Zhong 和 Yunhan Jia的《感知欺騙：基于深度神經網絡(DNN)下物理性對抗攻擊與策略》展現了如何讓物體在深度學習系統的“眼睛”中憑空消失。例如用擾動后的圖片，讓深度學習系統YOLOv3模型無法正確辨識目標車輛。這是首次針對車輛的物理攻擊的成功展示，從攻擊目標的大小、分辨率的高低和物理環境對攻擊效果的影響和難度來說，和以往的學術文章所針對交通標識的攻擊相比是一個新的提升。

安全研究人員Takami Sato等揭示了如何通過在路面上鋪設印有對抗樣本的貼紙，攻擊無人車的車道保持系統(Lane Keeping System)，讓無人車偏離正常行駛路線。

圖在路面上鋪設了對抗樣本

Kan Yuan 和 Di Tang 等人介紹了黑產如何通過單色化、加噪音、增加文字、仿射變化、濾波模糊化和遮蓋等方式讓違規圖片繞過目前主流的圖片內容檢測服務。這也標志著對抗樣本技術已經從實驗室環境真正進入了網絡對抗實戰。

4. 深度偽造

深度偽造(DeepFake)是英文“Deep learning”(深度學習)和“Fake”(偽造)的混合詞，即利用深度學習算法，實現音視頻的模擬和偽造。2017年底橫空出世的DeepFake技術，將AI假視頻帶入大眾視野的先驅。如圖所示，美國演員 JordanPeele 用DeepFake技術“扮演”奧巴馬講話。

圖美國演員 Jordan Peele 用 DeepFake 技術“扮演” 奧巴馬講話

在 CanSecWest 2021上，安全研究人員進行了《AI 被濫用的風險：小心您的聲音安全》的內容分享。他們的最新研究成果表明，VoIP電話劫持與 AI 語音模擬技術的結合將帶來潛在風險。在分享中，安全研究人員展示了如何用 AI 進行聲音克隆并劫持電話的攻擊場景。區別于此前腳本類的電信詐騙，這一新技術可實現從電話號碼到聲音音色的全鏈路偽造，攻擊者可以利用漏洞劫持VoIP電話，實現虛假電話的撥打，并基于深度偽造AI變聲技術生成特定人物的聲音進行詐騙。

針對此類風險，2021年3月18日，國家互聯網信息辦公室、公安部針對近期未履行安全評估程序的語音社交軟件和涉“深度偽造”技術的應用，指導部分地方網信部門、公安機關依法約談11家企業。

三、總結

綜上所述，AI 在當前階段更大程度上是一種類人的機器智能，基于概率學迭代式地改進決策效能。

AI可以和知識圖譜等技術，以及知識標準如ATT&CK、MAPEC、STIX等相結合，吸收領域知識，但不能代替領域專家。AI更像是一個堅定策略的執行者，而非運籌帷幄的將軍。隨著安全行業逐步往安全運營和安全服務方向發展，以及 AI可解釋性和 AI 即服務(AI as a Service ，AIaaS)的長足進步，AI可以很好地成為安全從業者的“瑞士軍刀”。

與此同時，AI組件的引入也會隨之擴大脆弱性的暴露面，包含模型的代碼漏洞和模型的決策魯棒性等帶來的安全問題，同樣需要在模型設計、實現和部署階段引起足夠的關注。