虎符智庫|機器學習與網絡安全：炒作背后的真相 - 網安 - 專業的網絡安全產業、社區、知識平臺

本文 2751字 閱讀約需 8鐘

美國安全和新興技術中心近期發布《機器學習與網絡安全——瘋狂炒作背后的真相》報告，就機器學習技術進步可能對網絡安全產生的潛在影響進行深入研究。

一、摘要

近年來，網絡攻擊的比重和規模都有所增長。政府、媒體、學術和工業界的許多評論人士都想知道：網絡安全專業人員如何能夠使用機器學習來進行防御。機器學習能否讓防守方更快地檢測、攔截攻擊？使用機器學習技術的Agent能否自動尋找漏洞，或者在發生攻擊時自動與對手交戰？決策者應該將機器學習視為網絡防御的變革力量，還是僅僅看成是一場炒作？

報告對網絡安全和人工智能（AI）結合應用的潛力進行了中肯的評價，將網絡安全實踐分成四個階段的模型，研究了近期的機器學習創新在每個階段可能產生的影響，并將這些應用與現狀進行對比。

報告提出了四個結論：

機器學習可幫助防守方更準確地檢測、區分潛在的攻擊。許多情況下，這些技術僅是對已有舊方法的細化（而非根本性創新），卻引入了新的攻擊面。
機器學習可以使大量特定任務實現完全或部分自動化，包括某些漏洞發現、欺騙和攻擊阻斷。但許多最具變革性的方法，仍有待于機器學習的重大突破。
總的來說，機器學習將會給網絡防守方帶來漸進式的進步。但除非未來能夠實現更多突破，否則不太可能對整個行業產生根本性變革。最具變革性的影響，充其量是讓更多組織使用以前未使用或未充分利用的防御策略。
機器學習既不偏向進攻，也不偏向防御，但某些類型的策略對攻擊方或防守方更有吸引力，使機器學習能微妙地改變威脅格局。

二、簡介

電子郵箱、網站瀏覽器這些服務都利用機器學習來保護用戶免受網絡攻擊。過去十年中，隨著組織面臨的威脅愈發嚴重、技術越來越成熟，機器學習在網絡安全中的作用也逐漸增強。網絡行動日益成為普遍的地緣政治工具，這意味著許多組織將面臨風險，成為資源豐富攻擊者的目標。與此同時，訓練有素的網絡安全專業人員配置不足，難以滿足日益增長的專業需求。此外，越來越多的研究機構推測，不久的將來人工智能將被用來進一步加劇網絡攻擊。

這種環境下，研究人員、決策者和從業人員無一例外都在思考：機器學習是否能幫助扭轉網絡攻擊的戰局。大眾媒體經常大肆報道機器學習可能極大地改善攻擊檢測能力，而國防界人士則競相談論未來可以自主搜尋和驅趕入侵者的人工智能系統。

"人工智能"已經成為網絡安全營銷材料的核心支柱，廣告將人工智能產品吹噓成為上至生物種群、下到免疫系統等各類事物。如果僅看這些表面說法，那些不太關注人工智能研究現狀的決策者可能會得出這樣的結論：最多只需要幾年時間，機器學習算法就將會徹底改變網絡安全行業。

如果決策者了解到，機器學習系統被普遍用于關鍵的網絡安全任務長達20年之久時，可能會感到不可思議。過去五年的突破理所當然地引起了人們對人工智能和機器學習研究領域的關注，但人們很容易忽視，這些進展背后的算法在許多情況下已經存在了幾十年。考慮到這一點，該決策者在看到最近一連串備受矚目的黑客攻擊時，可能會忍不住完全否認否定機器學習的潛力。

評估機器學習在網絡安全方面潛力的部分困難在于，不同方面有不同的成功準則。就我們的目的而言，我們應當區分兩種用來評估新技術影響的準則：反事實準則和歷史準則。

使用反事實準則意味著一個問題——在其他條件不變的情況下，如果沒有機器學習，我們的現狀會是怎樣？從這個角度切入問題，就會讓我們對機器學習有更多的信息了解：在一些行業中，可能的網絡攻擊事件數量已經從每天幾百個暴增至幾百萬個，令人驚訝的是，維護IT基礎設施安全的工作并沒有拖垮大多數公司。在很大程度上，這種成功要歸功于機器學習系統，它可以自動篩選潛在攻擊，生成可疑行為警報，或對異常活動進行一些基本分析。

反事實準則對網絡安全從業者來說至關重要--他們了解威脅形式，并必須以某種方式做出響應。但決策者也需要深入了解一系列更普遍的問題：世界是變得更安全了，還是更不安全了？對于網絡安全人才的長期短缺，我們應該有多擔心？機器學習能否讓我們在絕對意義上不再輕易受到敵人的攻擊？為了回答這些問題，我們需要使用歷史準則。與其將有機器學習的世界與沒有機器學習的假想世界進行比較，不如將過去與現在以及（最有可能的）未來進行比較。

機器學習可以為網絡安全從業者帶來顯著的益處，這一點得到了大多數人的認同，但這些益處能否可以構成網絡安全的"革命"，尚存較大爭議。

在本文中，"革命性影響"是指按照歷史準則（而不僅僅是反事實準則）產生的影響。在網絡安全的背景下，這意味著一項技術應該做的不僅僅是幫助防守方跟上日益增長的威脅形勢：如果想要成為革命性技術，該技術應當減少需要人工響應的威脅總數，并使其保持在較低的數量上，或者它應該切實改變網絡安全實踐。

對于決策者來說，更重要的是理解機器學習將如何改變網絡安全，而不是爭論它是否會帶來變化。為此，本文探討了多種機器學習技術的進步可能對網絡安全產生的潛在影響。對于網絡安全中一些倍受炒作的機器學習應用，我們向讀者表明了適度的懷疑，同時也提議讓讀者注意一些未得到廣泛關注的潛在應用。

為了保持我們對成功歷史準則的重視，我們試圖通過研究早期的機器學習是如何被應用到網絡安全領域的，以期了解近期人們對網絡安全機器學習興趣增長的原因。

這是一項艱巨的任務，并且本報告無法涵蓋所有與機器學習在網絡安全中發揮日益重要作用有關的內容。我們的重點完全集中在技術方面--機器學習能做什么。

三、網絡安全的四階段模型

最著名的網絡安全概念化模型是由美國國家標準與技術研究院(NIST)設計的網絡安全框架（Cybersecurity Framework）。

為了幫助防守方評估其風險水平，該框架將網絡安全大致分為五項功能：識別、保護、檢測、響應和恢復。

本文使用 NIST 模型的改編版本，強調略有不同的四個類別：預防、檢測、響應和恢復以及主動防御。

偏離 NIST 框架有兩個主要原因：首先，雖然有許多關于機器學習被用于網絡攻擊檢測的實例，但在 NIST 框架的其他四個類別中，機器學習技術的使用仍然相當不成熟，這證明將多個類別組合在一起進行分析是合理的；其次，人們對“主動防御”（我們將在下面詳述）這個領域的關注日益增長，從技術和操作角度看，它在概念上有別于其他類別，因此值得單獨討論。

在此模型中，預防是指安全專家為盡量減少其組織的漏洞而采取的所有行動。預防要求防守方至少做到對網絡配置和用戶權限做出安全決策，對其網絡和軟件的依賴項保持持續關注，并及時修補已知漏洞。對于軟件公司來說，最好的預防工作是在產品上市之前評估自己的產品是否存在漏洞。對于中型或大型組織來說，預防通常需要審計自身整體安全態勢，以及定期進行滲透測試（對網絡發起良性攻擊，以發現和暴露脆弱點）。這個類別大致對應于NIST的識別和保護類別，前者強調資產管理和安全戰略，后者則側重于用于保護資產的技術和政策控制。

再多的前期工作也無法使組織免受網絡攻擊。當攻擊發生時，需要檢測系統來迅速提醒防守方，使他們能夠做出響應。全面的檢測系統必須監控從網絡流量到電子郵件附件以及員工行為的所有內容，以識別異常情況和潛在威脅。由于在入侵網絡后的數月內，攻擊方往往會藏匿自身，因此有效的檢測系統可以幫助組織顯著降低網絡攻擊的影響。

一旦檢測到攻擊，安全專家必須確定如何響應和恢復。對于某些類型的威脅，響應簡單直接：例如，檢測到垃圾郵件時，電子郵件服務只需將疑似非法的郵件重定向到一個垃圾郵件文件夾即可。然而，對于許多其他類型的攻擊，很難做出合理的響應。面對正在進行的攻擊，網絡安全人員往往必須當機立斷：決定是否需要關閉機器、隔離部分網絡，或者采取一些其他可能嚴重擾亂組織運營的措施，例如。一個有效的響應必須確定攻擊的規模和范圍，阻斷攻擊方的訪問，并完全消除攻擊方可能擁有的任何立足點。做完這些后，重要的是將系統恢復到攻擊前的初始狀態。

預防、檢測、響應和恢復三要素構成了網絡安全的核心。對于大多數組織來說，有效良好地執行這些任務是良好網絡安全實踐的最高境界。然而，某些組織可能會面臨來自兵精糧足的威脅者的攻擊，因此僅僅遵循預先定義好的框架可能還遠遠不夠。這些組織還必須確保自身能夠靈活地適應威脅環境的變化。

考慮到組織需要靈活地應對復雜威脅，本報告引入了額外的階段：主動防御。該術語采用SANS研究所的定義：干擾、歸因或直接反擊等一系列活動。主動防御可以被看作是一個"其他"類別，包括所有刻意參與或研究外部行為者的嘗試，而不是簡單地在問題出現后做出反應。該類別可以細分為幾個更明確的子類別，本報告強調其中的三個：(1) 欺騙，試圖誤導和拖延對手；(2) 威脅情報，試圖積極研究潛在的對手，以更好地預測他們的行動；(3) 歸因，試圖將多個事件與某個單一實體聯系起來，然后可以進行更詳細地研究。如果將主動防御做好，可以讓防守方領先對手，防患未然。

四、傳統機器學習與網絡安全

在過去的十年里，人工智能和機器學習研究取得了重大進展，但將機器學習方法用于網絡安全的做法由來已久。直到最近，這些應用仍幾乎完全屬于網絡防御的檢測階段，其中對垃圾郵件檢測、入侵檢測和惡意軟件檢測的關注最為顯著。本節討論了那些簡單易行且由來悠久的機器學習方法在歷史上是如何適配這三種應用的。圖1展示了網絡威脅領域主要進展的粗略時間表，以及為了應對這些威脅機器學習是如何進化的。

這里的"傳統機器學習"指的是最近5-10年深度學習（deep learning）取得重大進展之前，在機器學習研究中占主導地位、已有數十年歷史的一系列算法。傳統機器學習算法的一些例子包括樸素貝葉斯分類器、隨機森林、K-means聚類、邏輯回歸模型和支持向量機。值得注意的是，盡管我們使用了"傳統機器學習"這個名字，但其本身并不是一個停滯不前的領域。

為了闡述這些傳統的機器學習方法在網絡安全中應用的歷史，我們先來看看垃圾郵件檢測的例子。

4.1 垃圾郵件檢測

自21世紀初以來，機器學習一直是垃圾郵件檢測的重要組成部分，其中許多早期的機器學習方法至今仍在使用。在引入機器學習技術之前，垃圾郵件檢測依賴于黑名單列表，屏蔽來自（已知的）惡意IP地址的郵件；或依賴于關鍵詞檢測，阻止含有手工整理的垃圾郵件詞匯（如"免費"或"性感"）的郵件。然而，由于這些方法經常會被濫用，往往會導致合法的電子郵件被阻止。為了解決這個問題，計算機科學家在本世紀初開始提出基于機器學習的解決方案。

早期的方法相對簡單明了。首先收集大量的電子郵件，將它們標記為垃圾郵件或合法郵件，并將它們拆分成各個單詞。對于每個單詞，計算包含該單詞的電子郵件是垃圾郵件的概率。當一封新的電子郵件到送達時，可以使用根據每個詞與垃圾郵件相關的概率來計算該電子郵件是垃圾郵件的風險，風險分數超過預設閾值的郵件會被自動阻止。

自21世紀初以來，盡管研究人員已經做出了改進，但垃圾郵件檢測的核心要素仍沒有太大變化。通過從郵件標題中提取更多的技術細節（如IP地址和服務器信息），或將出現在主題中的詞語與出現在郵件正文中的詞語區別對待，可以建立更好的垃圾郵件分類器。更好的算法能識別出短語或同義詞，而不是將所有的單詞孤立看待。一些公司已經開發出極其復雜的垃圾郵件檢測器，除上述措施之外，還可以根據用戶以往的電子郵件互動、標記異常的聯系人，或使用深度學習模型，來確定含有品牌的電子郵件是否來自其真實公司。

然而，即便是像谷歌等公司所使用的最先進的垃圾郵件分類器，大多也是從上述早期方法緩慢完善和演變而來。當然，對于負責保護數十億封電子郵件的大型公司來說，即使是準確性的些許提高，也會產生重大影響。但是，如果把機器學習垃圾郵件檢測系統近期的創新，描繪成對過去做法的根本性轉變，那就大錯特錯了：實際上，近二十年來機器學習一直是這項任務的核心。

4.2 入侵檢測

入侵檢測系統通過關注行為特征，并搜索惡意活動的跡象，以檢測計算機網絡上是否存在未經授權的活動。入侵檢測系統通常分為基于誤用（misuse-based）或基于異常（anomaly-based）的系統。在基于誤用的檢測中，攻擊是基于它們與以前看到的攻擊的相似性來識別的；而在基于異常的檢測中，先構建一個“正常”行為的基線，然后將所有不匹配基線的行為標記為潛在的攻擊。這兩種方法都可以使用不同的機器學習方法。

最簡單的基于誤用的檢測形式依賴于已知的失陷指標（indicators of compromise）來檢測以前遇到的威脅。例如，如果組織發現某個惡意軟件試圖訪問特定的網站，那么網絡防守方就可以編寫一個簡單的檢測系統，當網絡中的機器試圖訪問該網站時發出警報。

基于誤用的檢測通常兼具較高的處理速度和較低的誤報率，尤其是基于上述簡單方法時，這使其能夠快速準確地識別惡意事件。然而，這種檢測形式只能監測已知威脅，對新型攻擊無法提供切實保護。

通過允許系統“學習”不同類型的攻擊是什么樣的，機器學習可用于自動執行某些形式的基于誤用的檢測。參考許多過去攻擊的（標記）示例，則可以訓練監督學習分類器來識別不同類型攻擊的跡象，而無需人工生成會觸發警報的特定規則列表。

一些研究人員傾向于將基于誤用的檢測更精準地定義為嚴格基于精心策劃的失陷指標清單，而不是基于概率模型。根據這一定義，機器學習不能用于執行基于誤用的檢測，因為機器學習在本質上是概率性的。然而，許多機器學習分類器相似于基于誤用的檢測系統，因為它們使用以往攻擊的標記實例來檢測未來的攻擊，很難用于0day攻擊，并且不尋求識別“正常”行為的基線模型。因此，我們認為將具有這些特征的機器學習分類器歸入“基于誤用的檢測”的標簽下是最合理的。

至少從1999年開始，研究人員就試圖生成不同類型攻擊的網絡流量檔案，以便機器學習分類器可以學習如何識別以前看到的攻擊。這項研究最初是由美國國防部高級研究計劃局(DARPA)推動的，研究結果表明，機器學習能夠勝任基于誤用的檢測工作。

盡管人們很容易認為較新的機器學習方法（如深度學習的興起）大大增強了檢測工具的功能，但2018年對幾十項實驗結果的審查表明，在基于誤用的檢測方面，深度學習并不比幾十年前的機器學習方法更準確。由于沒有一種類型的模型始終是基于誤用的檢測的最佳選擇，研究人員經常發現，最成功的機器學習系統是集合模型，或通過利用多個分類器對分類進行“投票”來對新輸入進行分類的模型。這種方法被普遍使用，避免了對任何特定模型的過度依賴（每種模型都可能有自己的盲點），但它也同時表明沒有哪個架構明顯優于其他架構。

與基于誤用的檢測相比，基于異常的檢測通過標記可疑的行為，無需與過去的攻擊進行具體比較。這種類型的檢測系統更可能使用無監督的學習方法來聚類網絡中的“正常”流量，并對任何偏離該模式的可疑行為發出警告。理論上，基于異常的檢測可以識別新型攻擊——這是網絡安全最困難的領域之一。為了實現這種能力，該領域的研究集中在尋找一種方法，為給定的網絡確定適當的“正常”流量基線，因為即使是正常的流量也可能是高度可變的。一個參數不當的入侵檢測系統將產生許多誤報，而調查這些誤報耗時耗力。

遺憾的是，盡管在跟蹤單個機器或用戶時，基于異常的檢測非常有效，但它通常難以有效識別整個網絡中的可疑行為。此外，人們長期抱怨異常檢測系統會產生許多誤報，這說明，很難定義"正常"流量，做到足夠嚴格以檢測出所有異常情況，同時又足夠寬松以使沒有合法行為被標記為異常。此外，如果組織的標準程序發生變化，就會大大削弱異常檢測的作用，至少在新的基線形成之前是這樣的--許多企業去年受到了這個教訓，當時為應對新冠疫情，數百萬員工突然開始在家工作。由于與異常檢測相關的困難重重，許多組織僅將其用作更標準的基于誤用的檢測系統的補充。

上述討論說明，機器學習在入侵檢測領域歷史悠久，涵蓋眾多方面。在二十多年的研究過程中，不同的機器學習方法已經適用于多種類型的入侵檢測。此外，實證研究和集合模型的持續重要性表明，較新的創新并沒有完全取代這些舊模型。與垃圾郵件檢測一樣，如果認為過去十年機器學習研究的發展，特別是深度學習的興起，已經完全改變了入侵檢測，那就大錯特錯了。在第三節，我們將再次回到這個話題，討論一些新的機器學習創新顯著改變了入侵檢測的方式。

4.3 惡意軟件檢測

入侵檢測系統監測系統或網絡的行為，以識別網絡受到攻擊的跡象，而惡意軟件檢測系統則檢查特定文件，以確定它們是否是惡意的。在早期殺毒軟件產品中，最簡單的惡意軟件檢測形式是監測機器的特定失陷指標（indicators of compromise），如確切的文件名或簽名（從文件內容提取的特定字節或字符串序列）。通過維護一長串惡意軟件簽名列表并進行定期掃描，這些反病毒產品嘗試確定機器上是否存在與這些已知定義相關的文件。

遺憾的是，這些檢測方法很容易被多態或變形病毒輕松規避，這類惡意軟件每次傳播時都會改變自己的代碼，從而確保不同的版本會有不同的簽名。多態代碼指的是以多種形式出現的任何類型的代碼，例如，攻擊方創造了多種變體，或者代碼每次傳播時可以使用不同的密鑰來加密自己；相比之下，變形代碼在保留了相同功能的同時，從根本上重寫了其底層代碼。據估計，2018年高達94%的惡意可執行文件表現出多態特征。雖然傳統的檢測技術仍可用于檢測多態或變形的惡意軟件（例如，通過查看惡意軟件執行時的行動序列，而不是根據原始代碼進行匹配），但隨著攻擊方的改進，這些傳統方法變得越來越復雜，計算量也越來越大。

然而，機器學習擅長識別那些無法用簡單規則分類的樣本之間的共同特征。早在1996年，IBM的研究人員就開始探索使用神經網絡對引導扇區病毒（這是一種針對機器啟動指令的特殊類型病毒）進行分類。整個21世紀初的其他研究探索了使用統計模型和標準機器學習分類器來檢測惡意軟件。近年來，人們對利用較新的、基于深度學習的方法進行惡意軟件檢測的興趣激增，這些方法有很多優勢，例如能夠在較少的人為指導下從原始數據中提取相關特征。然而，與入侵檢測一樣，一些實驗結果表明，至少在某些數據集上，經過相同的訓練，已有數十年歷史的機器學習分類器仍然與更先進的深度學習方法難分伯仲。

值得注意的是，盡管多態和變形病毒不斷涌現，許多不使用機器學習的技術在檢測和分析惡意軟件方面仍然有效。例如，網絡防守方可以在沙盒（隔離的虛擬環境，可以允許文件在沒有任何與真實系統和數據交互能力的情況下執行）中執行未被識別的文件。沙箱收集有關文件的信息，例如它試圖執行什么類型的函數，以確定它是否為惡意的。這種方法允許反病毒產品在不依賴機器學習的情況下檢測多態或變形代碼，表明機器學習絕不是網絡防守方應對網絡攻擊智能進化的唯一方法。然而，即使是沙箱，也可以用機器學習來增強，以識別與過去的惡意軟件相似、但不一定試圖執行完全相同行為的文件。

本節強調了兩個要點。首先，縱然重點都放在檢測任務上，研究人員將傳統機器學習技術應用于主要的網絡安全任務已長達幾十年之久。其次，盡管現在存在著更強大的方法，但通常僅是傳統方法的自然進化。

在確定最近的機器學習技術對網絡安全的“變革性”影響時，必須牢記這些重要事實。

五、網絡安全與人工智能研究前沿技術

近年來，人工智能的創新為我們帶來了汽車的自動駕駛、精確的語言翻譯、超越人類的游戲競技。雖然還無法確定這些成就能否轉移到網絡空間領域，但我們有充分的理由認為，如果這種轉移得以實現，機器學習很可能會成為網絡防守方的得力助手。

本節探討了如何將較新的機器學習架構應用于網絡安全。隨著討論的深入，本文特別關注四種類型的機器學習方法，這些方法在過去五年中促成了許多人工智能突破：1.深度學習；2.強化學習；3.生成對抗網絡（GANs）；4.大規模自然語言模型。在這些突破中，深度學習系統的發展在很多方面都是最基礎性的。正是深度學習架構與其他類型的方法（如GANs、強化學習系統或自然語言模型）的結合，促成了過去5年的大部分進展，如圖2所示。

深度學習是一種以神經網絡為模型的通用Al架構。它可以適用于許多任務，從強化學習系統，其中Al代理學習如何與他們的環境互動；到生成對抗網絡，其中生成器學習如何產生可以騙繞/躲過判別器的輸出；到大規模自然語言模型，可以執行廣泛的語言相關任務。

圖 2 前沿人工智能架構之間的關系

在對每個階段的討論開始之前，我們提供了一個圖示，列出了防守方在該階段可以利用的一些潛在的機器學習工具。這些圖示還列出了為實現每個工具可能會依賴的機器學習架構類型，并粗略評估了機器學習能在多大程度上改變任務本身。所有這些都只是大致評估，并參考了后文討論得出的結論。

5.1 預防

*NLP指的是自然語言處理。本圖只列出了每個應用最常見和最具體的底層技術；例如，基于深度學習的GAN會被簡單地列為 "GAN"。

我們的網絡安全模型的第一階段是預防——防守方為消除潛在弱點而進行的漏洞發現和修復工作。長期以來，人們致力于打造能夠自主發現和修復新漏洞的工具，但直到最近，機器學習的興起才使之變為可能。在2016年美國國防高級研究計劃局（DARPA）贊助的網絡超級挑戰賽（Cyber Grand Challenge）中，最有希望自動發現漏洞的路線仍然依賴于精心編碼的系統，而不是使用機器學習方法。

近年來，研究模糊測試工具的研究人員越來越多地將深度學習作為一種手段，從成功的輸入參數中有效地學習，進而發現更多的漏洞。基于深度學習的模糊測試工具通常比舊模型更有效：舉例來說，基于深度學習的程序NeuFuzz能夠在各種文件類型中找到的導致崩潰的輸入的數量，是一個領先的開源模糊測試工具修改版本的三倍之多。在學術界之外，微軟也研究了使用深度學習來增強自己的模糊測試工具。

模糊測試工具尋找代碼中的漏洞，但網絡防守方也可以使用滲透測試（或簡稱為pentesting）來尋找網絡中公開已知的漏洞和不安全的配置。在滲透測試中，經驗豐富的黑客會系統地探測網絡中的漏洞，以確定潛在的弱點。

除了利用自動模糊測試工具和滲透測試工具發現漏洞外，機器學習可能很快就能提供工具，幫助防守方將優化時間和注意力配置分配給最緊迫的漏洞。

一旦發現漏洞，防守方必須在有限的時間和資源內完成修復。盡管尚存爭議，但通用漏洞評分系統（CVSS）是幫助防守方確定漏洞嚴重性的重要指標，它依靠專家分析來給新的漏洞分配嚴重性分數。一些研究人員認為，通過智能解析漏洞描述，機器學習和文本挖掘技術可用于自動分配CVSS分數。

其他研究人員利用觀察到的在野攻擊數據構建了機器學習系統，預測某些漏洞被實際利用的可能性。有證據表明，當這些基于機器學習的風險評估與CVSS結合使用時，組織可以優先修復最有可能被利用的漏洞，在顯著減少工作量的同時，達到與之前相似的風險修復水平。綜上所述，使用機器學習來改進模糊測試、滲透測試、漏洞報告分析和嚴重程度評估，可以使組織提高識別漏洞和優先處理漏洞的能力。

5.2 檢測

至少在眾多流行領域中，檢測仍然是深度學習和較新的機器學習方法被認為是潛在的變革力量的關鍵所在。但很遺憾，到目前為止，深度學習還沒有實現革命性突破，未能達到人們的期望。總的來說：盡管深度學習在過去50年的機器學習進步中發揮了根本性的作用，但許多網絡安全公司至今仍在大規模使用較簡單的模型。

有時流行的報道會忽略，基于機器學習的檢測存在一個問題：機器學習系統容易受到幾類特定攻擊，這些攻擊在其他類型檢測系統中則不存在。許多機器學習系統做出決定的過程往往不為人所知，并且對于人類分析師察覺不到的細微變化高度敏感，這往往使攻擊方有可能找到"對抗樣本"——盡管人類無法察覺，但對輸入稍加改變就會極大地改變模型的反應。機器學習模型的使用也開辟了新的攻擊途徑：模型本身必須保持安全，同時防守方也必須確保他們的數據沒有被下毒，且他們使用的（通常是開源的）算法和統計軟件包沒有被篡改。

盡管我們對深度學習改變檢測能力的潛力感到悲觀，但對抗性攻擊的不斷增加和威脅規模的不斷擴大，使防守方不能無視機器學習的進步。

由于生成對抗網絡允許攻擊方顛覆基于機器學習和規則的檢測系統，我們無法坐視不管，最好的防御可能至少部分依賴于機器學習方法的使用。然而，即使在這里也必須強調，在使機器學習系統面對抗樣本的魯棒性方面，一些研究人員不認為機器學習領域取得了切實進展。雖然對抗性訓練對防御系統仍然至關重要，但它可能不足以有效抗衡越來越多的對抗性攻擊威脅--這是懷疑機器學習能否為網絡防守方提供靈丹妙藥的另一個原因。

5.3 響應和恢復

目前已對機器學習驅動的檢測系統的進行了大量研究，但有人提出了更雄心勃勃的設想，認為有朝一日人工智能系統可以在網絡中自主移動、修補漏洞并與攻擊方動態對抗。響應和恢復是一個動態和連續的過程，不容易被分解成離散的結構，這使得構建能夠充分自動化人類決策的機器學習工具更加困難。

近年來，一些研究人員逐漸確定人工智能/機器學習系統在響應和恢復過程中可以發揮的更有針對性的作用。例如，一份來自美國國家科學與技術委員會的2020年報告指出，人工智能至少可以通過兩種具體方式來幫助響應和恢復過程：1.準確地對正在進行的攻擊進行分類，并采取適當的初步響應策略；2.自動決策將機器從網絡中隔離或對用戶施加限制，以遏制感染。第一種類型的工具可以使網絡防守方自動對各種常見類型的攻擊做出初步反應，而第二種類型通常有助于遏制安全漏洞擴散到網絡的其他部分。在圖5中，我們把第一個應用稱為 "與對手交戰"，這將是一個能夠理解正在進行的攻擊并作出相應反應的機器學習系統的最終目標。第二個目標是移動目標防御的一個簡單例子。

5.4 主動防御

為應對新的威脅，具有重大網絡安全需求的組織通常必須采取主動措施來制定網絡安全戰略。本報告將這些行動歸入"主動防御"的廣泛框架之下。

雖然這個術語有一個具體的國家安全定義，但在這里的使用方式與美國系統網絡安全協會（SANS Institute）研究人員的使用方式類似：從干擾到歸因到徹底反擊的一系列活動。

人工智能在這三種戰術中潛在的應用范圍很廣，表明主動防御這個網絡安全模型階段或許可以從最近的人工智能突破中獲益良多。

5.4.1 欺騙

網絡防守方可選用的最基本的主動防御措施之一是欺騙：故意偽造一些東西來誤導和延緩攻擊方。雖然這種策略看起來很簡單，但它卻可以帶來重大的運營效益。

生成逼真的文件或活動資料是機器學習擅長的領域。像GPT-3這樣的大規模自然語言模型的興起，可能會使自動化生成欺騙性文本文件（如馬克龍競選團隊的假電子郵件）的過程更容易實現。雖然這項技術可能會被濫用，但防守方可以合理地將其用于欺騙性目的，生成大量欺騙性內部文件來誤導攻擊方。

除了偽造之外，蜜罐（一種旨在將網絡攻擊方引誘到看似有吸引力的假目標的安全機制）是網絡防守方長期使用的欺騙性工具。蜜罐可以提供虛假文件和數據形式的"誘餌"，運行預先編寫的腳本互動以挫敗對手，或使攻擊方誤認為自己已經“成功”入侵。然而，為了使攻擊方深陷其中，蜜罐需要看起來像真實的生產網絡，因此通常需要手動配置、部署和維護，這可能成本高昂，小型組織難以勝任其維護任務。

至少從21世紀初開始，研究人員就開始探索如何利用機器學習來創建更加真實和動態的蜜罐，包括通過使用相對簡單的聚類方法。最近幾年，研究人員嘗試使用基于強化學習的蜜罐，這些蜜罐可以學習如何盡可能長時間地吸引攻擊方，同時也可以有效地誘使他們將定制軟件下載到自己的機器上。現在就說強化學習的使用改變了這一領域的游戲規則還為時過早，但它至少可以將大部分維護動態蜜罐的復雜操作自動化，使更多的組織能夠使用這些類型的蜜罐。

5.4.2 威脅情報

理論上說，通過收集有關潛在對手的威脅情報，防守方可以預測未來的攻擊，并建立起更強大的防御體系；但對大多數組織來說，收集、處理和分析威脅情報需要耗費巨大人力物力。然而，在海量數據中尋找模式是機器學習的核心優勢，一些研究人員已經開始探索如何利用機器學習和文本挖掘來改進威脅情報分析。例如，可以用機器學習方法來對暗網用戶進行聚類，或者利用文本挖掘方法來自動收集、分類和分析暗網論壇和市場上的帖子，使研究人員能夠在0day漏洞部署之前識別它們。不難想象，在給定公司名稱或其產品清單后，一個完全自動化的機器學習系統可以在暗網上搜索潛在漏洞的線索，然后分析它們，最后生成一份描述預期攻擊載體的報告。

其他作為欺騙戰術引入的工具也可以被利用來收集關于潛在對手的威脅情報。例如，可以分析和整理從蜜罐系統中收集的數據，從而確定組織是否面臨一個持續的威脅行為者，然后可以為安全策略提供信息。甚至像釣魚郵件這樣簡單的東西也可以成為收集對手威脅情報的機會。一些研究人員提出了可以對釣魚郵件生成誤導回應的系統，以從攻擊方那里獲得信息，例如，表面上愿意給詐騙者送錢，但要求攻擊方提供支票路由中轉代碼，然后就可以追蹤和識別這些信息。事實上，這是美國國防高級研究計劃局DARPA的主動社會工程防御計劃的一個主要研究方向，該計劃目前正嘗試建立能夠檢測社會工程攻擊并自主響應的系統，以欺騙對手暴露身份信息。這些戰術跨越了威脅情報收集和直接歸因（本節討論的第三種主動防御戰術）之間的界限。

5.4.3 歸因

當面臨高級持續性威脅（ATP）攻擊時，聯邦機構和網絡安全公司通常會嘗試將攻擊歸因于一個特定的對手。這樣有助于確定應該采取什么類型的應對措施，并幫助網絡安全公司確定敵人的可能動機，以便最好地保護他們的客戶。

當試圖對多個攻擊進行歸因時，最簡單的方法是依靠人工分析通過網絡日志、防火墻或蜜罐獲得的攻擊指標。然而，由于大多數的持續網絡攻擊方會避免留下明顯的模式，因此歸因也依賴于人工分析和對潛在對手及其總體目標的理解；因此，歸因不僅依賴于技術指標，也依賴于戰略指標，甚至還可能依賴于對相關地緣政治局勢的了解。機器學習不具備這樣的分析水平，所以機器學習仍然不太可能成功地將整個歸因過程自動化。

盡管如此，機器學習仍然可能在歸因過程中提供幫助。例如，如果研究分析人員首先提取攻擊的高級描述--包括使用的戰術、攻擊的國家等--機器學習方法可能能夠對這些信息進行聚類以識別類似的攻擊。自然語言處理可能幫助歸因系統從博客、研究論文和事件響應報告中自動提取與歸因有關的信息，減少成功歸因所需的人工工作量。

六. 結論

機器學習對網絡安全的實踐究竟意味著什么，報告提出了四個主要結論：

1. 檢測階段：機器學習將允許對現有檢測工具進行持續改進，特別是對于具有廣泛大數據能力的公司。但這些進展是漸進式進步，并引入了新的攻擊面。

2. 預防、響應和恢復以及主動防御階段：機器學習沒有被普遍使用，但也在逐漸取得進展。振奮人心的進展仍有待于機器學習的重大突破，才能實現全面部署。

3. 總體而言，機器學習將繼續產生漸進式的收益，而沒有對網絡安全行業產生革命性影響。除非機器學習取得重大突破，否則最具變革性的影響可能是來自于通過機器學習，使眾多組織容易獲得以前未使用或未充分使用的防御戰略能力。

4. 目前，機器學習不太可能從根本上打破網絡安全的戰略平衡，使其向攻擊方或防守方傾斜。

在關注機器學習的基本技術能力時，報告擱置了許多其他問題，例如防守方是否能成功實施機器學習系統并充分利用其潛力。

以上結論都是初步的，不是預測性的：它們是否成立將取決于攻擊方和防守方如何選擇投資和部署這項技術。

相比空談機器學習如何從整體上改變網絡安全，決策者和網絡安全從業者更需要思考，機器學習將會如何改變網絡安全中的特定任務。

此外，網絡安全任務自上世紀90年代起就開始使用機器學習，通過關注這種連續性，我們旨在證明較新的突破將帶來網絡安全方面的進步（evolutionary），但這并不會是行業革命性的變革（revolutionary）。

機器學習有一天會徹底將整個網絡安全模型自動化，無縫地完成多個階段的工作，而不是僅僅作為工具，協助完成現有的、定義明確的任務。在中短期內，這種可能性微乎其微。

對決策者和從業者來說，更務實的做法是更努力細致了解哪些任務類型可以從機器學習中受益，哪些任務類型不能。有效的政策將需要考慮這些細微差別，以促進有用的研究，使組織能夠充分利用新的機器學習工具，并幫助防守方為迎接持續精進的對手做好準備。

關于作者

美國安全和新興技術研究中心(CSET)

本文節選自美國安全和新興技術中心《機器學習與網絡安全——瘋狂炒作背后的真相》報告。加入虎符智庫會員，定期獲取專業研究報告。