從攻防視角看人工智能應用
在網絡安全領域,全球越來越多的公司正在嘗試將人工智能、機器學習等集成到產品之中,智能化、自動化都是網絡安全領域的熱詞。
一、攻擊方視角的人工智能應用
人工智能技術具有可自我學習數據特征,算法結構具有一定通用型的特點,借助該特點很多傳統的攻擊手段不僅可大幅提升攻擊命中率,還可以擺脫很多繁瑣的且昂貴的人工成本。不僅如此,當下最為先進的人工智能技術還可生成逼真的虛擬數據(圖片、視頻、音頻、文本等)。
1. 數據偽造與篡改
2014 年,由人工智能領域的科學家 IanGoodfellow 等人提出了基于深度學習的生成對抗網絡模型。生成對抗網絡由一個生成網絡與一個判別網絡組成。生成網絡在數據表征的潛在空間中(latentspace)中進行隨機取樣作為輸入,其輸出結果需要盡量模仿訓練集中的真實樣本。判別網絡的輸入則為真實樣本和生成網絡的輸出,其目的是將生成網絡的輸出從真實樣本中盡可能分辨出來。兩個網絡相互對抗、不斷調整參數,最終目的是使判別網絡無法判斷生成網絡的輸出結果是否真實。
2017 年,在 Reddit 論壇上出現了使用生成對抗網絡對視頻中人物進行換臉的 DeepFake 技術,只要有臉部照片,該技術就能夠將視頻中的人臉替換成任意一個目標人臉,且難辨真假。已有人將該技術應用到不法行業,在微信和 QQ 等社交網絡上已出現兜售基于 DeepFake 技術“定制”色情視頻的團伙。由 OpenAI 創建的 GPT-2 模型還可模擬人類不同的寫作風格,只需根據一小段主題便可完全自主生成逼真的假新聞。利用 AI 進行數據偽造正在沖擊著“眼見為實,耳聽為實”的世界,給社會安全、網絡安全、國家安全等眾多領域帶來前所未見的沖擊。
2. 定制化網絡釣魚
對于攻擊者來說,社交網絡是尋找受害者的重要資源,但是一般在社交媒體上的大多數網絡釣魚嘗試成功率都非常低。在 2016 年 Black Hat USA 上,研究人員發布了一種基于遞歸神經網絡的“定制化”釣魚工具 SNAP-R,該模型可以針對社交網絡上特定用戶群體發送其感興趣的釣魚推文。SNAP-R 會收集已知的用戶行為,使用 AI 技術對用戶進行分類,如果用戶較為容易受到蠱惑且具有較高的價值,SNAP-R 會使用遞歸神經網絡技術對用戶發表的歷史推文、用戶的回復等信息生成虛假的推文內容,并在其中植入釣魚鏈接。
相較于傳統技術,采用遞歸神經網絡技術生成的推文更為逼真,邏輯自洽。且 SNAP-R 還可以根據用戶的歷史上線時間對用戶的活躍時間規律進行建模,使之能夠在用戶活躍的時候向其發送相關信息。針對 SNAP-R 的測試證實,借助遞歸神經網絡將釣魚成功率提升了 30%-35%。
3. 智能化漏洞搜索
安全漏洞檢測的根基是大多數存在問題的代碼具有相似性,而深度學習技術能夠高效學習數據的特征表示和復雜的非線性結構,在利用深度學習來建模漏洞的結構以及相關的語義特征之后,AI 系統會自動對代碼進行對比,評估存在漏洞的可能性。相較于傳統的漏洞檢測技術,AI 的使用可以更好地對漏洞特征進行建模,且生成的模型具有良好的泛化性能。這極大地提高了漏洞挖掘的時間與效率,節約了相當可觀的人力物力資源。因此使用基于深度學習的 AI 技術進行系統的漏洞挖掘前景巨大。當下,結合 AI 進行漏洞檢測的方法主要有從二進制代碼中檢測漏洞、將二進制代碼轉換為控制流程圖(如CFG、AST 等)、使用生成對抗網絡技術對漏洞數據集代碼進行增強等。
水能載舟,亦能覆舟。智能化的漏洞搜索可以是黑客的攻擊手段,也可成為防御利器,只要在產品發布前查找出漏洞,危機自然能消弭于無形。極光無限積極布局以 AI 賦能實戰,助推網絡安全智能化,建立了大型漏洞數據集,提出了一種利用神經語言模型結合圖神經網絡的方法來進行漏洞的識別,推出了 AI 自動化漏洞挖掘產品,具備了對未知漏洞檢測、預警、快速響應和處置等主動防護的能力。
二、防御方視角的人工智能應用
1. 借助 AI 檢測 WEB 攻擊
當前,大多數針對 WAF 惡意請求的檢測主要集中于撰寫規則或正則表達式。但不同的惡意請求具有各種不同的規則,想要編寫萬能的正則表達式幾乎不可能實現,且機械式的規則往往會造成誤判,同時基于規則的檢測無法發現新型的攻擊。對此,可以使用長短期記憶網絡(LSTM)來解決。在日志中,關鍵詞的二義型往往是造成誤判的主要原因,針對字符級別的 LSTM 可以根據上下文判斷關鍵詞在出現之處的具體含義。也因如此,使用 LSTM 的WAT 攻擊識別也具備了一定對未知攻擊的識別能力,由于 LSTM 將每個字符作為特征,且字符之間具有上下文聯系,對于某些摻雜了特殊字符之后的命令,使用 LSTM 的模型亦有能力將其識別出來。
除此之外,也可使用基于詞嵌入的深度學習技術進行惡意請求識別。該方法首先使用詞嵌入對數據包進行降維處理,減少數據包的有效荷載維數,之后使用深度卷積神經網絡對嵌入之后的詞向量提取局部特征,與頭部特征一起送入 LSTM 學習全局時態特征,從而識別惡意請求。較之于簡單的字符級 LSTM,方法雖然復雜,但檢測精度也更加高效。
2. 自動化滲透測試
網絡滲透測試需要專業的人員以及大量的時間,高效解決此問題的一種方式是將人工智能技術應用于滲透領域,使滲透測試過程自動化。
已有研究證明了強化學習(RL)在自動滲透測試中的應用。RL 是一種 AI 優化技術,其主要優勢在于它不需要環境模型即可生成攻擊策略,而是通過與環境交互來學習最佳策略。強化學習將網絡的已知配置作為狀態,將可用的掃描作為操作,由網絡上的“主機價值”來確定獎勵,并使用非確定性操作對機器的掃描結果建模。模型根據獲得的獎勵以及過去的經驗來不斷調整自身的行為,以獲取最大化的獎勵。研究發現,只要了解網絡拓撲以及可用的掃描和漏洞利用的知識,強化學習算法能夠找到針對各種不同網絡拓撲的最佳攻擊路徑。
3. 流量數據包自動分類
結合機器學習的流量探測算法可以只從攔截的流量中提取元數據,并使用這些數據建立數據分類模型,無需對流量包進行深度分析,從而在一定程度上避免了侵犯用戶隱私等問題,并且這種流量檢測算法理論上擁有檢測 0day 漏洞的能力。
有安全研究團隊提出了一種通用流量分類框架,首先根據可用信息提取其元數據,之后使用并行聚類算法對信息進行聚合以實現實時處理,最后根據聚類結果創建可視化模型以便安全分析人員或網絡管理員來識別網絡內部的各種情況。
三、總結
人工智能在塑造一個更廣闊前景的同時,也成為誘發新數字、社會和政治威脅的額外動力。對安全從業人員和安全公司而言,人工智能對信息安全來說是一把雙刃劍:其帶來巨大技術革新的同時,亦帶來了前所未有的全新挑戰。由于人工智能是一門包含計算機科學、數學、生物等方面的綜合性學科,如何掌握并使用人工智能,并將其應用在安全相關領域應成為傳統信息安全從業人員以及公司的關注重點。同時,針對數據的采集以及數據隱私問題更應該被嚴格對待,將網絡安全和數據保護放在首位,這要求相關部門、企業、研究人員進行協作,在保證數據的安全及隱私的同時,促進相關創新、法規建設、提高認識和開展研發活動,共同創建人工智能安全發展的健康環境。
文 | 極光無限 馮繼強
本文刊登于《中國信息安全》雜志2021年第6期