<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    加密惡意流量檢測思路分享

    VSole2022-04-19 16:20:20

    近年來,隨著機器學習、深度學習等人工智能技術的迅猛發展,其在圖像識別、語音識別和自然語言處理等領域已經得到大規模應用,可以為傳統方法很難解決或無法適用的問題提供有效的方案,也已經成為網絡安全領域中的熱門研究方向,比如將人工智能應用于惡意加密流量的檢測就是一種行之有效的方法。

    本文介紹一種從加密流量中檢測惡意流量的方法,該方法的思路具有很好的借鑒作用,希望帶給讀者一些思考。

    一前言

    隨著TLS加密技術在互聯網上的普及,越來越多的惡意軟件也使用TLS加密方式傳輸數據。如何通過不解密的方式直接從大體量的加密流量中檢測出惡意流量,是學術界和工業界一直非常關注的問題,且已經取得了一些研究成果,但大多都是使用單一模型或多個弱監督模型集成學習的方法。

    與常規的單分類器檢測方法不同,本文介紹一種使用多模型共同決策的方法[1],能夠在加密惡意流量的檢測問題上表現出優異的性能,總體思路是利用不同異構特征訓練多個不同的分類器,然后使用其檢測結果進行投票從而產生最終的判定結果。

    接下來首先介紹總體架構,然后逐一對其中包含的各個子模型進行詳細介紹,最后做一個小結。

    二總體架構

    該方法從數據包級、流級和主機級三個不同層次分別提取行為特征構建多個模型來提升對黑白樣本的識別能力,一部分模型使用多維特征進行綜合分析,還有一部分模型使用黑白樣本區分度較大且置信度較高的單維特征緩解多維特征中潛在的過擬合和誤報問題。

    由于提取的多種特征結構是異構的,且具有不同的組織特點,所以并不適合將所有特征統一編碼輸入到單個模型中進行學習。該方法針對各類特征的特點分別構建合適的分類器,最后根據每個分類器的結果進行投票,以少數服從多數的原則產生最終的檢測結果。

    整體架構如圖1所示,總共訓練了六個分類器,原則上分類器是奇數個則不會出現平局的情況,但由于最終有偶數個分類器,而流級分類器在單模型測試中表現較佳,所以如果最終投票結果為平局,則以流級分類器的結果作為最終結果。

    圖1 加密惡意流量檢測整體架構圖

    三子模型介紹

    本節將從設計思路、特征提取與處理和分類器構建等方面對參與投票的六個子模型進行詳細介紹。

    01包長分布分類器

    一般來說,功能或實現相似的軟件也具有相似的數據包體量分布特點,比如視頻軟件的下行流量通常遠大于上行流量,而惡意軟件的下行流量通常遠小于上行流量。如圖2所示,正常通信和惡意軟件通信在數據包長度上是不同的,瀏覽網頁時客戶端向服務端的請求數據包通常較少,而服務端回復客戶端的響應數據包非常多,但是惡意軟件完全相反,服務端僅向客戶端發送少量的控制命令,而客戶端因為進行數據回傳會向服務端發送大量的數據包。由于數據包體量特征不受數據加密的影響,所以非常適合用于加密流量的檢測。

    圖2 惡意/正常通信中數據包長度的區別

    將所有可能的帶方向的報文長度作為包長分布特征的一個維度,考慮到帶方向的報文長度的所有可能值是從64字節到1500字節,所以包長分布特征是一個約3000維的概率分布向量。統計出流量樣本中各個方向和長度的報文數量并除以報文總數就能得到包長概率分布向量。

    對于模型選擇,首先考慮適合離散概率分布的KNN分類算法,單純使用包長分布特征訓練的KNN分類器在比賽中觸發了高檢出獎勵,但整體得分不高,將該分類器加入投票機制后,雖然沒有觸發高檢出獎勵但是得分更高,所以可以得出該方法可以降低誤報的結論。但由于KNN算法檢測效率低,最終考慮到檢測性能,采用了隨機森林分類器并讓其參與投票。

    實驗者也嘗試了使用流級的包長分布特征進行分類器訓練,考慮到惡意流量樣本中也包含與正常服務的通信,但又無法識別其中的良性流,所以只將包含一條流的樣本拿出來作為訓練集,最終將不包含任何惡意流的流量樣本分類為正常,否則分類為惡意,但這種方法并不理想,我們認為可能和訓練集中各個類別的數量和占比有關,也可能是這種方法本身效果不夠好。

    02證書主體分類器和簽發機構分類器

    判別一個軟件是否惡意,不僅取決于其通信的內容,也取決于其通信的對象,所以在建立模型時有必要考慮流量樣本中的通信對象這一特征。在TLS建立連接的過程中,服務端發給客戶端的證書中subject和issuer字段分別代表客戶端的通信對象主體和證書的直屬簽發機構,subject和issuer中的common name字段通常是一個域名,而惡意軟件和惡意域名關聯的可能性較大,如圖3所示,在黑白樣本中惡意證書和正常證書的主體和簽發者是不一樣的,且都存在訪問頻次較高的值。

    圖3 惡意/正常證書中主體和簽發者的區別

    通過統計訓練集中的每個流量樣本的葉子證書所涉及到的不同subject和issuer的數量,并記錄每個流量樣本與其通信的頻數,可以采用詞袋模型分別將其編碼為特征向量。

    最后訓練兩個基于先驗概率的樸素貝葉斯分類器對測試樣本進行分類,因為訓練集中已經包含了絕大多數正常流量的流行域名,所以如果一個測試樣本中所有證書的subject或issuer都不存在于訓練集中,則直接將其判定為惡意樣本。總之,正常樣本中訪問頻率較高的域名會對將樣本分類為正常貢獻更多的證據,而惡意樣本中訪問頻率較高的域名會對將樣本分類為惡意貢獻更多的證據。

    03通信IP地址分類器

    除了證書主體和簽發機構,服務端IP地址也是一個表征客戶端通信對象的重要標識符,通常同一地區遭受同類惡意軟件感染的不同主機很可能會訪問相同的IP地址,所以流量樣本中對遠程IP地址的訪問情況可以為惡意流量的判定提供依據。

    由于對惡意軟件服務端IP的訪問哪怕只有一次,也能判定其為惡意流量,所以并不記錄流量樣本與每個服務端IP的通信頻次,而是使用0和1來記錄是否存在與惡意IP的通信行為。最后也是使用樸素貝葉斯分類器對測試樣本進行分類。

    04流級多維特征分類器 

    除了對加密流量通過上述方法提取單維特征進行建模之外,為了提升檢測效果,也盡可能地從協議頭部和流量行為中提取比較通用的多維數據特征。

    一條流可以由五元組相同的數據包確定,深入分析流級別的數據并提取了一千多維與載荷無關的特征,包含以下四部分:

    (1)元數據:即單條流的基本統計數據,包含持續時間、總的流入/流出字節數、數據包個數;

    (2)窗口序列統計特征:不僅提取了出入流的包時間間隔和包長度的平均值、標準差、最大值、最小值等統計特征,也使用馬爾科夫轉移矩陣的方式捕獲了相鄰數據包之間的關系;

    (3)TLS/SSL握手包特征:客戶端和服務端進行握手時訓練集中的黑白數據在一些字段上具有不同的分布,所以提取此類相關特征。首先將客戶端和服務端使用的TLS版本進行one-hot編碼,其次將客戶端和服務器端的GMT Unix Time是否存在、是否使用隨機時間編碼為0/1特征,最后將客戶端和服務端的加密套件和擴展列表進行one-hot編碼;

    (4)TLS/SSL證書特征:通常正常和惡意流量的服務端證書是不同的,所以提取了服務端證書相關特征。將證書是否自簽名、是否過期、版本號、證書有效期、公鑰長度編碼為0/1特征,并且將證書主體域名進行one-hot編碼嵌入多維特征。

    最后采用擅長高維特征處理的隨機森林算法對如上多維特征進行分類,這種基于樹的方法也可以輸出特征重要性評分,有利于后續挑選重要特征、降低特征維度和刪除冗余特征。

    05主機級多維特征分類器

    一方面,流級數據標記并不十分準確,因為惡意數據樣本中也會存在正常通信產生的良性流,比如惡意軟件可能會通過訪問谷歌來判斷網絡的連通性;另一方面,對每條流單獨提取特征時可能會漏掉流之間的關聯特征即主機級別的特征,比如惡意軟件在產生訪問谷歌這種正常流量行為之后可能要開始進行惡意的數據回傳,再比如有少量正常流也會符合惡意流的自簽名等特征而導致單條流被誤判。綜上,有必要對流級特征進行聚合提取主機級特征。

    提取主機級特征時不僅要對總包個數、每條流的平均包個數、時間間隔、包長的均值等流級特征進行聚合,也要對自簽名流數量、過期流數量、有效期過長(比如超過100年)的流數量及其均值等證書相關特征進行聚合。此外,由于發現惡意IP的TLS半連接和無連接與正常IP的分布不同,所以對不同流的連接狀態和出現Alert的流數量也進行了統計。最后模型的選擇依然是隨機森林。

    四小結

    本文介紹了一種加密惡意流量檢測方法,首先通過對加密流量進行深入分析和特征挖掘,提取了單維/多維特征,然后對包級/流級/主機級流量行為進行分層分析和學習,構建不同的分類器,最終通過多模型投票機制提升了檢測效率和性能。

    除了統計和機器學習方法外,《基于深度學習的物聯網惡意軟件家族細粒度分類研究》驗證了深度學習在流量識別方向也具有很好的應用前景,充分展現了人工智能賦能網絡安全領域的可行性。

    分類器特征提取
    本作品采用《CC 協議》,轉載必須注明作者和本文鏈接
    使用多個用于惡意軟件分類的參考數據集,包括 Windows PE 文件、PDF 和 Android 應用程序,展示了針對各種機器學習模型的有效攻擊,并評估了對攻擊者施加的各種約束的影響。因此,它們已被視為與生產部署的 ML 模型最相關的威脅之一。此外,探索了各種現實世界的限制對攻擊者成功的影響,以及檢測攻擊的防御機制的可行性。
    測試結果表明,勒索病毒檢測器檢測準確率達到了 97%,勒索病毒家族分類器分類準確率達到了 94%。隨著網絡犯罪的組織化、規模化,隱匿行為攻擊的復雜化和商業化,目前,隱匿高危勒索病毒呈蔓延之勢。為了保證計算機網絡和計算機應用系統的正常運行,電力企業需要對隱匿高危勒索病毒的攻擊作出應對。對抗隱匿高危勒索病毒攻擊,保護用戶數據的關鍵措施在于預防,即在勒索軟件攻入受害者主機但尚未造成實質性破壞前及時檢測并攔截攻擊。
    針對當前的入侵檢測方法普遍存在準確率與泛化性較低的問題,提出了一種基于卷積神經網絡(Convolutional Neural Network,CNN)和權重縮減門控循環單元(Weight Reduction Gated Recurrent Unit,WRGRU)的網絡入侵檢測模型(CNN-WRGRU)。該模型首先利用 CNN 進行入侵檢測數據集的特征提取,其次利用 WRGRU 來學習數據特征之間的
    機器學習模型對這種變化稱為概念漂移,使用舊數據訓練的模型在處理前所未見的新樣本時挑戰極大。為了構建有效且穩健的分類器,必須能夠檢測同一惡意軟件家族中漂移的 IoT 變種,并解釋漂移的成因。通過 VirusTotal 的分析報告,使用 AVClass 對其進行處理聚合家族歸屬。一共確定了 44 個 Mirai 的變種與 11 個 Gafgyt 的變種。相比 Gafgyt 來說,Mirai 的連接更為緊密。
    將人工智能應用于惡意加密流量的檢測
    這凸顯了開發檢測惡意 PowerShell 命令的有效方法的迫切需要。在這項工作中,我們通過實施幾個新穎的惡意 PowerShell 命令檢測器并評估它們的性能來應對這一挑戰。在這項工作中,我們使用 AMSI 提供的信息對惡意 PowerShell 代碼檢測進行了首次研究。
    該文為發表于PETS 2021的GANDaLF: GAN for Data-Limited Fingerprinting。目前Tor是使用最廣泛的匿名網絡之一,雖然Tor具有一定的匿名性,但已經存在一些手段能夠恢復有關Tor流量的部分信息。其中已有大量針對Tor網站指紋的研究。利用暗網網站指紋技術,能夠通過Tor連接中發送和接收的流量模式來識別連接是否指向特定的目的地。由于大多數暗網網站會定期更新
    反人臉識別技術概述
    2023-06-16 09:27:10
    雖然這兩個系統使用了類似的技術來分析面部圖像,但面部驗證系統需要用戶明確同意才能部署,而許多人臉識別系統在未經用戶同意的情況下運行。通過使用反識別工具,用戶 P 可以采取針對性的防御措施,以保護其隱私并防止被商業人臉識別系統識別出來。
    電力工控系統是關系到電網安全穩定運行的重要領域。目前國網黑龍江電力有限公司已經建立起“安全分區、網絡專用、橫向隔離、縱向認證”的邊界安全防護體系。但在工控系統核心位置保護方面,還需考慮以下兩個問題:電力工控系統具有閉源特性,內部函數邏輯調用非開源;攻擊數據樣本極少,難以構建特征庫引擎。針對以上問題,從系統底層數據提取、運行狀態學習等方面開展研究,設計了涵蓋廠站、主站兩側的安全防御體系架構,為閉源電
    AI安全論文第19篇介紹惡意代碼分析經典論文DeepReflect,希望您喜歡
    VSole
    網絡安全專家
      亚洲 欧美 自拍 唯美 另类