自研機器學習助SOC捕獲網絡入侵者
法國一家銀行的信息安全團隊利用日志數據訓練內部開發的機器學習模型,發現此模型可檢測基于規則的安全設備無法捕獲的三類新型數據滲漏。
下周舉行的2022年歐洲黑帽大會上,法國農業信貸集團基礎設施平臺(CA-GIP)網絡安全工程師Carole Boijaud將登臺詳細介紹這項技術,議程題為“閾值適用于舊日威脅:解密用AI和機器學習增強SOC檢測”。該團隊從日志文件獲取每日匯總數據,從中提取感興趣的特征,以之找出該銀行Web流量中的異常。
這項研究專注如何更好地檢測數據滲漏,并由此發現了該公司舊有系統未能檢測到的攻擊。
Boijaud表示:“我們實現了我們自己的威脅模擬,模擬了我們想要看到的東西,所以我們能夠看到我們流量中能發現什么。檢測不到特定威脅時,我們嘗試找出是哪里不一樣,試圖搞清到底發生了什么。”
機器學習已經成為網絡安全行業風潮,一些公司和學術研究人員仍在用自己的數據做實驗,想要找出可能潛藏在噪音里的威脅。比如說,微軟就在利用來自40萬客戶的遙測數據識別特定攻擊團伙,并采用這些分類預測攻擊者未來的行動。其他公司也在用遺傳算法等機器學習技術幫助檢測云計算平臺上權限過多的賬戶。
Boijaud表示,用自研系統分析自家公司的數據有一系列好處。安全運營中心(SOC)可以更好地了解自己的網絡流量和用戶活動,安全分析師也能夠更深入全面地了解攻擊自家系統的各類威脅。法國農業信貸集團固然有自己的平臺小組管理基礎設施、處理安全事件和進行調查研究,但規模較小的企業亦可從應用機器學習和數據分析中獲益。
“開發自己的模型沒那么昂貴,我相信大家都能做到。”Boijaud稱,“只要能訪問數據,有了解日志的人員,就可以建立自己的管道,至少開始時是這樣。”
找對監測數據
該網絡安全工程團隊使用名為聚類的數據分析技術來識別需要跟蹤的重要特征。其中最重要的幾個特征包括域名流行程度、系統訪問特定域名的次數,以及訪問請求用的是IP地址還是標準域名。
Boijaud表示:“基于數據表示和我們對機器日常行為的持續監測,我們已經能夠識別這些特征。機器學習就是數學和模型,但重要的是你如何表示數據,而數據表示需要理解這些數據,也就是說我們需要了解這一領域的人手,比如網絡安全工程師。”
選擇了對分類而言最重要的特征后,該團隊運用名為“孤立森林”的異常檢測算法來找出數據中的離群值。孤立森林算法根據數據的值將數據組織成多棵邏輯樹,然后分析這些邏輯樹,確定異常值的特征。該方法易于擴展,可以處理大量特征,而且相對輕量。
Boijaud團隊的初步成果是讓模型學會了檢測三種新型滲漏攻擊,這三種攻擊是該公司用現有安全設備檢測不出來的。Boijaud表示,總的來說,可以檢出大約一半的滲漏攻擊,且誤報率很低。
不是所有的網絡異常都是惡意的
網絡工程師還必須找到確定異常指證惡意攻擊還是良性流量的方法。發往第三方跟蹤服務器的廣告標簽和請求也會被此系統捕獲,因為這些流量通常匹配異常的定義,但可以在最終結果中濾掉這些內容。
自動化安全事件的初步分析可以幫助公司更快分類和識別潛在攻擊。Boijaud表示,安全團隊可以自己進行這些研究,從而深入了解自己的數據,更便于確定哪些是攻擊而哪些可能是良性流量。
CA-GIP計劃擴展這一分析方法,使之不僅僅用于檢測利用Web攻擊進行的數據滲漏。