流量全密化趨勢下的檢測困境和思考
隨著加密技術的廣泛應用以及新型網絡技術的不斷更迭,網絡結構日趨復雜,加密流量呈現爆炸式增長,尤其隨著TLS1.3等加密協議的演進和推廣,全加密時代悄然來臨。加密技術在保護用戶隱私的同時也深刻改變了網絡安全威脅形勢,讓惡意服務有機可乘,而傳統的檢測技術路線在面對惡意加密流量時往往無能為力。在此背景下,基于加密流量的檢測與防御勢在必行。
本文針對CNCC大會上關于加密流量檢測的分享進行探討,并提出一些見解,希望可以給各位帶來一些思考。
一加密流量檢測的現狀
01流量全密化趨勢
隨著人們網絡安全意識的不斷提高和加密技術的廣泛應用,在安全與隱私保護需求的驅動下,網絡中的加密流量呈現爆炸式增長。
特別是TLS等加密協議的不斷演進、DNS加密化、QUIC協議的推廣,加密應用的全面普及和網絡通信流量的加密化已經成為不可阻擋的趨勢,我們正在走向全加密時代。
02濫用加密的危害
加密流量的使用越來越廣泛,然而加密在保護用戶隱私的同時也給網絡安全帶來新的隱患,攻擊者可以通過加密來隱藏自己的攻擊行為。
從個人與企業的角度來看,網絡全面化加密的濫用給個人與企業的財產安全造成了危害。比如暗網中可能存在買賣公民身份信息、數字貨幣的非法交易,各個社交平臺上網絡謠言的散布、網絡詐騙給人民群眾帶來的財產損失等。
03業界研究現狀
加密流量檢測的研究一直是學術界和工業界都非常關注的技術方向,分析的對象即識別過程中的輸入形式,包括數據包級、數據流級、主機級、社區級等,流量識別的目標也是多樣的,包括加密與非加密流量識別、加密協議識別(如SSL、SSH、IPSec、QUIC等)、服務識別(如網頁瀏覽、流媒體、即時通信、網絡存儲等)、加密應用軟件識別(如淘寶、微信、Skype等,還可進一步精細化分類應用所屬類型,如Skype可以分為即時消息、語音通話、視頻通話、文件傳輸等),還有更細粒度的加密流量內容參數識別(如發文本、搶紅包、視頻清晰度等)、網站指紋識別(特定敏感網站)、異常加密流量識別(如惡意軟件通信流量、黑客工具產生的流量等)等。
以破密方法應對加密流量檢測的思路已經越來越難以為繼,當前的研究思路以非破密手段為主,在不解密的前提下實現加密流量的檢測與識別,且部分方法仍然使用了加密流量中尚存的明文部分,比如加密協議握手過程中傳輸的明文信息。
二加密流量檢測的難點
01特征信息不足
流量全加密時代的來臨導致明文信息不足,載荷不能作為識別加密流量的特征,包長序列、包到達時間等特征也不足以區分不同的加密流量,可用特征維度顯著減少,高辨別力特征更加稀有,所以維持和提升加密流量識別性能的瓶頸是分類特征的信息量不足,而非識別算法。我們需要挖掘隱藏的特征屬性、增加分類特征,進而給識別任務帶來增量信息。
02概念漂移問題
隨著網絡安全攻防對抗的愈演愈烈,識別目標會不斷迭代、優化、升級、甚至發生改變,加密流量的特征也會隨之發生變化,這些概念漂移問題使得之前訓練好的模型的準確率等性能可能會逐漸下降。可能的解決思路是對模型的結構進行調整以適應概念漂移,比如加深層、加寬層、根據數據分布變化復合新舊模型等。
03標注樣本缺乏
傳統的機器學習方法依賴于大量標注好的樣本,不僅需要大量人力導致標注成本極高,也可能有侵犯用戶隱私的風險,而且新的識別目標在出現早期都是小樣本或者零樣本的,不再適應這種新場景下的機器學習要求。我們需要研究如何減少對標注數據的需求,可以考慮小樣本學習、主動學習、半監督學習、無監督學習等方法。
04開集識別問題
目前有各種算法應用于加密流量的識別,有監督機器學習、無監督機器學習、半監督機器學習、強化學習、自學習等,其中最主要的研究和應用還是聚集在有監督機器學習。以應用識別為例,現實中應用數量是在百萬級以上的,目前大部分AI的理論基礎是將所有應用的數據都輸入給模型進行訓練,才能獲得一個可用的識別模型,然而這是不現實的。因此對于開放環境中未知樣本的識別,研究如何降低對先驗知識的依賴以及如何提升識別模型的魯棒性與泛化性是非常必要的。
05推理性能待提升
從公司層面來講,AI模型的推理過程非常消耗計算資源,雖然有很多優化和加速的方法,但是相比傳統的規則匹配等技術,AI的推理性能還是存在數量級上的差異。因此在工程實現上需要保證模型的可用性,能夠得到穩定及時的計算結果,進而應對高速網絡環境下加密流量實時識別的挑戰,想辦法提升推理性能是非常必要的。
三加密流量檢測的出路
01構建真實網絡環境下的數據集
由于現網環境非常復雜,很多時候我們在封閉數據集下訓練的模型,上線之后性能表現并不理想,這時我們要考慮環境帶來的影響因素。相同類別的加密流量在不同網絡環境(WiFi、4G/5G移動通信、物聯網、工控網、區塊鏈網絡)下的包長、載荷長度序列等特征有一定差異,訓練環境與實際環境的不一致可能導致訓練數據與實際數據分布的差異,所以理論與實際網絡環境往往難以契合。
如何能夠保證模型在現網環境上線后的性能。一方面,能適配或解決不同網絡環境的識別方案本身尤為重要;另一方面,我們可以通過模擬真實網絡環境,搭建接近真實網絡環境的攻防對抗場景,盡可能構建真實環境下的數據集,用于對模型和方法的測評,使得模型上線后的性能影響被降到最小。
02基于AI尋找大數據統計規律
流量的全加密導致傳統的具有明確意義的特征失效,從技術發展趨勢來看,下一代技術是基于大數據的統計特征,即在大量數據上做統計,基于統計的結論提取能夠描述樣本分布本質原因的特征,這個過程通過AI來實現,因為AI的強項就是分析大量數據找到統計規律。
當然,AI在圖像識別、語音識別等領域應用廣泛,但是在流量識別領域,AI尚處于起步階段,還有很大的挑戰和很多需要突破的技術點,所以AI暫時可能不適合做最后一步的判定,而是適合數據處理和輔助決策,基于AI的加密流量檢測也將會是一個長期的研究課題。
03不放棄傳統技術和已有能力
加密不是一個新生事物,由于密碼學的限制,加密協議的發展也是循序漸進的,除了新增的一些功能或特征,也有一些共性。首先,加密協議的握手過程必不可少,且或多或少都有明文傳輸,盡管QUIC協議增加了首包混淆機制,但也并非嚴格意義上的加密,當然TLS、QUIC等協議都在盡可能減少明文,比如TLS1.3相比TLS1.2對握手過程進行了更多的加密,QUIC協議除了前8個字節做到了近乎全加密;其次,流式加密不改變包長。
盡管加密協議不斷演進,但是一些統計意義的字符串和包長特征的方法還是一直有效,我們不能拋棄傳統的技術和已有能力。總體來說,流量的加密化演進和識別技術的發展是螺旋式上升的過程。在落地過程中,要依賴AI專家和安全專家,對流量數據有深入的理解,針對使用不同方式加密的流量,采用不同的檢測和識別方案。
04構建分層檢測體系
網絡中流量的構成十分復雜,加密流量的檢測與識別從來不是在單一數據集上做單一模型就能夠解決的問題。從落地層面來講,為了實現各類加密流量的識別,可以構建分層檢測體系,不同層級解決不同問題
針對不同類型的數據,通過數據采集與處理、特征提取與選擇、指紋構建等過程,以實現不同目標的加密流量的精準識別。以多維度特征提取為例,可以提取數據包載荷等元數據特征、數據包長度序列等會話特征、數據包響應時間等時間特征、歷史訪問行為等主機特征。再以指紋構建為例,可以在流量中提取直接可見可理解的狀態化指紋,也可以以間接化的方式提取流量產生的概念化指紋,甚至通過統計、轉換、映射等方式提取用于表征對象行為信息的行為化指紋。
05多方協同共同維護網絡空間安全
與用戶協同:隨著流量的全密化,常用的有監督模型的標注成本非常高,但并不是所有的用戶行為都是非常私密的,假如有一些用戶愿意在特定場景下貢獻自己的數據或者輔助標注數據,相關受益方再給用戶支付一定費用,這樣可以大大減少技術上打標的難度。
與運營商協同:在大網級別甚至國家級對抗上,調動運營商以上級別的流量調度能力和標注能力,形成并利用上帝視角優勢,最大限度地提升事件觀測的覆蓋度和準確度,對特定的目標流量數據在全網范圍內進行持續觀測、積累和分析,最終利用大數據網絡行為分析探索加密流量檢測的方法。
數據協同:一方面,在監管要求和公司利益博弈下,除了公開數據集或者聯盟外,數據持有者之間、數據持有者和模型構建者之間并不能互聯互通,造成了一定的數據壁壘問題;另一方面,以網絡公害為例,其生態體系不斷完善,需要全鏈條追蹤溯源,僅僅依靠單點研判信息量嚴重不足。因此要在隱私保護的大前提下,利用隱私保護計算、多方安全計算、聯邦學習等技術在一定程度上緩解數據共享問題,并實現多點協同分析和研判。
校企協同:學術界往往在做最前沿的研究,我們確實能看到很多優秀的研究成果,但對于其價值很多時候似乎沒有相對客觀的判斷標準,工業界的關注點則不完全相同,能否在真實場景下很好地落地至關重要。因此我們提倡加強校企合作,融合學校的研究優勢和企業的產品價值,促進科研成果轉化。
四 總結
隨著全球網絡安全技術的發展,加密策略在保護隱私的同時也增大了惡意流量被發現和檢出的難度,同時技術落地也面臨重重挑戰。本文針對加密流量檢測的研究和落地,探討了加密流量檢測的現狀、難點和出路,為全加密時代下如何維護網絡安全添磚加瓦。