加密流量檢測的難點:
特征信息不足
流量全加密時代的來臨導致明文信息不足,載荷不能作為識別加密流量的特征,包長序列、包到達時間等特征也不足以區分不同的加密流量,可用特征維度顯著減少,高辨別力特征更加稀有,所以維持和提升加密流量識別性能的瓶頸是分類特征的信息量不足,而非識別算法。我們需要挖掘隱藏的特征屬性、增加分類特征,進而給識別任務帶來增量信息。
概念漂移問題
隨著網絡安全攻防對抗的愈演愈烈,識別目標會不斷迭代、優化、升級、甚至發生改變,加密流量的特征也會隨之發生變化,這些概念漂移問題使得之前訓練好的模型的準確率等性能可能會逐漸下降。可能的解決思路是對模型的結構進行調整以適應概念漂移,比如加深層、加寬層、根據數據分布變化復合新舊模型等。
標注樣本缺乏
傳統的機器學習方法依賴于大量標注好的樣本,不僅需要大量人力導致標注成本極高,也可能有侵犯用戶隱私的風險,而且新的識別目標在出現早期都是小樣本或者零樣本的,不再適應這種新場景下的機器學習要求。我們需要研究如何減少對標注數據的需求,可以考慮小樣本學習、主動學習、半監督學習、無監督學習等方法。
開集識別問題
目前有各種算法應用于加密流量的識別,有監督機器學習、無監督機器學習、半監督機器學習、強化學習、自學習等,其中最主要的研究和應用還是聚集在有監督機器學習。以應用識別為例,現實中應用數量是在百萬級以上的,目前大部分 AI 的理論基礎是將所有應用的數據都輸入給模型進行訓練,才能獲得一個可用的識別模型,然而這是不現實的。因此對于開放環境中未知樣本的識別,研究如何降低對先驗知識的依賴以及如何提升識別模型的魯棒性與泛化性是非常必要的。
推理性能待提升
從公司層面來講,AI 模型的推理過程非常消耗計算資源,雖然有很多優化和加速的方法,但是相比傳統的規則匹配等技術,AI 的推理性能還是存在數量級上的差異。因此在工程實現上需要保證模型的可用性,能夠得到穩定及時的計算結果,進而應對高速網絡環境下加密流量實時識別的挑戰,想辦法提升推理性能是非常必要的。
回答所涉及的環境:聯想天逸510S、Windows 10。
加密流量檢測的難點:
特征信息不足
流量全加密時代的來臨導致明文信息不足,載荷不能作為識別加密流量的特征,包長序列、包到達時間等特征也不足以區分不同的加密流量,可用特征維度顯著減少,高辨別力特征更加稀有,所以維持和提升加密流量識別性能的瓶頸是分類特征的信息量不足,而非識別算法。我們需要挖掘隱藏的特征屬性、增加分類特征,進而給識別任務帶來增量信息。
概念漂移問題
隨著網絡安全攻防對抗的愈演愈烈,識別目標會不斷迭代、優化、升級、甚至發生改變,加密流量的特征也會隨之發生變化,這些概念漂移問題使得之前訓練好的模型的準確率等性能可能會逐漸下降。可能的解決思路是對模型的結構進行調整以適應概念漂移,比如加深層、加寬層、根據數據分布變化復合新舊模型等。
標注樣本缺乏
傳統的機器學習方法依賴于大量標注好的樣本,不僅需要大量人力導致標注成本極高,也可能有侵犯用戶隱私的風險,而且新的識別目標在出現早期都是小樣本或者零樣本的,不再適應這種新場景下的機器學習要求。我們需要研究如何減少對標注數據的需求,可以考慮小樣本學習、主動學習、半監督學習、無監督學習等方法。
開集識別問題
目前有各種算法應用于加密流量的識別,有監督機器學習、無監督機器學習、半監督機器學習、強化學習、自學習等,其中最主要的研究和應用還是聚集在有監督機器學習。以應用識別為例,現實中應用數量是在百萬級以上的,目前大部分 AI 的理論基礎是將所有應用的數據都輸入給模型進行訓練,才能獲得一個可用的識別模型,然而這是不現實的。因此對于開放環境中未知樣本的識別,研究如何降低對先驗知識的依賴以及如何提升識別模型的魯棒性與泛化性是非常必要的。
推理性能待提升
從公司層面來講,AI 模型的推理過程非常消耗計算資源,雖然有很多優化和加速的方法,但是相比傳統的規則匹配等技術,AI 的推理性能還是存在數量級上的差異。因此在工程實現上需要保證模型的可用性,能夠得到穩定及時的計算結果,進而應對高速網絡環境下加密流量實時識別的挑戰,想辦法提升推理性能是非常必要的。
回答所涉及的環境:聯想天逸510S、Windows 10。