有限樣本下的暗網指紋識別
簡介
該文為發表于PETS 2021的GANDaLF: GAN for Data-Limited Fingerprinting。目前Tor是使用最廣泛的匿名網絡之一,雖然Tor具有一定的匿名性,但已經存在一些手段能夠恢復有關Tor流量的部分信息。其中已有大量針對Tor網站指紋的研究。利用暗網網站指紋技術,能夠通過Tor連接中發送和接收的流量模式來識別連接是否指向特定的目的地。由于大多數暗網網站會定期更新和修改,因此訓練指紋識別分類器面臨數據較少或者需要經常重新收集數據的問題。為此,在本篇論文中,作者提出了一種基于對抗生成網絡的指紋識別方法:GANDaLF。GANDaLF旨在使用很少的訓練樣本,并通過使用對抗生成網絡生成大量“假”數據來幫助訓練深度神經網絡來區分實際訓練數據的類別。
方法
首先在數據集層面上,作者不僅關注模型在實驗環境下的性能,更關注開放世界環境下的指紋分辨能力。因此做出兩種假設,在封閉世界的假設下,受害者正在訪問一個攻擊者感興趣并可以訓練的一組固定站點,稱為受監控的集合。相比之下,開放世界環境的假設下,還允許受害者訪問非受監控集中的站點。此外,作者還將數據集分為只包含網站索引頁和包含網站子頁面數據兩類。
之后,針對上述四種數據(是否假設為開放世界環境、是否包含網站子頁面數據)集分別訓練模型,進行實驗。神經網絡結構如下圖所示。

該網絡為作者優化過的SGAN網絡,SGAN是對抗生成網絡結合了半監督學習的一個變種。SGAN同時訓練生成器與半監督式分類器,通過在無監督模式下的訓練,使得網絡能夠從大量未標記的數據集中學習有用的特征提取功能,然后將這些特征用于監督模式下的分類任務,從而得到一個效果更好的半監督式分類器。SGAN的判別器通常為多分類,類型數量為N+1(N種有標簽的類型和1種生成器偽造的假數據)。作者基于SGAN,并針對網絡流量分類的特點對模型做出改進。由于網絡流量并不像圖像那樣存在二維層面上的特征,因此作者使用更深的1D卷積結構對流量隱含特征進行提取,并嘗試引入dropout、批歸一化和不同的損失函數進行實驗。
實驗
作者主要針對GANDaLF的效果與相關工作進行對比。如下表所示,在封閉世界環境的假設下,針對只包含網站索引頁的數據集的測試中,GANDaLF的綜合效果不錯,但是在任何一組測試中都沒有取得完全擊敗相關工作的分類準確率。
相似的,在封閉世界環境的假設下,針對包含網站子頁面的數據集的測試中,GANDaLF同樣沒有超過其相關工作。但是這組實驗中,GANDaLF的速度快于第二名20%以上。
但是,在切換到開放世界環境的假設下(用戶不僅會流量受監控的網站,還會瀏覽不受監控的網站),GANDaLF的表現很強。如下圖所示,GANDaLF的效果明顯優于在封閉世界假設下表現出色的TF和k-FP分類器。GANDaLF能夠在保持不錯的準確率的情況下保持查全與查準的平衡。

顯然,開放世界環境的假設更加貼近現實情況,并且查全、查準也確實需要進行一定的取舍與平衡,不能簡單地追求高準確率。由上述實驗中可以看到,不同訓練源的組合使GANDaLF能夠從更廣泛的角度進行學習,從而僅使用少量標記樣本進行訓練就可以進行更精確的網站指紋分類。相比之下,當使用少量訓練樣本時,有監督的方法由于學習能力受限于數據分布,從而導致性能顯著降低。