BlackWidow:監控暗網中的網絡安全信息
介紹
暗網由于其隱蔽于搜索引擎和普通用戶之外,被網絡犯罪分子用來提供各類非法服務和商品。在暗網社區中,許多交易的商品都與網絡安全領域高度相關,如0day漏洞的信息、某些網站的用戶信息數據庫或可租用的僵尸網絡。這篇論文中,作者提出了BlackWidow,可以對特定的暗網社區論壇進行監測并將收集到的數據融合到一個分析框架中,然后將論壇數據和相應的關系通過知識圖譜表示出來,提供給分析人員交互式的搜索功能。實驗表明,BlackWidow可以推斷出帖子作者與論壇之間的關系,并檢測網絡安全相關主題的討論趨勢。
方法

BlackWidow的整體架構是由5個環節組成的處理鏈,分別是獲得訪問權、收集原始數據、解析原始數據、分析數據中包含的實體以及關系、結果展示。
- Planning & requirements:最初的規劃和需求分析階段是人工方式進行的,首先需要確定下合適的暗網論壇,獲取網站的地址,然后根據網站的要求注冊帳號并驗證,來獲得論壇的訪問權限。帳號獲得訪問權后,剩下的步驟將完全自動化進行。
- Collection:收集階段包含Tor連接的建立和數據爬取兩個任務。BlackWidow會自動登錄已注冊好的帳號,并利用nodejs的無頭瀏覽器訪問論壇收集數據。這種方式更接近真實用戶的行為,可以降低被論壇反爬機制阻止的概率。
- Processing:解析階段首先對收集下來的HTML文件進行解析,獲取頁面的文本信息,然后使用翻譯API將非英語內容轉換為英語。BlackWidow設計的知識圖譜本體如下圖所示,從文本中提取這些實體及關系存入Elasticsearch中。

- Analysis:
- 推斷用戶間關系:一個帖子是由一個用戶發布,然后其他用戶在該帖子下方發表回復。從時間順序來看,如果用戶B在用戶A之后發表了一個回復,則可以定義用戶A到用戶B的關系,因為B在A之后的回復可以看作是B與A的交互行為。
- 識別主題:帖子中的回復內容一般與帖子的主題有關,但不容易了解哪些帖子涉及了相同的主題。BlackWidow使用基于LDA的無監督文本聚類方法,將帖子的回復分組為不同類別,如僵尸網絡、數據庫、漏洞利用、DDoS等。
- 識別網絡安全趨勢:BlackWidow融合了不同論壇的帖子、回復和類別并匯總到一個時間序列中,通過對這些時間序列進行分析,比如短時間內這些序列經歷高速增長或下降,一定程度上代表了這段時間內的話題趨勢如何。
- Dissemination:在提取和分析階段結束后,BlackWidow支持將數據進行各種類型的可視化并提供查詢接口,供分析人員使用。
實驗及分析
作者選擇了7個論壇進行相關的分析,持續收集數據1年。在作者撰寫論文時,只有4個論壇仍然能夠訪問,這也說明了這類暗網論壇生命周期短、波動性高。
論壇網站結構
論壇規模可以通過帖子數量或用戶數量來評估,下面兩個圖分別是7個論壇的用戶數量和帖子數量情況。


可見,論壇5擁有最多的用戶數量,而論壇3的帖子數量最多。然而平均來說,論壇5的一個用戶只發表了2.28篇回復,這可能是由于論壇5是一個深網論壇,不需要Tor等其他軟件就能夠訪問,因此用戶來源更加廣泛。
論壇間的關系
論壇間的關系通過不同論壇內用戶的用戶名關聯性確定,結果如下圖所示。
可以看到,使用同一語言的論壇間有著大量的重疊。然而,論壇5則顯示出與其他大多數論壇都有著一定的重疊,如果將這些交叉點視為傳播渠道,就可以說明開放性較高的論壇5為更深層的其他暗網論壇提供了信息傳播的切入點。
論壇內用戶間的關系
論壇內用戶的關系,則通過查看他們共同回復過的帖子來進行確定。下圖是論壇4和論壇5的分析結果,圖中的點表示單個用戶,邊則表示了他們存在的關系,節點的大小表示邊的數量,以不同顏色表示其中的子社區。
可以看出,兩個論壇的差異比較明顯。論壇4的總體規模比較小,但用戶間的密度更大;而論壇5中存在許多大型節點,實際查看發現,他們是一些產品序列號的供應商或論壇的版主管理員。
論壇討論趨勢

上圖顯示了5個最熱門的網絡安全相關帖子所占的比例與時間的關系。可以看出,討論數據泄露的比例在逐年上升,與漏洞和數據庫相關的主題數量基本保持穩定,DDoS相關話題在16年有過一次高峰,其他時間則與僵尸網絡的討論熱度差不多,相對比較冷門。