Twitter 威脅情報跟蹤與評估
工作來源
WWW 2021
工作背景
根據 2019 年對北美與英國 1908 名從業者的調查,至少 37% 的受訪者表示他們的組織將公共情報源與商業情報源結合使用。41% 的受訪者表示他們的組織使用一個商業情報源,78% 的受訪者使用多個情報源。
Twitter 上的威脅情報信息,保證了威脅的及時性和多樣性,許多安全產品中也嵌入 Twitter 進行 IOC 檢索。
工作設計
設計通過 Twitter 提取惡意軟件 IOC 的系統 Twiti。識別可能包含 IOC 指標的推文,通過推文內容與外部鏈接提取 IOC 指標。其整體結構如下所示:

推文收集
使用 Search API 跟蹤 35 個常見關鍵字(如 malware、ransomware、botnet、iocs 與 virustotal.com 等)、使用 Timeline API 跟蹤 146 個典型用戶(86% 是安全專家、12% 是安全廠商、2% 是其他安全組織)收集數據。
推文選擇
直接使用模式匹配肯定會導致很多誤報,比如某些固件版本號和 IP 地址類似(Tuleap 9.17.99.189)、區塊鏈事務哈希值等。
預處理
Twitter 會自動縮短推文中的 URL 為短鏈接,在縮短時還會進行安全檢查,所以要刪掉 http://t.co 的鏈接,避免保留良性地址。與此同時,bit.ly、tinyurl.com、buff.ly、goo.gl、youtu.be 和 ow.ly 等短鏈接地址也會被刪除。
繼而通過正則進行 IOC 檢查,發現哈希、IP 地址、域名或者 URL 等。再利用 NLP 技術提取特征:
- 將哈希、IP 地址、URL、域名、文件名、文件路徑、電子郵件替換為 [hash]、[ip]、[url]、[domain]、[filename]、[filepath]、[email]。用戶名、CVE 編號、數字都替換為 [username]、[cve]、[num]。
- 通過 NER 識別惡意軟件詞匯,標記為 [malware_name]
- 刪除前后文的 Twitter 用戶名
- 刪除 Unicode 字符與符號
- 別名標準化替換,將 c&c、cnc、command and control 都替換為 c2
- 進行 Token 化與詞形還原(Lemmatization),并刪除單個字符、[username] 與 [num]
- 由于已有 NER 工具都沒有針對網絡安全領域知識進行適配,使用相關推文訓練了 BERT 模型并在此處使用。
推文分類
收集了 2019 年 1 月至 9 月的 21937 條推文,去掉相似度大于 0.7 的重復推文后,剩下 5675 條推文。三位安全專家手動標注是否包含 IOC 指標,其中共有 3007 條包含 IOC 指標的推文,另外 2668 條推文不包含 IOC 指標。
分類的特征為:
- Defanged IOC:例如 hxxp://92.63.197.106/c.exe、67[.]198.129.27、hold[.]jcgloball[.]org:11880 等
- 上下文 n-gram:有 IOC 的推文中一般都有明顯的上下文,例如 version [ip]、up to [ip]、before [ip]、prior to [ip]。提取目標詞前后 1-2 個單詞組成二元組/三元組
- 利用之前的 NLP 技術進行預處理并刪除常見英文單詞,利用 bag of word 補充上下文無法預料到的變化
- 在 22316 個初始特征中,選擇了 1456 個特征,其中包含 483 個單詞與 972 個二元組/三元組。

評估使用邏輯回歸、隨機森林和 XGBoost 后確認隨機森林表現最好,精度為 0.95 召回率為 0.96,其 ROC 曲線如下所示:

IOC 提取
由于推文有長度限制,外部鏈接也經常被使用,對這些外部鏈接也許要進行跟蹤。IOC 要么包含在推文中,要么包含在外部鏈接中。
推文中 IOC 提取
利用 ioc-fanger、iocextract 等工具處理 defanged IOC,并完善更多模式。
可以發現,收集的 38% 的 IP 地址、73% 的 URL 都是 defanged 的情況。
外部鏈接中 IOC 提取
外部鏈接中安全公司的博客、惡意軟件分析服務和 pastebin.com 是 IOC 的主要來源,分別進行處理:
- pastebin.com:其中有各種各樣的信息,太多并不能處理。只在有例如 malware、ransomware、trojan、botnet、[malware_name]、c2、ioc 與 payload 等 18 個詞共同出現時進行提取。
- 在惡意軟件分析服務:57% 來自 VirusTotal、33% 來自AnyRun、7% 來自 urlscan.io,其余 3% 來自其他分析服務。使用 API 獲取相關 IOC 指標信息,但由于 AnyRun 并沒有提共 API 接口,很多比 VirusTotal 早的樣本都無法收集 IOC 指標。
- 安全公司的博客:跟蹤一百余個安全公司的博客,為每個博客都開發專用的解析提取工具。
工作評估
在 2019 年 11 月,嘗試跟蹤了 35 個關鍵字和 82 個用戶進行驗證。收集到的 IOC 指標有 36.2% 來自關鍵字跟蹤,25.6% 來自用戶跟蹤,38.2% 兩者都有。這些推文中共有 25437 個外部鏈接,其中有 5605 個獨立域名。其中 6.2% 來自惡意軟件分析服務、4.2% 來自安全公司博客、1.4% 來自 pastebin.com、0.15% 來自 AlienVault OTX。
評估指標(排他性、延遲性、準確性)與評估對照來源:

- MalwareBazzar 聲稱其三分之二的樣本都未被 VirusTotal 檢測。
- 流行域名綜合了Alexa top 1M、Cisco Umbrella top 1M 和 Majestic 1M 中的 top 25k。
- CDN 服務包括 AWS CloudFront、CloudFlare、Fastly、EdgeCast 與 MaxCDN
- 黑名單包括 AlienVault IP Reputation、Bambenek_c2、Feodo Tracker、SSL Blacklist 和與 Mirai 相關的地址。
2020 年 2 月到 4 月,收集了 978414 條推文。經過處理后,剩下 17904 條包含 IOC 指標的推文。收集到 32000 個哈希、18718 個 URL、70515 個 IP 地址和 11060 個域名。所有的文件哈希都在評估范圍內,但受限于 API 查詢限制,其他的 IOC 指標只處理 4 月內的。
文件哈希
三個月收集了 32200 個文件哈希,三個月分別 20837 個、5306 個、6057 個。其中有 10022 個(31.1%)MD5、2024 個(6.3%)SHA-1、20154 個(62.6%)SHA-256。

每天收集到的文件哈希數如下所示,平均每天收集 421 個文件哈希。去除掉突然量大的情況,平均每天可以收集 200 個文件哈希。

截至 5 月 1 日,32200 個文件哈希中,7.2% VirusTotal 未發現,62.74% AlienVault OTX Pulse 未發現。

Twiti 平均比 VirusTotal 早 1.2 天,最早可提前 27.5 天。

Twiti 平均比 AlienVault OTX Pulse 早 3.5 天,最早可提前 86.2 天。
利用 VirusTotal 可以發現 Twiti 中 92.86% 的文件哈希是惡意的,0.03% 是良性的,但仍有 7.11% 的文件是未知的。未知文件中,10.5% 來自安全公司分析報告、6.6% 來自惡意軟件分析服務、5.4% 來自 AnyRun 沙盒、1.9% 來自沙盒。
Twiti 收集了 11761 個 Emotet 樣本的 16539 個文件哈希。通過 VirusTotal 發現 95.04% 樣本是惡意的,4.95% 樣本是未知的,只有一個樣本是良性的。
Twiti 可以比 AlienVault OTX Pulse 早 1.8 天發現 92.09% 的 Emotet 文件哈希,比 MalwareBazaar 早 33.3 天發現所有 Emotet 文件哈希。對比如下所示,Twiti 可以收集大量獨占樣本。

URL
收集了 6873 個惡意 URL,平均每日 229 個。

其中 34.45%(2368 個)并未在 VirusTotal 上出現過。當然,惡意 URL 通常生存周期都較短,由于時間的延遲檢測可能存在視野盲區。
Twiti 平均比 VirusTotal 早 1.2 天早檢測出 51.81%(2191 個)的 URL,同天檢出 41.17% 個 URL,更晚的占 7.02%。
在 2368 個 URL 中,VirusTotal 認為是惡意的有 2134 個,可疑的有 72 個,清白的有 175 個,未知的有 5 個。即 89.44% 為惡意 URL,如果包括可疑 URL 在內的話為 92.45%。被 VirusTotal 確定為清白的 175 個 URL 中經過人工確認,其實只有 98 個 URL 確實是清白的,準確率進一步提升到 95.89%。
IP
收集了 12765 個惡意 IP 地址,平均每日 426 個。

對 VirusTotal 來說,53.63% 的 Twiti 收集到的 IP 地址都是獨有的。與 AlienVault OTX Pulse 相比,重合的 IP 只有 9.8%。
Twiti 相比 VirusTotal 有 813 個 IP 可以提前 5.9 天檢測,相比 AlienVault OTX Pulse 有 274 個 IP 可以提前 10.6 天檢測,與其他 IP 黑名單相比最多甚至可以提前 25 天。
域名
收集了 3302 個惡意域名,日均 110 個。

與 VirusTotal 相比,有 1888 個域名也在 VirusTotal 存在。452 個域名(38.4%)比 VirusTotal 檢測早,39.34% 的域名與 VirusTotal 同天檢出,只有 22.26% 的域名比 VirusTotal 檢測晚。
同類工具橫向對比
與 InQuest IOC DB 和 Twitter IOC Hunter 進行對比,Twiti 從數量與精度上都更好。



整體數據分析
所有數據來源收集的整體數據情況如下所示:

其中有一些很有特點的地方:
- pastebin 是最大的 IOC 指標來源,并且這些指標都很“新鮮”。
- 推特文本是惡意 IP 地址最大的獨家來源。
- URLhaus 的數量雖少,但是質量相對較高。
- 安全公司的報告要么提前了非常多,要么延遲了很多,這也體現了各家情報的獨特性。
- 收集的情報中有 31.1% 來自關鍵詞跟蹤、16.3% 來自用戶跟蹤,52.6% 二者都有。
- 95.9% 的文件哈希都是通過關鍵詞跟蹤得到,但是在惡意 URL、IP 地址和域名上用戶跟蹤更具優勢。
- Twiti 收集的 IOC 指標中,96% 都可以在商業與非商業兩種常場景下使用,0.4% 只能用于被許可的商業場景,3.6% 不被允許在任何情況下商用。
惡意文件
PE 文件占絕對多數,但也有很多其他不同類型的惡意文件:

在 VirusTotal 上檢出的樣本,木馬和勒索軟件的數量都非常多。

在 VirusTotal 上未能檢出的樣本,只有四分之一的樣本提到了惡意軟件的類型。其中較多的是遠控(5.5%)、釣魚(5.4%)和僵尸網絡(4.6%)。

按照惡意軟件家族進行歸并,可以發現:
- Windows 平臺上,Emotet 在 Twitter 上被頻繁披露跟蹤
- Linux 平臺上,則是以 Mirai、Gafgyt 僵尸網絡為主
- 移動平臺上,Cerberus、Anubis 等銀行木馬最多

大多數哈希只會在 1-2 天內被提到,最長的是 NetWalker 勒索軟件被連續提到 35 天。

研究人員
報告文件哈希比 VirusTotal 還早的典型用戶如下所示,其中大部分都是獨立惡意軟件分析專家。

而 VirusTotal 上沒有的部分,其中 70% 來自獨立惡意軟件分析專家、15% 來自安全公司。

URL/DGA
根據 VirusTotal 的數據,收集到的 URL 中 75.5% 屬于惡意軟件、16.5% 屬于釣魚網站、8% 屬于漏洞利用。共有 65% 的釣魚網站都來自用戶跟蹤。
5.6% 的惡意 URL 都伴有 c2 標簽,并且 VirusTotal 未知的 URL 伴有 c2 的比例相比 VirusTotal 已知的 URL 伴有 c2 的比例高兩倍。這可能是由于 C&C 的 URL 可能生存周期較短,VirusTotal 由于時延無法檢出。
DGA 的活躍期較短,Twiti 發現的域名中 2% 都伴有 dga 描述,能夠比 VirusTotal 提前一天檢測。利用基于 LSTM 的 DGA 檢測算法,Twiti 中 5.4% 的域名都是 DGA 域名,Twiti 可以比 VirusTotal 提前 1.9 天檢測 64% 的 DGA 域名,同時檢測到 18% 的 DGA 域名。
工作思考
這是來自三星研究院的工作,項目開源在 GitHub 上。需要注意的是 Twiti 是用于收集威脅情報的,但它自身并不能保證威脅情報的準確性,使用這些數據需謹慎。
TwiTi GitHub
https://github.com/SamsungLabs/TwiTi
Twitter 的威脅情報質量實際上一直被很多安全研究人員稱贊有加,時效上很多安全研究人員在 Twitter 上率先發布消息、質量上有人物背書可信程度能夠保障、社區氛圍上大家經常溝通和探討關于威脅與安全的問題,甚至能與攻擊者進行直接互動。這些都使得安全業界圍繞 Twitter 建立起了一個良好的生態,Twiti 即是從這種生態汲取養分的工具。
三星研究院的這一工作不僅是構建獲取威脅情報的工具,也對 Twitter 上的威脅情報進行了一次測量。不過其實說威脅情報還是有些寬泛的,更具體來說該工作還是聚焦在 IOC 指標的測量上。如果對比 IOC 指標更高層級的威脅情報信息能有所跟蹤和提煉,肯定會更有用,同時也更難。MITRE 正在嘗試的 TRAM 就是試圖通過機器學習模型識別分析報告中的 ATT&CK 技術并映射為 MITRE ATT&CK 技術項,降低威脅情報整合運營所需的時間與精力。未來也應該會有更多類似的工作出現,綜合利用各種前沿技術提升威脅情報的知識密度。