Twitter 威脅情報跟蹤與評估 - 網安 - 專業的網絡安全產業、社區、知識平臺

工作來源

WWW 2021

工作背景

根據 2019 年對北美與英國 1908 名從業者的調查，至少 37% 的受訪者表示他們的組織將公共情報源與商業情報源結合使用。41% 的受訪者表示他們的組織使用一個商業情報源，78% 的受訪者使用多個情報源。

Twitter 上的威脅情報信息，保證了威脅的及時性和多樣性，許多安全產品中也嵌入 Twitter 進行 IOC 檢索。

工作設計

設計通過 Twitter 提取惡意軟件 IOC 的系統 Twiti。識別可能包含 IOC 指標的推文，通過推文內容與外部鏈接提取 IOC 指標。其整體結構如下所示：

推文收集

使用 Search API 跟蹤 35 個常見關鍵字（如 malware、ransomware、botnet、iocs 與 virustotal.com 等）、使用 Timeline API 跟蹤 146 個典型用戶（86% 是安全專家、12% 是安全廠商、2% 是其他安全組織）收集數據。

推文選擇

直接使用模式匹配肯定會導致很多誤報，比如某些固件版本號和 IP 地址類似（Tuleap 9.17.99.189）、區塊鏈事務哈希值等。

預處理

Twitter 會自動縮短推文中的 URL 為短鏈接，在縮短時還會進行安全檢查，所以要刪掉 http://t.co 的鏈接，避免保留良性地址。與此同時，bit.ly、tinyurl.com、buff.ly、goo.gl、youtu.be 和 ow.ly 等短鏈接地址也會被刪除。

繼而通過正則進行 IOC 檢查，發現哈希、IP 地址、域名或者 URL 等。再利用 NLP 技術提取特征：

將哈希、IP 地址、URL、域名、文件名、文件路徑、電子郵件替換為 [hash]、[ip]、[url]、[domain]、[filename]、[filepath]、[email]。用戶名、CVE 編號、數字都替換為 [username]、[cve]、[num]。
通過 NER 識別惡意軟件詞匯，標記為 [malware_name]
刪除前后文的 Twitter 用戶名
刪除 Unicode 字符與符號
別名標準化替換，將 c&c、cnc、command and control 都替換為 c2
進行 Token 化與詞形還原（Lemmatization），并刪除單個字符、[username] 與 [num]
由于已有 NER 工具都沒有針對網絡安全領域知識進行適配，使用相關推文訓練了 BERT 模型并在此處使用。

推文分類

收集了 2019 年 1 月至 9 月的 21937 條推文，去掉相似度大于 0.7 的重復推文后，剩下 5675 條推文。三位安全專家手動標注是否包含 IOC 指標，其中共有 3007 條包含 IOC 指標的推文，另外 2668 條推文不包含 IOC 指標。

分類的特征為：

Defanged IOC：例如 hxxp://92.63.197.106/c.exe、67[.]198.129.27、hold[.]jcgloball[.]org:11880 等
上下文 n-gram：有 IOC 的推文中一般都有明顯的上下文，例如 version [ip]、up to [ip]、before [ip]、prior to [ip]。提取目標詞前后 1-2 個單詞組成二元組/三元組
利用之前的 NLP 技術進行預處理并刪除常見英文單詞，利用 bag of word 補充上下文無法預料到的變化
在 22316 個初始特征中，選擇了 1456 個特征，其中包含 483 個單詞與 972 個二元組/三元組。

評估使用邏輯回歸、隨機森林和 XGBoost 后確認隨機森林表現最好，精度為 0.95 召回率為 0.96，其 ROC 曲線如下所示：

IOC 提取

由于推文有長度限制，外部鏈接也經常被使用，對這些外部鏈接也許要進行跟蹤。IOC 要么包含在推文中，要么包含在外部鏈接中。

推文中 IOC 提取

利用 ioc-fanger、iocextract 等工具處理 defanged IOC，并完善更多模式。

可以發現，收集的 38% 的 IP 地址、73% 的 URL 都是 defanged 的情況。

外部鏈接中 IOC 提取

外部鏈接中安全公司的博客、惡意軟件分析服務和 pastebin.com 是 IOC 的主要來源，分別進行處理：

pastebin.com：其中有各種各樣的信息，太多并不能處理。只在有例如 malware、ransomware、trojan、botnet、[malware_name]、c2、ioc 與 payload 等 18 個詞共同出現時進行提取。
在惡意軟件分析服務：57% 來自 VirusTotal、33% 來自AnyRun、7% 來自 urlscan.io，其余 3% 來自其他分析服務。使用 API 獲取相關 IOC 指標信息，但由于 AnyRun 并沒有提共 API 接口，很多比 VirusTotal 早的樣本都無法收集 IOC 指標。
安全公司的博客：跟蹤一百余個安全公司的博客，為每個博客都開發專用的解析提取工具。

工作評估

在 2019 年 11 月，嘗試跟蹤了 35 個關鍵字和 82 個用戶進行驗證。收集到的 IOC 指標有 36.2% 來自關鍵字跟蹤，25.6% 來自用戶跟蹤，38.2% 兩者都有。這些推文中共有 25437 個外部鏈接，其中有 5605 個獨立域名。其中 6.2% 來自惡意軟件分析服務、4.2% 來自安全公司博客、1.4% 來自 pastebin.com、0.15% 來自 AlienVault OTX。

評估指標（排他性、延遲性、準確性）與評估對照來源：

MalwareBazzar 聲稱其三分之二的樣本都未被 VirusTotal 檢測。
流行域名綜合了Alexa top 1M、Cisco Umbrella top 1M 和 Majestic 1M 中的 top 25k。
CDN 服務包括 AWS CloudFront、CloudFlare、Fastly、EdgeCast 與 MaxCDN
黑名單包括 AlienVault IP Reputation、Bambenek_c2、Feodo Tracker、SSL Blacklist 和與 Mirai 相關的地址。

2020 年 2 月到 4 月，收集了 978414 條推文。經過處理后，剩下 17904 條包含 IOC 指標的推文。收集到 32000 個哈希、18718 個 URL、70515 個 IP 地址和 11060 個域名。所有的文件哈希都在評估范圍內，但受限于 API 查詢限制，其他的 IOC 指標只處理 4 月內的。

文件哈希

三個月收集了 32200 個文件哈希，三個月分別 20837 個、5306 個、6057 個。其中有 10022 個（31.1%）MD5、2024 個（6.3%）SHA-1、20154 個（62.6%）SHA-256。

每天收集到的文件哈希數如下所示，平均每天收集 421 個文件哈希。去除掉突然量大的情況，平均每天可以收集 200 個文件哈希。

截至 5 月 1 日，32200 個文件哈希中，7.2% VirusTotal 未發現，62.74% AlienVault OTX Pulse 未發現。

Twiti 平均比 VirusTotal 早 1.2 天，最早可提前 27.5 天。

Twiti 平均比 AlienVault OTX Pulse 早 3.5 天，最早可提前 86.2 天。

利用 VirusTotal 可以發現 Twiti 中 92.86% 的文件哈希是惡意的，0.03% 是良性的，但仍有 7.11% 的文件是未知的。未知文件中，10.5% 來自安全公司分析報告、6.6% 來自惡意軟件分析服務、5.4% 來自 AnyRun 沙盒、1.9% 來自沙盒。

Twiti 收集了 11761 個 Emotet 樣本的 16539 個文件哈希。通過 VirusTotal 發現 95.04% 樣本是惡意的，4.95% 樣本是未知的，只有一個樣本是良性的。

Twiti 可以比 AlienVault OTX Pulse 早 1.8 天發現 92.09% 的 Emotet 文件哈希，比 MalwareBazaar 早 33.3 天發現所有 Emotet 文件哈希。對比如下所示，Twiti 可以收集大量獨占樣本。

URL

收集了 6873 個惡意 URL，平均每日 229 個。

其中 34.45%（2368 個）并未在 VirusTotal 上出現過。當然，惡意 URL 通常生存周期都較短，由于時間的延遲檢測可能存在視野盲區。

Twiti 平均比 VirusTotal 早 1.2 天早檢測出 51.81%（2191 個）的 URL，同天檢出 41.17% 個 URL，更晚的占 7.02%。

在 2368 個 URL 中，VirusTotal 認為是惡意的有 2134 個，可疑的有 72 個，清白的有 175 個，未知的有 5 個。即 89.44% 為惡意 URL，如果包括可疑 URL 在內的話為 92.45%。被 VirusTotal 確定為清白的 175 個 URL 中經過人工確認，其實只有 98 個 URL 確實是清白的，準確率進一步提升到 95.89%。

IP

收集了 12765 個惡意 IP 地址，平均每日 426 個。

對 VirusTotal 來說，53.63% 的 Twiti 收集到的 IP 地址都是獨有的。與 AlienVault OTX Pulse 相比，重合的 IP 只有 9.8%。

Twiti 相比 VirusTotal 有 813 個 IP 可以提前 5.9 天檢測，相比 AlienVault OTX Pulse 有 274 個 IP 可以提前 10.6 天檢測，與其他 IP 黑名單相比最多甚至可以提前 25 天。

域名

收集了 3302 個惡意域名，日均 110 個。

與 VirusTotal 相比，有 1888 個域名也在 VirusTotal 存在。452 個域名（38.4%）比 VirusTotal 檢測早，39.34% 的域名與 VirusTotal 同天檢出，只有 22.26% 的域名比 VirusTotal 檢測晚。

同類工具橫向對比

與 InQuest IOC DB 和 Twitter IOC Hunter 進行對比，Twiti 從數量與精度上都更好。

整體數據分析

所有數據來源收集的整體數據情況如下所示：

其中有一些很有特點的地方：

pastebin 是最大的 IOC 指標來源，并且這些指標都很“新鮮”。
推特文本是惡意 IP 地址最大的獨家來源。
URLhaus 的數量雖少，但是質量相對較高。
安全公司的報告要么提前了非常多，要么延遲了很多，這也體現了各家情報的獨特性。
收集的情報中有 31.1% 來自關鍵詞跟蹤、16.3% 來自用戶跟蹤，52.6% 二者都有。
95.9% 的文件哈希都是通過關鍵詞跟蹤得到，但是在惡意 URL、IP 地址和域名上用戶跟蹤更具優勢。
Twiti 收集的 IOC 指標中，96% 都可以在商業與非商業兩種常場景下使用，0.4% 只能用于被許可的商業場景，3.6% 不被允許在任何情況下商用。

惡意文件

PE 文件占絕對多數，但也有很多其他不同類型的惡意文件：

在 VirusTotal 上檢出的樣本，木馬和勒索軟件的數量都非常多。

在 VirusTotal 上未能檢出的樣本，只有四分之一的樣本提到了惡意軟件的類型。其中較多的是遠控（5.5%）、釣魚（5.4%）和僵尸網絡（4.6%）。

按照惡意軟件家族進行歸并，可以發現：

Windows 平臺上，Emotet 在 Twitter 上被頻繁披露跟蹤
Linux 平臺上，則是以 Mirai、Gafgyt 僵尸網絡為主
移動平臺上，Cerberus、Anubis 等銀行木馬最多

大多數哈希只會在 1-2 天內被提到，最長的是 NetWalker 勒索軟件被連續提到 35 天。

研究人員

報告文件哈希比 VirusTotal 還早的典型用戶如下所示，其中大部分都是獨立惡意軟件分析專家。

而 VirusTotal 上沒有的部分，其中 70% 來自獨立惡意軟件分析專家、15% 來自安全公司。

URL/DGA

根據 VirusTotal 的數據，收集到的 URL 中 75.5% 屬于惡意軟件、16.5% 屬于釣魚網站、8% 屬于漏洞利用。共有 65% 的釣魚網站都來自用戶跟蹤。

5.6% 的惡意 URL 都伴有 c2 標簽，并且 VirusTotal 未知的 URL 伴有 c2 的比例相比 VirusTotal 已知的 URL 伴有 c2 的比例高兩倍。這可能是由于 C&C 的 URL 可能生存周期較短，VirusTotal 由于時延無法檢出。

DGA 的活躍期較短，Twiti 發現的域名中 2% 都伴有 dga 描述，能夠比 VirusTotal 提前一天檢測。利用基于 LSTM 的 DGA 檢測算法，Twiti 中 5.4% 的域名都是 DGA 域名，Twiti 可以比 VirusTotal 提前 1.9 天檢測 64% 的 DGA 域名，同時檢測到 18% 的 DGA 域名。

工作思考

這是來自三星研究院的工作，項目開源在 GitHub 上。需要注意的是 Twiti 是用于收集威脅情報的，但它自身并不能保證威脅情報的準確性，使用這些數據需謹慎。

TwiTi GitHub

https://github.com/SamsungLabs/TwiTi

Twitter 的威脅情報質量實際上一直被很多安全研究人員稱贊有加，時效上很多安全研究人員在 Twitter 上率先發布消息、質量上有人物背書可信程度能夠保障、社區氛圍上大家經常溝通和探討關于威脅與安全的問題，甚至能與攻擊者進行直接互動。這些都使得安全業界圍繞 Twitter 建立起了一個良好的生態，Twiti 即是從這種生態汲取養分的工具。

三星研究院的這一工作不僅是構建獲取威脅情報的工具，也對 Twitter 上的威脅情報進行了一次測量。不過其實說威脅情報還是有些寬泛的，更具體來說該工作還是聚焦在 IOC 指標的測量上。如果對比 IOC 指標更高層級的威脅情報信息能有所跟蹤和提煉，肯定會更有用，同時也更難。MITRE 正在嘗試的 TRAM 就是試圖通過機器學習模型識別分析報告中的 ATT&CK 技術并映射為 MITRE ATT&CK 技術項，降低威脅情報整合運營所需的時間與精力。未來也應該會有更多類似的工作出現，綜合利用各種前沿技術提升威脅情報的知識密度。