<menu id="guoca"></menu>

<nav id="guoca"></nav><xmp id="guoca">

<xmp id="guoca">

<nav id="guoca"><code id="guoca"></code></nav>

<nav id="guoca"><code id="guoca"></code></nav>

可擴展和語義保持的反病毒引擎標簽挖掘

上官雨寶2023-11-27 11:05:33

工作來源

TrustCom 2022

工作背景

反病毒結果的命名最初遵循 MAEC（Malware Attribute Enumeration and Characterization），為了在高保真情況下對惡意軟件屬性信息進行結構化表示。但各家廠商的命名邏輯并不相同，所以結果也是不一致的。

只依賴專家知識很難應對威脅時刻變化的挑戰，盡量不依賴專家知識才能獲得更好的可擴展性。盡管各個廠商的結果并不一致，但其仍然存在內在聯系，分解和重組可能會提供樣本更多的信息。

常見的歸檔流水線如下所示：

工作設計

AVClass 系列需要大量的專家知識，AVCLASS 主要將大量標簽合并為單個表示家族的標簽，AVCLASS2 聚合別名標簽。

VirusTotal 上某樣本的檢測結果如下所示：

Ad-Aware、ALYac 與 Arcabit 都給出了 JS:Trojan.HideLink.A 的檢測結果，而 Cyren、DrWeb 與 F-Prot 給出的則是 SEOHide。雙方是從不同的角度來對樣本進行描述的，并不是互斥的。

三種工具對標簽的處理結果如下所示（注：AVMiner 不對相似檢測引擎與相同廠商的結果進行過濾）：

常用詞的定義如下所示：

系統處理流程如下所示：

典型示例如下所示：

數據準備

為了解決冷啟動的問題，使用超過八千個樣本來建立語料庫。系統不僅能夠適應未知種類的惡意軟件，而且能夠提供更好的兼容性。

預處理

主要是 Token 化與 Token 過濾兩部分：

Token 化：通過標點符號分割的為標簽的最小單元，替換為統一的分隔符。
Token 過濾：將產生的無意義 Token 過濾掉，例如標識符與序號等。來自同一廠商的標簽中無意義的 Token 通常位置一致，并且無意義的 Token 重復頻率較低

根據 σ<0.1 由上圖可知大多數位置都有一些獨特的 Token。下圖表示取值在大于 0.3 小于 0.7 時會引入大量無意義的 Token。故而將值設置為 0.3。

向量化

將共現關系作為向量化建模的關鍵因素，為輸出的關鍵詞進行提取和排序。對向量化處理有兩個額外的要求：參數不敏感并且計算復雜度低。這樣可以在威脅快速變化時，進行自我迭代更新。

選擇 GloVe（Global Vectors）作為處理方式，其擅長在全局范圍內泛化共現關系。主要過程是首先使用固定的計數窗口對每個 Token 的共現矩陣進行計數，在保證每個 Token 之間的共現關系的情況下對稀疏矩陣進行降維。

樣本聚類

總是一起出現的 Token，轉換的向量在更高維度上也更接近。故而采用 Mean Shift 作為聚類算法。

根據相關性對 Token 進行分組后，還需要根據它們的頻率與簇的屬性對其進行排序。在此處進行校正，如下所示校準為 downloader。

如果不進行校準，對 Token 的排名會有較大影響。

兩個 Token 之間需要滿足以下條件的閾值才進行糾正，不僅可以糾正同義詞（downloader 與 downloadre）還能糾正縮寫（gen 與 generic），該閾值默認為 0.3。

輸出關鍵詞

利用 TF-IDF 算法選擇相關且重要的 Token：

當一個 Token 在惡意樣本中出現的頻率越高，普遍性越低，其 TF-IDF 值也就越高。

工作準備

GloVe 模型的窗口大小設置為 40、向量長度為 32，訓練迭代 100 輪。

Mean Shift 算法的帶寬為 2，訓練迭代 100 輪。

Drebin 與 Malheur 都是手動處理的惡意軟件數據集，測試結果如下：

二者的具體文件類型如下所示：

工作評估

利用從 2006 年到 2020 年收集的 10 萬個惡意樣本，通過 VirusTotal 的結果獲取惡意軟件家族。結果如下所示：

不管是在第一、前三、前五的 Token 中，都是 AVMiner 表現更好。并且，AVMiner 原型驗證每秒可以處理 40 個樣本，作者認為其滿足了自身的需求。

與之前的 AVCLASS 和 AVCLASS2 進行比較：

可視化變化趨勢為：

超集的表現比子集的加權平均更好，引入的相關樣本越多，性能也就越好。

這一點也通過實驗能夠證明，數據集相對較小時的性能略有下降，而數據集達到超集的 30% 時準確率基本穩定。

為了驗證魯棒性，對超集的子集進行了降采樣實驗，并添加了隨機收集的一萬個惡意樣本。

即使文件類型改變，對結果的影響也不大。

不同時間的樣本，也不影響準確性。

工作思考

大量檢測引擎的結果處理是一個長久的話題，研究也逐漸成為了近年來的熱點。研究涵蓋標簽翻轉、結果合并與檢測閾值等，數據量越大越是能從更高的維度進行分析并貼近事實。

token語義分析

本作品采用《CC 協議》，轉載必須注明作者和本文鏈接

【技術分享】從popmaster理解程序分析理論部分內容

2021-07-02 17:02:55

看到作者的出題思路是抽象代碼樹和污點分析，因為之前發了幾篇程序分析理論的文章但是一直沒有實踐，所以拿這道題自己實踐一下。

XSS漏洞發現工具 -- xssfinder

2022-08-04 07:07:05

它的主要特性有:1、動態地語義分析網頁中的JavaScript源碼，Hook關鍵點，利用污點分析檢出 Dom-Based XSS2、極低的誤報率：通過監聽瀏覽器對話框彈出事件等進行驗證。--proxy value set proxy and all traffic will be routed from the proxy server through

是共生還是毀滅，ChatGPT啟示錄

2023-03-31 10:45:20

ChatGPT在發布后OpenAI估值已漲至290億美元，上線兩個月后用戶數量達到1億。但相較于InstructGPT，GPT3的回答簡短，回復過于通俗毫無亮點。InstructGPT通過遵循數據中的指令進行訓練模型，從而提供詳細的響應文本。

藍隊面試題整理（防守方面試題整理）

2022-10-14 22:24:53

用戶名：加密密碼：密碼最后一次修改日期：兩次密碼的修改時間間隔：密碼有效期：密碼修改到期到的警告天數：密碼過期之后的寬限天數：賬號失效時間：保留。查看下pid所對應的進程文件路徑，

對blackhat和defcon一些議題的小結

2021-08-08 01:12:16

對blackhat和defcon一些感興趣的議題做了一些小結。靜態分析blackhat里面一個靜態分析引擎的

SEVulDet：一種語義增強的可學習漏洞檢測器

2022-12-04 20:04:22

目前的處理方法對于語句間的控制依賴處理過于粗糙，且并未指明語句對應的路徑。并且在代碼片重組的過程中存在暴力堆疊的問題，使不在同一控制范圍內的語句彼此直接相鄰，從而導致了路徑不敏感。Design of SEVulDet下圖展示了SEVulDet的訓練階段與檢測階段，訓練階段相較于檢測階段多了打標簽這一環節。因此作者通過為PDG添加相應的葉子節點使其能夠確定控制范圍，避免了語義的缺失。

可擴展和語義保持的反病毒引擎標簽挖掘

2023-11-27 11:05:33

可擴展和語義保持的反病毒引擎標簽挖掘

常見的WAF繞過方法 (從網絡架構層、HTTP協議層、第三方應用層分析)

2022-06-09 06:41:32

本篇文章通過網絡架構層、HTTP協議層、第三方應用層講解了繞過WAF的常見方法一、網絡架構層一般通過域名指向云WAF地址后反向實現代理，找到這些公司的服務器的真實IP即可實現繞過具體方法如下:1、查找相關的二級域名及同一域名注冊者的其他域名解析記錄。ISASP支持類似Unicode%u0027的編碼，還會對不合法的URL編碼進行字符刪除。

基于圖神經網絡的源碼漏洞檢測方法研究

2022-06-13 12:36:57

針對現有的靜態代碼分析工具有較高的誤報率與漏報率，提出一種基于切片依賴圖（Slice Dependency Graph，SDG）的自動化漏洞檢測方法，將程序源代碼解析為包含數據依賴和控制依賴信息的切片依賴圖，然后使用圖神經網絡對切片依賴圖的結構進行表征學習，最后使用訓練的神經網絡模型預測待測程序源代碼中的漏洞。在 5 類常見缺陷分類（Common Weakness Enumeration，CWE）

技術研究 | SQUIRREL——對于DBMS的模糊測試技術介紹

2021-11-11 08:40:23

數據庫管理系統（DataBase Management System）與其他的大型復雜系統一樣，存在著許多漏洞。其中的內存錯誤漏洞往往可能導致遠程代碼執行、數據泄露、拒絕服務攻擊等。由于數據庫管理系統的重要性，這些攻擊的影響往往十分重大。本文將基于Squirrel [1] 這篇文章，來介紹對于DBMS的模糊測試技術。簡單來說，對于DBMS的模糊測試的目標是找到一些SQL語句，將其輸入到

上官雨寶

是水水水水是

亚洲欧美自拍唯美另类