無監督算法在OPPO黑產團伙挖掘中的實踐 - 網安 - 專業的網絡安全產業、社區、知識平臺

前言

近年來，人工智能，圖算法，大數據技術，以及機器學習平臺建設快速發展，推動業務風控邁向智能化時代。以無監督算法為依托，我們構建了全場景的黑產團伙挖掘模型，識別精準且覆蓋率高，增加了黑產團伙攻擊成本，同時增強了業務風險防控能力。本次文章介紹的主題是：無監督算法在OPPO黑產團伙挖掘中的實踐。

背景介紹

黑產團伙在OPPO在線服務中部分作惡場景：

場景1：在OPPO在線服務相關APP里，通過簽到、打卡及其它各種任務薅積分，然后在積分商城做積分兌換、在OPPO商城做積分抵扣購物甚至0元購；

場景2：在各業務場景的營銷活動中，惡意攻擊，獲取非法利益；

場景3：在軟件商店、游戲中心、瀏覽器、主題商店等業務場景中，偽造虛假曝光、點擊、下載、閱讀、評論等行為，進行惡意ASO、惡意引流等；

場景4：在廣告場景進行虛假的廣告曝光、點擊等作弊行為，以獲取非法收益。

傳統風控中，我們會利用黑產手機號、ip等名單，特點是覆蓋率低，應用的業務場景受限；或是策略算法（專家規則），它的特點是準確性高，可解釋性強，但覆蓋率低，只能識別明顯有問題的黑產；規則設計相對簡單，無法應對不斷變化的欺詐手段，且閾值易被識破和繞過。還有就是有監督算法，其特點是覆蓋率較高，但可解釋性較弱；嚴重依賴樣本標注.

DBSCAN算法在黑產團伙挖掘中的實踐

首先我們來了解一下DBSCAN算法幾個核心定義：

1.E，MinPts定義：E描述了某一樣本的鄰域距離閾值，MinPts描述了某一樣本的距離為E的鄰域中樣本個數的閾值

2.E-鄰域：對于xj∈D（D是樣本集），D中與xj距離不大于E的子樣本集（子樣本集的個數記為|Ne(xj)|）

3.核心對象：對于xj∈D，如果|Ne(xj)|>=MinPts，則xj是核心對象

4.密度直達：如果xi位于xj的E-鄰域中，且xj是核心對象，則稱xi由xj密度直達

5.密度可達：對xi和xj，若存在樣本序列p1,p2,...,pn，其中p1=xi,pn=xj且pi+1由pi密度直達，則稱xj與xi密度可達

6.密度相連：對xi和xj，若存在xk使得xi和xj均由xk密度可達，則稱xi和xj密度相連

下圖給出了上述概念的直觀顯示：

DBSCAN和K-means算法對比如下：

聚類類型

密度聚類

原型聚類

是否需要指定類簇數量

不需要

需要

是否可以發現任意形狀的簇

可以

只能處理球形簇

是否對異常值敏感

不敏感

敏感

下圖可以看出，由于K-means算法只能發現球形簇，而DBSCAN算法可以處發現任意形狀的簇，因此在黑產團伙挖掘場景中，DBSCAN算法比K-MEANS算法更合適。

DBSCAN黑產團伙挖掘系統框架：

從下圖可以看出，對比傳統策略算法和有監督算法，DBSCAN算法在黑產識別覆蓋率上有明顯提升，同時DBSCAN算法能保證非常高的黑產團伙識別準確率。但DBSCAN算法也存在一些缺點，當樣本集較大時，聚類收斂時間較長，同時調試參數比較復雜，主要需要對距離閾值 E，鄰域樣本數閾值 MinPts 進行聯合調參，不同的參數組合對最后的聚類效果有較大影響。

基于Spark on angel的Louvain算法在黑產團伙挖掘中的實踐

模塊度是評估一個社區網絡劃分好壞的度量方法，其物理含義是社區內節點的連邊數與隨機情況下的邊數之差

Louvian算法工作步驟可以分為如下幾步：

1.初始時將每個頂點當作一個社區，社區個數與頂點個數相同

2.依次將每個頂點與之相鄰頂點合并在一起，計算它們最大的模塊度增益是否大于0，如果大于0，就將該結點放入模塊度增益最大的相鄰結點所在社區

3.迭代第二步，直至算法穩定，即所有頂點所屬社區不再變化

4.將各個社區所有節點壓縮成為一個結點，社區內點的權重轉化為新結點環的權重，社區間權重轉化為新結點邊的權重

5.重復步驟1-3，直至算法穩定

Louvain算法和DBSCAN算法對比：

DBSCAN

Louvain

時間復雜度

高

低

資源占用

多

少

運行時間

長

短

Angel是由騰訊開源的高性能計算平臺，可以無縫銜接Spark，提高圖算法的挖掘效率，對于Fast Unfolding算法，在10億節點和百億邊的數據量下，PSGraph框架性能是大約是GraphX框架的3倍

基于Spark on angel的louvain算法黑產團伙挖掘系統框架如下圖所示：

基于Spark on angel的Louvain和DBSCAN黑產團伙挖掘效果對比可以看出，Louvain（Spark on angel）算法對比DBSCAN算法運行效率提升明顯，同時覆蓋率略有提升，但Louvain（Spark on angel）算法也存在一些缺點，不如沒有充分利用節點本身的特征，且只能離線挖掘黑產團伙，不能實時攔截黑產團伙

展望

后期計劃使用DGL和圖數據庫搭建實時GNN在線推理服務。相比Louvain等傳統圖挖掘算法，GNN不僅能聚合關系網絡特征，而且能充分利用節點本身特征；相比離線挖掘算法，實時在線推理服務能對黑產作惡行為進行實時攔截，減少業務損失。