無監督算法在OPPO黑產團伙挖掘中的實踐
前言
近年來,人工智能,圖算法,大數據技術,以及機器學習平臺建設快速發展,推動業務風控邁向智能化時代。以無監督算法為依托,我們構建了全場景的黑產團伙挖掘模型,識別精準且覆蓋率高,增加了黑產團伙攻擊成本,同時增強了業務風險防控能力。本次文章介紹的主題是:無監督算法在OPPO黑產團伙挖掘中的實踐。
背景介紹
黑產團伙在OPPO在線服務中部分作惡場景:
場景1:在OPPO在線服務相關APP里,通過簽到、打卡及其它各種任務薅積分,然后在積分商城做積分兌換、在OPPO商城做積分抵扣購物甚至0元購;
場景2:在各業務場景的營銷活動中,惡意攻擊,獲取非法利益;
場景3:在軟件商店、游戲中心、瀏覽器、主題商店等業務場景中,偽造虛假曝光、點擊、下載、閱讀、評論等行為,進行惡意ASO、惡意引流等;
場景4:在廣告場景進行虛假的廣告曝光、點擊等作弊行為,以獲取非法收益。

傳統風控中,我們會利用黑產手機號、ip等名單,特點是覆蓋率低,應用的業務場景受限;或是策略算法(專家規則),它的特點是準確性高,可解釋性強,但覆蓋率低,只能識別明顯有問題的黑產;規則設計相對簡單,無法應對不斷變化的欺詐手段,且閾值易被識破和繞過。還有就是有監督算法,其特點是覆蓋率較高,但可解釋性較弱;嚴重依賴樣本標注.
DBSCAN算法在黑產團伙挖掘中的實踐
首先我們來了解一下DBSCAN算法幾個核心定義:
1.E,MinPts定義:E描述了某一樣本的鄰域距離閾值,MinPts描述了某一樣本的距離為E的鄰域中樣本個數的閾值
2.E-鄰域:對于xj∈D(D是樣本集),D中與xj距離不大于E的子樣本集(子樣本集的個數記為|Ne(xj)|)
3.核心對象:對于xj∈D,如果|Ne(xj)|>=MinPts,則xj是核心對象
4.密度直達:如果xi位于xj的E-鄰域中,且xj是核心對象,則稱xi由xj密度直達
5.密度可達:對xi和xj,若存在樣本序列p1,p2,...,pn,其中p1=xi,pn=xj且pi+1由pi密度直達,則稱xj與xi密度可達
6.密度相連:對xi和xj,若存在xk使得xi和xj均由xk密度可達,則稱xi和xj密度相連
下圖給出了上述概念的直觀顯示:

DBSCAN和K-means算法對比如下:
聚類類型 密度聚類 原型聚類 是否需要指定類簇數量 不需要 需要 是否可以發現任意形狀的簇 可以 只能處理球形簇 是否對異常值敏感 不敏感 敏感 |
下圖可以看出,由于K-means算法只能發現球形簇,而DBSCAN算法可以處發現任意形狀的簇,因此在黑產團伙挖掘場景中,DBSCAN算法比K-MEANS算法更合適。

DBSCAN黑產團伙挖掘系統框架:

從下圖可以看出,對比傳統策略算法和有監督算法,DBSCAN算法在黑產識別覆蓋率上有明顯提升,同時DBSCAN算法能保證非常高的黑產團伙識別準確率。但DBSCAN算法也存在一些缺點,當樣本集較大時,聚類收斂時間較長,同時調試參數比較復雜,主要需要對距離閾值 E,鄰域樣本數閾值 MinPts 進行聯合調參,不同的參數組合對最后的聚類效果有較大影響。

基于Spark on angel的Louvain算法在黑產團伙挖掘中的實踐
模塊度是評估一個社區網絡劃分好壞的度量方法,其物理含義是社區內節點的連邊數與隨機情況下的邊數之差

Louvian算法工作步驟可以分為如下幾步:
1.初始時將每個頂點當作一個社區,社區個數與頂點個數相同
2.依次將每個頂點與之相鄰頂點合并在一起,計算它們最大的模塊度增益是否大于0,如果大于0,就將該結點放入模塊度增益最大的相鄰結點所在社區
3.迭代第二步,直至算法穩定,即所有頂點所屬社區不再變化
4.將各個社區所有節點壓縮成為一個結點,社區內點的權重轉化為新結點環的權重,社區間權重轉化為新結點邊的權重
5.重復步驟1-3,直至算法穩定
Louvain算法和DBSCAN算法對比:
DBSCAN Louvain 時間復雜度 高 低 資源占用 多 少 運行時間 長 短 |
Angel是由騰訊開源的高性能計算平臺,可以無縫銜接Spark,提高圖算法的挖掘效率,對于Fast Unfolding算法,在10億節點和百億邊的數據量下,PSGraph框架性能是大約是GraphX框架的3倍

基于Spark on angel的louvain算法黑產團伙挖掘系統框架如下圖所示:

基于Spark on angel的Louvain和DBSCAN黑產團伙挖掘效果對比可以看出,Louvain(Spark on angel)算法對比DBSCAN算法運行效率提升明顯,同時覆蓋率略有提升,但Louvain(Spark on angel)算法也存在一些缺點,不如沒有充分利用節點本身的特征,且只能離線挖掘黑產團伙,不能實時攔截黑產團伙

展望
后期計劃使用DGL和圖數據庫搭建實時GNN在線推理服務。相比Louvain等傳統圖挖掘算法,GNN不僅能聚合關系網絡特征,而且能充分利用節點本身特征;相比離線挖掘算法,實時在線推理服務能對黑產作惡行為進行實時攔截,減少業務損失。