<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    無監督算法在OPPO黑產團伙挖掘中的實踐

    VSole2022-09-20 17:15:40

    前言

    近年來,人工智能,圖算法,大數據技術,以及機器學習平臺建設快速發展,推動業務風控邁向智能化時代。以無監督算法為依托,我們構建了全場景的黑產團伙挖掘模型,識別精準且覆蓋率高,增加了黑產團伙攻擊成本,同時增強了業務風險防控能力。本次文章介紹的主題是:無監督算法在OPPO黑產團伙挖掘中的實踐。

    背景介紹

    黑產團伙在OPPO在線服務中部分作惡場景: 

    場景1:在OPPO在線服務相關APP里,通過簽到、打卡及其它各種任務薅積分,然后在積分商城做積分兌換、在OPPO商城做積分抵扣購物甚至0元購; 

    場景2:在各業務場景的營銷活動中,惡意攻擊,獲取非法利益; 

    場景3:在軟件商店、游戲中心、瀏覽器、主題商店等業務場景中,偽造虛假曝光、點擊、下載、閱讀、評論等行為,進行惡意ASO、惡意引流等; 

    場景4:在廣告場景進行虛假的廣告曝光、點擊等作弊行為,以獲取非法收益。

    傳統風控中,我們會利用黑產手機號、ip等名單,特點是覆蓋率低,應用的業務場景受限;或是策略算法(專家規則),它的特點是準確性高,可解釋性強,但覆蓋率低,只能識別明顯有問題的黑產;規則設計相對簡單,無法應對不斷變化的欺詐手段,且閾值易被識破和繞過。還有就是有監督算法,其特點是覆蓋率較高,但可解釋性較弱;嚴重依賴樣本標注.

    DBSCAN算法在黑產團伙挖掘中的實踐

    首先我們來了解一下DBSCAN算法幾個核心定義:

    1.E,MinPts定義:E描述了某一樣本的鄰域距離閾值,MinPts描述了某一樣本的距離為E的鄰域中樣本個數的閾值

    2.E-鄰域:對于xj∈D(D是樣本集),D中與xj距離不大于E的子樣本集(子樣本集的個數記為|Ne(xj)|)

    3.核心對象:對于xj∈D,如果|Ne(xj)|>=MinPts,則xj是核心對象

    4.密度直達:如果xi位于xj的E-鄰域中,且xj是核心對象,則稱xi由xj密度直達

    5.密度可達:對xi和xj,若存在樣本序列p1,p2,...,pn,其中p1=xi,pn=xj且pi+1由pi密度直達,則稱xj與xi密度可達

    6.密度相連:對xi和xj,若存在xk使得xi和xj均由xk密度可達,則稱xi和xj密度相連

    下圖給出了上述概念的直觀顯示:

    DBSCAN和K-means算法對比如下:

    聚類類型

    密度聚類

    原型聚類

    是否需要指定類簇數量

    不需要

    需要

    是否可以發現任意形狀的簇

    可以

    只能處理球形簇

    是否對異常值敏感

    不敏感

    敏感

    下圖可以看出,由于K-means算法只能發現球形簇,而DBSCAN算法可以處發現任意形狀的簇,因此在黑產團伙挖掘場景中,DBSCAN算法比K-MEANS算法更合適。 

    DBSCAN黑產團伙挖掘系統框架:

    從下圖可以看出,對比傳統策略算法和有監督算法,DBSCAN算法在黑產識別覆蓋率上有明顯提升,同時DBSCAN算法能保證非常高的黑產團伙識別準確率。但DBSCAN算法也存在一些缺點,當樣本集較大時,聚類收斂時間較長,同時調試參數比較復雜,主要需要對距離閾值 E,鄰域樣本數閾值 MinPts 進行聯合調參,不同的參數組合對最后的聚類效果有較大影響。

    基于Spark on angel的Louvain算法在黑產團伙挖掘中的實踐

    模塊度是評估一個社區網絡劃分好壞的度量方法,其物理含義是社區內節點的連邊數與隨機情況下的邊數之差

    Louvian算法工作步驟可以分為如下幾步:

    1.初始時將每個頂點當作一個社區,社區個數與頂點個數相同

    2.依次將每個頂點與之相鄰頂點合并在一起,計算它們最大的模塊度增益是否大于0,如果大于0,就將該結點放入模塊度增益最大的相鄰結點所在社區

    3.迭代第二步,直至算法穩定,即所有頂點所屬社區不再變化

    4.將各個社區所有節點壓縮成為一個結點,社區內點的權重轉化為新結點環的權重,社區間權重轉化為新結點邊的權重

    5.重復步驟1-3,直至算法穩定

    Louvain算法和DBSCAN算法對比:

    DBSCAN

    Louvain

    時間復雜度

    資源占用

    運行時間

    Angel是由騰訊開源的高性能計算平臺,可以無縫銜接Spark,提高圖算法的挖掘效率,對于Fast Unfolding算法,在10億節點和百億邊的數據量下,PSGraph框架性能是大約是GraphX框架的3倍

    基于Spark on angel的louvain算法黑產團伙挖掘系統框架如下圖所示:

    基于Spark on angel的Louvain和DBSCAN黑產團伙挖掘效果對比可以看出,Louvain(Spark on angel)算法對比DBSCAN算法運行效率提升明顯,同時覆蓋率略有提升,但Louvain(Spark on angel)算法也存在一些缺點,不如沒有充分利用節點本身的特征,且只能離線挖掘黑產團伙,不能實時攔截黑產團伙

    展望

    后期計劃使用DGL和圖數據庫搭建實時GNN在線推理服務。相比Louvain等傳統圖挖掘算法,GNN不僅能聚合關系網絡特征,而且能充分利用節點本身特征;相比離線挖掘算法,實時在線推理服務能對黑產作惡行為進行實時攔截,減少業務損失。

    算法dbscan
    本作品采用《CC 協議》,轉載必須注明作者和本文鏈接
    以無監督算法為依托,我們構建了全場景的黑產團伙挖掘模型,識別精準且覆蓋率高,增加了黑產團伙攻擊成本,同時增強了業務風險防控能力。本次文章介紹的主題是:無監督算法在OPPO黑產團伙挖掘中的實踐。相比Louvain等傳統圖挖掘算法,GNN不僅能聚合關系網絡特征,而且能充分利用節點本身特征;相比離線挖掘算法,實時在線推理服務能對黑產作惡行為進行實時攔截,減少業務損失。
    AI安全論文第20篇是RAID19 Android位置數據(POI)泄露分析的譯文,希望您喜歡
    系統安全第31篇文章介紹惡意代碼攻擊溯源基礎知識
    無監督學習(無監督學習)是和監督學習的另一種數據監督機器的方法,無監督學習是沒有的明顯學習數據本身。
    在近些年網絡空間安全形勢愈發嚴峻的情況下,對網絡協議分析提出了越來越高的要求,其中,對未知協議分類分析更是亟需攻克的難點。針對未知協議的分類問題,提出一種基于層次聚類的多策略未知協議分類方法。
    SPA在實際測評中主要依賴于測評人員的肉眼觀察,因此需要測評人員具有豐富的側信道安全性測評經驗;同時,其結論具有較強的主觀性,不同測評人員可能會得到截然不同的結論;易漏判。也就是說,如果用肉眼觀測的方法進行安全性測評,最終得到的結果很有可能是無泄露。聚類分析的總體準確率是聚類分析正確的操作數與總操作數的比值。
    通過自動化決策方式作出對個人權益有重大影響的決定,個人有權要求個人信息處理者予以說明,并有權拒絕個人信息處理者通過自動化決策的方式作出決定。開展評估和監督檢查。重視特殊群體的權益保護。依法對未成年人、老年人和勞動者履行特殊的保障義務,建立特殊群體維權投訴處理機制和賠償制度,確保其獲得法律保護。
    本文將詳細分析Shor算法的實現過程,整數周期數及非整數周期數下Shor算法分析,Shor算法概率評估,實例分析。比如Hadamard門,簡稱H門,他的一個主要功能就是通過計算基態產生等概率的疊加態。shor算法最令人振奮的是直接將質因子分解以及離散對數問題以指數級速度提升,這給人們的啟示是可以利用同樣算法思想來解決更為廣泛的隱含子群問題。
    2022年3月1日實施的《互聯網信息服務算法推薦管理規定》(以下簡稱《規定》),作為第一個正式出臺的規制算法推薦運用的部門規章,既是互聯網信息服務算法推薦管理的法律依據,又為推薦算法發展樹立了法治路標。
    隨著移動互聯基礎設施的大力建設和移動終端設備的廣泛普及,信息通信技術和數字數據技術的應用場景和頻次得到極大豐富和提升,海量的用戶數據的生產、流動、使用、開發得到極大提速,算法技術的開發和應用得到極大激勵。以海量數據為基礎的人工智能算法與網約車、網絡購物、靈活用工等應用場景的深度融合,給數字經濟高質量發展注入強大動能。同時,由于算法技術及應用場景的深度商業化和廣泛市場化,“大數據殺熟”、誘導用戶沉迷
    VSole
    網絡安全專家
      亚洲 欧美 自拍 唯美 另类