數據接口安全風險監測技術原理與實踐案例分析

當前，數字社會快速發展和企業數字化建設加速，數據通過接口交換、傳輸的情況非常普遍，數據接口安全問題導致的數據泄露、濫用等風險也變得愈發突出。在此背景下，《信息安全技術數據接口安全風險監測方法》于2023年在全國信安標委（TC260）立項制定，數據接口安全問題等到全行業密切關注和應對措施得到高度重視。

2023年10月25日,國家數據局正式掛牌成立，在大力發展以數據要素為基礎的數字經濟這個大背景下，數據接口作為關鍵橋梁更顯重要，但與之伴隨而來的是外部黑灰產、競爭對手覬覦，以及內部違規操作可能導致的數據泄露風險。在越來越復雜的數據交互場景下，傳統的數據流動風險解決方案存在明顯不足之處。主要表現在對經驗的過度依賴、誤報漏報問題的突出，以及在攻防升級中對于新類型威脅檢測效果的受限。對于數據流動進行全面深入的監測和分析，是旨在實現對潛在風險的精準預警與及時應對。現今，風險監測技術的發展不僅能夠提高風險檢測的準確性，更為企業數字化轉型提供了更為可靠的數據安全保障。

本文基于典型風險場景進行現象行為分析、提出監測方法，并通過實踐案例提供更多有益參考。

風險場景 1

內外部場景接口拉取竊數行為

內外部場景的接口拉取行為成為主要竊取數據的表現。內部主要表現內部員工利用接口權限爬取大量敏感數據，若內部員工是一名系統管理員或擁有某種特殊權限等，能夠訪問和管理企業核心系統的接口，員工濫用他們的接口權限，在合理的工作時間去非法訪問公司的數據庫和服務器，竊取了大量的客戶個人信息、交易記錄、公司機密文件等敏感信息。外部表現為黑灰產/黑客利用接口漏洞進行敏感數據爬取，這些黑灰產業分子可能通過專業的漏洞掃描工具或自動化腳本發現了系統中的接口漏洞，這些漏洞可能源自軟件更新不及時、配置錯誤或系統設計上的缺陷。

該場景的分析思路：

在分析內外部場景接口拉取竊數行為時，首先關注內部人員的行為特征。同一類角色的內部人員在操作時間、頻率、數量上通常表現出相對固定的模式，例如，運營商營業員的群體行為呈現相似的趨勢，而與公眾渠道經理的群體行為可能呈現出不相關的特性。在行為序列上，這些內部人員的行為通常具有規律性和一定的固定性。

外部黑客和黑灰產的行為特征則展現出不同的側重點。這些攻擊者通常采用代理、秒撥、僵尸網絡等黑灰產工具，以隱藏其真實身份，包括IP地址、身份憑證、User Agent（UA）等。在訪問行為方面，這些攻擊者的特征呈現出一定的特殊規律，與正常數據接口用戶的訪問行為有所不同。例如，在參數的變化中，觀察到其呈現線性增長或隨機性的變化，與正常用戶呈現出的規律存在差異。

通過深入了解這些行為特征，可以更準確地識別和分析內外部場景接口拉取竊數行為。對于內部人員的行為，可以建立基于角色和群體的行為模型，以便快速檢測異常行為。而對于外部黑客和黑灰產，可以利用其特殊規律的訪問行為，建立有效的檢測機制，提高對潛在風險的識別能力。這種分析思路有助于全面了解并有效管理內外部場景中可能存在的接口風險。

該場景的解決方法及實踐案例：

總體來說，通過對接口流量、訪問量、敏感數據量、參數個數以及行為上下文等多維度進行深入的分析，及時發現潛在的異常情況。采用無監督學習方法從數據接口中提取http請求和返回信息，并對數據接口進行合并拆分，同時標識出相關敏感信息標簽及其數量，以便檢測數據泄漏類攻擊和其他未知攻擊。在此基礎上，采用時間序列異常檢測、圖異常檢測、降維等無監督算法進行風險檢測，確保對異常行為的及時察覺。最終，通過運用先進的根因定位算法如Adtributor和Shap，深入解釋和準確定位潛在風險，為問題的解決提供更為清晰的方向。

時間序列異常檢測的方法涉及建立指標體系，例如接口在一定時間內的訪問量和敏感數據獲取量。通過持續監控這些指標，并運用機器學習算法進行異常檢測，常見的算法包括ECDF和孤立森林等。在不同生產環境中，需要選擇適當的算法進行集成學習以提高監測效果。

一旦發生異常告警，需要利用根因分析算法快速定位引起訪問量激增的IP地址。Adtributor是一種多維分析算法，最初設計用于廣告投放異常的多維智能下鉆分析。其假設所有根因都是一維的，引入了解釋力（Explanatory power）和驚奇性（Surprise）來量化根因。在惡意IP定位場景中，可以利用Adtributor監測引起異常的惡意IP。

（Adtributor算法原理圖）

下圖展示了利用時間序列異常監測和根因分析算法快速定位的某政企部分內網IP，在202X年X月X號凌晨1點-2點突然對某敏感數據接口發起大量訪問。

對于傳統的風險異常解釋仰賴安全運營專家經驗，這種方式不僅高度依賴人工經驗，而且耗時費力。因此，設計一系列根因分析算法，為各種風險類型提供解釋，對安全運營者進行風險分析提供有力支持。shap算法核心思想是計算特征對模型輸出的貢獻，從局部和全局兩個層面解釋算法模型。簡而言之，shap算法基于統計原理衡量特征對模型輸出的貢獻。如下圖所示，利用shap算法發現這些風險IP主要由UA類型和訪問量過多導致的，從而產生了風險告警。

由于攻擊者受到資源（如服務器和IP地址）和任務（如在一定時間內完成任務）的約束，資源/任務維度的同步以及與正常行為的偏離難以避免，因此可通過圖計算挖掘異常點/邊/子圖，從而感知風險。如下圖所示，利用數據接口行為流量進行圖計算建模后，在圖結構中存在異常的圖結構，這些異常的點/邊/子圖可能具有較高的風險性。

異常樣例：某用戶在一小時內使用3676個IP地址，使用1個UA：Mozilla/5.0 (Windows NT 6.1; WOW64)等，訪問11個高敏感數據接口共19618次，獲取大量企業和個人商業/個人敏感信息，如身份證、手機號等。

風險場景 2

數據接口安全權限設置不當

主要表現為公司內部組織架構/產品錯綜復雜，公司可能經歷了多次擴張、并購或業務調整，導致內部組織結構變得復雜。這可能包括多個部門、分支機構以及不同業務單元，使得數據管理和權限控制變得更加困難，管理員可能面臨難以管理的大量權限分配任務，導致錯誤的權限配置，使得一些員工能夠訪問到超出其職責范圍的敏感數據，導致不同人員能訪問到不應該訪問到的數據。

該場景的分析思路：

在大型企業組織，由于企業結構的錯綜復雜，存在許多接口的訪問權限設置疏漏，如運營商，可能會存在地市A的員工能夠訪問到大量屬于地市B的敏感數據。通過深入分析，可以理解這一問題的根本原因。首先，需要全面了解企業內部結構和各地市業務分布情況。隨后，對所有接口的訪問權限進行細致審查，特別是在地市A的員工能夠獲取地市B敏感數據的情況。為解決這一問題，分析思路應圍繞建立更為精細化的權限管理體系展開。通過對每個接口權限的詳細審查和適時調整，企業可以提高數據安全性，同時優化整個數據管理流程。這種專業的分析思路有助于企業更全面地理解并主動解決因訪問權限不當而帶來的潛在風險。

該場景的解決方法及實踐案例：

利用在各大行業流量分析形成豐富的權限合規策略庫，以監測不合規的跨權限訪問問題，如異地員工高頻數據訪問、普通員工訪問高級別賬號權限數據、寬帶到期接口頻繁被訪問等情況進行持續監控。如圖所示，該訪問賬號顯示在長春，卻大量訪問延邊的敏感信息。

小結

通過以上對數據接口數據安全風險監測技術與實踐案例解析，可以看出借助大數據分析、建立行為模型、采用無監督學習和根因分析算法的重要性。這些方法有助于企業更全面地理解并及時應對潛在的數據接口數據安全風險，提供可靠的數據安全保障。

上述案例僅為《信息安全技術數據接口安全風險監測方法》中提及的部分風險，目前，該標準正在計劃開展試點應用，作為技術標準，對數據接口安全監測方法的技術驗證非常關鍵。一是通過對標準的宣貫，確保試點單位了解監測方法的應用方式。二是基于試點單位實際案例的應用，驗證監測方法的可行性、準確性和實用性。通過試點單位對監測方法的接受度，收集企業反饋，以對標準內容進行調整和改進。