大數據環境安全稽查與風險評估系統研究

VSole2021-09-03 16:02:02

隨著IT產業爆炸式的發展，大數據技術已深入國家戰略、企業發展和個人生活的方方面面。然而隨著大數據技術的蓬勃發展，與之伴隨安全方面的研究相對落后，大數據的安全問題往往會對國家、政府、企業及個人造成嚴重危害。通過研究已有的大數據框架，結合當前國內外最新大數據安全標準和法規，設計了一種在大數據環境下的安全稽查與風險評估平臺。首先，以研究大數據資產監管為基礎，對資產與安全能力進行安全稽查；其次，結合稽查結果與大數據安全標準，完成風險評估以實現盡早發現平臺中所存在的安全威脅。

0　引　言

在享有“大數據時代的預言家”之稱的全球數據科學家維克托·邁爾 - 舍恩伯格所著的《大數據時代》一書中提出“大數據”概念，該書前瞻性地指出，大數據帶來的信息風暴對我們的生活、工作和思維習慣帶來了變革性的改變。隨著第三次信息化浪潮的涌動，見證了互聯網公司利用大數據技術對我們生活產生的巨大影響，可以毫不夸張地說，現在我們的生活已離不開大數據技術應用。在2020年5月，國家工業和信息化部發布《關于工業大數據發展的指導意見》中，提出“推動工業數據全采集、加快工業設備互聯互通、推動工業高質量匯聚、統籌建設國家工業大數據平臺、推動工業數據開發共享、激發工業數據市場活力、深化數據應用、完善數據治理”。由此可見，大數據已成為國家發展的重要戰略，已深入國家發展的關鍵領域，因此安全作為國家大數據發展的基石將面臨越發嚴峻的挑戰。

目前大數據在安全方面的研究還遠遠跟不上大數據技術的發展。2020年1月，微軟披露了存儲客戶支持分析上的數據大量泄漏，該數據安全事故發生在 2019年12月，由于服務器存在漏洞，造成2.5億個條目在沒有任何安全保護措施的情況下泄露。后經調查分析，用于進行搜索操作的數據庫由5個ElasticSearch服務器組成，該服務器上的安全規則配置錯誤導致安全漏洞。2020年4月，經醫療巨頭公司麥哲倫健康證實，由于受到勒索軟件和數據泄露攻擊，大約有36.5萬名患者信息遭到了泄露。攻擊者通過安全惡意軟件盜取員工的登錄憑證，再通過發送網絡釣魚郵件，冒充麥哲倫的客戶進入內部系統完成信息盜取和勒索攻擊。2021年1月，日本汽車日產公司由于一臺服務器配置錯誤，導致公司Bitbucket Git服務器的信息在黑客論壇上開始傳播，該服務器賬戶主要用于儲存日產公司開發的應用程序和內部工具的源代碼。在上述近一年發生的安全事件中可以看出，如何能近早發現已運行在大數據平臺中的安全問題，這對各類安全防護技術已有迫切要求，將為我國信息化建設和國防事業提供重要保障。

首先，分析大數據目前研究現狀；其次，基于大數據平臺資產監控信息，提出了一種大數據安全稽查與風險評估框架，提前預防大數據平臺中可能出現的安全威脅；最后，總結研究意義并對大數據稽查與評估技術進行展望。

1　大數據安全研究概述

大數據安全的研究在產業界和學術界已開展很多年，下面從大數據安全技術和大數據安全標準兩個方面的研究現狀進行介紹。

1.1　大數據安全技術研究現狀

近年來，數據安全方面的研究受到越來越多的關注。在文獻中提到大數據生命周期可以分為數據生成、存儲和處理3個階段，在這3個階段采用訪問控制，利用數據偽造來保障數據的安全性。該文獻[3]中也提及對數據安全周期的定義各有不同，有些學者把數據安全周期分為4個階段，分別為數據發布、存儲、分析和處理階段，但采用的技術基本一致，通過訪問控制和數據偽造來防止數據泄露。數據安全在大數據安全技術應用中，更多的關注點仍在保護數據的完整性和隱私性，但對于大數據平臺自身安全的防護無法涉及，在實際大數據環境建設中，平臺自身的安全防護相比于數據安全需要更早地建立。

1.2　大數據安全標準研究現狀

在大數據安全研究中，由于不同的研究人員在需求理解、接觸的大數據實際運行場景方面存在差異，導致其在研究上產生方向、力度、關注點的不同。大數據安全法律法規和相關標準是規范不同研發人員研究大數據安全防護的基礎，從研發方向、深度、安全性防護能力等方面做出規范，是判定研發結果和大數據實際安全能力的重要依據。

2016年，黨中央、國務院高度重視大數據發展，并將大數據安全及相關標準化研究成果作為國家發展的重要戰略，要求盡快完善大數據安全相關法律法規和標準化制度。全國信息安全標準化委員會成立了大數據安全標準特別行動小組，通過參考大量國內外大數據安全相關標準、大數據技術，根據大數據產業的相關需求，在2018年4月發布了《大數據安全標準化白皮書》。2017年12月，中國電子技術標準化研究院、清華大學和中國軟件評測中心等互聯網單位聯合編寫的GB/T 35274—2017《信息安全技術大數據服務安全能力要求》，對大數據安全審查工作提供指導和依據。

在國際上，多個標準化組織早已展開針對大數據安全相關標準化的工作，其中主要有美國國家標準與技術研究院（National Institute of Standards and Teachnology，NIST）、國際標準化組織（ISO）/國際電工委員會（IEC）下的信息安全分技術委員會（SC27）、國際電信聯盟電信標準化部門（ITU-T）等。NIST已公開發布的有關大數據安全的標準主要有8個方面的內容，分別為《數據完整性：從勒索軟件和其他破壞性時間中恢復》《非聯邦信息系統和組織的受控非機密信息的保護》《受控非保密信息的安全要求評估》《數據中心的系統威脅建模指南》《政府數據庫去標識化》《個人可識別信息去機密保密指南》《個人可識別信息去標識化》和《聯邦信息系統和組織的安全和隱私控制措施》。SC27針對安全研究的不同方向，分別根據信息安全體系、密碼技術與安全機制、安全評價和規范、安全控制與服務和身份管理與隱私管理5個方面設置不同的工作小組開展研究，目前已發布相關安全標準20項。ITU-T在大數據安全方面已發布4項相關標準，分別為《移動互聯網服務中大數據分析的安全要求和框架》《大數據服務安全指南》《大數據基礎設施和平臺安全指南》和《電信大數據生命周期管理的安全指南》。

國內外不斷對大數據安全的標準展開研究，目的是進一步規范大數據在實踐應用中的合規性，提升數據安全保護能力。盡管目前國內外已公開發布很多關于大數據安全方面的標準，但在大數據平臺實際建設和大數據技術實際應用中，這些安全標準的落地情況不是很樂觀。在目前已有的大數據產品中，研發人員更多的去關注大數據組件功能的研發和性能的提升，淡化了大數據安全法律法規和標準。下一章節，本文將通過研究國內大數據安全標準為依據，提出一種大數據安全稽查與風險評估平臺框架設計。

2　安全稽查與風險評估

大數據安全稽查與風險評估系統對大數據平臺組件自身安全脆弱性情況進行分析，實現對大數據平臺中各數據全生命周期重要環節過程控制情況進行稽查和評估。該系統框架設計目標為核查大數據平臺中各類組件安全策略以及安全過程控制等落地情況，判斷各組件安全防護能力是否充分、能夠有效發揮。對大數據平臺內部的安全風險做到智能稽查告警，最終實現動態評估大數據平臺綜合安全防護能力。

2.1　大數據安全稽查研究

大數據安全稽查設計通過研究相關大數據平臺組件模型、接口和大數據集群環境資源監控方式為基礎，構建統一的大數據安全稽查模型。模型對大數據平臺內部所有虛擬資產和大數據集群環境物理資產進行監控，對每一種虛擬資產及物理資產進行身份標識，實時監控資產變化原因、影響范圍和變動的合規性。

要實現對大數據平臺內部資產做到實時、全面、細粒度和高要求的稽查，需要對平臺內部資源進行分類整理，依據整理結果創建各類資產統一的監管接口。在該資產稽查設計中，把虛擬資產分為計算類組件資源、存儲類組件資源、傳輸類組件資源、調度類組件資源、安全類資源。其中，計算類組件資源包括Mapreduce、Spark、Flink等；存儲類組件資源包括HDFS、Hive、Hbase等；傳輸類組件資源包括Kafka、Flume等；調度類組件資源包括Zookeeper、Mesos、Yarn等；安全類資源包括Ranger、Kerberos、Knox等。在該資產稽查設計中，同樣需要把大數據集群環境資源進行分類，可以分為基礎資源和安全設備資源。其中，基礎資源包括大數據集群各個節點的CPU、內存、硬盤、網卡等資源的身份標識；安全設備資源包括大數據集群內部部署的防火墻、堡壘機、入侵檢測服務器、病毒防護服務器等各類安全設備。與傳統監控相比，利用收集到的虛擬資源身份標識、虛擬資源運行狀態、物理資源身份標識、物理資源運行狀態，構建大數據平臺整體資源稽查藍圖。在傳統的大數據分析系統中，主要針對單一組件或者數據進行分析，而對于實際情況下的大數據平臺，其包括各種虛擬資產和物理資產，相互之間協作工作緊密，傳統大數據分析手段因具有局限性，往往只能發現平臺內部表面存在的安全風險，對于組件與組件之間、設備與設備之間、組件與設備之間的風險不能及時偵查。該資產稽查方案的設計，可以更加全面、細粒度地稽查出針對這些資產的攻擊。例如，攻擊者讓Kerberos服務不能正常運行，那么整個大數據平臺的認證功能失效，平臺面臨隨意接入的高安全威脅；又例如攻擊者偷換大數據集群中的某臺節點的網卡，并嵌入監聽程序。通過資產多方位的檢測，能更加全面地稽查出平臺資產所存在的安全風險。

目前已有的大數據安全防護手段還停留在根據已產生的安全攻擊行為再做出及時反應，對不同的攻擊行為采取不同的響應措施。這種“亡羊補牢”式的防護手段已不能滿足大數據在各種國防關鍵領域中的應用，因此在大數據安全稽查設計中，還需要對大數據平臺中的攻擊進行響應，由被動抵御轉化為主動防御。通過大數據平臺內部資產監控結果，創建主動式和被動式安全稽查控制接口規范。在設計中依賴大數據平臺內部資產稽查藍圖和安全風險評估結果為基礎，通過構建多種數據威脅攻防場景和應用案例，對平臺自身的安全防護能力進行稽查。一方面，研究大數據平臺中存在的各類威脅攻擊場景，驗證平臺中認證能力、授權能力、加密能力等安全防護措施是否有效。另一方面，模擬大數據平臺中各種敏感數據操作場景，驗證平臺威脅阻斷能力、脫敏能力、防泄漏能力等防護手段是否生效。大數據安全防護能力的稽查可以很好應對外部攻擊，并做出積極防御，智能發現大數據平臺安全能力中的薄弱點。

2.2　大數據安全風險評估研究

大數據平臺中產生的數據具有Velocity（高速）特點，但在目前已有的大數據安全研究中，對未知風險的檢測和內部安全的評估不夠及時，一般通過采用各種組件以往的日志信息、操作信息、已產生的安全風險告警記錄等進行分析，評估整體平臺的安全風險。這種傳統的風險評估手段仍然屬于事后抵御風險模型。

通過研究大數據組件多維基線檢測模型，對大數據平臺內部組件進行深度研究，把各個組件的配置屬性按照基礎性、合規性、健壯性、安全性進行多維分類。首先研究篩除組件中不重要屬性，使基線檢測模板具有通用性。進而對每一個重要檢測屬性分配閾值范圍，分別創建組件多維基線評估模型。在基礎性屬性中，以組件運行必須配置項進行劃分。在合規性屬性中，以組件內部的各個模塊運行所需要的內存類、核心數類、日志類、緩存類、線程類等屬性進行劃分。在健壯性屬性中，按照組件運行高可用性進行劃分。安全性屬性分為兩個方面：一方面研究組件自身安全特性，包括ACL屬性、SSL屬性、SASL屬性等；另一方面研究組件與大數據安全類組件所結合的安全屬性，主要結合Kerberos和Ranger與該組件的配置方式，分析組件授權和認證的安全風險。依賴大數據多維基線檢測模型，結合大數據資產稽查結果，通過監控資產身份標識變化、資產變動的合規性與合法性、資源運行狀態的變化記錄等因子為基礎，對平臺內部組件采用被動式和主動式安全風險檢測，生成各個組件的安全風險評估報告并給出風險整改建議。從平臺組件運行角度、安全防護角度來評估組件安全性，能更加全面地、準確地發現組件中潛在的安全漏洞。

該風險評估模型結合大數據資產稽查結果、大數據安全防護能力稽查結果、大數據組件風險估計結果，以國內外大數據安全規范為指標，為平臺內部各類風險分配不同的風險權重，通過計算，對大數據平臺安全風險等級進行劃分，對應給出安全風險建議整改方案，發現大數據平臺中未知安全威脅。目前對大數據平臺進行安全攻擊的一種常用方式為APT（高級持續威脅）攻擊，該攻擊方式具有攻擊時間長、攻擊面廣、隱蔽性強等特點，采用安全主動防御方式對整個大數據平臺的安全風險進行評估能有效地發現潛藏在系統中的APT攻擊，并及時進行預防。

3　平臺總體框架設計

大數據安全稽查與風險評估平臺總共分為5層，分別為大數據平臺層、資產采集與管理層、資產安全稽查與安全能力稽查層、安全風險評估層和綜合應用層，總體平臺架構如圖1所示。

圖1　大數據安全稽查與風險評估框架

（1）大數據平臺層：研究目前市場中大數據平臺資源數據格式和采集方式，建立統一資源采集接口和資源模板，采集平臺包括CDH（Cloudera’s Distribution Including Apache Hadoop）平臺、CDP（Cloudera Data Platform）平臺、HDP（Hortonworks Data Platform）平臺、華為大數據平臺等。

（2）資產采集與管理層：通過資產采集功能，智能發現接入系統的大數據平臺，自動監控大數據平臺內部資產變更信息，對平臺資源模板實現管理。利用統一的資產采集接口，把采集到的大數據平臺資產信息進行打標處理后，存入數據倉庫，為后續安全風險評估提供原始依據。

（3）資產安全稽查與安全能力稽查層：利用資產稽查引擎對納入系統管理的大數據平臺進行稽查，構建資產稽查藍圖。生成稽查任務實時稽查平臺資產種類、數量、身份、狀態變更風險，稽查平臺內部認證、授權、加密、脫敏安全防護能力并生成稽查報告，為平臺安全評估提供基礎。

（4）安全風險評估層：風險評估由基線掃描、基線驗證、安全性評估、評估模板4個模塊構成。依靠資產稽查結果為基礎結合組件基線掃描模板，利用安全風險評估引擎，生成組件基線掃描任務，定時對各個組件功能的可用性、合規性、健壯性、安全性進行基線掃描。利用大數據分析技術，評估大數據組件存在的安全威脅風險。在整體上，對資產稽查結果、安全能力稽查結果、組件評估結果分配不同的權重，利用大數據分析手段，對平臺整體風險性進行評分，再次評估平臺中所存在的安全風險。

（5）綜合應用層：綜合應用主要包括分權分域、配置管理、任務管理、可視化展示、模板管理、報表管理和日志管理。一方面為用戶提供系統綜合服務，包括系統配置、模板配置、任務查詢等服務功能；另一方面為用戶提供風險監控、風險告警、評估結果展示、日志展示等可視化界面。

該平臺與傳統大數據監管平臺相比，對安全風險的發現由被動監管模式轉為主動稽查模式。隨著大數據技術不斷成熟，已不能再片面化地分析大數據平臺所存在的安全風險，安全研究人員需要多方面研究最新的國內外大數據安全規范標準，從各個角度、多維聯合分析在大數據平臺中出現的安全漏洞和安全威脅，對可能存在的風險進行預判并采取修復措施。

4　結　語

大數據技術早已深入國家發展和人們生活的各個領域，通過不斷挖掘數據價值來改變各行各業的工作方式，其隨之帶來的安全攻擊事件也越發頻繁。本文首先闡述目前大數據安全技術研究熱點，國內外大數據安全標準研究狀況，然后以大數據資產為基礎，分別從稽查和評估兩個方面出發，結合最新的大數據安全標準為依據，設計大數據環境安全稽查與評估系統，旨在實現“搶先”發現大數據平臺存在的安全風險，杜絕平臺潛在威脅。就目前來說，在大數據安全稽查和評估方面展開的研究遠遠落后于大數據技術的應用，為了更進一步提高大數據安全防護能力，亟待加強在安全標準與大數據技術相結合的基礎上展開更多研究。

大數據數據與信息

撤稿糾錯

本作品采用《CC 協議》，轉載必須注明作者和本文鏈接

境內外上市企業的數據合規策略（DPO社群成員觀點）

2022-05-14 07:16:10

編者按：關于企業上市全過程中的數據安全、網絡安全和個人信息保護方面的監管重點、風險和應對，DPO社群中的很多同仁發表過一些文章：企業上市過程面臨的數據合規問題和相關風險：境外篇 2021版（DPO社群成員觀點）從墨跡IPO被否看擬境內上市企業的數據合規工作（DPO社群成員觀點）企業上市過程面臨的數據合規問題和相關風險：境外篇（DPO社群成員觀點）企業上市過程面臨的數據合規問題和相關風

國家工信安全中心聯合華為發布《數據安全白皮書》

2021-07-18 20:10:50

各經濟體更加重視數據競爭力，紛紛制定出臺數據戰略，宣誓數據安全和主權。因此，歐盟認為必須建立歐洲數據主權。近年來，我國陸續發布了一系列數據及其安全相關的法律法規和標準規范，數據資產價值得到確認。2020年6月，12部委聯合發布《網絡安全審查辦法》，推動建立國家網絡安全審查工作機制。

國外關于App收集使用個人信息的立法狀況

2019-06-14 00:00:00

近年來，App的迅猛發展使得個人信息安全問題更為復雜和多樣化。法律法規無疑是治理違規App的根本依靠和有力抓手，本文梳理了國外個人信息保護的相關法律法規，為業界提供參考。

《數據安全白皮書》：數據安全總體策略及治理思路

2021-07-17 19:02:49

國家工業信息安全發展研究中心作為國家級信息安全研究和推進機構，聯合華為技術有限公司共同研究編制了《數據安全白皮書》，全面分析了我國數據安全產業基礎、防護關鍵技術、法律法規體系現狀，從提升數據安全產業基礎能力、加快研究和應用數據安全防護技術、強化法律法規在數據安全主權的支撐保障作用等三方面展望數據安全發展未來，提出了數據安全發展倡議，為行業發展提供借鑒和參考，積極推動我國數據治理工作有序開展。

智能電網數字化運營管理能力助力山東電力數字化轉型

2021-09-26 17:40:30

2020年公司高損臺區減少電量損失2.6億千瓦時，在國網系統內率先實現購售同期自然月抄表電費回收率達99.999%以上，獲得國網業績考核“A+”級企業。目標是完成電網全業務數據收集分析，優化電網運行過程中的數據分析與處理效率，提升公司內部經營管理、生產控制以及公共服務能力。同時，對電網運營人員進行同步的數字化運營技能提升，逐步實現將數字化融入電網業務、基層一線和產業生態，最終實現公司數字化轉型。

基于大數據的安防體系建設研究和實踐

2022-02-17 17:56:44

隨著大數據、人工智能和云計算等信息技術的發展，安全防護形勢也越來越嚴峻，IT 架構和服務模式不斷發生變化，傳統的安防體系面臨著諸多問題。在繼承傳統的安全防護體系的基礎上，提出了將大數據相關技術融入到安防體系中，并從數據接入層面、數據融合分析層面、數據服務層面出發，通過大數據等技術手段構建了安全數據中臺，完善了安全防護技術體系。實踐證明，該體系在結構上能夠有效彌補傳統安全防護架構的不足。

實現數據可用不可見、兼顧安全與應用

2022-04-24 15:03:59

在數字經濟時代，隨著人工智能、大數據等產業的快速發展，數據要素的作用及其重要性愈發凸顯。與此同時，大量挖掘和收集用戶數據與信息，金融領域用戶數據信息泄露事件多發。隨著《數據保護法》《個人信息保護法》等的落地，金融業如何做到既保護數據安全，又充分發揮數據資產價值、高效鏈接多方數據，成為一項亟需解決的課題。

專題研究 | Palantir 大數據能力分析研究

2021-09-21 07:23:09

Palantir公司名稱來源于《指環王》，palantir是“seeing-stone”，可穿越時空、洞悉世間一切。公司于2003年5月注冊成立，總部設在美國科羅拉多州的丹佛，專門從事大數據分析。2020年9月29日登陸紐交所，估計潛在市場超過千億美元。

數據所有權：問題盤點與總結（下）

2022-01-18 06:52:59

一直關注數據安全，公號君決定新開一個系列的研究筆記，關注數據要素治理。此前，本公號發表過的關于數據要素治理的相關文章包括：《非個人數據在歐盟境內自由流動框架條例》全文中文翻譯（DPO沙龍出品）簡析歐盟《數字市場法》關于數據方面的規定數據流通障礙初探——以四個場景為例對“數據共享合法化”的分析與思考系列之一：以《關于歐洲企業間數據共享的研究》為起點對“數據共享合法化”的分析與思考系列之

數據所有權：問題盤點與總結（上）

2022-01-17 17:13:31

VSole

網絡安全專家