寒 1年前提問

安全大數據方面的核心技術有哪些

趣能一姐 ₂ CISAW安全運維(專業級) 高級信息系統項目管理師

趣能一姐₂ 1年前 CISAW安全運維(專業級) 高級信息系統項目管理師

安全大數據方面的核心技術有以下這些：

大數據生命周期：底層是基礎設施，涵蓋計算資源、內存與存儲和網絡互聯，具體表現為計算節點、集群、機柜和數據中心。在此之上是數據存儲和管理，包括文件系統、數據庫和類似YARN的資源管理系統。然后是計算處理層，如hadoop、MapReduce和Spark，以及在此之上的各種不同計算范式，如批處理、流處理和圖計算等，包括衍生出編程模型的計算模型，如BSP、GAS 等。數據分析和可視化基于計算處理層。分析包括簡單的查詢分析、流分析以及更復雜的分析(如機器學習、圖計算等)。查詢分析多基于表結構和關系函數，流分析基于數據、事件流以及簡單的統計分析，而復雜分析則基于更復雜的數據結構與方法，如圖、矩陣、迭代計算和線性代數。
大數據技術生態：大數據的基本處理流程與傳統數據處理流程并無太大差異，主要區別在于：由于大數據要處理大量、非結構化的數據，所以在各處理環節中都可以采用并行處理。目前，Hadoop、MapReduce和Spark等分布式處理方式已經成為大數據處理各環節的通用處理方法。
大數據采集與預處理：在大數據的生命周期中，數據采集處于第一個環節。根據MapReduce產生數據的應用系統分類，大數據的采集主要有4種來源：管理信息系統、Web信息系統、物理信息系統、科學實驗系統。對于不同的數據集，可能存在不同的結構和模式，如文件、XML 樹、關系表等，表現為數據的異構性。對多個異構的數據集，需要做進一步集成處理或整合處理，將來自不同數據集的數據收集、整理、清洗、轉換后，生成到一個新的數據集，為后續查詢和分析處理提供統一的數據視圖。針對管理信息系統中異構數據庫集成技術、Web 信息系統中的實體識別技術和DeepWeb集成技術、傳感器網絡數據融合技術已經有很多研究工作，取得了較大的進展，已經推出了多種數據清洗和質量控制工具。
大數據存儲與管理：按數據類型的不同，大數據的存儲和管理采用不同的技術路線，大致可以分為3類。第1類主要面對的是大規模的結構化數據。針對這類大數據，通常采用新型數據庫集群。它們通過列存儲或行列混合存儲以及粗粒度索引等技術，結合MPP(Massive Parallel Processing)架構高效的分布式計算模式，實現對PB 量級數據的存儲和管理。這類集群具有高性能和高擴展性特點，在企業分析類應用領域已獲得廣泛應用;第2類主要面對的是半結構化和非結構化數據。應對這類應用場景，基于Hadoop開源體系的系統平臺更為擅長。它們通過對Hadoop生態體系的技術擴展和封裝，實現對半結構化和非結構化數據的存儲和管理;第3類面對的是結構化和非結構化混合的大數據，因此采用MPP 并行數據庫集群與Hadoop 集群的混合來實現對百PB 量級、EB量級數據的存儲和管理。
大數據計算模式與系統：所謂大數據計算模式，即根據大數據的不同數據特征和計算特征，從多樣性的大數據計算問題和需求中提煉并建立的各種高層抽象(abstraction)或模型(model)。例如，MapReduce 是一個并行計算抽象，加州大學伯克利分校著名的Spark系統中的“分布內存抽象RDD”，CMU 著名的圖計算系統GraphLab中的“圖并行抽象”(Graph Parallel Abstraction)等。傳統的并行計算方法，主要從體系結構和編程語言的層面定義了一些較為底層的并行計算抽象和模型，但由于大數據處理問題具有很多高層的數據特征和計算特征，因此大數據處理需要更多地結合這些高層特征考慮更為高層的計算模式。
大數據分析與可視化：大規模數據的可視化主要是基于并行算法設計的技術，合理利用有限的計算資源，高效地處理和分析特定數據集的特性。通常情況下，大規模數據可視化的技術會結合多分辨率表示等方法，以獲得足夠的互動性能。在科學大規模數據的并行可視化工作中，主要涉及數據流線化、任務并行化、管道并行化和數據并行化4種基本技術。

1年前