大數據分析數據準備前要哪些準備工作

回答數量: 1

高級測評師 CISM-WSE

大數據分析數據準備前要以下準備工作：

噪聲數據過濾：主要用于關系型數據屬性值缺失嚴重、數據異常以及文本型數據出現大量亂碼的情況，刪除這些噪聲數據，從而避免影響挖掘結果的準確性。
數據屬性值填補：數據屬性值填補是一種填補數據中缺失數值的技術，當對應部分時間點相對應的數值缺失，可以通過前后時間點的值進行插值處理，填補缺失值，保證數據的完整性。
屬性值歸一化：屬性值歸一化又叫屬性值標準化。用于將同一屬性不同數據源的表達方式統一到相同的表達方式，度量單位不同的數值統一到相同的度量單位。
數據去重：數據去重是判斷數據是否存在重復并去除重復數據的技術。該技術主要用于減少存儲、降低網絡帶寬、提高大數據挖掘效率，從而應對數據體積激增的現狀。其關鍵技術為快速高效與數據量大小無關的去重算法。
數據抽取：數據抽取是利用特定模型，在海量數據中抽取可用數據的過程。該技術用于解決以人工方式預處理海量數據效率低、不能滿足實際應用要求的問題。主要技術包括抽取模型和抽取方法的設計。該技術具備分布式的結果集處理、并發的數據操作以及數據之間的高效轉換等特征。

回答所涉及的環境：聯想天逸510S、Windows 10。

1年前 / 評論