當前數據分析主要包括六個方面,分別是數據收集、數據清洗、數據預處理、模型建立、數據可視化、描述性分析。
數據收集:這一步就是做數據的收集。一般數據收集主要包括以下幾個方面:統計調查、實地研究、做實驗、大數據。
數據清洗:一般如果是我們自己統計/現實數據,得到的數據會很臟(存在缺失值/異常值之類)。所以我們需要對數據進行清洗,對缺失的數據進行填補、對異常值進行合理化修正。
數據預處理:舉個栗子,我們對數據要進行建模、但是我們模型可能只能處理數值型,但是我們的數據是字符串,我們就要對數據進行預處理,處理成我們模型可以處理的數據。
模型的建立:這一步可以說是數據分析的關鍵一步,模型的建立。我們要對未來的數據進行預測,如何將我們影響因子加入到模型,權重如何設置、函數的階數如何設置都是我們要解決的問題。
數據可視化:哪怕我們對我們已經有的數據進行了模型的建立,但是到目前為止我們所做的工作都是只有我們自己能看懂或者相關人員能看懂。所以我們需要進行數據的可視化,來更直觀更方便的對數據進行解讀。
描述性報告:我們做數據分析就是幫助上層決策人員進行一個更好的決策,所以我們需要對我們的工作進行一個報告來報告給決策人員。
回答所涉及的環境:聯想天逸510S、Windows 10。
當前數據分析主要包括六個方面,分別是數據收集、數據清洗、數據預處理、模型建立、數據可視化、描述性分析。
數據收集:這一步就是做數據的收集。一般數據收集主要包括以下幾個方面:統計調查、實地研究、做實驗、大數據。
數據清洗:一般如果是我們自己統計/現實數據,得到的數據會很臟(存在缺失值/異常值之類)。所以我們需要對數據進行清洗,對缺失的數據進行填補、對異常值進行合理化修正。
數據預處理:舉個栗子,我們對數據要進行建模、但是我們模型可能只能處理數值型,但是我們的數據是字符串,我們就要對數據進行預處理,處理成我們模型可以處理的數據。
模型的建立:這一步可以說是數據分析的關鍵一步,模型的建立。我們要對未來的數據進行預測,如何將我們影響因子加入到模型,權重如何設置、函數的階數如何設置都是我們要解決的問題。
數據可視化:哪怕我們對我們已經有的數據進行了模型的建立,但是到目前為止我們所做的工作都是只有我們自己能看懂或者相關人員能看懂。所以我們需要進行數據的可視化,來更直觀更方便的對數據進行解讀。
描述性報告:我們做數據分析就是幫助上層決策人員進行一個更好的決策,所以我們需要對我們的工作進行一個報告來報告給決策人員。
回答所涉及的環境:聯想天逸510S、Windows 10。