數據分析常見的誤區有哪些

回答數量: 1

安全集成(專業級)SP/PL CICSA

需求不匹配

數據分析師的需求來源，通常是業務方。業務方最熟悉業務，了解自己的產品和業務，但是數據分析師最熟悉的是科學的統計分析方法，所以兩者在溝通的過程中可能就會產生理解偏差。

數據需求通常是需求方根據自己對業務的理解，針對特定業務場景提出的，是用某種數據來驗證或挖掘業務的潛在規律或價值。需求方有自己對業務的理解，TA將需要數據支持的地方，翻譯給數據分析師，讓數據分析師幫忙拉取相關數據。且不說這個過程中信息傳遞可能會存在衰減和丟失，拉取的數據能否真正解決需求方的問題，是否是解決問題的最佳方式，都很難說得清楚。這就很容易造成需求不匹配的情況，由于翻譯帶來的信息損耗，導致最終提供的數據和原始問題不匹配。

數據樣本量不夠

我們在分析某些特定的業務或用戶行為時，可能存在相對關注度較小，用戶使用很少的情況，或者是在提取數據的過程中，增加了很多的限制條件或者多種用戶行為或屬性進行交叉后，得到很少的用戶樣本。

對于這種數量小的數據樣本得出的結果很有可能會出錯，但是樣本量多少才算夠多呢？這個沒有一個特定的數值，通常只能結合具體的場景進行分析。

存在選擇性偏見或者幸存者偏見

統計學的另一大理論基石，便是中心極限定理。

簡單描述下就是，總體樣本中，任意一個群體樣本的平均值，都會圍繞在這個群體的整體平均值周圍。

通常我們會按照這個原理，用隨機抽樣的方式，通過對樣本的分析來估計整體。當然得出的結論會比較接近真實情況的。可是有一個問題是，我們在采集數據的過程中是否是真的隨機。

混入臟數據

臟數據是指嚴重不合理或對于實際業務毫無意義的數據，通常是由程序bug、第三方攻擊、網絡傳輸異常等原因造成的。

這種數據的破壞性比較大，可能引發程序報錯，對指標的準確度影響也較大。

指標不合理

數據分析的結果通常是各種各樣的指標，每個指標都有自己的統計邏輯，反映的事物的某些方面的本質，在進行數據分析時，如果不能選擇正確的指標，也可能會走入誤區，從而得出錯誤的結論。

分析有錯誤

數據分析的過程很復雜，稍微不細心就有可能會出現數據結果偏差較大的情況。

推導不嚴謹

有了分析結果，通常還需要我們基于對業務的理解和對用戶行為模式的認知，來推導出最后的結論或總結出規律。這個過程中，如果邏輯不嚴謹，也可能會出現誤判的情況。

回答所涉及的環境：聯想天逸510S、Windows 10。

1年前 / 評論