<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    數據分析常見的誤區有哪些


    發現錯別字 1年前 提問
    回答
    1
    瀏覽
    807
    請勿發布不友善或者負能量的內容。與人為善,比聰明更重要!
    回答數量: 1
    安全集成(專業級)SP/PL CICSA

    需求不匹配

    數據分析師的需求來源,通常是業務方。業務方最熟悉業務,了解自己的產品和業務,但是數據分析師最熟悉的是科學的統計分析方法,所以兩者在溝通的過程中可能就會產生理解偏差。

    數據需求通常是需求方根據自己對業務的理解,針對特定業務場景提出的,是用某種數據來驗證或挖掘業務的潛在規律或價值。需求方有自己對業務的理解,TA將需要數據支持的地方,翻譯給數據分析師,讓數據分析師幫忙拉取相關數據。且不說這個過程中信息傳遞可能會存在衰減和丟失,拉取的數據能否真正解決需求方的問題,是否是解決問題的最佳方式,都很難說得清楚。這就很容易造成需求不匹配的情況,由于翻譯帶來的信息損耗,導致最終提供的數據和原始問題不匹配。

    數據樣本量不夠

    我們在分析某些特定的業務或用戶行為時,可能存在相對關注度較小,用戶使用很少的情況,或者是在提取數據的過程中,增加了很多的限制條件或者多種用戶行為或屬性進行交叉后,得到很少的用戶樣本。

    對于這種數量小的數據樣本得出的結果很有可能會出錯,但是樣本量多少才算夠多呢?這個沒有一個特定的數值,通常只能結合具體的場景進行分析。

    存在選擇性偏見或者幸存者偏見

    統計學的另一大理論基石,便是中心極限定理。

    簡單描述下就是,總體樣本中,任意一個群體樣本的平均值,都會圍繞在這個群體的整體平均值周圍。

    通常我們會按照這個原理,用隨機抽樣的方式,通過對樣本的分析來估計整體。當然得出的結論會比較接近真實情況的。可是有一個問題是,我們在采集數據的過程中是否是真的隨機。

    混入臟數據

    臟數據是指嚴重不合理或對于實際業務毫無意義的數據,通常是由程序bug、第三方攻擊、網絡傳輸異常等原因造成的。

    這種數據的破壞性比較大,可能引發程序報錯,對指標的準確度影響也較大。

    指標不合理

    數據分析的結果通常是各種各樣的指標,每個指標都有自己的統計邏輯,反映的事物的某些方面的本質,在進行數據分析時,如果不能選擇正確的指標,也可能會走入誤區,從而得出錯誤的結論。

    分析有錯誤

    數據分析的過程很復雜,稍微不細心就有可能會出現數據結果偏差較大的情況。

    推導不嚴謹

    有了分析結果,通常還需要我們基于對業務的理解和對用戶行為模式的認知,來推導出最后的結論或總結出規律。這個過程中,如果邏輯不嚴謹,也可能會出現誤判的情況。

    回答所涉及的環境:聯想天逸510S、Windows 10。

    1年前 / 評論
    亚洲 欧美 自拍 唯美 另类