DataOps指南:數據治理新時代來了?
DataOps 不只是一種開發方法。它利用民主化的訪問和巨大的潛力,徹底改變了組織使用數據的方式。
最近,一項針對企業面臨大數據挑戰的 調查 顯示,38% 的企業“缺乏”有說服力的商業案例來使用他們的數據,34% 的企業不具備處理大數據技術的成熟流程,24% 的企業沒有能力讓他們的用戶使用大數據。
假如調查的結果是真實的,那么就意味著,很大一部分企業面對自己擁有的數據,以及從客戶持續收集的數據,不知道自己能做什么,必須做什么。而這,也會讓企業在與競爭對手進行比較時處于非常不利的地位。在數據驅動的競爭環境中,如果企業忽視數據,不能充分發揮數據的潛力,那么對組織而言只能帶來災難性的結果。
目前來看,很多企業都在收集大量的數據,其中一部分是遺留數據管道:隨著數據在數據管道中從源移動到目標,每個階段對數據的含義以及如何使用它都有自己的想法。這種不連貫的數據視圖使數據管道變得脆弱且難以改變,從而使組織在面對變化時反應遲緩。
解決這個難題的方法就是 DataOps。
DataOps 是什么?
DataOps 是數據操作化(data operationalization)的縮寫,是一種協作性的數據管理方法,它強調組織內部數據管道的溝通、集成和自動化。
與數據存儲管理不同,DataOps 主要關注點的不是數據“存儲”。它更關心的是“交付”,也就是讓數據對所有的利益相關者來說都是現成的、可訪問的和可用的。 它的目標是為數據、數據模型和相關工件創建可預測的交付和變更管理,從而在整個組織和消費者之間更快地提供價值。
DataOps 通過采用技術來實現這一目標,將數據的設計、部署、管理和交付自動化,從而提高其使用和提供的價值。這樣可以讓所有使用數據的利益相關者都能很容易地訪問數據,而且還可以加快數據分析的周期。
這樣一來,DataOps 可以大大提高企業對市場變化的反應時間,讓他們能夠更快地應對挑戰。
DataOps 所解決的挑戰和問題
大數據最重要的承諾是快速、可靠的數據驅動的可操作業務洞察力,由于面臨著組織、技術和人力(使用數據的人員)等方面眾多的挑戰,這些承諾仍未實現。DataOps 通過學習和實踐敏捷、DevOps 和精益生產方法論來幫助克服這些挑戰。
- 速度。現代組織依賴來自許多不同來源、不同形式的數據。清理、改進、然后使用這些數據可能是一個復雜和漫長的過程,以至于當最終從中產生洞察力時,它們與快速發展的業務環境已不再相關。DataOps 從根本上提高了從數據中獲得洞察力的速度。
- 數據類型。有時候,組織收集到的數據可能是非結構化的格式,這讓你很難從中獲取洞察力。DataOps 使組織能夠從其擁有的每個數據源中識別、收集和使用數據。
- 數據孤島。DataOps 打破了組織內部的數據孤島,并將所有數據集中在一起。與此同時,它構建了彈性系統,使每個需要訪問數據的利益相關者都能獲得自助服務。在組織內外發生變化時,這些系統也在不斷發展,但是它們為“數據用戶”提供了可預測的方式來尋找和使用他們所需的數據。
通過克服這些挑戰,DataOps 使得 DataOps 團隊能夠為工程師、數據科學家、機器學習工程師甚是客戶等每一個需要的人提供數據,并且比以前更快。簡單來說,DataOps 可以帶來以下好處:
- 數據利用率最大化。DataOps 為數據的所有“用戶”解鎖數據,不管是分析師、高管還是客戶。可以實現數據交付的自動化,并在這一過程中讓各個部門從數據中提取最大價值。這樣做的結果是增加了競爭力,對變化的反應能力,以及更高的投資回報率。
- 在正確的時間獲得正確的洞察力。大數據的一個普遍問題就是在錯誤的時間獲得正確的洞察力,遲來的洞察力是沒有用的。DataOps 可以快速地將數據提供給每一個需要的人,從而讓他們能比以往更快地做出更明智的決策,使得組織能夠快速發展,以適應市場的變化。
- 提高數據生產率。DataOps 使用自動化工具,以自助服務的形式交付數據。這樣就消除了數據請求和數據訪問之間的任何固有延遲,使所有團隊可以快速地作出數據驅動的決策。DataOps 還使組織擺脫了手工數據管道變更管理流程。相反,對數據管道的所有更改都會簡化并實現自動化,以提供快速、有針對性的更改。
- 針對結果優化的數據管道。DataOps 在數據管道中加入了一個反饋回路,它使各種數據消費者能夠確定他們所需要的特定數據,并從這些數據中獲得定制的洞察力。每個團隊都可以利用這些洞察力來降低成本,發現新的機會,增加收入,并提高組織的盈利能力。
DataOps 的原則
從技術上講,DataOps 實現了組織最具突破性的里程碑之一——在不影響數據分析的速度和質量的情況下,使其數據程序具有高度的可擴展性。由于它借鑒了 DevOps 的經驗和實踐,所以 DataOps 在很多關鍵方面與 DevOps 重疊。從 DataOps 的 三個基本原則 可以看到:
1. 持續集成
DataOps 從不同來源動態識別、整理、集成并提供數據。隨著團隊為 DataOps 添加了新的數據源,新的數據將自動集成到數據管道中,并通過人工智能 / 機器學習工具提供給各個利益相關者。
得益于自動化,從數據發現到數據整理、轉換和洞察力的定制都已經完全簡化。事實上,數據交付可以直接通過實時流交付給預測算法,從而為用戶,尤其是消費者提供即時的洞察力。這種優化的數據集成流程確保了數據發現和數據使用之間不會浪費時間。
2. 持續交付
組織數據的價值只在于從中產生的洞察力。團隊接觸到的越多,從中提取的洞察力也就越多。但是,數據的可訪問性也帶來了數據治理的挑戰。DataOps 使整個組織具有可操作性的數據治理,同時使數據訪問民主化,并且提高了安全性和隱私性。
為了滿足內部數據質量和數據屏蔽規則,有目的地以協作的方式向內部和外部的消費者交付數據。為了達到這個目的,我們經常使用一個“智能”的數據平臺。在保證數據質量、隱私和安全的情況下,各利益相關者都可以利用它,并從中獲得準確的洞察力,而不用擔心數據治理的影響。
3. 持續部署
數字化企業依靠大量的數據驅動的應用程序,在對組織的未來有深遠影響的功能上做出實時決策。諸如欺詐檢測、人工智能聊天機器人、銷售、供應鏈管理等關鍵任務功能需要隨時更新數據以供決策使用。持續部署可以讓所有用戶無縫地訪問新數據。
DevOps 與 DataOps
盡管 DataOps 借鑒了 DevOps 的知識和操作流程,但兩者之間有著 很大的區別:
- 人的因素。雖然 DataOps 的參與者可能對技術了如指掌,但是他們更關注于為數據用戶創建算法、模型和可視化輔助工具。而 DevOps 參與者則是具有運營思維的軟件工程師。
- 流程。DataOps 流程的特點是數據管道和分析開發編排,而 DevOps 流程很少涉及編排。
- 測試。與 DevOps 不同的是,DataOps 在很大程度上依賴數據屏蔽來進行測試,因此,測試數據的管理就變得非常重要。另外,DataOps 通常會在部署之前在數據管道和分析開發過程中測試和驗證數據。
- 工具。DevOps 擁有一個成熟的工具生態系統,尤其是在測試方面。作為一種新的方法,DataOps 通常要求團隊從零開始構建工具,或者為其目的修改 DevOps 工具。
DataOps 平臺的演進
在數據分析的早期,ETL(萃取 (extract) 轉置 (transform) 加載 (load))工具作為管理大量(相對而言)傳入數據的強大工具出現了。但是,隨著傳入的數據種類、真實性和數量的爆炸式增長,對可擴展性和高速數據分析的需求越來越迫切。數據連接器固有的缺陷也被證明是一個限制性因素。
云計算的出現解決了數據攝取、管理和分析等難題。將 ETL 工具和云資源結合在一起,可以加速分析。但是,仍然面臨著一個日益嚴峻的挑戰——數據的可訪問性。僅僅使用數據來產生洞察力是不夠的,每個人都應該能夠獲得這些洞察力。
于是,DataOps 應運而生。DataOps 實現了數據訪問的民主化。根據組織的數據治理政策,所有的利益相關者都能夠獲得安全、高質量的數據,而不僅僅是少數人能夠訪問數據。