隨著云計算、大數據的快速發展,數據體量急速增長,與之相應,數據管理技術也在快速演進,其中,就包括湖倉一體(Lakehouse)技術。在咨詢公司Gartner發布的“數據管理技術成熟度曲線”中,湖倉一體技術處于高速發展階段。
按照云計算提供商亞馬遜的定義,湖倉一體是一種新的數據管理模式,它將數據倉庫和數據湖兩者之間的差異進行融合,并將數據倉庫構建在數據湖上,從而有效簡化了企業數據的基礎架構,提升數據存儲彈性和質量的同時還能降低成本,減小數據冗余。
湖倉一體架構中所包含的數據既有“倉里”的結構化數據,更多的則是“湖里”的半結構化和非結構化數據。數據湖倉一體架構主要一點是實現“湖里”和“倉里”的數據能夠無縫打通,對數據倉庫的彈性和數據湖的靈活性進行有效集成,讓湖中的數據可以”流到“數據倉中,并能直接進行數據調用;而數據倉中的數據也可以保存于數據湖中,供未來數據挖掘使用。在該架構中,主要將數據湖作為中央存儲庫,將機器學習、數據倉庫、日志分析、大數據等技術進行整合,形成一套數據服務環,更好地分析、整合數據,讓數據倉庫和數據湖中的數據可以自由流動,用戶可以更便捷地調取其中的數據,讓數據“入湖”、“出湖”更為便捷。
湖倉一體技術不是憑空產生的,它是在數據倉庫和數據湖的基礎上發展而來的。從數據管理架構的發展來看,湖倉一體技術的發展可分為三個階段。第一階段是上世紀80年代開始的“數據倉庫”階段,第二階段是2012年伴隨著大數據發展普及而產生的“數據湖”技術,第三階段就是近年來開始的數據湖與數據倉庫的融合趨勢,即“湖倉一體”。
近年來,各大云計算廠商以及眾多的Startup公司紛紛推出自己的湖倉一體技術方案。典型國外廠商如Amazon的Redshift Spectrum,Microsoft的Asure Synapse Analytics,Google的Dataplex,Databrics的Lakehouse Platform等;國內廠商如阿里云的Maxcompute,騰訊云的云原生數據湖,華為云的Fusion Insight等。
分布式存儲作為湖倉一體技術的重要支撐,也隨著湖倉一體技術在不斷演進。作為存儲系統,除了提供原有的數據共享訪問、靈活擴展、快照、克隆、容災等功能外,還需要為湖倉一體的上層應用提供特定的服務能力。圖示如下:

存儲資源池首先要提供的就是多協議融合存儲能力。
湖倉一體架構中的數據是異構、多源、海量的。既包含以S3寫入的對象存儲數據、也包括以HDFS/NFS/CIFS/FTP等寫入的文件數據,還包含以iSCSI/FC等寫入的塊存儲數據,以及特定私有API寫入的存儲數據。要使湖倉內數據高效流動,就必須實現多種存儲訪問協議間的IO語義互通,在元數據的層面打通不同存儲協議間的壁壘。這樣,在不同的協議訪問同一份數據時,就不再需要數據轉換和拷貝,從而大幅提升數據存儲、轉換、處理效率。
除了多協議融合的基本能力,存儲資源池還需要提供緩存服務、算子卸載、元數據服務、數據分層和流動等高級能力。
緩存服務
從整體架構上說,要達到良好的數據加速效果,緩存服務需要在計算層面和數據存儲層面進行統一考慮。在計算層面,首先要具備本地的應用緩存能力。基于特定的應用,基于局部性原理(時間局部性和空間局部性),實現數據和元數據的緩存。基于應用的緩存層,一方面可以提升數據訪問速度,還可以提升數據使用效率(避免對于遠端數據(其他AZ的數據,甚至第三方云平臺數據)的重復訪問)。在存儲層面,基于本地數據的訪問熱度提供緩存服務。這個緩存服務既可以以緩存池的形式,也可以以分級存儲熱數據層的形式提供。不管哪種形式,都可以為本地或者遠端提供低時延、高吞吐的訪問性能。對于寫緩存,目前已經有較為成熟的IO聚合方法;對于讀緩存,目前一些廠商在探索利用AI方法進行智能預讀提升命中率。
算子卸載
算子卸載主要是利用存儲系統的算力以及數據布局特點對數據進行高效的處理,實現訪問加速。一個熟知的算子卸載的例子是VMWare的VAAI接口。目前已有的算子卸載應用包括視頻處理的流直存、數據庫的SQL查詢加速、KV訪問加速等。
元數據服務
提供元數據的多維檢索、標記、批量變換等操作。這里的元數據是指從存儲協議(S3/NFS/HDFS等)角度看的元數據,非應用角度元數據。在湖倉上層應用處理過程中,往往涉及對海量小文件元數據的查詢,由存儲層提供特定的元數據訪問引擎,可以大幅提升數據處理效率。
數據分層和流動
這里的數據分層和流動既包含本地數據的分層和流動,也包含不同數據中心間的數據分層和流動。數據的訪問和處理往往具有一定的時效性特征,為了取得良好的性價比,數據會存儲在SSD、HDD、磁帶、藍光等不同介質中;為了保證的更高可靠性,還可能在多個數據中心保存冗余數據。此時,全局優化的數據保存策略以及智能的數據調度算法可以助力數據分層和流動效率的提升。
X0_0X
Coremail郵件安全
商密君
一顆小胡椒
信息安全與通信保密雜志社
一顆小胡椒
cayman
一顆小胡椒
007bug
上官雨寶