<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    你真的了解HTAP嗎

    一顆小胡椒2022-07-22 15:29:07

    HTAP是目前數據庫領域談得最多的一個詞,也是我們存在最多誤解的詞。曾經有一個企業的IT主管和我說,如果我選一款HTAP數據庫產品,是不是我都可以把數據倉庫拆了,今后只有在線交易系統和大數據平臺就行了。這里面實際上包含了對HTAP的巨大的誤解。HTAP=OLTP+OLAP,上面的這個公式真的成立嗎?今天我們來簡單地了解一下傳統的OLTP和OLAP是什么樣的。

    上面是一個傳統的交易域和數倉域分離的傳統數據倉庫架構。大量的在線交易系統首先把數據復制到貼貼源層的ODS,然后經過ETL工具加載到數據倉庫中,同時數據倉庫中還會存儲一些來自外部的數據,甚至一些外購的數據。存儲在數據倉庫中的是高價值數據,經過處理后形成一系列的數據集市,供業務系統使用。這種架構中將在線交易與數據分析兩種截然不同的負載區分開來,避免相互干擾。

    不過這種架構最大的問題是,ETL的延時比較大,很多需要及時分析的業務無法得到保證。因此縮短在線交易系統到數據倉庫之間的延時就十分重要了。

    Oracle公司推出了一套基于準實時ETL產品ODI的解決方案。生產系統使用ORACLE的交易型數據庫模式,通過ODI捕獲生產系統的變化,并通過定義好的轉換規則,準實時進行ETL操作,復制數據到ORACLE OLAP模式的數據倉庫中。上面的優化模式雖然能解決一部分數據倉庫的延時問題,但是對于實時性要求更高的一些業務就無法滿足了。

    因此在在線交易系統中支撐比較強大的數據分析功能的需求就應運而生了,這個需求就是HTAP計算模式。不過聰明的朋友可能也看出來了,這種HTAP計算并不等同于在線交易+數據倉庫業務。因為如果我們要把一個企業的所有高價值數據都存儲在一個數據庫里,才能實現這個替代數據倉庫的目標。而這種設計會讓單一的數據庫太重了,一旦這個數據庫出現一點點問題,可能就會影響整個企業的業務,這是我們無法承受的。企業需要的HTAP能力不需要完全覆蓋數據倉庫業務,僅僅需要對核心業務需要的在線分析能力做一定的提升就可以了。因此在HTAP數據庫中需要存儲的就是OLTP系統本身的數據以及部分分析必須的從外部提取過來的高價值數據。

    上面的圖看上去是不是簡單多了,不過這個簡化了的業務需求也并不容易實現。這是因為TP系統跑的是穩定,高并發,低延時,大多數通過索引訪問,大量寫操作的小業務,對于并發寫入量較大的表,盡可能減少不必要的索引;而AP系統跑的是隨機性大,資源開銷極大,大部分需要對大表進行并行掃描,持續時間很長的的以讀為主的分析類業務。讀寫操作之間會有相互影響,大量的寫操作希望索引越少越好,而大量的讀操作希望索引越豐富越好。AP操作的臨時性資源開銷可能會導致TP業務的延時出現經常性的抖動,這些都是會讓TP業務無法忍受的。TP業務經常需要訪問一張表中的多個字段,從而實現復雜的業務邏輯,因此用行存儲的方式性能最佳。AP業務經常對某一列的數據做掃描分析,因此如果數據按列存儲具有較好的性能。這些業務之間的矛盾都使一個數據庫中承載混合的HTAP負載十分困難。

    而實際上,我們的OLTP系統中,真的都需要HTAP工作負載嗎?答案是否定的。大多數OLTP系統中僅僅需要一定量的批處理負載,用于對數據進行一些復雜的加工。在一個設計的比較好的OLTP系統中,通過定期自動匯總數據,物化視圖等方式,可以大幅度減少開銷極大的AP工作負載。只有極少數的系統是真的必須有復雜的準實時OLAP需求的。而對于AP的實時性要求,如果通過更實時的數據復制和ETL,大部分問題是可以解決的。此外,分布式SQL引擎的效率、OLTP/OLAP的資源隔離與防干擾措施、數據存儲格式、大型集群管理、讀寫副本的使用方式、主副本切換帶來的性能抖動等都會影響數據庫的HTAP能力。

    既然HTAP負載并不是業務系統一定要追求的,那么為什么現在我們隨便看到一個分布式數據庫,就一定說自己是HTAP數據庫呢?這實際上是和分布式數據庫的發展歷史分不開的。分布式數據庫剛剛出現的時候,主要還是為了高并發的OLTP寫入業務。因此這些數據庫產品的多表關聯,復雜分析功能是很弱的。分布數據庫廠家也在不斷地優化產品,努力提升這方面的能力。因此為了標榜自己的技術優勢,大家都在HTAP能力上開展起軍備競賽了。

    雖然如此,如果真的有一個HTAP能力極強的數據庫產品放在我們面前,對于用戶和軟件開發商來說,肯定是一件好事情。這會讓我們的管理系統,交易系統的功能變得更加豐富。對于某些行業的業務系統來說,可能會促進業務的革命性變革。比如說能源行業鼓吹了多年的源網核儲互動,因為我們的數據處理能力不足,不及時,導致我們在電力生產、消費、儲能、調度等方面的數據無法及時進行處理分析,大大降低了能源的綜合利用率。

    目前來說,電是不可大規模存儲的資源,而且電源側發出的電必須平衡的被消耗掉,否則多發出來的電必須被盡快消耗掉,而某個局部網絡上的電能不足時,就只能拉閘限電,確保電能在網絡上整個是平衡的。當電源側發電量過大,或者用電需求過大,供給不足或者電力調度不及時,導致用電缺口達到一定程度的時候,電網會因為不平衡而解裂,2013年洛杉磯大停電或者前幾年美國德州大停電的慘劇就會重演了。

    我們國家這些年沒有出現過類似的情況,這說明我國的大電網調度運營水平是很高的。不過這種水平很高并不意味著很高效。我們的電網調度十分依賴于相對穩定的電源,比如火力發電。而水電、光伏、風能這些清潔能源因為其不穩定,會大大加大電網調度的難度。因此目前我國棄風棄光的比例一直是高于西方發達國家的。

    為了完成碳中和目標,加大清潔能源供給是必然的,因此源網核儲互動能力的提升十分關鍵。而要提升源網核儲互動的效率,精準及時的數據采集與數據分析是關鍵。我們必須提高電能表采集的頻率(歐洲最先進的電網計量已經實現了5分鐘全量采集,而我們目前的主流水平還只是重點電表15分鐘間隔采集),提升與發電企業之間的數據交換的水平,對氣候、社會熱點、制造業增長態勢、外貿等數據進行更廣泛的采集與處理分析,這樣才能逐步提升電網調度計劃的水平。以目前電能采集系統到大數據平臺數據復制的一天時延來看,要實現這個任務是幾乎不可能的。

    具有強大HTAP處理能力的數據庫是解決這個計算難題的十分關鍵的IT基礎設施,這是一個十分現實的HTAP計算場景。十分可惜的是,在我們為這個場景選擇數據庫產品的時候,還沒有找到一款國產數據庫產品具備處理這個業務場景的能力。

    其他行業中,也可以找出很多類似這樣的計算場景,在提升企業效率,降低企業成本的業務創新中,這種需求也會越來越多。因此數據庫產品發展HTAP能力是十分重要的。只是說,目前我們的國產數據庫的HTAP能力建設還處于初級階段,目前大多數國產數據庫能夠提供的HTAP能力大部分可以通過業務系統優化來避開,而真正對HTAP強需求的場景,我們的產品的支撐能力還略顯不足。

    關于HTAP話題太復雜了,一篇文章無法講清楚,下一回,我們再來分析目前主要的數據庫產品中是如何實現HTAP的。

    數據庫系統數據倉庫
    本作品采用《CC 協議》,轉載必須注明作者和本文鏈接
    近年來,隨著大數據技術產品的不斷發展和多樣化,各個應用系統也會依據不同的業務場景選擇多個不同的技術組件,數據也隨之散落在各個存儲平臺之中。這種狀況給后續數據分析師在不同數據源之上進行數據的即席關聯查詢和分析帶來了新的難題,本文介紹了在數據不移動的前提下進行多源數據即席訪問的具體探索與實踐。
    據中國信息通信研究院《數據庫發展研究報告》預測,預計到2025年,全球數據庫市場規模將達到798億美元。2021年3月,“十四五”規劃綱要正式頒布,提出要培育壯大人工智能、大數據、區塊鏈等新興數字產業。國家也陸續印發不同領域的“十四五”規劃。
    該項目旨在今后為 CISA 打造一套“管理所有系統的系統”,提供“一個強大且可擴展和分析環境,能夠集成任務可見性數據集,并為 CISA 網絡操作人員提供可視化工具與高級分析能力。”
    美國國家態勢感知系統愛因斯坦大升級,全面擁抱數據驅動的分析
    此外,PyDeequ 可以與 Pandas DataFrames 進行流暢的接口,而不是在 Apache Spark DataFrames 內進行限制。Deequ 負責導出要對數據進行計算的所需指標集。Deequ 生成數據質量報告,其中包含約束驗證的結果。包裝器將命令轉換為底層 Deequ 調用并返回它們的響應。
    隨著網絡信息技術的更新換代,網絡空間已經深刻地改變了國際沖突的特點,博弈的核心在于對國家利益的爭奪和維護,關鍵環節在于如何通過各種策略方式對別國施加影響,進而達成本國利益訴求。2023 年,美國通過戰略路徑調整、完善網絡空間作戰力量、加速新興技術發展、打造新型態勢感知系統、研發網絡空間新型武器作戰平臺等舉措進一步推進網絡空間安全的發展,勢必帶動各國在網絡空間領域的持續投入與發展,可以預計,未來的網
    當前,網絡空間已經成為繼陸、海、空、天之后的第五大主權領域空間,也是國際戰略在網絡社會領域的演進,我國的網絡安全正面臨著嚴峻挑戰。“沒有網絡安全就沒有國家安全”,按照國家網絡安全法律、戰略和等級保護制度要求,推廣安全可信產品和服務,筑牢網絡安全底線是歷史的使命。新型基礎設施以數據和網絡為核心,其發展前提是用主動免疫的可信計算筑牢安全防線。
    全球數據庫漏洞情況和緩解措施
    Windows安全加固手冊
    2023-03-27 10:01:55
    操作步驟:開始—管理工具—本地安全策略—本地策略—安全選項—“關機:允許系統在未登錄的情況下關閉”,默認如下圖所示:?
    一顆小胡椒
    暫無描述
      亚洲 欧美 自拍 唯美 另类