<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    關鍵基礎部件如何保障高可靠?

    VSole2022-04-19 15:41:37

    4月14日,信服云可靠性技術專家Marshall在信服云《Tech Talk · 云技術有話聊》系列直播課上進行了《關鍵基礎部件可靠性技術解析》的分享,詳細介紹了 IT系統常見的物理故障對業務的可靠性的影響、如何運用軟件定義解決硬件故障等內容。以下是他分享的內容摘要,想要了解更多可以點擊閱讀原文觀看直播回放。

    一、可靠性的定義和目標

    可靠性是指系統不會意外地崩潰、重啟甚至發生數據丟失,這意味著一個可靠的系統必須能夠做到故障自修復,對于無法自修復的故障也盡可能進行隔離,保障系統其余部分正常運轉。簡而言之,可靠性的目標是縮短因故障(產品質量、外部部件、環境、人因等)造成的業務中斷時間。

    高可靠可以從三個層面理解:一,不出故障,系統可以一直正常運行,這種情況就需要提高硬件的研發質量。二,故障不影響業務。三,影響業務但能快速恢復。后兩個層面可以通過“軟件定義”的方式去規避硬件故障產生的業務中斷。

    談到可靠性,首先要了解服務器的關鍵基礎部件。從業界的服務器統計數據看,硬件部件的問題集中在內存、硬盤、CPU、主板、電源、網卡上。在云的環境當中,同一臺服務器上可能運行了若干不同業務、不同場景的虛擬機,一旦物理設備崩潰,將會波及眾多用戶,同時也會對運營商自身造成巨大損失。而在現有的故障模式中,內存、硬盤故障是最高發和最嚴重故障。

    關于內存和硬盤的故障,可以通過這兩個案例來進一步了解。

    案例一,內存UCE錯誤導致服務器系統反復宕機重啟。服務器發生宕機重啟,登錄服務器的BMC管理界面,查詢服務器的告警信息,出現如下告警:“2019-07-25 08:03:06 memory has a uncorrectable error.”后來,進一步查詢硬件錯誤日志文件,發現DIMM020有大量內存CE錯誤和部分內存UCE錯誤,可知是因為DIMM020內存條發生UCE錯誤導致服務器宕機重啟。

    案例二,磁盤卡慢導致大數據集群故障。某大數據平臺集群節點出現慢盤故障(系統每一秒執行一次iostat命令,監控磁盤I/O的系統指標,如果在60s內,svctm大于100ms的周期數大于30次則認為磁盤有問題,產生該告警)。先是ZOOKEEPER出現故障,后出現集群平衡狀態異常。然后同一節點的其他服務也出現故障,最后整個節點所有服務全部故障,隨后重啟自動恢復。但是在3-10分鐘之后該節點就會重復出現此情況。在未發現其他問題的情況下選擇重啟系統,業務中斷時間十幾分鐘。

    二、內存的可靠性技術

    內存從外部結構看有PCB板、金手指、內存芯片、內存條固定卡缺口等。從內部結構看,包括存儲體、存儲單元Cell、存儲陣列Bank、Chip(device)、Rank、DIMM、Channel等。

    基于內存的結構,內存技術的提升(制程縮小和頻率)容易帶來更高的故障率。

    制程縮小帶來的挑戰

    光刻更容易受到衍射,聚焦等影響質量。

     外延生長(EPI)容易出現漏生長和外延生長間的短路等。

     蝕刻清洗等工藝的particle造成的影響加重。

     單die尺寸變小,單wafer die數量增加。

     未來TSV封裝多die后段封裝難度加大,失效率增加。

    頻率提升帶來的挑戰

     高速信號時序margin更小,兼容性問題更突出。

     信號衰減更嚴重,DDR5增加DFE電路,設計更復雜。

     更高頻率帶來更高功耗,對PI的要求更高。

    內存故障按照“故障能不能糾正”可以分為兩類:CE(Correctable Error):可以糾正任意單比特錯誤、部分單顆粒多比特錯誤的統稱;UE(Uncorrectable Error):不能糾正的錯誤統稱。有一部分UE錯誤由于操作系統無法處理會導致系統宕機。

    內存發生故障的原因有:內存單元能量泄漏 leakage、內存數據傳輸路徑存在高阻抗、內存電壓工作異常、內部時序異常、內部操作異常(如自刷新)、bit line/word line線路異常、地址解碼線路異常、內存存在弱單元(可正常使用)、宇宙射線或放射性(沒有造成永久損傷)導致的軟失效(多次檢測故障不復現)。   

    在處理故障時,會進行分層處理,業內有軟件主導和和硬件主導兩種思想。基于硬件主導的觀點,會在器件選型的時候,選擇一些質量比較高的硬件,另外,硬件本身具備一些“可靠性”,比如會自動地糾正一些比較簡單的錯誤。

    但硬件是沒有辦法做得非常可靠的,就需要軟件去做一些工作。軟件定義的方式會把有故障的內存區域隔離出來,讓它不再使用,從而不會對業務產生影響。

    CE(可以糾正的錯誤)發生后,如果不去處理它,會有可能變成不可糾正的UE錯誤。所以要防微杜漸,發生CE(可以糾正的錯誤)時,要進一步處理,隔離出可疑的故障。 

    信服云針對內存CE故障隔離方案設計思路

    當內存硬件發生CE觸發中斷,看這些內存能否被隔離(不是被操作系統內核或外設使用),如果可以被隔離就加入白名單,對這些內存進行隔離。當使用內存隔離功能把發生故障的內存頁切換到正常的內存頁后,就把這個故障內存頁隔離出來不再使用。

    同時,這些故障發生的位置和次數等詳細信息會進行告警,幫助運維人員對故障內存條進行更換。針對沒有辦法隔離的內存,在系統下次重啟時根據重啟之前記錄的內存錯誤區域的信息,在系統沒有使用這些內存時就把有問題的內存部分隔離出來,這樣就保證系統使用的內存是沒有問題的部分。

    內存CE故障隔離方案總體架構

    信服云實施這個方案之后,通過收集現網運營數據統計,平均隔離成功成功率為96.93%。相較于業界一般的方案的CE屏蔽,不能及時隔離CE以及出錯后定位內存條的問題,信服云在方案上具有領先優勢,并且在這個領域申請了5項專利。隔離方案在使用過程中針對CPU和內存資源開銷小,并且效果明顯。

    針對內存UE故障,信服云的方案設計思路是解決內存UE的可恢復和提前預警問題,把一部分UE宕機降級為殺死對應應用程序,甚至只需隔離壞頁,避免宕機來提升系統穩定性和可靠性。至少提升30%以上內存故障恢復能力,信服云的解決方案能夠達到60% 內存UE故障恢復率,效果優于業界公開數據(業界普遍是UE故障恢復能覆蓋50%),在實際POC測試場景中,優于業界的一般方案(如一般方案會宕機,無內存故障告警日志,無法定位故障內存所在的插槽位置)。

    內存UE故障隔離方案總體架構

    三、硬盤的可靠性技術

    硬盤主要包括系統盤、緩存盤、數據盤。系統盤一般使用固態硬盤SSD,存放云平臺系統軟件和主機OS,以及相關的日志和配置。緩存盤一般使用固態硬盤SSD,利用SSD速度快的特性作為緩存盤作為IO讀寫提速的緩存層,用于存放用戶業務經常被訪問的數據,稱之為熱數據。數據盤一般使用機械硬盤HDD,容量高適合做數據盤則作為數據(如虛擬機的虛擬磁盤)最終存放的位置。

    硬盤TOP故障模式/分類:

    卡死:硬盤IO暫時或者一直不響應;

    卡慢:硬盤IO明顯變慢或者卡頓;

    壞道:硬盤邏輯單元(sector)損壞;

    壞塊:硬盤物理單元(block)損壞;

    壽命不足:機械硬盤物理磨損,或者固態硬盤的閃存顆粒積極達到擦寫次數。

    當硬盤出現輸入輸出(Input Output,I/O)響應時間變長,或者卡住不返回的情況,會導致用戶業務持續出現卡慢,甚至掛起,一塊硬盤卡住甚至會導致系統的全部業務中斷。

    隨著使用年限的增加,硬盤出現壞道、磁頭退化或者其他問題的概率也在增加;從歷史問題分布、以及業界硬盤可靠性故障曲線,都可以看到硬盤卡盤問題正成為影響系統穩定運行的最嚴重問題之一

    信服云卡慢盤解決方案總體架構

    信服云針對卡慢盤解決方案的思路:

    1.針對磁盤卡慢故障模式復雜的問題,多維度檢測確診。采用了Linux通用的工具和信息,不依賴特定硬件工具,包括內核日志分析、smart信息分析、硬盤io監控數據分析等從多個維度精確定位故障硬盤。

    2.針對卡慢盤處置時業務還是數據的抉擇,制定了多級隔離算法。①輕度慢盤:不隔離,在頁面告警通知用戶;②嚴重慢盤:選擇業務:對端異常時不隔離,頁面告警通知用戶;③卡盤:選擇業務:第一次出現對端異常時不隔離,頁面告警通知用戶;④卡盤(頻繁):選擇數據:一個小時內出現3次異常,進行永久隔離。

    3.在多級隔離算法的基礎上進行閾值打磨。用大量真實卡慢盤進行測試以及用戶側采集的數據制定更加精準的卡慢檢測閾值;使用故障注入工具進行閾值驗證。

    開啟卡慢盤功能后的效果,可保障1min內觸發隔離,虛擬機未出現HA,隔離后業務IO恢復穩定。

    以上就是本次直播的主要內容。對云計算感興趣的IT朋友可以點擊閱讀原文回顧本期直播,了解更多云計算知識。

    硬盤存儲硬盤磁頭
    本作品采用《CC 協議》,轉載必須注明作者和本文鏈接
    Linux高可用服務器集群解決方案讓IT系統管理員可以從容應對許多常見的硬件和軟件故障,允許多臺計算機一起工作,為關鍵服務正常運行提供保障,系統管理員可以不中斷服務執行維護和升級。Linux功能豐富、強大、靈活,你可以用它完成各種任務,在這篇文章中,我們將討論一些提高Linux服務器性能的技巧。
    Linux是一種開源操作系統,它支持各種硬件平臺,Linux服務器全球知名,它和Windows之間最主要的差異在于,Linux服務器默認情況下一般不提供GUI(圖形用戶界面),而是命令行界面,它的主要目的是高效處理非交互式進程,響應時間并不是那么重要,相反,能夠長時間處理高負載才是最關鍵的。
    在開始介紹如何優化sql前,先附上mysql內部邏輯圖讓大家有所了解連接器:?優先在緩存中進行查詢,如果查到了則直接返回,如果緩存中查詢不到,在去數據庫中查詢。
    至少一個主要的勒索軟件團伙正在濫用VMWare ESXi產品中的漏洞,以接管部署在企業環境中的虛擬機并對其虛擬硬盤進行加密。該攻擊出于去年10月首次曝光,與部署RansomExx勒索軟件的犯罪集團的入侵有關。該協議也包含在ESXi中。該漏洞使同一網絡上的攻擊者可以將惡意SLP請求發送到ESXi設備并對其進行控制,即使攻擊者沒有設法破壞ESXi實例通常向其報告的VMWare vCenter Server。
    云計算技術在計算機安全存儲中應用價值較為理想,優勢顯著,主要是用于分析整理數據,為用戶進行智能推送。基于種種計算機存儲行業疑難,姚亞軍運用云計算技術優化數據存儲方法和存儲環境,最大程度上降低計算機病毒入侵的可能性,云計算技術還有自動化備份的功能,可以減少用戶人為操作失誤造成數據丟失情況發生。在這一過程中,數據的存儲都是可控的,姚亞軍針對存儲和提取兩個過程進行安全保護。
    之前花過一段時間研究群暉的NAS設備,并發現了一些安全問題,同時該研究內容入選了安全會議POC2019和HITB2021AMS。
    文章速覽:為什么要使用便攜式網絡取證工具?構建便攜式網絡取證套件法證分析ProfiShark 1G作為便攜式分路器的優點 網絡安全領域日益重視便攜式取證工具的靈活應用。本文介紹了如何構建一個以ProfiShark 1G為核心的便攜式網絡取證工具包,以提高網絡取證的效率和實效性。 一、為什么要使用便攜式網絡取證工具?1、企業自身需求網絡取證和網絡安全團隊需要具備攔截網絡流量和實時
    剖析網絡全流量系統
    廣義上講,凡是有固定載體、不會瞬間消失的持久化數據都是落地數據,例如存儲硬盤上的數據。與之對應,存儲在內存中或在網絡中傳輸的、使用完畢就會消失的數據就是不落地數據。具體到本文中的安全場景,無需下載到本地設備即可進行編輯和處理的數據,都可以理解為不落地數據。
    VSole
    網絡安全專家
      亚洲 欧美 自拍 唯美 另类