關鍵基礎部件如何保障高可靠？ - 網安 - 專業的網絡安全產業、社區、知識平臺

4月14日，信服云可靠性技術專家Marshall在信服云《Tech Talk · 云技術有話聊》系列直播課上進行了《關鍵基礎部件可靠性技術解析》的分享，詳細介紹了 IT系統常見的物理故障對業務的可靠性的影響、如何運用軟件定義解決硬件故障等內容。以下是他分享的內容摘要，想要了解更多可以點擊閱讀原文觀看直播回放。

一、可靠性的定義和目標

可靠性是指系統不會意外地崩潰、重啟甚至發生數據丟失，這意味著一個可靠的系統必須能夠做到故障自修復，對于無法自修復的故障也盡可能進行隔離，保障系統其余部分正常運轉。簡而言之，可靠性的目標是縮短因故障（產品質量、外部部件、環境、人因等）造成的業務中斷時間。

高可靠可以從三個層面理解：一，不出故障，系統可以一直正常運行，這種情況就需要提高硬件的研發質量。二，故障不影響業務。三，影響業務但能快速恢復。后兩個層面可以通過“軟件定義”的方式去規避硬件故障產生的業務中斷。

談到可靠性，首先要了解服務器的關鍵基礎部件。從業界的服務器統計數據看，硬件部件的問題集中在內存、硬盤、CPU、主板、電源、網卡上。在云的環境當中，同一臺服務器上可能運行了若干不同業務、不同場景的虛擬機，一旦物理設備崩潰，將會波及眾多用戶，同時也會對運營商自身造成巨大損失。而在現有的故障模式中，內存、硬盤故障是最高發和最嚴重故障。

關于內存和硬盤的故障，可以通過這兩個案例來進一步了解。

案例一，內存UCE錯誤導致服務器系統反復宕機重啟。服務器發生宕機重啟，登錄服務器的BMC管理界面，查詢服務器的告警信息，出現如下告警：“2019-07-25 08:03:06 memory has a uncorrectable error.”后來，進一步查詢硬件錯誤日志文件，發現DIMM020有大量內存CE錯誤和部分內存UCE錯誤，可知是因為DIMM020內存條發生UCE錯誤導致服務器宕機重啟。

案例二，磁盤卡慢導致大數據集群故障。某大數據平臺集群節點出現慢盤故障（系統每一秒執行一次iostat命令，監控磁盤I/O的系統指標，如果在60s內，svctm大于100ms的周期數大于30次則認為磁盤有問題，產生該告警）。先是ZOOKEEPER出現故障，后出現集群平衡狀態異常。然后同一節點的其他服務也出現故障，最后整個節點所有服務全部故障，隨后重啟自動恢復。但是在3-10分鐘之后該節點就會重復出現此情況。在未發現其他問題的情況下選擇重啟系統，業務中斷時間十幾分鐘。

二、內存的可靠性技術

內存從外部結構看有PCB板、金手指、內存芯片、內存條固定卡缺口等。從內部結構看，包括存儲體、存儲單元Cell、存儲陣列Bank、Chip（device）、Rank、DIMM、Channel等。

基于內存的結構，內存技術的提升（制程縮小和頻率）容易帶來更高的故障率。

制程縮小帶來的挑戰

○ 光刻更容易受到衍射，聚焦等影響質量。

○ 外延生長（EPI）容易出現漏生長和外延生長間的短路等。

○ 蝕刻清洗等工藝的particle造成的影響加重。

○ 單die尺寸變小，單wafer die數量增加。

○ 未來TSV封裝多die后段封裝難度加大，失效率增加。

頻率提升帶來的挑戰

○ 高速信號時序margin更小，兼容性問題更突出。

○ 信號衰減更嚴重，DDR5增加DFE電路，設計更復雜。

○ 更高頻率帶來更高功耗，對PI的要求更高。

內存故障按照“故障能不能糾正”可以分為兩類：CE（Correctable Error）：可以糾正任意單比特錯誤、部分單顆粒多比特錯誤的統稱；UE（Uncorrectable Error）：不能糾正的錯誤統稱。有一部分UE錯誤由于操作系統無法處理會導致系統宕機。

內存發生故障的原因有：內存單元能量泄漏 leakage、內存數據傳輸路徑存在高阻抗、內存電壓工作異常、內部時序異常、內部操作異常（如自刷新）、bit line/word line線路異常、地址解碼線路異常、內存存在弱單元（可正常使用）、宇宙射線或放射性（沒有造成永久損傷）導致的軟失效（多次檢測故障不復現）。

在處理故障時，會進行分層處理，業內有軟件主導和和硬件主導兩種思想。基于硬件主導的觀點，會在器件選型的時候，選擇一些質量比較高的硬件，另外，硬件本身具備一些“可靠性”，比如會自動地糾正一些比較簡單的錯誤。

但硬件是沒有辦法做得非常可靠的，就需要軟件去做一些工作。軟件定義的方式會把有故障的內存區域隔離出來，讓它不再使用，從而不會對業務產生影響。

CE（可以糾正的錯誤）發生后，如果不去處理它，會有可能變成不可糾正的UE錯誤。所以要防微杜漸，發生CE（可以糾正的錯誤）時，要進一步處理，隔離出可疑的故障。

信服云針對內存CE故障隔離方案設計思路

當內存硬件發生CE觸發中斷，看這些內存能否被隔離（不是被操作系統內核或外設使用），如果可以被隔離就加入白名單，對這些內存進行隔離。當使用內存隔離功能把發生故障的內存頁切換到正常的內存頁后，就把這個故障內存頁隔離出來不再使用。

同時，這些故障發生的位置和次數等詳細信息會進行告警，幫助運維人員對故障內存條進行更換。針對沒有辦法隔離的內存，在系統下次重啟時根據重啟之前記錄的內存錯誤區域的信息，在系統沒有使用這些內存時就把有問題的內存部分隔離出來，這樣就保證系統使用的內存是沒有問題的部分。

內存CE故障隔離方案總體架構

信服云實施這個方案之后，通過收集現網運營數據統計，平均隔離成功成功率為96.93%。相較于業界一般的方案的CE屏蔽，不能及時隔離CE以及出錯后定位內存條的問題，信服云在方案上具有領先優勢，并且在這個領域申請了5項專利。隔離方案在使用過程中針對CPU和內存資源開銷小，并且效果明顯。

針對內存UE故障，信服云的方案設計思路是解決內存UE的可恢復和提前預警問題，把一部分UE宕機降級為殺死對應應用程序，甚至只需隔離壞頁，避免宕機來提升系統穩定性和可靠性。至少提升30%以上內存故障恢復能力，信服云的解決方案能夠達到60% 內存UE故障恢復率，效果優于業界公開數據（業界普遍是UE故障恢復能覆蓋50%），在實際POC測試場景中，優于業界的一般方案（如一般方案會宕機，無內存故障告警日志，無法定位故障內存所在的插槽位置）。

內存UE故障隔離方案總體架構

三、硬盤的可靠性技術

硬盤主要包括系統盤、緩存盤、數據盤。系統盤一般使用固態硬盤SSD，存放云平臺系統軟件和主機OS，以及相關的日志和配置。緩存盤一般使用固態硬盤SSD，利用SSD速度快的特性作為緩存盤作為IO讀寫提速的緩存層，用于存放用戶業務經常被訪問的數據，稱之為熱數據。數據盤一般使用機械硬盤HDD，容量高適合做數據盤則作為數據（如虛擬機的虛擬磁盤）最終存放的位置。

硬盤TOP故障模式/分類：

卡死：硬盤IO暫時或者一直不響應；

卡慢：硬盤IO明顯變慢或者卡頓；

壞道：硬盤邏輯單元（sector）損壞；

壞塊：硬盤物理單元（block）損壞；

壽命不足：機械硬盤物理磨損，或者固態硬盤的閃存顆粒積極達到擦寫次數。

當硬盤出現輸入輸出（Input Output，I/O）響應時間變長，或者卡住不返回的情況，會導致用戶業務持續出現卡慢，甚至掛起，一塊硬盤卡住甚至會導致系統的全部業務中斷。

隨著使用年限的增加，硬盤出現壞道、磁頭退化或者其他問題的概率也在增加；從歷史問題分布、以及業界硬盤可靠性故障曲線，都可以看到硬盤卡盤問題正成為影響系統穩定運行的最嚴重問題之一。

信服云卡慢盤解決方案總體架構

信服云針對卡慢盤解決方案的思路：

1.針對磁盤卡慢故障模式復雜的問題，多維度檢測確診。采用了Linux通用的工具和信息，不依賴特定硬件工具，包括內核日志分析、smart信息分析、硬盤io監控數據分析等從多個維度精確定位故障硬盤。

2.針對卡慢盤處置時業務還是數據的抉擇，制定了多級隔離算法。①輕度慢盤：不隔離，在頁面告警通知用戶；②嚴重慢盤：選擇業務：對端異常時不隔離，頁面告警通知用戶；③卡盤：選擇業務：第一次出現對端異常時不隔離，頁面告警通知用戶；④卡盤（頻繁）：選擇數據：一個小時內出現3次異常，進行永久隔離。

3.在多級隔離算法的基礎上進行閾值打磨。用大量真實卡慢盤進行測試以及用戶側采集的數據制定更加精準的卡慢檢測閾值；使用故障注入工具進行閾值驗證。

開啟卡慢盤功能后的效果，可保障1min內觸發隔離，虛擬機未出現HA，隔離后業務IO恢復穩定。

以上就是本次直播的主要內容。對云計算感興趣的IT朋友可以點擊閱讀原文回顧本期直播，了解更多云計算知識。