對于后端程序員來說,“高并發”并非新鮮的話題,經歷過一次服務器宕機,職業生涯才“完整”。

但如果事故超過 12 小時,或許會直接造成職業生涯“宕機”!

3 月 29 日,#唯品會崩了#的話題登上熱搜。 

近日,事件后續來了。

唯品會發布了關于 329 機房宕機故障處理公告:此次南沙機房重大故障,影響客戶達 800 多萬,判定為 P0 級故障,對負責人予以免職處理。

1、“崩”上熱搜:損失超億元,持續12小時

說起來,一切都還要追溯到 3 月末。

3 月 29 日,有多名網友反饋唯品會“崩了”,用驗證碼登錄時顯示網絡錯誤,登不上去。

隨后,唯品會官方微博表示:因系統短時故障,導致主站“加購”等功能或出現異常。

圖源:微博截圖

時隔 2 個多月,唯品會官方對故障事件做出了回應。

據悉,此次南沙機房重大故障的主要原因是南沙 IDC 冷凍系統故障導致機房設備溫度快速升高宕機,造成線上商城停止服務。

故障影響時間持續 12 個小時,導致公司業績損失超億元,影響客戶達 800 多萬,公司將此次故障判定為 P0 級故障。( P0 屬于最高級別事故,比如崩潰、頁面無法訪問、主流程不通、主功能未實現,或在影響面上影響很大。)

與此同時,唯品會認為此次事故暴露出容災應急預案和風險防范措施不到位,并決定對此次事件嚴肅處理。對應部門的直接管理者承擔此次事故責任,基礎平臺部負責人予以免職做相應處理。

其實,類似 329 號機房宕機的事故并非首次發生。

但毋庸置疑的是,唯品會作為擁有大量用戶的電商平臺,服務器和網絡設備的正常運行至關重要。任何一次宕機事件,都會導致平臺無法提供正常的服務,因此,每一次故障背后的原因和影響都值得大家思考,并引以為戒。

2、騰訊旗下社交軟件受到“牽連”

同樣值得注意的是,受到此次機房事故影響的還有微信、QQ 等騰訊旗下社交軟件,包括微信語音對話、朋友圈、微信支付,以及 QQ 文件傳輸、QQ 空間和QQ 郵箱在內的多個功能無法使用。

圖源:微博截圖

對此,騰訊微信團隊在 3 月 29 日上午發布信息稱:“今天凌晨部分用戶使用微信、微信支付相關功能出現異常,經工程師搶修,系統正在逐步恢復,很抱歉給大家帶來不便。”

與此同時,騰訊內部對此事件的評估為“一級事故”,并對幾名高管進行了不同程度的批評、降級和和免職處罰處理。

3、高并發引起的服務器宕機,頻繁發生

隨著直播電商平臺的發展,用戶數的增多導致高并發的概率增大。

近年來,各大平臺、熱門 APP 的服務器,都似乎難逃卡頓、崩潰乃至宕機的宿命。

2017 年雙十一凌晨,在數百萬消費者的激情涌入天貓之際,出現了大量手機淘寶、手機天貓的用戶無法付款和修改地址,訂單、足跡、收藏夾、紅包卡券等異常問題,直到 12 點 30 分,天貓的服務器才恢復正常。

2021 年 10 月 20 日晚上,就在淘寶電商大促“雙十一”剛開始之際,不少用戶發現淘寶出現了客服聊天窗口消息發不出、不能點確認收貨等諸多問題。隨后,#淘寶崩了# 話題迅速登上微博熱搜榜,并占據榜首第一。

如今,即使互聯網相關技術已經迭代多輪,卻仍然存在許多大規模以及時間長的宕機事件發生。

針對這類問題,在 CSDN 之前報道的《“一天宕機三次”,為什么高并發這么難?》一文中提到,可以從兩個方面進行解析:

  • 一方面故障是不可避免的,有人為的故障(人是容易出錯的——Human Error)和非人為的故障(機器 Failure)。這些是無計劃的停機,還有有計劃的停機,如發布新系統、升級維護、更新硬件等。這也是為什么行業中即使部分公司做得再好也只能說自己能做到多少個 9,而非 100% 的主要原因。
  • 當前,我們所能努力的就是盡可能地做到多少個 9,這其中需要很強的技術實力支撐。

級別

可用性級別

通俗說法

年度停機時間

配套措施

基本可用性

99%

2 個 9

3d-15h-39m-29s

服務在一個數據中心里有冗余,簡單基礎的自動化運維

高可用性

99.9%

3 個 9

8h-45m-56s 

大量的自動化故障工具,以及各種控制調度系統等基礎設施要做好

具有故障自動恢復

99.99%

4 個 9

52m-35s

本地多機房(像 AWS 一樣每個地方都有三個可用區)

極高可用性

99.999%

5 個 9

5m-15s

遠程多機房,異地多活

  • 另一方面,從分布式架構設計來說,世界上的軟件都是有故障的,當故障發生時,大家首先希望故障不要蔓延開,能夠控制得住,其次還希望故障的時間越短越好,不要太長。

然而,架構系統也有很多的依賴,如基礎設施 DNS、CDN、運營商、機房等等,想要實現穩定,需要大家一起實現。

4、網友:請給程序員加工資!

的確,服務器一旦宕機,消費者就無法對網站進行訪問,客戶下不了單,直接就會對公司經濟利潤造成很大的影響,甚至還可能影響到網站在搜索引擎上的收錄和排名。

因此,每一年各個平臺的促銷拉開序幕之際,開發和運維人員都面臨巨大的挑戰。

伴隨著#唯品會崩了相關負責人被免職#等話題再次引發大家關注,許多人紛紛留言表示:

  • “希望以后大公司會有一套很完善的避免和處理宕機事故的流程”;
  • “宕機是各家常有現象,這么久的處理時間就確實邋遢了”;
  • “還是要加強基礎設施建設和技術管理”;
  • “關鍵時候千萬不能崩,這個影響到的客戶數量”。

與此同時,也有不少網友借此表達了對程序員職業的關懷:

  • “服務器宕機這個事情挺正常的,辛苦開發人員們維護了”;
  • “我曾經是程序員,知道維護的不易,請給程序員們加工資”。

那么,你經歷過服務器宕機嗎?可以在評論區留言和討論。

參考鏈接:

https://news.mydrivers.com/1/914/914671.htm

https://www.163.com/dy/article/I6HMABGN0553V12F.html

https://k.sina.com.cn/article_3172142827_bd130eeb0190120sh.html