?如何看待阿里云等大廠平臺相繼發生崩潰故障？

不久前馬斯克收購了twitter，大刀闊斧裁撤了N多軟件技術員工，只保留1K量級的保底技術人員，很快就遭遇了一次史無前例的大崩潰。馬斯克大丈夫能屈能伸，又將一些舉足輕重的工程師召回救火。。。

一直以尊重技術人才的著稱的馬斯克，都能大刀闊斧裁撤技術人才。事實上馬斯克是懂技術的，也深深地知道技術人才有太多的冗余人員，通過這一波崩潰，會發現哪些人才是公司不可或缺的，哪些是真正的冗余人員。

國內的互聯網巨頭，資本利益驅動。光景好的時候，蘿卜白菜全到碗里來。前景不妙時，裁撤人員毫不手軟。傷筋動骨到波及主干人才，立馬給老板一個顏色，崩潰或早或遲，并不是偶然的。

據聞A字頭互聯網巨頭一HR，下放到一合資公司做HRD，牛皮哄哄的，沒有任何技術背景，質疑技術專家的技術過時了，臉上寫滿了傲慢與自以為是。技術專家想的是，把A字頭的所有的HR全干掉，公司依然堅挺。把技術全干掉，哼哼。。。哈哈。。

毫不夸張地說，互聯網巨頭的網絡是極其復雜的，復雜到任何一個個體都無法應對。eBay工作期間，管理全球17000多臺交換機、路由器、防火墻，35000+臺服務器。監控平臺上幾乎每一分鐘都會有報警，鏈路down了，CPU高了、溫度高了、風扇不轉了。。。

公司對互聯網用戶接口提供了12個國際出入口，內部核心則是3個超大數據中心，以三角形組網。任何1個出入口斷了，都影響不大，出入流量會自動切到其他11個出入口。極端一點，即使11個出入口都斷了，只要有1個出入口，用戶就可以交易。

即使發生了1個出入口斷開，也會自動觸發一個一級（L1）的報警，technical board會立馬組織一個緊急會議，各個技術部門的技術人員都會加入，架構的、操作系統的、軟件的、網絡的、安全的、數據庫的、負載均衡的等等，然后大家群策群力第一時間將斷開的鏈路恢復。如此重要的互聯網的鏈路發生故障，網絡提供商是足夠重視的，可是即使重視也無法阻擋失效小概率事件的發生。試想一下，網絡配置并沒有任何變化，以前一直好好的網絡怎么就崩潰了呢？

是啊，硬件還是原來的硬件，軟件還是原來的軟件，配置還是原來的配置，怎么就故障了呢？

可是，出入的流量是變化的啊！以前沒有遭遇的流量，今天就遭遇到了異常流量，導致了軟硬件崩潰。怎么辦？

去查日志文件，去查traceback文件。Trace back文件會記錄系統在活蹦亂跳時的函數的調用順序，并記錄死在哪個函數上！

記得遭遇過UDP報文 > 2000 byte，就會讓FP轉發板reboot，找到問題的root cause并盡快修復它，這就是技術人員的價值存在。

即使12個出入口都健在，最后的交易依然要訪問后臺數據庫，數據庫要是崩潰了，即使流量可以自由出入，但依然是無法交易的。

技術線是一個流水線，而要讓整個系統行云流水提供絲般光滑的五星服務，每個流水線上的人才都不可或缺。裁員的大刀砍掉了任何一個節點，也許一時沒問題，可是時間久了，小概率時間越積越多就會變成一個大概率事件，然后就好看了。。。