不久前馬斯克收購了twitter,大刀闊斧裁撤了N多軟件技術員工,只保留1K量級的保底技術人員,很快就遭遇了一次史無前例的大崩潰。馬斯克大丈夫能屈能伸,又將一些舉足輕重的工程師召回救火。。。

一直以尊重技術人才的著稱的馬斯克,都能大刀闊斧裁撤技術人才。事實上馬斯克是懂技術的,也深深地知道技術人才有太多的冗余人員,通過這一波崩潰,會發現哪些人才是公司不可或缺的,哪些是真正的冗余人員。

國內的互聯網巨頭,資本利益驅動。光景好的時候,蘿卜白菜全到碗里來。前景不妙時,裁撤人員毫不手軟。傷筋動骨到波及主干人才,立馬給老板一個顏色,崩潰或早或遲,并不是偶然的。

據聞A字頭互聯網巨頭一HR,下放到一合資公司做HRD,牛皮哄哄的,沒有任何技術背景,質疑技術專家的技術過時了,臉上寫滿了傲慢與自以為是。技術專家想的是,把A字頭的所有的HR全干掉,公司依然堅挺。把技術全干掉,哼哼。。。哈哈。。

毫不夸張地說,互聯網巨頭的網絡是極其復雜的,復雜到任何一個個體都無法應對。eBay工作期間,管理全球17000多臺交換機、路由器、防火墻,35000+臺服務器。監控平臺上幾乎每一分鐘都會有報警,鏈路down了,CPU高了、溫度高了、風扇不轉了。。。

公司對互聯網用戶接口提供了12個國際出入口,內部核心則是3個超大數據中心,以三角形組網。任何1個出入口斷了,都影響不大,出入流量會自動切到其他11個出入口。極端一點,即使11個出入口都斷了,只要有1個出入口,用戶就可以交易。

即使發生了1個出入口斷開,也會自動觸發一個一級(L1)的報警,technical board會立馬組織一個緊急會議,各個技術部門的技術人員都會加入,架構的、操作系統的、軟件的、網絡的、安全的、數據庫的、負載均衡的等等,然后大家群策群力第一時間將斷開的鏈路恢復。如此重要的互聯網的鏈路發生故障,網絡提供商是足夠重視的,可是即使重視也無法阻擋失效小概率事件的發生。試想一下,網絡配置并沒有任何變化,以前一直好好的網絡怎么就崩潰了呢?

是啊,硬件還是原來的硬件,軟件還是原來的軟件,配置還是原來的配置,怎么就故障了呢?

可是,出入的流量是變化的啊!以前沒有遭遇的流量,今天就遭遇到了異常流量,導致了軟硬件崩潰。怎么辦?

去查日志文件,去查traceback文件。Trace back文件會記錄系統在活蹦亂跳時的函數的調用順序,并記錄死在哪個函數上!

記得遭遇過UDP報文 > 2000 byte,就會讓FP轉發板reboot,找到問題的root cause并盡快修復它,這就是技術人員的價值存在。

即使12個出入口都健在,最后的交易依然要訪問后臺數據庫,數據庫要是崩潰了,即使流量可以自由出入,但依然是無法交易的。

技術線是一個流水線,而要讓整個系統行云流水提供絲般光滑的五星服務,每個流水線上的人才都不可或缺。裁員的大刀砍掉了任何一個節點,也許一時沒問題,可是時間久了,小概率時間越積越多就會變成一個大概率事件,然后就好看了。。。