CenturyLink 中斷導致全球網絡流量下降 3.5%
CenturyLink事件導致Cloudflare,Reddit,Hulu,AWS,暴雪,Steam,Xbox Live,Discord等數十家網站癱瘓。
美國互聯網服務提供商CenturyLink周日遭受重大技術故障,原因是該公司一個數據中心的錯誤配置造成了整個互聯網的混亂。
由于中斷的技術性質(包括防火墻和BGP路由),該錯誤從CenturyLink的網絡向外傳播,并且還影響了其他Internet服務提供商,最終導致更多其他公司的連接問題。
由于CenturyLink中斷,今天提供服務的科技巨頭的名單包括亞馬遜,Twitter,微軟(Xbox Live),EA,暴雪,Steam,Discord,Reddit,Hulu,Duo Security,Imperva,NameCheap,OpenDNS等知名公司都出現了中斷。
今天還受到嚴重影響的Cloudflare表示,CenturyLink的向外傳播問題導致全球互聯網流量下降3.5%,這將成為有史以來最大的互聯網中斷之一。
根本原因:Flowspec規則配置錯誤
根據CenturyLink狀態頁面顯示,此問題起源于CenturyLink位于加拿大Ontario附近城市Mississauga的數據中心。
電信公司說,事件的根本原因是錯誤的Flowspec公告。
Flowspec是BGP協議的擴展,允許公司使用BGP路由在其網絡中分發防火墻規則。在處理諸如BGP劫持或DDoS攻擊等安全事件時,通常使用Flowspec公告,因為它使公司可以更改整個網絡以在幾秒鐘內做出反應并緩解攻擊。
但是,今天,CenturyLink表示,其Mississauga數據中心發出了錯誤的Flowspec公告,這實際上阻止了該公司的BGP路由扎根。
Cloudflare從遠處觀察到這一事件,認為CenturyLink宣布了一組全新的BGP路由,然后通過錯誤配置的Flowspec規則意外丟失了所有路由,從而有效地將其整個網絡帶入了一個循環。
BGP路由是保持互聯網暢通的粘合劑。它們是互聯網公司之間相互傳遞的一種信息。BGP路由告訴每個互聯網提供商其網絡上哪些IP地址塊可用。
但是,由于CenturyLink錯誤的Flowspec命令導致其網絡內的某些路由器癱瘓,其中一些路由器還開始宣告到其他“Tier 1”相鄰互聯網服務的BGP路由不正確。
這反過來又導致了其他網絡像domino-like一樣崩潰。
故障需要七個小時才能解決
CenturyLink通過采取罕見的步驟告訴所有其他 Tier 1 互聯網提供商取消對等網絡,而忽略了來自其網絡的任何流量,從而解決了該問題。公司很少做出此類決定,因為這會導致其所有客戶的全部連接中斷。

該公司表示,總而言之,CenturyLink必須重置所有設備,并從干凈的BGP路由表開始,該過程花費了將近七個小時的時間,從大約12:13 UTC到18:58 UTC。
Cloudflare的聯合創始人兼首席執行官Matthew Prince在對中斷進行分析時說:“這是一次重大的全球Internet中斷。”