CenturyLink 中斷導致全球網絡流量下降 3.5%

Andrew2020-08-31 10:06:02

CenturyLink事件導致Cloudflare，Reddit，Hulu，AWS，暴雪，Steam，Xbox Live，Discord等數十家網站癱瘓。

美國互聯網服務提供商CenturyLink周日遭受重大技術故障，原因是該公司一個數據中心的錯誤配置造成了整個互聯網的混亂。

由于中斷的技術性質（包括防火墻和BGP路由），該錯誤從CenturyLink的網絡向外傳播，并且還影響了其他Internet服務提供商，最終導致更多其他公司的連接問題。

由于CenturyLink中斷，今天提供服務的科技巨頭的名單包括亞馬遜，Twitter，微軟（Xbox Live），EA，暴雪，Steam，Discord，Reddit，Hulu，Duo Security，Imperva，NameCheap，OpenDNS等知名公司都出現了中斷。

今天還受到嚴重影響的Cloudflare表示，CenturyLink的向外傳播問題導致全球互聯網流量下降3.5％，這將成為有史以來最大的互聯網中斷之一。

根本原因：Flowspec規則配置錯誤

根據CenturyLink狀態頁面顯示，此問題起源于CenturyLink位于加拿大Ontario附近城市Mississauga的數據中心。

電信公司說，事件的根本原因是錯誤的Flowspec公告。

Flowspec是BGP協議的擴展，允許公司使用BGP路由在其網絡中分發防火墻規則。在處理諸如BGP劫持或DDoS攻擊等安全事件時，通常使用Flowspec公告，因為它使公司可以更改整個網絡以在幾秒鐘內做出反應并緩解攻擊。

但是，今天，CenturyLink表示，其Mississauga數據中心發出了錯誤的Flowspec公告，這實際上阻止了該公司的BGP路由扎根。

Cloudflare從遠處觀察到這一事件，認為CenturyLink宣布了一組全新的BGP路由，然后通過錯誤配置的Flowspec規則意外丟失了所有路由，從而有效地將其整個網絡帶入了一個循環。

BGP路由是保持互聯網暢通的粘合劑。它們是互聯網公司之間相互傳遞的一種信息。BGP路由告訴每個互聯網提供商其網絡上哪些IP地址塊可用。

但是，由于CenturyLink錯誤的Flowspec命令導致其網絡內的某些路由器癱瘓，其中一些路由器還開始宣告到其他“Tier 1”相鄰互聯網服務的BGP路由不正確。

這反過來又導致了其他網絡像domino-like一樣崩潰。

CenturyLink通過采取罕見的步驟告訴所有其他 Tier 1 互聯網提供商取消對等網絡，而忽略了來自其網絡的任何流量，從而解決了該問題。公司很少做出此類決定，因為這會導致其所有客戶的全部連接中斷。

CenturyLink中斷導致全球Web流量下降了3.5％

該公司表示，總而言之，CenturyLink必須重置所有設備，并從干凈的BGP路由表開始，該過程花費了將近七個小時的時間，從大約12:13 UTC到18:58 UTC。

Cloudflare的聯合創始人兼首席執行官Matthew Prince在對中斷進行分析時說：“這是一次重大的全球Internet中斷。”

網絡流量中斷處理

本作品采用《CC 協議》，轉載必須注明作者和本文鏈接