國外斷網事故接連發生，給我們敲醒了怎樣的警鐘？ - 網安 - 專業的網絡安全產業、社區、知識平臺

近期，日本電信運營商KDDI和加拿大電信運營商Rogers相繼出現斷網事件，網絡中斷時間長，波及面積大，影響范圍廣，引起了全球電信行業的普遍關注。通常而言，運營商對于電信網絡質量有著較高要求，不會輕易出現故障問題。那么，向來以質量可靠著稱的電信網絡為何出現重大質量事故？電信級的高可靠網絡服務在網絡IT化、云化的時代如何繼續保持？

斷網事故接連發生

加拿大三大電信運營商之一的Rogers近期出現大規模斷網事故，該公司遍布加拿大全境的無線網絡用戶、有線電視用戶和互聯網用戶都受到影響，與此相關聯的公共服務公司也因為網絡故障而不得不停止服務，缺少通信和網絡的社會毫無征兆地進入了“停擺”狀態。根據互聯網檢測公司NetBlocks在推特上發布的信息，該故障影響了加拿大近1/4可監測到的連接。

與此相類似，日本電信運營商KDDI在7月初也出現了通信中斷故障。該故障影響了約1/3的日本人口，且持續時間很長，時隔86小時網絡才全面恢復。信息社會對網絡和通信的依賴放大了故障的影響，不要說電子商務、移動支付、電子門票、電子政務、遠程辦公、在線教育、視頻直播等應用，就連搶險救災、醫療救助、氣候預警等緊急需求，也都被迫進入非正常的狀態。

加拿大創新、科技及工業部長Fran?ois-Philippe Champagne對Rogers斷網事故發表評述：“這一不可接受的局面說明了，為什么質量、選擇多樣性和可靠性在電信網絡中如此關鍵。”

在隨后的一份聲明中，Rogers的CEO Tony Staffieri將可能導致斷網的原因范圍縮小到了核心網絡的維護升級，以及由此所導致的路由器工作異常。他還提出將更為深入地定位問題的根源，并通過增加冗余的方式避免故障的重復出現。Tony Staffieri說道：“我們將采取所有必要的舉措，持續加大網絡投資，以強化系統、增加網絡健壯性，并加強相關的網絡測試。”

從這段簡短的表述中，我們可以解讀出一些重要信息：第一，該網絡中斷不是因為遭受外部攻擊所致，而是因為內部升級引起的，換句話說，這是一個“主動”變化所引起的；第二，通過冗余方式能夠避免故障的重現，說明網絡中某些關鍵部分存在單點故障的風險；第三，“加強測試”，可能意味著在“主動”變化后缺乏相關的測試，沒有及時發現問題或是為變化的回退留出余地；第四，“持續加大網絡投資”，可能意味著當前對網絡可靠性/健壯性的投入不足。

電信網絡IT化的必然挑戰

在服務中斷的時候，網絡服務的可靠性以及出現故障后的及時恢復、自愈、防災備份等問題，充分凸顯出來——尤其在電信系統IT化、云化的過程中，這些問題需要得到特別的關注。傳統電信網絡的設計思路與IT網絡是不相同的。電信級服務對可靠性和容災有著嚴苛的要求，這就需要電信網絡從各個層面提供可靠性和容災保護，包括服務器設備、網卡設備、交換機設備、交換機鏈路、網關設備，至少要提供“1+1”的冗余。除此之外，還要提供高效的備份恢復能力、異地容災能力。

在虛擬層面，配置虛機的重生和自愈等要提供自動化的網絡調整能力。IT化、云化的進程與這樣的理念有可能有個磨合的過程。因為從IT化的機制角度看，原先網絡資源是稀缺的，很多服務質量方面的工作可以交給端側來解決，“盡力服務(Best-Effort)”是網絡設計的出發點。互聯網遵循“邊緣”設計原則，其特征是網絡傳輸采用無連接分組交換，高層功能放置在網絡邊緣，按“盡力服務”原則向用戶提供服務。這種設計方式能夠讓服務的承載呈現出分布式特點，盡管在服務資源不足的情況下，可能會因為服務請求的丟棄導致服務等級的下降，然而這樣的“去中心化”在一定程度上分散了大規模阻斷的風險。在電信網絡IT化和互聯網化的趨勢下，如何做好網絡架構的合理規劃、平衡好投入與可靠性是需要面對的挑戰。

海因里希法則適用于此

當談及網絡服務中斷時，我們需要關注海因里希法則。海因里希法則是指，當一個企業有300起隱患或違章，還有很大可能要發生29起輕傷或故障，另外再有一起重傷、死亡事故。對于企業的安全管理或者服務安全管理而言，這一法則是道理相通的，即在一起重大事故的背后必有29起輕度事故，還有300個潛在的隱患。

實際上，在快速發展的網絡經濟中，運營商的業務發展和網絡運維也面臨著快速迭代的問題，這些變化過程中的隱患常會被發展的壓力所掩蓋。海因里希法則指出，在所有發生的事故中，“未遂事故”雖然沒有造成巨大損失，但其發生的原因和發展的過程與重大事故是一致的。而如果沒有意外事件中斷“未遂事故”的發展，那么極有可能出現重大事故。因此必須對“未遂事故”進行深入研究，探討其發生的原因和發展的規律，進而采取相應措施，消除事故原因或中斷事故發展進程，達到控制和預防事故的目的。

根據海因里希法則，在同類事故中，“未遂事故”和輕傷事故發生的可能性要比嚴重傷害事故大得多，對“未遂事故”的關注和研究是控制嚴重事故發生的重要手段，必需要找好快速迭代與對“未遂事故”進行透徹分析之間的平衡點。

諸多潛在問題值得重視

從需求的角度，我們必須了解運營商所面臨的境地：網絡故障是不可避免的。這其中最重要的原因在于業務的變化和發展導致了頻繁的網絡調整，組網需求在這樣的環境下快速變化。與此同時，云化和虛擬化給網絡帶來了更多的復雜性，伴隨著NFV、切片和微服務等技術的引入，網絡的管理愈加復雜,管理對象增多使得變更操作愈加頻繁。運營商在如此復雜的環境中進行大量變更操作，很難做到在制定方案時遍歷所有的業務和服務場景，更難對功能性或非功能性要求進行精準測算。

這樣的復雜度給實施變化的人帶來了更多發生過失的可能，很大比例的網絡事故都是在變更過程中人為操作失誤引起的。而所謂專家，或者有經驗的網絡人員，也都是在處理這些故障和事故中不斷成長起來的。電信網絡運行涉及的環節和設備較多，具有很高的復雜性。一旦在運行中某一環節或者設備出現問題，就會對整個通信網絡系統造成嚴重影響，導致出現通信網絡節點失衡的情況。因此在電信網絡的運維中，全程全網的概念很重要。

大部分情況下，由于服務和業務的高可用設計，對于進行網絡調整時出現的故障，用戶不見得有直觀感受。例如服務器出現問題，集群內其他服務器就會接管業務；傳輸出現中斷，業務承載就能夠智能地調度到備用傳輸系統上；甚至業務平臺出現問題，也能夠通過調度將業務承載到災備環境上。更何況，運營商還有完善的服務熱線等溝通手段，在用戶服務質量下降或短時間服務中斷的情況下，也能通過有效溝通的方式舒緩用戶的焦慮和不滿。

比較可怕的是故障出現在網絡核心位置時，運營商無法像處理邊緣故障那樣解開耦合；或者業務的接管機制出現問題時，業務的處理無法切換到正常網元上；甚至出現類似加拿大的案例，業務中斷后形成“業務風暴”——運營商的“規模”會給這些場景下的故障恢復提出更多挑戰。

值得重視的是，“可用性悖論”也需要考慮。隨著網絡管理的智慧化發展，其更多地通過專業的系統開展，網元的底層操作會被封裝。在網絡狀態良好時，網絡管理系統可用可看；當網絡發生故障時，網絡管理系統可能因為網絡阻斷或者網元不可及等原因，不能繼續有效發揮作用，進而無法對網絡進行必要的配置以使其恢復正常。這時可能需要運維人員繞開網絡管理系統進行相對底層的故障排除操作。這對操作復雜度、操作效率、操作人員的經驗等又提出了新的挑戰。

此外，新的安全隱患問題（IT化帶來的網絡安全問題、各類網絡攻擊等）也是運營商在IT化和互聯網化過程中需要面對的新課題——而這又是不確定性非常強的領域，運營商之前的積累比較薄弱。

邊緣計算的用武之地

盡管云化對于追求更為合理架構的運營商而言成為趨勢，然而在數據可靠性層面，云架構同樣存在需要解決的問題。尤其是在那些數據量大、數據敏感度高、數據安全性要求高的場景，云架構的實現方式需要把可靠性作為非常重要的因素，畢竟“云端”的故障有可能給用戶業務帶來很大的威脅。

2018年6月，阿里云曾出現技術故障，而阿里云最終將其定義為S1級別事故——核心業務重要功能不可用，影響了部分用戶，造成了一定損失。2019年3月3日，阿里云發布公告，稱華北2地域可用區C部分的ECS服務器（云服務器）等實例出現IO HANG（IO不響應）。在云計算服務市場，無論是AWS、Google Cloud還是Azure的服務，都曾經因為數據中心硬件問題、硬盤故障或是自動化失效等問題而受到影響。因此，在云服務架構下，即便故障率在服務提供商所承諾的0.01%以下，即便云服務商在故障出現時也都有相應的容災方案，在不少應用場景下業務的中斷還是會給用戶帶來巨大損失。因此，業務架構在集中化的同時也需要著重考慮業務風險分擔的問題。

在此情況下，邊緣計算（MEC）將有一定的用武之地。邊緣計算改變了只有云端作為“大腦”、“管道”和“端系統”智能程度不足的狀況，使“端”變成了輔助“大腦”工作的“智能神經網絡”。這樣一來，邊緣服務在終端設備上運行，反饋更迅速，解決了時延問題，使得一些工業應用場景成為可能。另一方面，邊緣計算將內容與計算能力下沉，提供智能化的流量調度，業務實現了本地化，內容實現了本地緩存，解決方案的效率得到了顯著提升。此外，邊緣計算還有著豐富的應用場景設計。邊緣計算作為一種開放的IT體系架構，能夠向第三方提供開放接口，引入外部專業力量開發功能和服務。這種模式有可能引發商業模式變革，刺激并促進產業發展。

總結

網絡服務中斷可以從各種角度進行反思，有幾點值得關注。

第一，“連接”在信息通信產業價值鏈上仍然具有舉足輕重的地位，值得運營商高度關注。盡管在一段時間內業務的拓展似乎成為運營商擺脫“管道宿命”的重心，然而一旦“連接”出現問題，運營商就會喪失安身立命之本。因此，時時用海因里希法則來審視自己存在的問題非常必要。

第二，運營商在業務及網絡架構演進的過程中，要充分理解海因里希法則，在投入資源、采取快速迭代方法對“未遂事故”進行徹底分析后，找到合理的方式；同時充分評估服務質量下降與服務中斷帶來的損失，在演進過程中尋求可靠且經濟的路徑。

第三，用系統性、長期演進的眼光來觀察運營商IT化進程，充分關注云架構與邊緣計算帶來的機會。