在這個計算力決定生產力甚至國力的時代,如何讓壞人遠離世界上運行速度最快,存儲大量敏感信息,從事核心技術研發、天氣建模、經濟預報、關鍵基礎設施運營或者國家安全相關任務的超級計算機?

長期以來,“書卷氣”很濃的高性能計算小圈子都是網絡安全的大盲區。2020年5月份全球各大超算中心經歷的“挖礦風暴”以及2022年京都大學超算備份錯誤導致77TB數據丟失的慘烈安全事件就是最好的例證。除了計算資源被黑客用來挖礦外,近年來高性能計算機中的關鍵任務和敏感數據對攻擊者,尤其是國家黑客的吸引力越來越大,針對高性能計算的攻擊技術與手段也不斷豐富(例如針對超算的Linux惡意軟件)。

隨著高性能計算在人工智能、核心技術研發和企業(甚至個人)云服務等領域的快速普及和發展,對高性能計算“安全債”問題的關注和重視已經刻不容緩。

“性能優先”是導致高性能計算安全能力低下的主要原因,這導致高性能計算的大部分預算都被用于“性能建設”,此外,網絡安全方案往往會導致性能損失,(在出現重大安全事件或硬性合規要求前)用戶的積極性不高。

高性能計算安全問題非常復雜

通常來說,高性能計算機面臨的主要網絡安全風險包括以下幾個方面:

  • 遠程攻擊:攻擊者可以通過網絡攻擊高性能計算機,例如利用漏洞攻擊遠程訪問協議和其他網絡服務,進入高性能計算機并在其中安裝后門、病毒和惡意軟件等。
  • 網絡拒絕服務攻擊:攻擊者可以通過發送大量的流量或請求來占用網絡資源,導致高性能計算機無法正常工作,甚至癱瘓。
  • 數據泄露:高性能計算機通常存儲大量敏感數據,例如政府機構、軍事機構、大型企業等組織的機密信息,攻擊者可以利用各種方法竊取這些信息。
  • 非授權訪問:攻擊者可以通過網絡攻擊或社會工程學攻擊等方式獲取高性能計算機的訪問權限,并在未經授權的情況下進行非法操作和訪問。
  • 間諜軟件和病毒:攻擊者可以通過網絡攻擊在高性能計算機中安裝間諜軟件和病毒等惡意軟件,監控用戶活動、竊取敏感信息和破壞計算機系統。

為了防止這些網絡安全風險,高性能計算的運營實體需要采取有效的安全措施,如加強網絡安全防護、使用防病毒軟件、加密數據傳輸、強化用戶身份驗證、及時升級系統補丁、實施安全審計和監控等。

但NIST高性能計算工作組負責人郭陽(音譯)認為,高性能計算的安全防護有其獨特性和復雜性,并不像安裝防病毒軟件和掃描電子郵件那么簡單。

高性能計算機是共享資源,研究人員需要預約時間并連接到系統中進行計算和模擬。安全要求將因高性能計算體系結構而異,其中一些體系結構可能會優先考慮訪問控制或硬件,如存儲、更快的CPU或更多用于計算的內存。郭陽指出:首要重點是保護容器并清理相關計算節點。

處理機密數據的政府機構會采用諾克斯堡式的物理隔離方法,通過切斷常規網絡或無線訪問來保護系統。物理隔離方法有助于確保惡意軟件不會入侵系統,只有獲得許可的授權用戶才能訪問此類系統。

但是,為了方便學生和學者從事科研活動,很多超級計算機部署在大學里,這些系統的管理員的安全控制往往比較松弛,安全管理主要依賴系統供應商,而高性能計算供應商的主要精力都放在吹噓自己的高性能計算機技術,而不是“費力不討好”的網絡安全。

美國國防部高性能計算現代化計劃的網絡安全項目經理Rickey Gregg指出,當用戶將高性能計算系統的管理權交給供應商時,后者優先考慮的是如何保證性能,而不是安全性。

“用戶在安全上花的錢越多,在性能上花的錢就越少。我們正在努力確保二者能達成某種平衡。”Gregg說道。

一些高性能計算系統管理員對優先考慮系統性能并降低安全性優先級的供應商合同表示沮喪,因為實施自行開發的安全技術將意味著與供應商的違約,這導致很多高性能計算系統暴露在外。

一些管理員表示,合同條款可以調整為供應商在一段時間后將安全管理移交給現場工作人員。

值得推薦的用戶安全實踐

德克薩斯大學奧斯汀分校德克薩斯高級計算中心(TACC)擁有全球最快的超級計算機500強名單中的多臺超級計算機,該中心的負責人透露,TACC超級計算機會定期接受掃描,該中心擁有防止入侵和雙因素身份驗證的工具,以授權合法用戶。

美國國防部則采用了“圍墻花園”方法,將用戶、工作負載和超級計算資源劃分為DMZ-stye邊境區域,對所有通信進行嚴格保護和監控。

據麻省理工學院林肯實驗室超級計算中心的高級工作人員Albert Reuther介紹,麻省理工學院(MIT)選擇通過零信任方法來擺脫根訪問權限,使用sudo的命令行為高性能計算工程師提供root權限。使用sudo命令的好處是能記錄高性能計算工程師在系統上進行的活動。

“我們需要審計誰在用鍵盤,那個人是誰。”Reuther表示。

提高供應商級別的安全性

數十年來,高性能計算的很多安全措施幾乎一成不變,例如嚴重依賴帶有互連機架的大型現場安裝。因為很多高性能計算用戶對數據離開本地系統后的安全性表示擔憂。這與商業計算市場形成鮮明對比,商業計算市場正在向異地和云端轉移。

亞馬遜AWS正試圖通過將高性能計算引入云來實現高性能計算的現代化,按需擴展性能,同時保持更高級別的安全性。11月,該公司推出了HPC7g,這是一組用于在彈性計算云(EC2)上進行高性能計算的云實例。EC2采用一種稱為Nitro V5的特殊控制器,該控制器提供機密計算層,以保護存儲、處理或傳輸中的數據。

“我們使用各種硬件添加到典型平臺來管理安全性、訪問控制、網絡封裝和加密等內容,”AWS高性能計算首席專家解決方案架構師Lowell Wofford說道:“硬件技術在虛擬機中提供了安全性和裸機性能。”

英特爾正在將軟件防護擴展(SGX)等機密計算功能構建到其最快的服務器芯片中,這是一個用于程序執行的鎖定飛地。根據英特爾的McVeigh的說法,運營商過時的安全實踐正促使芯片制造商在防護高性能系統方面先行一步。