玩轉云端 | 算力基礎設施升級,看天翼云紫金DPU顯身手!
數字時代下,算力成為新的核心生產力,傳統以CPU為核心的架構難以滿足新場景下快速增長的算力需求,具備軟硬加速能力的DPU得以出現并快速發展。天翼云憑借領先的技術和豐富的應用實踐自研紫金DPU,打造為云而生的全新一代云計算體系結構,助力算力基礎設施升級,賦能海量算力高效釋放。
傳統數據中心里,所有的數據處理都依賴于CPU的通用計算能力,近10年來,數據帶寬增長超過10倍,然而因為摩爾定律的失效,CPU的主頻幾乎沒有增長,給算力基礎設施的發展帶來了極大挑戰。

云計算要實現虛擬化管理需要依托眾多虛擬化和管理組件,這會大量占據服務器主機的CPU和內存資源,帶來巨大的算力消耗,形成高額的算力稅。然而即便如此,基于CPU通用計算能力、以純軟件來實現的虛擬化組件,整體性能仍無法滿足客戶日益增長的數據處理需求。且國產化芯片架構、操作系統種類繁多,復雜的適配工作會耗費大量的人力和時間成本,新型高性能計算架構勢在必行。
天翼云作為云服務國家隊,積極應對算力挑戰,自研紫金DPU,通過虛擬化組件卸載、多種業務硬件加速以及自研三棧合一高性能網絡協議,打造高性能、低延時、高可靠性并且可大規模部署的環境,助力算力基礎設施升級。

天翼云紫金DPU采用SOC+FPGA架構,依托FPGA強大的處理性能和靈活的可編程能力,對多種應用進行加速。

對于客戶使用的虛擬網絡和存儲設備,其后端都是通過DPU硬件來實現。天翼云紫金DPU通過硬件DMA提供超強性能和超低時延;通過硬件模擬提供數以千計的pvf設備和queue資源,充分滿足虛機容器等場景下大量虛擬設備的應用需求。
對于虛擬網絡、虛擬存儲業務,天翼云實現了DPU卸載加速。虛擬網絡的控制面,包括vnet的agent和OVS的控制面,以及數據面Slowpath都運行在DPU的SOC上;慢速路徑處理后生成的fastPath,則全部被卸載到DPU的硬件上。除首包需要上送到軟件之外,后續報文都可以直接通過硬件處理來進行加速。
對于存儲業務,控制面的建鏈也是通過DPU的SOC來實現的。SOC完成建鏈后,會將連接信息以及云盤的元數據信息等都更新到FPGA硬件里面,之后的存儲IO硬件能夠直接處理,無需再通過SOC。除了支持基礎的存儲IO卸載加速外,紫金DPU還支持部分應用加速,例如EC糾刪碼計算、數據壓縮、存儲object hash值計算等操作。通過硬件卸載加速,天翼云的存儲業務可以為客戶提供極致的性能。
此外,天翼云還開創性的推出三棧合一的傳輸層網絡協議棧,即SF-Stack,Super fusion超融合協議棧,在底層提供統一的傳輸層接口,支持傳輸協議的動態選擇和切換,上層應用只需要關注業務邏輯,無需關注傳輸層,做到簡單易用、超高性能、超高可靠。AZ內數據傳輸采用RDMA傳輸協議,跨AZ的傳輸首選用戶態的TCP協議,實現極致性能,同時該協議還保留了可靠性更高的內核態TCP,作為故障發生時的最后兜底手段。
最后,依托于DPU的物理隔離,天翼云紫金DPU將虛擬化組件和DPU一起作為一個整體,實現了不同算力、不同架構、不同系統即插即用,支持市面上大多數不同架構的主流芯片,真正做到了一云多芯,助推國產算力基礎設施生態發展。

依托全新的紫金架構,天翼云實現了服務器虛擬化接近零損耗,助力算力全面釋放,推動整個算力基礎設施運營效率大幅提升,為客戶帶來更優的使用體驗。
▍在虛擬網絡轉發方面,通過DPU卸載加速,曾經需要十余個宿主機CPU才能實現的2000萬pps提升至4000多萬,提升了超100%;
▍在存儲方面,通過硬件RDMA加速,配合天翼云自研擁塞控制算法,IOPS能力從60萬提升至200萬,提升了超200%;
▍在時延方面,紫金DPU使網絡時延降到了原來的四分之一。
在數字經濟飛速發展的當下,DPU作為新的藍海賽道,具有巨大的探索空間及應用價值。天翼云將繼續堅持科技創新,挖掘DPU的更多潛力與可能,推動數據中心向高效率、高擴展、高帶寬、高靈活性發展,為數字中國建設鑄牢云底座。
