<menu id="guoca"></menu>
<nav id="guoca"></nav><xmp id="guoca">
  • <xmp id="guoca">
  • <nav id="guoca"><code id="guoca"></code></nav>
  • <nav id="guoca"><code id="guoca"></code></nav>

    DPU家族大探秘

    一顆小胡椒2021-12-30 08:49:53

    Nvidia(英偉達)于2020年收購Mellanox公司(專注于提供IB網絡、Ethernet網絡產品,如ConnectX系列網卡),并在同年推出BlueField DPU,自此,DPU成為芯片領域一個新的聚焦點,Marvell、Pensando、Broadcom(博通)、Intel等國外傳統半導體/芯片公司紛紛入局,國內的中科馭數、星云智聯等芯片公司和一大批初創公司也提出了自己的DPU方案。

    Nvidia CEO黃仁勛在GTC(GPU技術大會)上提出:“用于通用計算的CPU,用于加速計算的GPU,用于網絡數據處理的DPU,將成為未來計算的三大支柱”[1]。究竟什么是DPU?為什么它將有可能與傳統的CPU、GPU平起平坐呢?

    一、DPU是什么

    數據處理單元(Data Processing Unit),通常稱為DPU,是一種新型的可重新編程的結合高性能網絡接口的高性能處理器。這些網絡接口經過優化,可以執行和加速由數據中心服務器執行的網絡和存儲功能[2]。DPU就像GPU一樣插入服務器的PCIe插槽,它們允許服務器將網絡和存儲功能從CPU卸載到DPU,讓CPU只專注于運行操作系統和系統應用程序。DPU通常使用可重新編程的FPGA結合網絡接口卡來加速網絡流量,就像使用GPU通過將數學運算從CPU卸載到GPU來加速人工智能(AI)應用程序一樣。

    二、DPU的產生與發展

    網絡的發展推動著DPU的出現,DPU的發展史也是網卡的發展史。

    圖1 智能?卡發展的三個階段[3]

    第?階段:基礎功能?卡

    基礎功能網卡即傳統網卡只提供了最基礎的網絡接口,通過PCIE等總線,作為主機和外部網絡連接的橋梁。基礎網卡一般提供2x10G或2x25G帶寬吞吐能力,網絡的TCP/IP協議棧的處理由主機的操作系統實現,其硬件卸載能力較弱,主要是Checksum,LRO/LSO等,支持SR-IOV(Single Root I/O Virtualization),以及有限的多隊列能力。

    第?階段:智能網卡

    借助軟硬件融合的思想,將操作系統的部分網絡協議棧(TCP/IP、VLAN、GENEVE)由硬件來實現,實現對于各種網絡基礎功能的支持和加速,從而釋放CPU的通用算力,由此誕生了各種offload NIC(支持卸載的網卡)。隨著網絡協議的復雜化和多樣化,固定協議的offload無法與網絡協議的快速更新發展相匹配,經歷1-2年研發周期的固化網卡面臨著被迅速淘汰的危機,在這樣的背景下就要求網卡具有一定的可編程能力,從而滿足協議更新的需求,延長網卡的市場周期。我們把擁有可編程能力的硬件卸載網卡叫做SmartNIC(智能網卡),它具有更加豐富的硬件卸載能力和一定的可編程性支持,如:OVS Fastpath硬件卸載,基于RoCE和RoCEv2的RDMA網絡硬件卸載,融合網絡中無損網絡能力(PFC,ECN,ETS等)的硬件卸載,存儲領域NVMe-oF(NVMe-over-Fabrics)的硬件卸載,以及安全傳輸的數據面卸載等。此時期的智能網卡以數據平面的卸載為主。

    第三階段:DPU智能?卡

    DPU可以看作是第二代智能網卡,它在第一代智能網卡的基礎上加入了片上CPU Core(ARM/MIPS),可以卸載控制平面的任務和一些靈活復雜的數據平面任務,有更強的可編程性。DPU主要分為網絡單元和計算單元,網絡單元負責與片上CPU、外設、主機的連接,計算單元賦予了DPU通用計算能力,與各種硬件加速器協同實現各種計算任務的加速,如DPI(深度包解析)、RegEx(正則匹配)、IPSec/AES(加密)等。DPU的出現使得網卡的卸載不再局限于網絡功能,在網絡、計算、存儲、安全各個方面都有了更加豐富的支持。目前DPU智能網卡支持PCIe Root Complex模式和Endpoint模式,在配置為PCIe Root Complex模式時,可以實現NVMe存儲控制器,與NVMe SSD磁盤一起構建存儲服務器。

    三、DPU的優勢

    DPU的功能主要包括了網絡、計算、存儲、安全多個方面。

    圖2 基礎架構卸載

    基于網卡發展而來的DPU,其最核心的功能集中在網絡方面,可以用于卸載網絡虛擬化(OVS等)、SR-IOV、防火墻或任何其他需要高速數據包處理的應用程序。目前,主流的DPU支持高達200Gb/s的以太網和InfiniBand網絡處理,釋放CPU算力,從而解決主機上計算密集型應用的性能瓶頸。

    圖3 NVME-oF

    對于存儲,DPU可以作為標準的NVMe設備呈現給主機系統,同時它可以采用NVMe-oF解決方案,使用來自數據中心其他服務器的遠程NVMe存儲器。DPU也可以直接通過PCIe連接NVMe SSD,然后通過網絡暴露給數據中心的其他DPU,所有這些活動都不需要傳統的主機服務器的參與。DPU可以卸載NVMe-oF存儲直連、加密、彈性存儲、數據完整性、壓縮和去重等,這使得遠程存儲的延遲與性能和直連存儲相接近,提供了構建數據中心的高性能池化存儲的新方式。

    對于計算,DPU可用于運行與服務器上的主管理程序不同的管理程序,從而使x86 CPU或GPU甚至FPGA成為另一種跨越整個數據中心多臺服務器的集中資源。或者只是將這些資源直接連接到DPU,由DPU將它們暴露到網絡上。這樣以來,數據中心內的任何主機都可以訪問各種處理引擎的資源,任何主機上的任何應用程序都可以自由地利用這些加速器,無論它們實際物理位置在哪里。

    圖4 基于DPU的資源池化

    在數據中心 “以數據為中心” 的趨勢下,DPU為云服務提供商提供了資源池化的新方式,使其能夠在基礎架構內的任何位置組合存儲、網絡和計算資源,實現按需分配,進一步提高資源的利用率,為數據中心降低成本,達到更高的經濟效益。此外,通過將安全任務卸載到DPU上,云服務提供商能夠在為云租戶提供裸機即服務(bare-metal-as-a-service)的同時保證服務環境的正確性與安全性。AWS/阿里云紛紛自研,英特爾/英偉達競相布局,DPU已經在各大數據中心展現出巨大的價值。

    四、DPU的核心要素

    DPU SoC的核心并不是一個高性能的嵌入式CPU,由于能耗限制,期待DPU的嵌入式CPU達到比主機CPU更強的數據處理能力是不現實的。對于傳統的x86CPU來說,100Gb/s的數據包處理速度已經會帶來巨大的處理負擔,極端情況下甚至會導致數據包的堆積和丟失。在400Gb/s的高速網絡下,期待DPU的低功耗嵌入式CPU去處理每個數據包并不是一個合理的解決方案。Nvidia的Bluefield DPU和Pensando的Elba DPU解決方案都表明,在數據包處理負擔過重的情況下,由嵌入式CPU負責控制路徑的初始化和異常情況的處理可能是更好的DPU實現方式。

    圖5 Nvidia BlueField-2 DPU組成

    DPU在架構上主要包含兩個部分。首先是繼承于智能網卡的網絡處理單元,例如Nvidia Bluefield DPU集成了ConnectX-6網卡單元,Pensando的Elba DPU集成了P4的數據包處理流水線。網絡處理單元具有高性能的網絡接口,用來連接外部高速網絡,目前的主流DPU產品支持100Gb/s~200Gb/s的網絡接口,未來兩到三年會逐步提升至400Gb/s甚至800Gb/s的水平。第二個部分是SoC,主要包含低功耗的嵌入式CPU和各種HAC(Hardware Accelerator)。嵌入式CPU通常會使用ARM核或者其他的低功耗處理器(Fungible使用了MIPS 64處理器)以控制DPU的整體功耗。有了嵌入式CPU的支撐,DPU都會運行完整一個完整的操作系統(通常是完整的Linux),帶來了很強的可編程性,并配合各種靈活可編程的加速引擎用來提供更強的卸載和加速能力。

    圖6 Nvidia BlueField DOCA

    為了靈活使用DPU上的各種加速器,廠商通常會提供相應的SDK(通常會與開源生態相兼容),Nvidia DPU就提供了DOCA(Data-Center-Infrastructure-On-A-Chip Architecture)SDK來實現更加靈活便捷的硬件控制方式和編程手段,并集成P4、DPDK等,以利用開源生態。簡單來說,DOCA于DPU就像CUDA于GPU,這也是Nvidia將DPU和CPU、GPU列為未來的三大計算支撐的一個著力點。

    五、DPU解決方案

    我們選擇了幾種主流的DPU產品對其配置和架構做簡單的介紹:

    1、Nvidia Bluefield-2

    Nvidia于2020年收購Mellanox,同年推出基于ConnectX網卡的BlueField DPU產品,并于2021年推出了Bluefield-2 DPU產品。BlueField-2 DPU在ConnectX-6的基礎上增加了SoC部分,由嵌入式CPU處理控制平面,CX6的eSwitch處理數據平面,從而構建完整的DPU處理單元。

    圖7 Nvidia BlueField-2架構

    BlueField-2的主要規格如下:

    • CPU:8x ARM A72核
    • 內存控制器:8Gb 或 16Gb DDR4-3200內存
    • 高速網絡連接:2x100Gbps或1x 200Gbps以太網或InfiniBand,基于Mellanox ConnectX-6 Dx
    • 高速數據包處理加速:類似于其他ConnectX-6 Dx解決方案的多個卸載引擎和eSwitch流邏輯
    • 加速器:用于正則表達式、重復數據刪除和壓縮算法以及加密卸載
    • PCIe Gen4通道:16通道PCIe Gen3/4 PCIe switch
    • 安全和管理功能:Hardware RoT(Root of Trust),具有用于帶外(out-of-band)管理的1GbE接口
    • 運行的操作系統:許多Linux發行版,如Ubuntu、CentOS、Yocoto以及VMware ESXi


    2、Fungible F1

    Fungible是首批為其提供的這種新型處理器命名為DPU的公司之一。

    圖8 Fungible F1 DPU架構

    Fungible F1主要規格如下:

    • CPU:8個4x SMT MIPS-64核心的數據集群
    • 內存控制器:2x DDR4控制器加上對8GB HBM2(High Bandwidth Memory)的支持
    • 高速網絡連接:2x 400Gbps網絡接口,能夠聚合高達800Gbps或8x 100GbE
    • 高速數據包處理加速:用于解析、封裝、解封裝、查找和傳輸/接收加速的類P4語言
    • 加速器:多個加速器,包括用于數據移動的加速器
    • PCIe Gen4通道:四個x16主機單元,可以作為根或端點運行
    • 安全和管理功能:4核x2路SMT控制集群,具有安全區域、安全啟動和Hardware RoT(Root of Trust),還有加密引擎和隨機數生成等功能
    • 運行的操作系統:Linux

    3、Pensando Elba

    Pensando是一家云創業公司,由一群著名的前思科工程師創立。Elba DPU由嵌入式CPU處理控制平面,P4流水線處理數據平面。

    圖9 Pensando Elba架構[5]

    pensando Elba主要規格如下:

    • CPU:16個ARM A72核
    • 內存控制器:雙通道DDR4/DDR5內存支持8–64GB。Pensando在之前的型號中使用HBM,但后來轉而使用更便宜、更靈活的DDR
    • 高速網絡連接:2x 200Gbps網絡接口
    • 高速包處理加速:P4可編程路徑
    • 加速器:用于加密、壓縮和數據移動等
    • PCIe Gen4通道:32x PCIe Gen4通道和8個端口
    • 安全和管理功能:Hardware RoT(Root of Trust),具有用于帶外管理的1GbE接口
    • 運行的操作系統:支持DPDK的Linux,以及VMware ESXi

    下一代DPU解決方案

    Nvidia推出BlueField-2 DPU時,提出了未來三年DPU的路標。總體上來看,其核心是以400Gb/s的鏈路速度為代表的高速網絡處理能力,以及更強的片上CPU處理能力。

    圖10 DPU發展路標(Nvidia)[6]

    目前,Nvidia已經發布了新一代DPU BlueField-3。它支持400Gbps網絡,采用32通道PCIe Gen 5.0,搭載16核Armv8.2+ A78 CPU,具有16GB板載DDR5[7],較上一代DPU性能實現了極大的提升。

    六、工業界應用

    亞馬遜AWS Nitro系統

    AWS的Nitro是DPU在云基礎設施中應用的首批示例之一。Amazo Web Services分解了傳統服務器,添加Nitro IO加速卡(ASIC)以通過整體Nitro卡控制器處理VPC(虛擬私有云)、EBS、實例存儲、安全性等。Nitro將虛擬機管理程序、網絡虛擬化和存儲虛擬化任務分流到專用硬件,以釋放主CPU。

    AWS Elastic Compute Cloud實例基于PCIe連接的Nitro卡以及X86或Arm處理器和DRAM。有各種EC2實例類型—通用型或針對計算、內存、存儲、機器學習和橫向擴展用例進行了優化[8]。

    圖11 AWS Nitro架構

    七、總結

    隨著5G、大數據和云計算等新技術的蓬勃發展,數據中心的規模增大,基礎架構需要的網絡帶寬不斷提升。同時服務器物理核密度不斷提高,支撐CPU的網絡從25Gb/s增加到200Gb/s,服務器本身對網絡基礎功能的處理要求不斷提高,在CPU內核上產生了過多的計算開銷,這是DPU智能網卡產生的最關鍵原因之一。

    DPU旨在卸載和基礎網絡處理相關的計算任務,利用各種硬件加速器,以比主機CPU更低的成本實現對各種網絡功能和虛擬化的支持,進一步支持計算、存儲、安全等方面的加速卸載,從而釋放主機CPU的通用算力。

    進一步,云服務提供商借助DPU實現各種計算、存儲、網絡資源的池化和按需分配,能夠進一步提高資源的利用率,為數據中心降低成本,實現更高的經濟效益。

    數據中心英偉達
    本作品采用《CC 協議》,轉載必須注明作者和本文鏈接
    之前提到偉達被黑事件時,我們說過「這事還沒完」。的確,不僅沒完,而且還戲上加戲。肇事的黑客組織接連提出勒索要求:解除顯卡挖礦鎖、開源顯卡驅動。然而卻遲遲沒有得到偉達的答復。 2月28日,Lapsus$決定要動真格了。一波內部資料的下載鏈接被直接放了出來。
    DPU家族大探秘
    2021-12-30 08:49:53
    Nvidia CEO黃仁勛在GTC(GPU技術大會)上提出:“用于通用計算的CPU,用于加速計算的GPU,用于網絡數據處理的DPU,將成為未來計算的三大支柱”。究竟什么是DPU?為什么它將有可能與傳統的CPU、GPU平起平坐呢?
    今天英特爾宣布停產 Blockscale 1000 芯片,英特爾稱該公司沒有推出升級或更換的計劃,對于已經購買 Blockscale 系列芯片的挖礦公司,英特爾會繼續提供技術支持。到 12 月這個項目也被并入到客戶端計算和數據中心團隊,到 3 月份負責這個項目的英特爾高管也離職了。
    近日,知名軟硬件公司American Megatrends International(安邁,簡稱AMI)開發的MegaRAC基帶管理控制器(BMC)軟件曝出了兩個新的嚴重漏洞。BMC是一種微型計算機,焊接到了服務器的主板上,使云中心及其客戶可以簡化遠程管理大批計算機的任務。這使管理員們能夠遠程重裝操作系統、安裝和卸載應用程序,以及控制整個系統的幾乎其他各個方面,甚至在關閉時也能控制。
    微軟已經證實,他們的一名員工被Lapsus$黑客組織所危害,允許威脅參與者訪問并竊取他們的部分源代碼。
    蘋果、高通、AMD和Imagination等公司開發的GPU驅動程序近日曝出了設計缺陷,這個設計缺陷可能會被共享系統上的不法分子用來窺探其他用戶。
    據外媒援引知情人士表示,自從去年 10 月份完成推特收購以來,馬斯克對這家社交媒體平臺進行了多方面的重大改革。知情人士還透露,推特 AIGC 另一個可能的用途是廣告,這項業務是社交媒體平臺收入的最大支柱。自從馬斯克接手并改變了許多政策以來,推特始終在努力吸引廣告商。目前,GPU 的價格可能非常昂貴。
    突發!ChatGPT Plus停售
    2023-04-06 09:35:16
    前幾天ChatGPT就出現大規模封號引發熱議,現在竟正兒八經地關閉了Plus付費會員的申請。還有已經付費的網友表示慶幸:真的無法想象回到GPT-3.5的日子。ChatGPT關閉Plus付費消息一出,在Reddit上瞬間引發了熱議,相關話題達到了570+的討論。不少網友認為,這也并非完全沒有預兆。一位ChatGPT的API使用者表示,會出現很多延遲錯誤,這表明它在很多方面都超載了。不僅如此,微軟還在Azure的60多個數據中心部署了幾十萬張GPU,用于ChatGPT的推理。
    戴爾解決安全問題,推動現代安全轉型戴爾指出了如今安全領域存在的三大問題,也是業內普遍關注的問題。與業內的呼聲一致,戴爾認為,安全必須做出轉變,向現代安全轉變。“保護”功能強調在生命周期的各個方面保護服務器,包括BIOS、固件、數據和物理硬件。檢測惡意網絡攻擊和未經批準的更改,主動引起 IT 管理員的關注,盡快發現問題。
    對2022年上半年國內外的網絡安全大事件的盤點。
    一顆小胡椒
    暫無描述
      亚洲 欧美 自拍 唯美 另类