採用GB10晶片,輝達與多家系統廠商推出新型態AI工作站

經過將近10個月的市場醞釀,Nvidia最近終於正式推出新型態的AI工作站,透過可一手掌握的迷你尺寸,提供1 Petaflop的AI運算效能

續推動AI整合應用設備產品發展的Nvidia,在雲端與資料中心領域提供DGX平臺的伺服器系統,目前有DGX H200、DGX B200、DGX B300、DGX GB200、DGX GB300,以及搭配多臺上述設備而成的整櫃型與多櫃型系統DGX BasePOD、DGX SuperPOD,用於公有雲服務領域的解決方案主要是DGX Cloud,而在個人端環境,原本只有直立型工作站DGX Station,今年Nvidia增設體型更小的DGX Spark。

提供運算效能足以抗衡DGX-1系統的桌上型伺服器

這款內部代號為Project DIGITS的產品,在今年1月CES大展期間亮相,預計5月開始供貨,售價為3,000美元起。

Nvidia共同創辦人暨執行長黃仁勳在該場活動的主題演講,介紹它是深度學習GPU智慧型訓練系統,強調能與既有的RTX、AGX、OVX等產品相容,如同2016年推出的DGX-1,Nvidia希望為研究人員和新創公司打造開箱即用的AI超級電腦,用於AI研發,然而,現在AI已然成為工程師執行運算、開發軟體,以及藝術工作者內容創作的新方法,每個人都需要一臺AI超級電腦作為工具,Nvidia希望能提供更小尺寸的DGX系統。

黃仁勳在演講現場拿出一臺Project DIGITS,強調它能執行整個Nvidia AI軟體技術堆疊,可放置在任何地方,並且能透過無線網路連接到用戶的個人電腦,用戶可以將它當作工作站、雲端超級電腦使用。

他強調,這臺設備採用Nvidia與聯發科(MediaTek)合作設計的系統單晶片(SoC)GB10,而這顆Nvidia最小型的Grace Blackwell融合式晶片,內建Nvidia設計的Arm架構處理器Grace,提供20顆節能核心,以及Blackwell架構GPU,整合最新CUDA核心、第五代Tensor核心,能在FP4的精度下,提供1 Petaflop的AI運算效能;至於CPU與GPU之間,GB10透過NVLink-C2C技術進行晶片對晶片的連接。

Nvidia在GB10晶片周圍也設置128 GB容量的LPDDR5記憶體,統一提供處理器與GPU存取使用,並搭配4 TB容量NVMe固態硬碟儲存空間,足以執行2千億個參數的大型語言模型。除此之外,這臺設備還搭配ConnectX網路介面,能連接另一臺Project DIGITS使用,可處理4千零50億個參數的AI模型。

3月GTC大會期間,Project DIGITS正式定名為DGX Spark,黃仁勳再次強調它與DGX-1的對比,同樣搭配20顆核心的處理器、128 GB記憶體,可提供1 Petaflop運算效能,但DGX-1要價約150,000美元、耗電量為3,500瓦(而且採用3U尺寸機箱),相較之下,具有相同運算資源與能力的DGX Spark,體型卻輕薄到只需要一隻手捧著即可。

5月台北國際電腦展期間,Nvidia預告有更多廠商加入供應DGX Spark的行列,除了上述4家,還有宏碁、技嘉、微星,預計7月開始供貨。黃仁勳表示,各家廠商都會推出他們的DGX Spark版本,他重申這是專為AI原生開發者而設計的產品,對於開發者、研究人員、學生而言,都希望擁有自己的AI雲端環境,並且設置在自己身邊,可持續運作、隨時能夠使用,以此進行原型設計與初步開發,而非每次要使用時,須連上雲端服務、準備環境,做完之後還必須花時間和心力整理作業環境。

而在軟體平臺的部分,Nvidia表示,DGX Spark搭配DGX OS,當中預先設置Nvidia AI軟體堆疊,也能存取AI模型部署的加速器套件Nvidia NIM,以及AI應用設計範本Nvidia Blueprints,開發者在此可運用PyTorch、Jupyter、Ollama等常見工具,操作AI推論的原型設計、微調、執行作業,後續可部署至DGX Cloud雲端服務,或設置大量AI加速運算資源的資料中心、雲端基礎架構。

GB10細部規格下半年公開

8月底Hot Chips大會期間,Nvidia資深傑出工程師Andi Skende揭露更詳細的DGX Spark技術規格,例如,網路介面是ConnectX-7,GB10晶片會經由PCIe 5.0 x8介面連接這個硬體裝置,使用者可藉此對接兩臺DGX Spark,並在搭配NCCL框架的狀況下,大幅強化多GPU的平行運算效率,進而擴展執行AI工作負載的運算吞吐量、頻寬、記憶體容量,支援更大、更繁複的AI模型;而且,DGX Spark也支援Wi-Fi、藍牙、USB等連接方式,作業系統採用基於Ubuntu的Nvidia DGX OS。DGX Spark搭配的系統單晶片GB10,熱設計功耗為140瓦,採用進階2.5D封裝技術,裡面結合系統小晶粒(S-dielet)與圖形處理小晶粒(G-dielet),兩者均導入台積電3奈米製程,S-dielet整合CPU、記憶體子系統等元件,G-dielet則是GPU核心。

單就CPU而言,Nvidia在此採用Arm 9.2架構,提供的20顆核心分為兩個叢集,各自包含10顆核心,每顆核心都有自己專屬的L2快取,每個叢集共用16 MB的L3快取。而針對整顆CPU的部分,Nvidia提供16MB的L4快取,促進不同執行引擎的高能效資料共享。

GPU的部分,GB10搭配基於Blackwell架構的iGPU,iGPU組成方式與GB100這批GPU相同,當中具有第五代Tensor Core,以及第四代RT Core(Nvidia未公開這兩種核心的數量配置),可處理2千億個參數的大型AI模型,以及700億個參數的AI模型微調。

iGPU支援Nvidia自家的DLSS-4與光線追蹤技術,CUDA核心可提供31 TFLOPS的FP32浮點運算效能,在AI應用上,支援NVFP4運算格式、能達到1,000 TOPS的運算效能。

而在GPU存取整個系統單晶片時,這裡設置的NVLink-C2C可提供600 GB/s的匯聚頻寬。針對GPU內含的多個運算單元,Nvidia搭配24MB的L2快取,增加內部存取頻寬,也能促進CPU與GPU的一致性。GB10整合的iGPU,也支援PCIe介面裝置的I/O虛擬化技術SR-IOV,提供1個實體功能,以及255個虛擬功能(virtual functions)。

至於高速存取介面(HSIO),GB10除了C2C,也支援PCIe 5.0、USB、Ethernet over PCIe,以及4個顯示器的同時連接,3個DisplayPort(4k @ 120Hz)與1個HDMI 2.1a(8K @ 120Hz SDR/HDR)。在多媒體的處理上,這款融合式晶片也整合視訊的編碼與解碼引擎。

關於記憶體的配置,GB10如同Grace Hopper、Grace Blackwell架構晶片,導入支援快取一致性(Cache Coherence)的共享記憶體架構,Nvidia稱為統一一致性系統記憶體(Coherent Unified System Memory),GB10目前配置128 GB容量的256位元LPDDR5x記憶體,原始頻寬可達9,400 Mbs,甚至是301 GB/s。

記憶體管理的部分,GB10針對CPU與GPU雙向存取的一致性,採用多種硬體機制,例如,GPU的L2快取採用實體標記的方式,這些快取資料會放置在系統實體位址(System Physical Address,SPA)的空間,而且,能經由GPU與系統各自的記憶體管理單元(MMU),以便支援記憶體位址轉換服務(Address Translation Services,ATS)。

GB10的安全性配置倒是令人意外地縝密,支援兩種信任根:一是SROOT處理器,用於系統的安全啟動與憑證管理,一是OSROOT處理器,提供UEFI、作業系統與其他系統軟體元件的身分認證。而且,它們可同時支援基於韌體的信任平臺模組(fTPM),以及獨立的信任平臺模組。

到了10月中,Nvidia終於宣布DGX Spark正式開始出貨,這款產品的細部技術規格也全部公開。例如,網路介面有兩種,一是ConnectX-7提供2個QSFP接頭的200GbE埠,一是RJ-45接頭的10GbE埠,無線網路的部分,也明確列出支援Wi-Fi 7與低功耗藍牙5.4

GB10的CPU,提供的20顆Arm架構核心,其中10顆均為Cortex-X925,這個Arm智財平臺主打高效能、以往多用於智慧型手機與筆電,另外10顆均為Cortex-A725,該平臺主打高能源效率、以往多用於智慧型手機。

產品資訊
Nvidia DGX Spark
●原廠:Nvidia
●建議售價:3,999美元
●機箱尺寸:150 x 150 x 50.5公釐
●系統單晶片:Nvidia GB10 Grace Blackwell Superchip
●CPU:Nvidia Grace CPU,20顆Arm架構核心,10顆Cortex-X925核心與10顆Cortex-A725核心
●GPU:Nvidia Blackwell iGPU(第五代Tensor Cores、第四代RT Cores)
●記憶體:128 GB LPDDR5x,4266 MHz,頻寬為273 GB/s
●儲存:1臺M.2外形4 TB NVMe SSD
●網路介面:2個QSFP埠,Nvidia ConnectX-7,200Gb/s Ethernet;1個RJ-45埠,10 Gb/s Ethernet;Wi-Fi 7;Bluetooth 5.4
●連接埠:4個USB Type-C埠(其中1個可供電)、1個HDMI 2.1a埠
●軟體:Linux作業系統(DGX OS)
●耗電量:240瓦
●重量:1.2公斤

原始文章出處:https://www.ithome.com.tw/review/171853

error: 內容受保護!