採用GB10晶片，輝達與多家系統廠商推出新型態AI工作站

經過將近10個月的市場醞釀，Nvidia最近終於正式推出新型態的AI工作站，透過可一手掌握的迷你尺寸，提供1 Petaflop的AI運算效能

續推動AI整合應用設備產品發展的Nvidia，在雲端與資料中心領域提供DGX平臺的伺服器系統，目前有DGX H200、DGX B200、DGX B300、DGX GB200、DGX GB300，以及搭配多臺上述設備而成的整櫃型與多櫃型系統DGX BasePOD、DGX SuperPOD，用於公有雲服務領域的解決方案主要是DGX Cloud，而在個人端環境，原本只有直立型工作站DGX Station，今年Nvidia增設體型更小的DGX Spark。

提供運算效能足以抗衡DGX-1系統的桌上型伺服器

這款內部代號為Project DIGITS的產品，在今年1月CES大展期間亮相，預計5月開始供貨，售價為3,000美元起。

Nvidia共同創辦人暨執行長黃仁勳在該場活動的主題演講，介紹它是深度學習GPU智慧型訓練系統，強調能與既有的RTX、AGX、OVX等產品相容，如同2016年推出的DGX-1，Nvidia希望為研究人員和新創公司打造開箱即用的AI超級電腦，用於AI研發，然而，現在AI已然成為工程師執行運算、開發軟體，以及藝術工作者內容創作的新方法，每個人都需要一臺AI超級電腦作為工具，Nvidia希望能提供更小尺寸的DGX系統。

黃仁勳在演講現場拿出一臺Project DIGITS，強調它能執行整個Nvidia AI軟體技術堆疊，可放置在任何地方，並且能透過無線網路連接到用戶的個人電腦，用戶可以將它當作工作站、雲端超級電腦使用。

他強調，這臺設備採用Nvidia與聯發科（MediaTek）合作設計的系統單晶片（SoC）GB10，而這顆Nvidia最小型的Grace Blackwell融合式晶片，內建Nvidia設計的Arm架構處理器Grace，提供20顆節能核心，以及Blackwell架構GPU，整合最新CUDA核心、第五代Tensor核心，能在FP4的精度下，提供1 Petaflop的AI運算效能；至於CPU與GPU之間，GB10透過NVLink-C2C技術進行晶片對晶片的連接。

Nvidia在GB10晶片周圍也設置128 GB容量的LPDDR5記憶體，統一提供處理器與GPU存取使用，並搭配4 TB容量NVMe固態硬碟儲存空間，足以執行2千億個參數的大型語言模型。除此之外，這臺設備還搭配ConnectX網路介面，能連接另一臺Project DIGITS使用，可處理4千零50億個參數的AI模型。

3月GTC大會期間，Project DIGITS正式定名為DGX Spark，黃仁勳再次強調它與DGX-1的對比，同樣搭配20顆核心的處理器、128 GB記憶體，可提供1 Petaflop運算效能，但DGX-1要價約150,000美元、耗電量為3,500瓦（而且採用3U尺寸機箱），相較之下，具有相同運算資源與能力的DGX Spark，體型卻輕薄到只需要一隻手捧著即可。

5月台北國際電腦展期間，Nvidia預告有更多廠商加入供應DGX Spark的行列，除了上述4家，還有宏碁、技嘉、微星，預計7月開始供貨。黃仁勳表示，各家廠商都會推出他們的DGX Spark版本，他重申這是專為AI原生開發者而設計的產品，對於開發者、研究人員、學生而言，都希望擁有自己的AI雲端環境，並且設置在自己身邊，可持續運作、隨時能夠使用，以此進行原型設計與初步開發，而非每次要使用時，須連上雲端服務、準備環境，做完之後還必須花時間和心力整理作業環境。

而在軟體平臺的部分，Nvidia表示，DGX Spark搭配DGX OS，當中預先設置Nvidia AI軟體堆疊，也能存取AI模型部署的加速器套件Nvidia NIM，以及AI應用設計範本Nvidia Blueprints，開發者在此可運用PyTorch、Jupyter、Ollama等常見工具，操作AI推論的原型設計、微調、執行作業，後續可部署至DGX Cloud雲端服務，或設置大量AI加速運算資源的資料中心、雲端基礎架構。

GB10細部規格下半年公開

8月底Hot Chips大會期間，Nvidia資深傑出工程師Andi Skende揭露更詳細的DGX Spark技術規格，例如，網路介面是ConnectX-7，GB10晶片會經由PCIe 5.0 x8介面連接這個硬體裝置，使用者可藉此對接兩臺DGX Spark，並在搭配NCCL框架的狀況下，大幅強化多GPU的平行運算效率，進而擴展執行AI工作負載的運算吞吐量、頻寬、記憶體容量，支援更大、更繁複的AI模型；而且，DGX Spark也支援Wi-Fi、藍牙、USB等連接方式，作業系統採用基於Ubuntu的Nvidia DGX OS。DGX Spark搭配的系統單晶片GB10，熱設計功耗為140瓦，採用進階2.5D封裝技術，裡面結合系統小晶粒（S-dielet）與圖形處理小晶粒（G-dielet），兩者均導入台積電3奈米製程，S-dielet整合CPU、記憶體子系統等元件，G-dielet則是GPU核心。

單就CPU而言，Nvidia在此採用Arm 9.2架構，提供的20顆核心分為兩個叢集，各自包含10顆核心，每顆核心都有自己專屬的L2快取，每個叢集共用16 MB的L3快取。而針對整顆CPU的部分，Nvidia提供16MB的L4快取，促進不同執行引擎的高能效資料共享。

GPU的部分，GB10搭配基於Blackwell架構的iGPU，iGPU組成方式與GB100這批GPU相同，當中具有第五代Tensor Core，以及第四代RT Core（Nvidia未公開這兩種核心的數量配置），可處理2千億個參數的大型AI模型，以及700億個參數的AI模型微調。

iGPU支援Nvidia自家的DLSS-4與光線追蹤技術，CUDA核心可提供31 TFLOPS的FP32浮點運算效能，在AI應用上，支援NVFP4運算格式、能達到1,000 TOPS的運算效能。

而在GPU存取整個系統單晶片時，這裡設置的NVLink-C2C可提供600 GB/s的匯聚頻寬。針對GPU內含的多個運算單元，Nvidia搭配24MB的L2快取，增加內部存取頻寬，也能促進CPU與GPU的一致性。GB10整合的iGPU，也支援PCIe介面裝置的I/O虛擬化技術SR-IOV，提供1個實體功能，以及255個虛擬功能（virtual functions）。

至於高速存取介面（HSIO），GB10除了C2C，也支援PCIe 5.0、USB、Ethernet over PCIe，以及4個顯示器的同時連接，3個DisplayPort（4k @ 120Hz）與1個HDMI 2.1a（8K @ 120Hz SDR/HDR）。在多媒體的處理上，這款融合式晶片也整合視訊的編碼與解碼引擎。

關於記憶體的配置，GB10如同Grace Hopper、Grace Blackwell架構晶片，導入支援快取一致性（Cache Coherence）的共享記憶體架構，Nvidia稱為統一一致性系統記憶體（Coherent Unified System Memory），GB10目前配置128 GB容量的256位元LPDDR5x記憶體，原始頻寬可達9,400 Mbs，甚至是301 GB/s。

記憶體管理的部分，GB10針對CPU與GPU雙向存取的一致性，採用多種硬體機制，例如，GPU的L2快取採用實體標記的方式，這些快取資料會放置在系統實體位址（System Physical Address，SPA）的空間，而且，能經由GPU與系統各自的記憶體管理單元（MMU），以便支援記憶體位址轉換服務（Address Translation Services，ATS）。

GB10的安全性配置倒是令人意外地縝密，支援兩種信任根：一是SROOT處理器，用於系統的安全啟動與憑證管理，一是OSROOT處理器，提供UEFI、作業系統與其他系統軟體元件的身分認證。而且，它們可同時支援基於韌體的信任平臺模組（fTPM），以及獨立的信任平臺模組。

到了10月中，Nvidia終於宣布DGX Spark正式開始出貨，這款產品的細部技術規格也全部公開。例如，網路介面有兩種，一是ConnectX-7提供2個QSFP接頭的200GbE埠，一是RJ-45接頭的10GbE埠，無線網路的部分，也明確列出支援Wi-Fi 7與低功耗藍牙5.4

GB10的CPU，提供的20顆Arm架構核心，其中10顆均為Cortex-X925，這個Arm智財平臺主打高效能、以往多用於智慧型手機與筆電，另外10顆均為Cortex-A725，該平臺主打高能源效率、以往多用於智慧型手機。

產品資訊

Nvidia DGX Spark

●原廠：Nvidia
●建議售價：3,999美元
●機箱尺寸：150 x 150 x 50.5公釐
●系統單晶片：Nvidia GB10 Grace Blackwell Superchip
●CPU：Nvidia Grace CPU，20顆Arm架構核心，10顆Cortex-X925核心與10顆Cortex-A725核心
●GPU：Nvidia Blackwell iGPU（第五代Tensor Cores、第四代RT Cores）
●記憶體：128 GB LPDDR5x，4266 MHz，頻寬為273 GB/s
●儲存：1臺M.2外形4 TB NVMe SSD
●網路介面：2個QSFP埠，Nvidia ConnectX-7，200Gb/s Ethernet；1個RJ-45埠，10 Gb/s Ethernet；Wi-Fi 7；Bluetooth 5.4
●連接埠：4個USB Type-C埠（其中1個可供電）、1個HDMI 2.1a埠
●軟體：Linux作業系統（DGX OS）
●耗電量：240瓦
●重量：1.2公斤

原始文章出處：https://www.ithome.com.tw/review/171853