單就CPU而言,Nvidia在此採用Arm 9.2架構,提供的20顆核心分為兩個叢集,各自包含10顆核心,每顆核心都有自己專屬的L2快取,每個叢集共用16 MB的L3快取。而針對整顆CPU的部分,Nvidia提供16MB的L4快取,促進不同執行引擎的高能效資料共享。
GPU的部分,GB10搭配基於Blackwell架構的iGPU,iGPU組成方式與GB100這批GPU相同,當中具有第五代Tensor Core,以及第四代RT Core(Nvidia未公開這兩種核心的數量配置),可處理2千億個參數的大型AI模型,以及700億個參數的AI模型微調。
iGPU支援Nvidia自家的DLSS-4與光線追蹤技術,CUDA核心可提供31 TFLOPS的FP32浮點運算效能,在AI應用上,支援NVFP4運算格式、能達到1,000 TOPS的運算效能。
而在GPU存取整個系統單晶片時,這裡設置的NVLink-C2C可提供600 GB/s的匯聚頻寬。針對GPU內含的多個運算單元,Nvidia搭配24MB的L2快取,增加內部存取頻寬,也能促進CPU與GPU的一致性。GB10整合的iGPU,也支援PCIe介面裝置的I/O虛擬化技術SR-IOV,提供1個實體功能,以及255個虛擬功能(virtual functions)。
至於高速存取介面(HSIO),GB10除了C2C,也支援PCIe 5.0、USB、Ethernet over PCIe,以及4個顯示器的同時連接,3個DisplayPort(4k @ 120Hz)與1個HDMI 2.1a(8K @ 120Hz SDR/HDR)。在多媒體的處理上,這款融合式晶片也整合視訊的編碼與解碼引擎。
關於記憶體的配置,GB10如同Grace Hopper、Grace Blackwell架構晶片,導入支援快取一致性(Cache Coherence)的共享記憶體架構,Nvidia稱為統一一致性系統記憶體(Coherent Unified System Memory),GB10目前配置128 GB容量的256位元LPDDR5x記憶體,原始頻寬可達9,400 Mbs,甚至是301 GB/s。
記憶體管理的部分,GB10針對CPU與GPU雙向存取的一致性,採用多種硬體機制,例如,GPU的L2快取採用實體標記的方式,這些快取資料會放置在系統實體位址(System Physical Address,SPA)的空間,而且,能經由GPU與系統各自的記憶體管理單元(MMU),以便支援記憶體位址轉換服務(Address Translation Services,ATS)。
GB10的安全性配置倒是令人意外地縝密,支援兩種信任根:一是SROOT處理器,用於系統的安全啟動與憑證管理,一是OSROOT處理器,提供UEFI、作業系統與其他系統軟體元件的身分認證。而且,它們可同時支援基於韌體的信任平臺模組(fTPM),以及獨立的信任平臺模組。
到了10月中,Nvidia終於宣布DGX Spark正式開始出貨,這款產品的細部技術規格也全部公開。例如,網路介面有兩種,一是ConnectX-7提供2個QSFP接頭的200GbE埠,一是RJ-45接頭的10GbE埠,無線網路的部分,也明確列出支援Wi-Fi 7與低功耗藍牙5.4