NVIDIA NVL72 GB200/GB300系統(tǒng):
InfiniBand和以太網(wǎng)連接解決方案(五)
2.7.NVL72 GB300 集群
到目前為止,我們探討并了解了GB200集群的架構(gòu)和部署?,F(xiàn)在,讓我們探究下GB300集群的關(guān)鍵方面,重點介紹它們與GB200系統(tǒng)的區(qū)別及它們的構(gòu)建。
主要區(qū)別在于GPU連通性和數(shù)據(jù)速率:
· GB200集群采用NVIDIA Grace-Blackwell GPU,具備400G NDR連通性,專為單平面拓撲進行了優(yōu)化。
· GB300集群采用最新的NVIDIA Grace-Blackwell GPU,具備800G XDR連通性,支持雙平面和四平面拓撲,可實現(xiàn)更高的可擴展性和帶寬。
本節(jié)將從較高層次探究實現(xiàn)GB300集群部署所需的關(guān)鍵功能、網(wǎng)絡(luò)設(shè)計和模塊化可擴展單元(SU)。有關(guān)以太網(wǎng)和InfiniBand實現(xiàn)的詳細信息,請分別參閱第2.7.1節(jié)和第 2.7.2節(jié)。
2.7.1.NVL72 GB300 以太網(wǎng)
GB300以太網(wǎng)計算網(wǎng)絡(luò)旨在為NVIDIA NVL72系統(tǒng)中的GPU提供高性能連接,采用Spectrum-4以太網(wǎng)交換機實現(xiàn)可擴展性、低延遲無阻塞通信。以下是部署此架構(gòu)時需要考慮的各個事項:
· 模塊化可擴展單元(SU)
- 每個可擴展單元(SU)由兩個GB300 NVL72機架組成,每個機架含72個GPU(見圖33)。
- 可擴展單元(SU)旨在實現(xiàn)快速部署和無縫擴展,以適應(yīng)需要更多資源的大型系統(tǒng)部署需求。
圖33. GB300以太網(wǎng)集群尺寸和組件計數(shù)詳情 - 兩層雙平面設(shè)計
· 雙平面或四平面網(wǎng)絡(luò)架構(gòu)設(shè)計
· 雙平面拓撲:
- 每個GPU連接到兩個獨立的平面,以實現(xiàn)負載均衡和冗余。
- 基于部署的GPU數(shù)量,可以實現(xiàn)兩層(葉-脊)或三層(葉-脊-超級脊)架構(gòu)。參見圖34和圖35。
· 四平面拓撲(三層架構(gòu)的替代方案,可實現(xiàn)更高的可擴展性):
- 將網(wǎng)絡(luò)架構(gòu)扁平化為兩層設(shè)計(刪除超級脊),展示出三層架構(gòu)的替代方案。該方案引入了額外的平面來進一步增加帶寬,減少擁塞。
- 四平面架構(gòu)將網(wǎng)絡(luò)劃分為4個200G平面,將交換機基數(shù)加倍(從128個400G端口增加到256個200G端口),可容納更多的可擴展單元和更高的GPU密度,GPU仍與四平面設(shè)置無關(guān),因為它可繼續(xù)在集群內(nèi)支持800G通信接口。
- 需要配備換線盒來管理四平面設(shè)計中的布線復(fù)雜性,從而能夠采用兩層(葉-脊)架構(gòu)部署大量GPU(見圖36)。換線盒可以放置在服務(wù)器和葉交換機之間,也可以放置在葉交換機和脊交換機之間。
4,608 GPU集群 — 2x 400G, 連通軌道, 斷開平面

圖34. 4608 GPU計算網(wǎng)絡(luò)示例 — 兩層架構(gòu)GB300以太網(wǎng)雙平面拓撲
36864 GPU集群 — 2x 400G, 連通軌道, 斷開平面

圖35. 36864 GPU計算網(wǎng)絡(luò)示例 — 三層架構(gòu)GB300以太網(wǎng)雙平面拓撲
18432 GPU 集群 — 4x 400G, 連通軌道, 斷開平面

圖36. 18432 GPU計算網(wǎng)絡(luò)示例 — 帶換線盒,兩層架構(gòu)GB300以太網(wǎng)四平面拓撲
· 軌道優(yōu)化的連接
· 4軌道架構(gòu)作為GB300以太網(wǎng)的固定架構(gòu)保留不變。
· 然而,在GB200中,每個節(jié)點配備4個GPU,每個GPU在物理上以1個MPO-8/12表示,GB300與之不同,雖然每個服務(wù)器 (節(jié)點)同樣是配備4個GPU,但每個GPU在物理上是以2個400G OSFP MPO-8/12表示的(見圖33)。
· 這相當于從單個NVL72機架中輸出144個MPO-8/12計算/后端連接。
· 網(wǎng)絡(luò)組件
· 葉交換機:
- Spectrum-X SN5600交換機可支持64個OSFP雙MPO-8/12 APC端口(128x 400G鏈路)。
- 負責將GPU連接到脊層。
· 脊交換機:
- 聚合來自多個葉交換機的流量。
- SN5600交換機用于雙平面或四平面架構(gòu)設(shè)計中的脊層。
· 超級脊層 (三層架構(gòu)的大規(guī)模部署適用):
- 超級脊層特定用于大規(guī)模部署中采用的三層計算網(wǎng)絡(luò)設(shè)計。它充當架構(gòu)中的第三層,將多個脊-葉組連接在一起,以實現(xiàn)跨數(shù)千個GPU或機架的可擴展性。
· 布線要求:
· GPU、葉交換機、脊交換機和超級脊交換機(如適用)之間的連接采用400G MPO-8/12 APC光纜。
· 多模收發(fā)器(SR4)適用于短距離傳輸(最長50米)。
· 單模收發(fā)器(DR4)適用于長距離傳輸(長達500米)。
· 布線方案集包括用于點對點布線的康寧CORE主干光纜、傳統(tǒng)單根MPO跳線以及使用EDGE8®系統(tǒng)的結(jié)構(gòu)化布線方案。這些布線組件可以應(yīng)用于任何GB300拓撲,力求跨部署的靈活性和兼容性。
2.7.2.NVL72 GB300 InfiniBand
GB300 InfiniBand計算網(wǎng)絡(luò)旨在為NVIDIA NVL72系統(tǒng)中的GPU提供高性能連接,采用Quantum-3 InfiniBand交換機實現(xiàn)可擴展性、低延遲無阻塞通信。以下是部署此架構(gòu)時需要考慮的各個事項:
· 模塊化可擴展單元(SU)
· 與GB200 InfiniBand一樣,每個可擴展單元(SU)由16個GB300 NVL72機架組成,每個機架含72個GPU(見圖37)。
· 雙平面拓撲
· 每個GPU連接到兩個獨立的平面,以實現(xiàn)負載均衡和冗余。
· 基于部署的GPU數(shù)量,可以實現(xiàn)兩層(葉-脊)或三層(葉-脊-超級脊)架構(gòu)。
· 軌道優(yōu)化的連接
· 4軌道架構(gòu)作為GB300 InfinBand的固定架構(gòu)保留不變。
· 每個節(jié)點(服務(wù)器)配備4個GPU,每個GPU在物理上以1個800G XDR OSFP MPO-8/12表示。
· 這相當于從單個NVL72機架中輸出72個MPO-8/12計算/后端連接。
· 網(wǎng)絡(luò)組件
· 葉交換機:
- Quantum-X Q3200-RA交換機是一款2U交換機,在單個機箱內(nèi)有兩個獨立的配備18個OSFP(雙MPO)端口的交換機,這兩個交換機之間沒有通信。
- 每個2U機箱通過2′18個OSFP端口共支持2x 36個MPO端口(800G XDR)。
- 負責將GPU連接到脊層。
· 脊交換機:
- 聚合來自多個葉交換機的流量。
- Quantum-X Q3400-RA交換機是一款4U交換機,在單個機箱內(nèi)配備了72個OSFP(雙MPO)端口。
- 通過72個OSFP端口共支持144個MPO端口(800G XDR)。
· 核心交換機:
- Q3400-RA交換機在大規(guī)模部署中用作核心交換機,確??蓴U展性和高帶寬連接。
· 布線要求
· GPU、葉交換機、脊交換機和核心交換機之間的連接采用800G MPO-8/12 APC光纜。
· 單模收發(fā)器(DR4)適用于長距離傳輸(長達500米)。
· 布線方案集包括用于點對點布線的康寧CORE主干光纜、傳統(tǒng)單根MPO跳線以及使用EDGE8®系統(tǒng)的結(jié)構(gòu)化布線方案。這些布線組件可以應(yīng)用于任何GB300拓撲,力求跨部署的靈活性和兼容性。
圖 37. GB300 InfiniBand集群尺寸和組件計數(shù) - 雙平面設(shè)計
2.8.結(jié)論
總之,了解每個級別(A、B和C)的詳細布線要求對于NVL72 GB200 或 GB300 GPU集群的有效部署至關(guān)重要。此外,在可能的情況下實施CORE主干光纜布線或結(jié)構(gòu)化布線可以簡化線纜管理、提高效率,特別是在大規(guī)模部署中。
在設(shè)計階段與康寧工程團隊合作,確保布線策略與特定的數(shù)據(jù)中心需求及客戶要求保持一致。
附件1 – 高密度配線架
EDGE8®高密度配線架安裝在19英寸機架或機柜中,與EDGE8模塊、面板、線束、中繼器和跳線結(jié)合使用時,可提供業(yè)界領(lǐng)先的超高密度連接。
由于每個客戶和項目都有特定的需求,請在BOM中添加最適合您需求的配線架:
表11-高密度配線架
附件2 – 極性圖紙
極性圖,通常被稱為光纖極性圖,在使用光纖布線設(shè)計和實施數(shù)據(jù)中心鏈路時是必不可少的。它們在確保不同網(wǎng)絡(luò)組件之間的適當連接、信號完整性和兼容性方面發(fā)揮著至關(guān)重要的作用。
本節(jié)將介紹適用于前面描述的每種場景的特定極性圖。
場景 1 – 1600G、800G 和 400G –服務(wù)器到交換機應(yīng)用
采用點對點布線連接MPO-8/12 APC到MPO-8/12 APC

圖 38. 場景1 – 1600G、800G 和 400G – 交換機到本地服務(wù)器– 用例 A

圖39. 場景1 – 1600G、800G 和 400G – 交換機到本地服務(wù)器 – 用例 B

圖40. 場景1 – 1600G、800G 和 400G – 交換機到本地服務(wù)器– 用例 C
場景2 – 1600G、800G和400G –交換機到交換機應(yīng)用
使用結(jié)構(gòu)化布線,通過主干光纜在數(shù)據(jù)中心內(nèi)連接MPO-8/12 APC到MPO-8/12 APC

圖41. 場景2 – 1600G、800G 和 400G – 交換機到交換機通過主干光纜跨數(shù)據(jù)中心連接 – 用例 A

圖 42. 場景2 – 1600G、800G 和 400G – 交換機到交換機通過主干光纜跨數(shù)據(jù)中心連接 – 用例 B

圖 43. 場景2 – 1600G、800G 和 400G – 交換機到交換機通過主干光纜跨數(shù)據(jù)中心連接 – 用例 C
場景3 – 1600G、800G、400G和200G -服務(wù)器到交換機應(yīng)用交換機到交換機應(yīng)用
使用點對點布線連接MPO-8/12 APC到MPO-8/12 APC

圖 44. 場景3 – 1600G、800G、400G 和 200G – 交換機到本地服務(wù)器 – 用例A

圖 45. 場景3 – 1600G、800G、400G 和 200G – 交換機到本地服務(wù)器 – 用例B
場景4 – 1600G、800G、400G和200G –交換機到交換機應(yīng)用
使用結(jié)構(gòu)化布線,通過主干光纜在數(shù)據(jù)中心內(nèi)連接MPO-8/12 APC到MPO-8/12 APC
圖46. 場景 4 – 1600G、 800G、 400G 和 200G – 交換機到交換機通過主干光纜跨數(shù)據(jù)中心連接 - 用例A

圖 47. 場景 4 – 1600G、 800G、400G 和 200G – 交換機到交換機通過主干光纜跨數(shù)據(jù)中心連接 - 用例B
場景5 – 800G 和 400G -交換機到交換機應(yīng)用
使用點對點布線連接LC雙工到LC雙工

圖48. 場景 5 – 800G 和 400G – 交換機到本地交換機 – 用例A

圖49. 場景 5 – 800G 和 400G – 交換機到本地交換機– 用例B
場景 6 – 800G 和 400G -交換機到交換機應(yīng)用
使用結(jié)構(gòu)化布線,通過主干光纜在數(shù)據(jù)中心內(nèi)連接LC雙工UPC到LC雙工UPC

圖 50. 場景 6 – 800G 和 400G – 交換機到交換機通過主干光纜跨數(shù)據(jù)中心連接 – 用例A

圖 51. 場景 6 – 800G 和 400G – 交換機到交換機通過主干光纜跨數(shù)據(jù)中心連接 – 用例B
附件3 – 參考和聯(lián)系信息
本節(jié)包含NVIDIA概述白皮書的部分參考列表。有關(guān)NVIDIA產(chǎn)品的更多詳細信息,請訪問www.docs.nvidia.com
收發(fā)器:
· 200G光通道(XDR)
- MMS4A00 1600 Gbps 雙端口 OSFP 2x800Gb/s 單模 2 x DR4,500m
www.docs.nvidia.com/networking/display/9iahx00xmosfptcvr1600
- MS4A20-XM800 800Gbps 單端口 OSFP 1x800Gb/s 單模 DR4, 500m
www.docs.nvidia.com/networking/display/9iat0mosfp800sprhs
· 100G光通道(NDR)
- MMS4X00-NM 800Gbps 雙端口 OSFP 2x400Gb/s 單模 2 x DR4, 500 m
www.docs.nvidia.com/networking/display/mms4x00nm800g500m/application+overview
- MMS4X00-NS 800Gbps 雙端口 OSFP 2x400Gb/s 單模 2xDR4, 100 m
www.docs.nvidia.com/networking/display/800gmms4x00ns/overview
- MMA4Z00-NS 800Gb/s 雙端口 OSFP, 2x400Gb/s 多模 2xSR4, 50 m
www.docs.nvidia.com/networking/display/800gmma4z00ns/overview
- MMS4X50-NM 800Gb/s 雙端口 OSFP, 2x400Gb/s 單模 2xFR4, 2 km
www.docs.nvidia.com/networking/display/mms4x50nm800g2kmpub
- MMS1X00-NS400 400Gb/s 單端口 QSFP112, 1x400Gb/s 單模 DR4, 100 m
www.docs.nvidia.com/networking/display/mms1x00ns400/overview
- MMA1Z00-NS400 400Gb/s 單端口 QSFP112, 1x400Gb/s 多模 SR4, 50 m
www.docs.nvidia.com/networking/display/mms1z00ns400sr4
英偉達光纜:
· MFP7E30-Nxxx, 單模直交叉光纖線纜
www.docs.nvidia.com/networking/display/mfp7e30nxxxpub/specifications
· MFP7E40-Nxxx, 單模分路交叉光纖線纜
www.docs.nvidia.com/networking/display/mfp7e40nxxxpub/specifications
· MFP7E10-Nxxx, 多模直交叉光纖線纜
www.docs.nvidia.com/networking/display/mfp7e10nxxx/specifications
· MFP7E20-Nxxx, 多模分路交叉光纖線纜
www.docs.nvidia.com/networking/display/mfp7e20nxxx/specifications
NVIDIA 英偉達架構(gòu)和參考頁面:
· NVL72 GB200
www.nvidia.com/en-us/data-center/gb200-nvl72/
· NVL72 GB300
www.nvidia.com/en-us/data-center/gb300-nvl72/
· DGX H100
www.docs.nvidia.com/dgx-superpod/reference-architecture-scalable-infrastructure-h100/latest/dgx-superpod-architecture
· DGX B200
www.docs.nvidia.com/dgx-superpod/reference-architecture-scalable-infrastructure-b200/latest/dgx-superpod-architecture
· DGX B300
www.docs.nvidia.com/dgx-superpod/reference-architecture/scalable-infrastructure-b300/latest/abstract
· DGX GB200
www.docs.nvidia.com/dgx-superpod/reference-architecture-scalable-infrastructure-gb200/latest/dgx-superpod-components
-END-
*AI主題在線研討會,直播預(yù)約
4月22-24日,特別邀請微軟、Meta、AMD、戴爾、博通等國際頂尖企業(yè)的十余位技術(shù)專家與高層領(lǐng)袖,聯(lián)合Heavy Reading資深分析師、是德科技核心技術(shù)團隊共話AI基礎(chǔ)設(shè)施技術(shù)。精彩內(nèi)容歡迎識別下方二維碼預(yù)約免費預(yù)約觀看或點擊鏈接 進入會議,并抽取精美獎品。
4月22日 趨勢洞察:AI基礎(chǔ)設(shè)施及相關(guān)產(chǎn)業(yè)的未來之路》》點擊報名
4月23日 3.2T核心技術(shù)篇:3.2T高速互連與SDN技術(shù)突破》》點擊報名
4月24日 前沿技術(shù)應(yīng)用篇:Agentic AI,UEC,Scale In, Scale Up, Scale Out前沿技術(shù)探討》》點擊報名
掃碼報名