ICC訊 當生成式AI與大語言模型的參數(shù)規(guī)模以指數(shù)級膨脹,一場圍繞數(shù)據(jù)中心基礎設施的靜默革命早已拉開帷幕。2024年,Blackwell平臺以其GB200 NVL72機架震驚業(yè)界,將72顆GPU與36顆CPU塞進單個機柜。然而,這僅僅是序幕。
據(jù)SemiVision的前瞻報告,在即將到來的GTC 2026大會上,NVIDIA將展示更為激進的藍圖——一個涵蓋從超低延遲推理到超大規(guī)模訓練,從銅互連到光互連,從芯片到系統(tǒng)材料的全面重構。
這不僅是硬件的迭代,更是對“AI工廠”這一概念的徹底實踐。本文基于SemiVision 的報告,前瞻NVIDIA在GTC 2026上可能揭曉的核心技術,窺探未來AI算力基礎設施的形態(tài)。
推理專業(yè)化:LPX機架與分層推理架構的崛起
AI工作負載正從單純的訓練,向復雜、多樣化的推理場景深刻演變。NVIDIA的應對策略不再是“一刀切”的通用GPU,而是構建一個分層推理架構。在這一戰(zhàn)略中,全新的LPX推理機架將扮演顛覆性角色。
LPX的核心源于NVIDIA對Groq LPU(語言處理單元)技術的授權與吸收。與依賴外部HBM的GPU不同,LPU將海量SRAM內(nèi)存直接集成在芯片上,并通過確定性執(zhí)行模式,在編譯時即調度所有計算與數(shù)據(jù)移動,從而徹底消除了運行時內(nèi)存帶寬爭用,實現(xiàn)了毫秒級的超低延遲token生成。
GTC 2026上,NVIDIA預計將發(fā)布增強型LPX機架,從初代的64個LPU擴展到256個LPU。通過Groq的RealScale無交換網(wǎng)絡,這256個LPU能夠像一個共享內(nèi)存空間般協(xié)同工作,實現(xiàn)近乎線性的擴展。這種架構特別適合具有長程依賴關系的大語言模型和混合專家模型。
LPX的定位并非取代GPU,而是與之互補。 NVIDIA的遠景是:當模型較小且需要極致實時性時(如實時語音交互、機器人控制),由LPX處理;當模型需要巨大的內(nèi)存容量來處理長上下文時,則由基于HBM4的Rubin GPU或基于GDDR7的CPX GPU接手。這種“分工協(xié)作”的混合AI工廠,將成為高效推理的新范式。
Rubin時代:從NVL72到NVL576的算力躍遷
作為Blackwell的繼任者,Vera Rubin平臺將把AI算力密度推向新的高度。
1. VR200 NVL72:承上啟下的性能巨獸
Rubin NVL72機架集成72顆Rubin GPU和36顆Vera CPU。借助新的NVFP4精度,其推理性能較Blackwell提升高達5倍,訓練性能提升3.5倍。HBM4內(nèi)存的引入不僅帶來了20.7TB的總容量和1,580TB/s的總帶寬,其能效提升也使得在算力大幅躍進的同時,整機柜功耗僅從Blackwell NVL72的約140kW增長到190-230kW(取決于Max Q或Max P配置)。升級的微通道冷板和模塊化組裝設計,則支撐著這一“算力熱密度”的挑戰(zhàn)。
2. CPX與NVL144:長上下文推理的性價比之選
為應對百萬token長上下文推理的挑戰(zhàn),NVIDIA將推出Rubin架構的變體——CPX GPU。它采用單芯片設計搭配成本更優(yōu)的GDDR7內(nèi)存,雖帶寬遠低于HBM4,但憑借高性價比和96GB的容量,在需要加載整個上下文進行“預填充”的計算階段優(yōu)勢顯著。據(jù)報道,其在預填充工作負載上的性能可達GB300 NVL72的3倍。
NVL144 CPX機架將集成144顆Rubin GPU和144顆CPX GPU,采用無纜化的模塊化設計,通過大面積PCB中背板連接,將機柜組裝時間從2小時銳減至約5分鐘,為未來向更高級互連的過渡鋪平道路。
3. Rubin Ultra NVL576:正交背板與CPO的拐點之戰(zhàn)
真正的“怪獸”是計劃于2027年下半年亮相的Rubin Ultra NVL576(代號Kyber)。單個機柜容納576顆GPU,功耗達600kW,提供5 EFLOPS的FP8訓練算力。支撐此等規(guī)模的關鍵,在于兩種互連方案的對決:
● 正交背板:用一塊面積約1平方米、多達78層的M9/PTFE混合材料PCB,取代超過2萬根銅纜,實現(xiàn)GPU卡與NVSwitch卡間的垂直與水平連接。這雖大幅簡化了組裝,但對PCB的層壓、鉆孔、鍍孔工藝提出了“細胞核級別”的精密要求。
● 共封裝光學:更革命性的方案是CPO,將光子引擎與交換芯片直接封裝在一起,將1.6T可插拔光模塊的功耗從約30W降至9W,能效提升3.5倍。NVL576可能采用“Scale-up”(機柜內(nèi)NVLink互聯(lián))與“Scale-out”(機柜間網(wǎng)絡互聯(lián))雙管齊下的CPO策略,預計單個機柜將用到近800個光子引擎。
GTC 2026有望披露這兩種方案的詳細對比,客戶將在“背板設計的可靠性”與“CPO的極致能效”之間做出選擇。
光進銅退:網(wǎng)絡通信的終極進化
超大規(guī)模AI工廠對網(wǎng)絡帶寬和能效的渴求,正驅動互連技術從電到光的根本性轉變。
1. NVLink的持續(xù)演進:從Rubin平臺的NVLink 6(1.6 Tb/s/鏈路)到未來的NVLink 7/8,帶寬持續(xù)翻倍,并支持與CPU的內(nèi)存一致性訪問,使CPU、GPU、LPU能形成統(tǒng)一的共享計算池。
2. Spectrum-X與Quantum-X的CPO化:GTC 2026上,NVIDIA預計將正式發(fā)布基于CPO的光以太網(wǎng)交換機Spectrum-X Photonics(最高409.6 Tb/s帶寬)和InfiniBand交換機Quantum-X800 CPO(115 Tb/s帶寬)。通過CPO技術,這些交換機端口功耗大幅降低,可靠性和部署速度顯著提升,且支持在數(shù)據(jù)中心內(nèi)熱插拔,為構建數(shù)萬顆GPU規(guī)模的光學AI工廠奠定基礎。
系統(tǒng)級挑戰(zhàn):材料、散熱與供應鏈
這一切宏偉架構的背后,是無數(shù)系統(tǒng)級工程的突破。
● 材料革命:支撐256個LPU或正交背板的核心,是如M9級覆銅板(使用Q玻璃,介電常數(shù)低至3.0)這樣的尖端PCB材料。它們確保了在56G-112G乃至448G SerDes高速信號下的低損耗傳輸。
● 散熱攻堅:從Rubin的100μm微通道冷板,到應對600kW機柜的混合液冷方案,散熱設計直接決定了系統(tǒng)的穩(wěn)定與性能上限。
● 供應鏈安全:M9、PTFE等先進材料,以及CPO所需的光子引擎、激光器,其供應鏈的穩(wěn)定性和地緣政治因素,將成為影響未來AI算力擴張速度的關鍵變量。
展望GTC 2026:不止于發(fā)布
GTC 2026將不僅僅是新產(chǎn)品的展示臺,更是NVIDIA完整AI基礎設施愿景的宣言。我們預期看到:
● LPX、CPX/NVL144、Rubin Ultra NVL576 等平臺的詳細規(guī)格與上市路徑。
● 正交背板與CPO方案 的正面比較與客戶導向策略。
● Spectrum-X/Quantum-X CPO 交換機的商業(yè)化落地。
● 圍繞AI工廠解決方案的更多生態(tài)系統(tǒng)合作案例。
結語:重新定義競爭維度
從LPX到Rubin Ultra,NVIDIA展現(xiàn)的是一條超越單純芯片算力競賽的路徑。未來的競爭,是跨領域整合能力的競爭——涵蓋芯片、光電子、先進材料、封裝、散熱與系統(tǒng)設計的全方位對決。AI服務器正在成為一個高度復雜、快速迭代(約每兩年一次平臺革新)的集成系統(tǒng)。
GTC 2026在即,我們即將見證的,不僅是一系列硬件參數(shù)的飆升,更是一套定義下一個AI計算時代的、完整的基礎設施哲學正式登上舞臺。對于整個產(chǎn)業(yè)而言,理解并融入這場由系統(tǒng)創(chuàng)新驅動的變革,將是抓住下一波人工智能浪潮機遇的關鍵。