CNBC獨家:首度走進Vera Rubin的誕生地

2026年2月25日,就在Nvidia公布Q4業績的同一天,CNBC記者獲准進入Nvidia聖塔克拉拉總部,對即將量產交付的Vera Rubin平台進行了首次近距離的獨家報導。這是業界首次看到這個下一代AI運算平台的完整面貌——不再是發布會上的簡報投影片,而是實際已進入全面生產的真實硬體。

Nvidia展示的不是一顆晶片,而是一個由六種晶片構成的完整運算生態系統。這種系統級的設計思維,標誌著AI硬體已從「一顆GPU打天下」的時代,進化到需要多種專用晶片協同工作的新架構紀元。每一個組件都經過精密設計,共同服務於一個目標:以最低的成本提供最高的AI運算密度。

3,360億
Rubin GPU電晶體數量
5倍
推理性能 vs Blackwell
3.6 EFLOPS
NVL72機架推理算力
1/10
每token推理成本(vs Blackwell)

六晶片平台:AI運算的交響樂團

Vera Rubin平台的核心設計哲學是「專用化協同」。與過去單靠GPU暴力運算不同,Nvidia將六種不同功能的晶片整合為一個統一的運算系統,每一種晶片各司其職,共同實現前所未有的運算效率。理解這六個組件,就等於理解了下一代AI基礎設施的完整藍圖。

Rubin GPU是整個平台的運算核心,負責執行AI模型的訓練和推理運算。Vera CPU作為系統的指揮中樞,管理數據流動、任務調度和系統控制。NVLink 6 Switch負責GPU之間的超高速互連通訊,讓數十顆GPU能夠協同工作如同一體。ConnectX-9 SuperNIC提供伺服器與外部網路之間的高速連接。BlueField-4 DPU(數據處理單元)卸載安全加密、虛擬化和網路處理等任務,讓GPU專注於AI運算。Spectrum-6 Ethernet Switch則負責整個數據中心層級的網路交換。

這種六晶片的分工設計,本質上是將過去由CPU和GPU「兼職」處理的各種輔助任務,分配給專門的晶片來執行。結果是:GPU的每一個電晶體都能專注於AI運算本身,而不必浪費資源在網路管理、安全加密等非核心任務上。

Rubin GPU:3360億電晶體的算力怪獸

Rubin GPU是Vera Rubin平台的絕對核心,也是此次曝光中最令人矚目的焦點。3360億個電晶體——這個數字意味著什麼?作為對比,Nvidia上一代旗艦Blackwell B200 GPU擁有約2080億個電晶體,而蘋果最新的M系列晶片約有數百億個電晶體。Rubin GPU的電晶體數量是Blackwell的1.6倍,是一個前所未有的半導體工程壯舉。

但電晶體數量只是故事的一部分。真正決定性能的是這些電晶體如何被組織和利用。Rubin GPU在NVFP4精度下可提供高達50 PFLOPS(每秒五千萬億次浮點運算)的推理算力,在訓練工作負載下則可達35 PFLOPS。這代表了推理性能較Blackwell提升5倍、訓練性能提升3.5倍的驚人飛躍。

要直觀地理解50 PFLOPS的推理算力:這意味著單顆Rubin GPU每秒可以處理的AI運算量,相當於數年前一整座超級電腦的運算能力。當72顆這樣的GPU在一個機架中協同工作時,其算力之龐大足以讓任何現有的AI模型都顯得微不足道。

HBM4記憶體:打破頻寬瓶頸

在AI運算中,算力和記憶體是兩條腿——缺一不可。即使GPU的運算能力再強,如果記憶體無法快速供給數據,GPU就會處於「飢餓」狀態,大量算力被浪費在等待數據上。這就是為什麼Nvidia在Rubin GPU上採用了最新的HBM4(第四代高頻寬記憶體)技術。

每顆Rubin GPU最高可搭配288GB的HBM4記憶體,記憶體頻寬達到22 TB/s(每秒22兆位元組)。相較之下,Blackwell B200搭配的HBM3e記憶體頻寬約為8 TB/s。頻寬的提升接近3倍,這意味著GPU能夠以前所未有的速度吞吐數據,大幅減少運算瓶頸。

288GB的記憶體容量對於大型語言模型尤為關鍵。當前最先進的AI模型(如GPT-5、Claude Opus等)的參數規模動輒數千億甚至上萬億,將這些參數載入記憶體是推理的首要步驟。更大的記憶體意味著可以在單顆GPU上載入更大的模型分區,減少跨GPU通訊的開銷,從而進一步提升效率。

Rubin GPU vs Blackwell B200 關鍵對比

  • 電晶體:3360億 vs 2080億(提升62%)
  • 推理性能(NVFP4):50 PFLOPS vs ~10 PFLOPS(提升5倍)
  • 訓練性能:35 PFLOPS vs ~10 PFLOPS(提升3.5倍)
  • 記憶體容量:最高288GB HBM4 vs 192GB HBM3e
  • 記憶體頻寬:22 TB/s vs ~8 TB/s(提升約2.75倍)
  • 能效比:每瓦性能提升10倍

Vera CPU:Arm架構的全新詮釋

在AI運算系統中,CPU往往被GPU的光芒所掩蓋,但一顆優秀的CPU對系統整體效率至關重要。Vera CPU是Nvidia專為AI工作負載設計的下一代數據中心處理器,內含227億個電晶體(注意,這裡是「億」而非Rubin GPU的「3360億」,但對CPU而言仍是極為龐大的規模)。

Vera CPU搭載了88個Arm架構的「Olympus」核心,支援176個執行緒,並可搭配最高1.5TB的LPDDR5x記憶體。選擇Arm架構而非傳統的x86架構,反映了Nvidia對能效比的高度重視——Arm架構天生在每瓦性能上優於x86,這對於需要7天24小時不間斷運行的數據中心而言是關鍵優勢。

「Olympus」核心這個命名暗示了Nvidia對這顆CPU的定位——它不是市面上任何一顆現有Arm核心的翻版,而是Nvidia從底層重新設計、專為AI數據中心工作負載量身打造的全新微架構。這意味著它在AI任務相關的數據搬運、任務調度和I/O處理上,擁有遠超通用處理器的優化深度。

NVL72機架:一個機櫃裝下一座超級電腦

如果說單顆Rubin GPU已經足夠震撼,那麼NVL72機架配置則將震撼推向了極致。一個標準的NVL72機架由72顆Rubin GPU和36顆Vera CPU組成,整體推理算力高達3.6 EFLOPS(每秒360萬萬億次浮點運算),搭載20.7TB的HBM4記憶體。

機架內部的規模互連頻寬達到260 TB/s,這確保了72顆GPU之間的數據交換可以以極低的延遲進行,讓它們真正像一個統一的巨型處理器般協同運作。整個機架包含超過130萬個組件,其零件來自20多個國家的80多家供應商——這本身就是全球半導體供應鏈複雜性的生動寫照。

3.6 EFLOPS的推理算力意味著什麼?2020年全球最快的超級電腦「富岳」(Fugaku)的峰值算力約為0.54 EFLOPS。如今,一個單一的NVL72機架——佔地面積不過幾平方米——的推理算力已超過當年全球最快超級電腦的6倍以上。這就是AI硬體在短短幾年間的演進速度。

能效革命:每瓦性能提升10倍

算力的暴增如果伴隨著同比例的功耗暴增,那就不是真正的進步——只是用更多電費換取更多運算。Vera Rubin平台在這方面交出了令人信服的答卷:每瓦性能較Blackwell提升了10倍。

這一數字的意義是雙重的。首先,它意味著在相同的電力預算下,Vera Rubin可以完成10倍於Blackwell的工作量。其次,考慮到全球數據中心的電力消耗正在成為日益嚴峻的環境和政策問題,10倍的能效提升意味著AI產業的碳足跡增長可以得到顯著緩解。

為了實現如此高的運算密度,NVL72機架採用了100%液冷設計。傳統的風冷散熱在如此高的功率密度下已經力不從心,液冷技術通過直接將冷卻液輸送到晶片表面,能夠以更高的效率帶走熱量。這也意味著部署Vera Rubin機架的數據中心必須具備液冷基礎設施——對於那些仍然以風冷為主的傳統數據中心而言,這將是一筆額外的升級投資。

成本經濟學:每token成本降至十分之一

對於AI產業的終端用戶和服務提供商而言,最具實際意義的數字或許不是算力和電晶體數量,而是「每token推理成本降至Blackwell的十分之一」。這個數字直接決定了AI服務的經濟可行性和普及速度。

在大型語言模型的世界中,每一次用戶查詢都會消耗一定數量的「token」——每個token大約對應一個中文字或半個英文詞。token的處理成本由底層硬體的效率決定。當每token成本降至十分之一時,直接的商業影響是深遠的:

  • AI服務定價空間擴大:服務商可以在維持利潤率的同時大幅降價,推動AI服務向更廣泛的市場滲透
  • 複雜代理任務變得經濟可行:AI代理執行多步驟、長時間的複雜任務時,累計的token消耗不再令人卻步
  • 中小企業受益:原本只有大型企業能負擔的AI服務,將進入中小企業的預算範圍
  • 開源模型部署成本銳降:在自有硬體上運行大型開源模型的成本障礙大幅降低

此外,Nvidia聲稱訓練混合專家(Mixture of Experts, MoE)模型所需的GPU數量將減少至Blackwell的四分之一。MoE架構是當前最先進AI模型廣泛採用的設計方式,減少75%的GPU需求意味著訓練一個頂級AI模型的硬體門檻將大幅降低。這對於那些希望自主訓練模型的企業和研究機構而言,是一個重大利好。

定價與供貨:誰能最先拿到?

根據分析師估算,一個完整的NVL72機架定價約在350萬至400萬美元之間,比上一代Blackwell機架高出約25%。但考慮到性能提升高達5倍、每token成本降低90%,這25%的價格溢價在總體擁有成本(TCO)的角度來看反而是極為划算的。企業花多25%的錢,卻能獲得數倍的運算效能和大幅降低的營運成本。

Nvidia確認Vera Rubin平台已進入全面生產,計劃於2026年下半年開始向主要雲端客戶交付。首批獲得供貨的將是全球頂級的雲端服務商:AWS、Google Cloud、Microsoft Azure、Oracle Cloud Infrastructure(OCI)、CoreWeave和Lambda。對於這些超大規模運營商而言,率先部署Vera Rubin將成為吸引AI工作負載客戶的核心競爭優勢。

NVL72機架 規格一覽

  • GPU配置:72顆Rubin GPU + 36顆Vera CPU
  • 推理算力:3.6 EFLOPS(NVFP4精度)
  • HBM4記憶體總量:20.7TB
  • 規模互連頻寬:260 TB/s
  • 組件數量:超過130萬個
  • 冷卻方式:100%液冷
  • 供應鏈:來自20多個國家、80多家供應商
  • 預估定價:350萬至400萬美元
  • 量產交付:2026年下半年

全球供應鏈的極致考驗

一個NVL72機架包含超過130萬個組件,零件來自20多個國家的80多家供應商——這個數字本身就揭示了現代AI硬體供應鏈的驚人複雜性。從台積電的先進製程晶圓代工,到SK海力士和三星的HBM4記憶體封裝,從日本的精密基板材料到歐洲的光學互連元件,任何一個環節的瓶頸都可能影響整個平台的交付進度。

對於密切關注科技供應鏈的香港投資者而言,這意味著Vera Rubin的量產將為整條供應鏈帶來巨額訂單。從先進封裝到液冷系統,從高速連接器到電源管理模組,每一個環節的相關企業都可能直接受益。這也解釋了為何Nvidia選擇提前半年啟動量產——確保供應鏈有足夠時間進行產能爬坡,以滿足2026年下半年的龐大需求。

對AI產業格局的深遠影響

Vera Rubin的出現,不僅是Nvidia自身的產品迭代,更可能重塑整個AI產業的競爭格局和發展軌跡。

對競爭對手的壓力倍增。5倍的推理性能提升和10倍的能效比改善,意味著AMD、Intel以及各類AI晶片新創公司(如Etched、Cerebras、Groq等)面臨的追趕難度急劇加大。當Nvidia以如此速度迭代時,競爭對手的產品在推出時可能已經面臨代際差距。

AI模型訓練的門檻降低。如果訓練MoE模型所需的GPU數量減少至四分之一,那麼更多機構——包括大學研究實驗室、中型科技公司和國家級AI研究中心——將有能力訓練真正有競爭力的大型模型。這可能推動AI模型生態的進一步多元化。

AI應用的大眾化加速。每token成本降至十分之一,意味著AI服務的價格天花板大幅下降。那些曾經因成本過高而無法商業化的AI應用場景——即時多語言翻譯、全天候AI客服、大規模個人化推薦——都將變得經濟可行。

編輯觀點

Vera Rubin平台的首次完整曝光,確認了一個產業界早已預感但直到現在才完全看清的事實:Nvidia正在以令人窒息的速度拉大與競爭對手的差距。3360億個電晶體、5倍推理性能、10倍能效比——這些不是路線圖上的願景數字,而是已進入全面生產的實際產品規格。

但更值得深思的是「每token成本降至十分之一」這個看似樸素的數字。在AI產業中,成本決定了一切——它決定了哪些應用可以商業化,哪些企業能負擔AI服務,以及AI能在多大程度上滲透進日常生活和商業運作。當推理成本出現量級的下降時,整個AI應用生態的邊界都將被重新劃定。

對於香港的科技產業和企業決策者而言,Vera Rubin的到來既是機遇也是警示。機遇在於,更低的AI運算成本將使更多本地企業能夠負擔先進的AI服務;警示在於,全球AI基礎設施正在以驚人的速度演進,任何遲疑都可能導致競爭力的快速流失。2026年下半年Vera Rubin正式交付時,AI產業將再次翻開全新的一頁。