$100億+
三年協議總價值
750 MW
晶圓級運算功率
15倍
比GPU系統更快的回應速度
~32,768
預估CS-3系統數量

一筆重新定義AI基礎設施的交易

2026年2月底,OpenAI正式宣布與Cerebras Systems簽署一項為期三年、價值超過100億美元的推論算力採購協議。根據協議條款,OpenAI將從2026年第一季開始部署Cerebras的晶圓級運算系統,並逐步擴展至2028年,最終建成750MW的推論算力基礎設施。這不僅是Cerebras成立以來獲得的最大單一客戶合約,也是全球AI產業有史以來規模最大的高速推論部署計畫。

750MW的規模意味着什麼?以Cerebras目前的旗艦產品CS-3系統為基準——每台CS-3的功耗約為23kW——這筆交易在理論上可能涉及約32,768台CS-3系統,安裝在大約16,384個機架中。這一數字的龐大程度,足以構成多座超大型數據中心的核心算力。

負責推動這項合作的是OpenAI基礎設施執行副總裁Sachin Katti。Katti自加入OpenAI以來,一直主導公司的算力多元化戰略,其核心理念是確保OpenAI不被任何單一硬體供應商鎖定。此次與Cerebras的合作,是這一戰略的最新也是最大膽的體現。

「我們正在建設全球最大的高速AI推論基礎設施。Cerebras的晶圓級技術提供了比傳統GPU系統快15倍的回應速度,這對我們的推理模型和編碼應用至關重要。」

—— OpenAI基礎設施戰略的核心邏輯

從訓練到推論:AI經濟學的結構性轉移

這筆交易最深層的意義,不在於金額本身,而在於它所代表的產業轉向——AI產業的經濟重心正從模型訓練(training)轉向推論(inference)。理解這一轉變,是把握未來五年AI基礎設施投資方向的關鍵。

模型訓練是一次性的資本支出。一個大型語言模型——無論是GPT-5還是其他前沿模型——在完成訓練後,其權重即固定下來,可被無限次調用。訓練過程雖然耗費巨資(動輒數億甚至數十億美元),但它是有終點的。

推論則截然不同。每當一位用戶向ChatGPT發送問題、每當一個AI代理執行任務、每當一段程式碼透過AI助手生成,都需要消耗推論算力。隨着ChatGPT的月活躍用戶突破數億、AI編碼工具在軟體開發中的滲透率急劇攀升、以及推理模型(reasoning models)引入更深層的思維鏈計算,推論算力的需求正以指數級速度增長。

OpenAI在此次交易中特別強調了兩個應用場景:推理模型與編碼應用。推理模型需要在生成每個回應時執行大量中間推理步驟,其算力消耗遠超傳統的直接生成模式。而編碼應用——包括程式碼生成、除錯、重構和測試——要求極低的延遲和極高的吞吐量,因為開發者對回應速度的容忍度遠低於一般用戶。Cerebras宣稱其系統能提供比GPU系統快15倍的推論回應速度,這正是OpenAI選擇晶圓級架構的核心原因。

AI推論需求爆發的五大驅動力

  • 推理模型的崛起:思維鏈(Chain-of-Thought)推理要求每次回應執行數十至數百步中間計算,推論算力需求倍增
  • AI編碼的普及:OpenAI估計AI輔助程式開發將佔軟體產出的主要比例,每次程式碼生成皆需即時推論
  • 代理式AI的擴展:自主AI代理需持續推論以感知環境、規劃行動和執行任務
  • 用戶規模的膨脹:全球數億活躍用戶每日產生數十億次推論請求
  • 多模態處理:文字、影像、語音、影片的多模態推論要求數倍於純文字的算力

晶圓級架構 vs GPU叢集:技術路線的根本分歧

要理解OpenAI為何選擇Cerebras而非繼續擴大GPU叢集,必須深入理解晶圓級運算與傳統GPU架構之間的根本差異。

Nvidia的GPU推論方案是一個分散式系統問題。數千張GPU透過高速互連(如NVLink和InfiniBand)組成叢集,模型權重分佈在多張GPU的高頻寬記憶體(HBM)中,推論過程需要在GPU之間頻繁搬運數據。這種架構在訓練大型模型時表現優異——訓練本質上是大規模的平行矩陣運算,能夠充分利用GPU叢集的總算力。但在推論場景中,特別是對延遲敏感的即時推論,GPU叢集的通訊開銷和數據搬運延遲成為嚴重的效率瓶頸。

Cerebras的晶圓級引擎(WSE)採取了根本不同的方法。整片矽晶圓作為單一巨型晶片運作,所有運算核心和記憶體共存於同一塊矽片上,數據在核心之間的傳輸距離以毫米而非公尺計算。對於推論工作負載而言,這種架構的優勢是壓倒性的:模型權重無需跨晶片搬運、沒有網絡通訊開銷、確定性延遲極低。這就是Cerebras能宣稱15倍速度優勢的技術基礎。

從系統層面看,一台CS-3系統功耗僅23kW,卻能提供相當於多台GPU伺服器的推論吞吐量。在每瓦推論性能這一關鍵指標上,晶圓級架構展現出結構性優勢。對於OpenAI這種需要部署750MW推論算力的規模而言,每瓦效率的微小差異都會被放大為數十億美元的成本差距。

GPU叢集是為訓練而生的——它將數千張晶片的算力匯聚為一個龐大的計算池。但推論是一個延遲遊戲,而非吞吐量遊戲。當你需要在毫秒級內生成回應時,數據搬運的距離決定了一切。

Nvidia壟斷的瓦解:從單一供應商到多元生態

這筆交易的另一個深遠影響,是加速了AI算力市場從Nvidia一家獨大向多元供應格局的轉變。

OpenAI過去幾年的算力採購幾乎完全依賴Nvidia GPU。從H100到即將推出的Vera Rubin系列,Nvidia一直是OpenAI最大的硬體供應商。但這種單一依賴帶來了三重風險:價格溢價(Nvidia的毛利率長期維持在60-70%以上)、供應瓶頸(GPU產能和HBM供應受限)、以及技術鎖定(CUDA生態系統的遷移成本極高)。

OpenAI已在積極分散風險。除了此次與Cerebras的交易,OpenAI已累計承諾超過1.4兆美元的基礎設施投資,涵蓋Nvidia、AMD和Broadcom等多家供應商。這一策略的邏輯很清晰:訓練仍然需要Nvidia GPU的強大生態系統,但推論——一個規模更大、增長更快的市場——可以由專用架構來承擔。透過將訓練和推論的硬體堆棧分離,OpenAI既保留了Nvidia在訓練端的優勢,又避免了在推論端繼續支付「Nvidia稅」。

對Nvidia而言,這是一個值得警惕的信號。如果推論市場如業界預期般增長至訓練市場的三至五倍,那麼丟失推論市場意味着丟失AI算力市場的大部分未來增長。Nvidia當然不會坐以待斃——其TensorRT推論引擎和即將推出的專用推論加速器表明公司正在回應這一挑戰。但晶圓級架構在推論延遲上的結構性優勢,並非單純靠軟體優化就能消弭。

OpenAI算力供應多元化戰略

  • Nvidia:訓練工作負載的核心供應商,GPU叢集支撐前沿模型訓練
  • Cerebras:推論工作負載的主力,100億美元晶圓級部署
  • AMD:GPU替代方案,降低對Nvidia的訓練端依賴
  • Broadcom:自研晶片合作夥伴,長期定製化硬體路線
  • 總承諾投資:超過1.4兆美元的多供應商基礎設施佈局

雙方的戰略互補:各取所需

這筆交易對OpenAI和Cerebras而言,都具有超越財務數字的戰略意義。

對OpenAI來說,Cerebras提供了推論端的差異化競爭力。在AI大模型公司之間的競爭日趨白熱化的當下,推論速度直接決定了用戶體驗。一個能在亞秒級內完成複雜推理鏈的系統,與一個需要數秒才能回應的系統,在用戶感知上有天壤之別。對於OpenAI重點發展的編碼應用而言,開發者對延遲的容忍度幾乎為零——每一毫秒的等待都會打斷程式設計的心流。Cerebras宣稱的15倍速度優勢,若能在規模化部署中得到驗證,將為OpenAI帶來對Anthropic、Google等競爭對手的顯著技術護城河。

對Cerebras而言,這筆交易解決了公司最大的商業風險——客戶集中度。根據Cerebras的IPO文件披露,在2024年上半年,阿聯酋的G42佔據了其營收的87%。這種極端的客戶集中度不僅是財務風險,也是地緣政治風險——G42與中國的歷史關聯曾引發美國監管機構的審查,一度導致Cerebras的IPO進程受阻。OpenAI作為全球最具影響力的AI公司之一,其100億美元的長期合約為Cerebras提供了穩定且具公信力的營收基礎,大幅降低了客戶集中度風險。

值得注意的是,OpenAI首席執行長Sam Altman是Cerebras的早期投資者,兩家公司的合作關係可追溯至2017年。2018年,Elon Musk甚至曾嘗試收購Cerebras——這段歷史顯示,晶圓級運算技術的戰略價值早在多年前就已被AI產業的頂級人物所認知。如今,這一長達近十年的合作夥伴關係終於以百億美元級的商業合約得到了最實質性的兌現。

資本市場的連鎖反應

這筆交易在資本市場引發的漣漪效應正在擴散。據報道,Cerebras正在與投資者談判新一輪融資,目標金額為10億美元,估值達220億美元。考慮到公司此前在H輪融資中的估值已經相當可觀,OpenAI的百億美元合約無疑為這一估值提供了強有力的支撐。

對更廣泛的AI晶片新創生態系統而言,這筆交易傳遞了一個明確信號:替代架構不再僅僅是技術展示品或邊緣利基,它們正在贏得AI產業最核心玩家的信任和真金白銀的承諾。Groq的LPU、Etched的Sohu ASIC、以及各家超大規模雲端廠商的自研晶片——整個AI推論硬體生態正在從「Nvidia唯一」走向「百花齊放」。

但我們也必須看到這筆交易背後的風險。100億美元分攤在三年內,意味着年均支出超過33億美元。如果推論需求的增長不及預期,或者Nvidia在推論領域推出具有壓倒性優勢的新產品,OpenAI可能面臨產能過剩的風險。此外,Cerebras能否在如此短的時間內實現750MW的產能爬坡,也是一個巨大的供應鏈挑戰——這需要晶圓代工廠(主要是台積電)的全力配合,以及數據中心電力和冷卻基礎設施的同步建設。

推論經濟時代的來臨

縱觀AI產業的發展軌跡,2023至2025年可以被定義為「訓練軍備競賽」時代——各大公司爭相投入數十億美元訓練更大、更強的模型。而2026年,以OpenAI-Cerebras這筆交易為標誌,產業正式進入「推論經濟」時代。

這一轉變的經濟邏輯是不可逆的。訓練投資的邊際回報正在遞減——當模型規模從千億參數增長到兆級參數時,能力提升的幅度愈來愈小,而訓練成本的增長卻是超線性的。與此同時,推論投資的回報正在加速增長——每一分推論算力的增加都直接轉化為更多用戶可服務、更低的回應延遲、更好的用戶體驗,進而帶來更高的收入。

在這一背景下,推論效率成為AI公司競爭力的核心指標。一個能以更低成本、更快速度提供相同品質推論服務的公司,將在市場競爭中獲得持續的結構性優勢。OpenAI選擇投入百億美元建設專用推論基礎設施,正是基於這一判斷。

編輯觀點:百億美元的信號

OpenAI與Cerebras的100億美元推論協議,是2026年AI產業最具里程碑意義的事件之一。這筆交易同時傳遞了三個重要信號。

第一,推論已經取代訓練成為AI基礎設施投資的重心。當全球最領先的AI公司將百億美元投向專用推論硬體時,整個產業的資本配置邏輯已經發生了根本性轉變。訓練大模型仍然重要,但真正創造商業價值的是推論——是每一次用戶互動、每一行AI生成的程式碼、每一個AI代理執行的任務。

第二,Nvidia的壟斷正在被系統性地瓦解。不是因為Nvidia的產品不夠好,而是因為推論市場的需求特徵與訓練市場根本不同。GPU叢集在訓練端的優勢——大規模平行計算和成熟的軟體生態——在推論端並不能自動轉化為同等優勢。晶圓級架構、ASIC專用晶片、LPU等替代方案正在推論這個快速增長的市場中找到自己的位置。對於整個AI產業而言,算力供應的多元化是一個健康的演進方向。

第三,AI基礎設施的規模已經進入了「兆級」時代。OpenAI累計超過1.4兆美元的基礎設施承諾、Alphabet超過1,850億美元的AI投資計畫、以及全球各大科技公司的天文數字資本支出——這些數字表明,AI基礎設施正在成為人類歷史上最大規模的技術投資浪潮。750MW的推論算力,其電力消耗相當於一座中型城市,這一事實本身就揭示了AI產業對能源、土地和供應鏈的巨大需求。

對香港及亞太地區的AI從業者而言,這筆交易的啟示是多維度的。從技術角度看,推論優化將成為未來數年最具價值的技術能力之一——無論是硬體設計、系統架構還是軟體優化。從商業角度看,推論成本的下降將解鎖大量此前在經濟上不可行的AI應用場景。從戰略角度看,算力供應的多元化為區域性AI企業提供了更多選擇和更強的議價能力。

OpenAI與Cerebras的合作,不僅是兩家公司之間的商業交易,更是AI產業邁入推論經濟時代的宣言。當推論算力的規模以百兆瓦計算、投資以百億美元計量時,我們正目睹的不僅是一個產業的演進,而是一場關於計算基礎設施未來的根本性變革。這場變革才剛剛開始。