~$200億
交易總金額(授權+人才收購)
2.9x
相對Groq $69億估值的溢價倍數
350 tok/s
LPU在Llama 3.3 70B上的生成速度
$606億
Nvidia現金及有價證券儲備

交易結構:精心設計的反壟斷規避

理解這筆交易,首先需要理解它為什麼不是一場傳統意義上的「收購」。Nvidia並未直接購買Groq的全部股權,而是採用了一種在科技產業中相對罕見的混合結構——授權暨人才收購(licensing-and-acquihire)。在這個框架下,Nvidia取得的是Groq的核心知識產權授權和關鍵技術人才,而非公司本身。Groq作為一個法律實體維持名義上的獨立存在,Simon Edwards接任CEO,GroqCloud推論服務繼續運營。

這種結構的設計意圖是明確的:規避反壟斷審查。如果Nvidia直接全面收購Groq,考慮到Nvidia在AI加速器市場已經佔據的壓倒性份額,這筆交易幾乎必然會觸發美國聯邦貿易委員會(FTC)和歐盟競爭監管機構的深入調查,甚至可能被否決——正如Nvidia在2022年被迫放棄的400億美元Arm收購案。授權暨人才收購的結構,讓Nvidia在法律上並未增加對任何「公司」的控制權,從而降低了觸發反壟斷門檻的風險。

但這種法律形式的精巧,掩蓋不了經濟實質的直白:200億美元的對價,85%在交易完成時即支付,10%在2026年年中支付,5%在2026年底支付。當Groq最核心的技術專利被授權給Nvidia、最關鍵的技術領袖加入Nvidia、而Nvidia成為Groq技術的最大商業化實體時,所謂的「名義獨立」更多是一種監管策略,而非運營現實。

"Nvidia同時在進攻和防守。進攻面是取得Groq在確定性推論架構上的獨特技術;防守面是確保這項技術不會落入競爭對手手中,成為挑戰Nvidia推論霸權的武器。"

— Cantor Fitzgerald 分析師報告

交易關鍵條款

  • 交易結構:授權暨人才收購(licensing-and-acquihire),非全面收購
  • 交易金額:約200億美元
  • 付款安排:85%預付、10%於2026年中支付、5%於2026年底支付
  • 估值倍數:相對Groq三個月前$69億估值的2.9倍
  • 核心人才:創辦人Jonathan Ross(前Google TPU架構師)、總裁Sunny Madra加入Nvidia
  • Groq現狀:名義獨立,Simon Edwards接任CEO,GroqCloud繼續運營
  • Nvidia資金來源:現金及有價證券儲備$606億,交易額約為自由現金流的四分之一

Groq與LPU:從Google TPU到推論專用晶片的進化

要理解Nvidia為何願意支付如此驚人的溢價,必須深入理解Groq的技術底蘊和它所代表的架構理念。Groq不是一家普通的AI晶片新創——它的DNA可以追溯到AI專用硬體的源頭。

Groq的創辦人Jonathan Ross是Google TPU(Tensor Processing Unit)的首席架構師。TPU是全球第一款大規模部署的AI專用處理器,從2015年開始在Google內部服務於搜尋排名、語音辨識和自然語言處理等核心產品。TPU的成功證明了一個關鍵論點:專為AI工作負載設計的硬體,可以在性能和能效上大幅超越通用GPU。Ross在離開Google後創立Groq,將這一設計哲學推向了更極端的方向——不是設計一款「比GPU更好的通用AI加速器」,而是打造一款完全專注於推論(inference)的處理器。

Groq的核心產品被命名為LPU——Language Processing Unit(語言處理單元)。這個命名本身就是一種宣言:它不是GPU(圖形處理單元)、不是TPU(張量處理單元),而是專為語言模型的推論而生的處理器。LPU的架構設計圍繞一個核心目標:在大型語言模型的推論過程中實現超低延遲和確定性性能。

確定性架構:LPU的技術精髓

LPU最根本的技術創新在於它的確定性邏輯(deterministic logic)架構。傳統GPU在執行AI推論時,其性能具有不確定性——同一個請求在不同時間、不同負載條件下,可能產生不同的延遲。這是因為GPU是為大規模並行計算設計的通用處理器,它依賴複雜的記憶體層級、緩存機制和任務調度器,這些組件在動態負載下會引入不可預測的延遲波動。

LPU則通過徹底不同的架構路徑消除了這種不確定性。它採用軟體定義的硬體調度機制,讓每一步計算的時序在編譯階段即被確定。這意味著從第一個token到最後一個token,每一步推論的延遲都是可精確預測的。對於需要即時回應的AI應用——如對話系統、即時翻譯、自動駕駛決策、金融交易——這種確定性是極其寶貴的特性。

在公開基準測試中,LPU在運行Meta的Llama 3.3 70B模型時,達到了每秒350個token的生成速度。作為參照,Nvidia的高端GPU在類似條件下的典型速度約為每秒30至80個token。這意味著LPU在特定推論場景中的速度優勢可達4至10倍——這個差距足以改變AI應用的用戶體驗和商業可行性。

LPU技術核心特徵

  • 架構類型:確定性邏輯(deterministic logic),非通用並行計算
  • 設計目標:超低延遲、高吞吐量的語言模型推論
  • 性能表現:Llama 3.3 70B上達350 tokens/sec
  • 獨特優勢:每次推論的延遲可在編譯階段精確預測
  • 當前限制:記憶體容量相對有限,大參數模型支持能力存疑

質疑與風險:Hedgeye的冷水

在市場對這筆交易普遍持樂觀態度的背景下,對沖基金研究機構Hedgeye發出了值得重視的警告。Hedgeye的分析師指出,Groq的LPU晶片「在大型模型上仍未被證明」(still unproven for large models),核心原因在於記憶體容量的限制

這是一個精準切中要害的技術批評。現代最先進的大型語言模型——如GPT-5系列、Claude Opus、Gemini Ultra——的參數規模已經達到數千億甚至數萬億的級別。運行這些模型需要龐大的記憶體來存儲模型參數和中間計算結果(特別是注意力機制中的KV緩存)。LPU的確定性架構在犧牲通用性的同時,也限制了其記憶體擴展的靈活性。

換言之,LPU在中等規模的開源模型(如70B參數的Llama系列)上展現了令人印象深刻的速度優勢,但當模型規模進一步擴大至最前沿的閉源模型水準時,記憶體瓶頸可能會大幅削弱甚至抵消這一優勢。這也解釋了為什麼Nvidia願意支付200億美元——不是為了直接使用現有的LPU晶片,而是為了將LPU的確定性邏輯設計理念融入Nvidia自己的下一代架構

"Groq的LPU在70B級別的模型上表現卓越,但在數千億至萬億參數的前沿模型上仍未經驗證。記憶體容量是當前架構的硬性瓶頸,投資者不應將小模型上的基準測試成績外推至整個推論市場。"

— Hedgeye Risk Management 分析報告

戰略棋局:Nvidia為何現在出手?

從Nvidia的角度看,這筆200億美元的交易邏輯包含三個相互交織的戰略維度。

第一,技術整合。Nvidia的下一代AI運算平台Vera Rubin預計在2026年下半年開始量產。多位知情人士透露,Nvidia計劃將Groq的確定性邏輯設計原則原生整合(natively incorporate)進Vera Rubin架構中。這意味著未來的Nvidia晶片將同時具備GPU的通用並行計算能力和LPU的確定性低延遲推論能力——這是一個任何競爭對手都無法輕易複製的技術組合。如果成功,Vera Rubin將不僅是一款更快的GPU,而是一款在架構層面融合了兩種設計哲學的全新品類處理器。

第二,人才取得。Jonathan Ross不僅是一位傑出的晶片架構師,更是全球極少數擁有從TPU到LPU完整設計經驗的AI硬體專家。他對AI專用處理器的設計直覺和架構判斷力,無法通過僱用普通工程師來複製。Sunny Madra在商業化和企業客戶方面的經驗同樣珍貴。在全球AI人才爭奪白熱化的當下,鎖定這些人才的戰略價值可能比任何專利組合都更為長遠。

第三,競爭防禦。Cantor Fitzgerald的分析師用「同時進攻和防守」(playing both offense and defense)來描述Nvidia的策略。進攻面是取得LPU技術來強化自身產品線;防守面同樣關鍵——如果Groq的技術被AMD、Intel或任何一家雲端巨頭取得,它可能成為挑戰Nvidia推論市場地位的有力武器。通過將Groq的技術納入自己的版圖,Nvidia同時增強了自身並削弱了潛在競爭者的選項。

從「訓練時代」到「推論時代」:AI產業的範式轉移

如果將Nvidia收購Groq置於更宏觀的產業脈絡中,它所標誌的不僅是一筆併購交易,而是AI產業從「訓練時代」(Training Era)向「推論時代」(Inference Era)的歷史性轉軌。

過去五年,AI產業的核心敘事是「訓練」。從GPT-3到GPT-4到GPT-5,從LLaMA到Llama 3,每一次模型能力的躍進都是通過更大的數據集、更多的GPU叢集、更長的訓練時間來實現的。這個敘事催生了對Nvidia GPU的天文數字級需求——Meta一次訂購數百萬顆晶片、OpenAI和Microsoft投入數千億美元建設訓練集群、甚至主權國家也在競相建設國家級AI訓練基礎設施。

然而,隨著最先進的基礎模型逐漸成熟並進入大規模部署階段,產業的重心正在悄然轉移。訓練一個前沿模型是一次性的巨額投資,但在數十億用戶面前運行這個模型——每一次ChatGPT的對話、每一次Claude的程式碼生成、每一次Gemini的搜尋增強——都是持續不斷的推論計算。根據多個行業估算,到2026年底,全球AI運算資源中用於推論的比例將首次超過用於訓練的比例。

這一轉變的經濟含義是深遠的。在訓練時代,算力是一種「前期資本支出」——你投入一大筆錢訓練出模型,然後期望模型帶來長期回報。在推論時代,算力變成了一種「持續營運成本」——每一個用戶的每一次互動都在消耗推論資源,而這些成本直接影響AI產品的利潤率和商業可行性。當推論成為AI的主要成本中心時,推論效率的微小提升就能轉化為數十億美元的節省。

這正是LPU這類推論專用硬體如此被重視的根本原因。如果一款晶片能將推論延遲降低5倍,它不僅改善了用戶體驗,更從根本上改變了AI產品的成本結構——讓原本在經濟上不可行的AI應用場景變得可行,讓原本微利的AI服務變得有利可圖。

訓練時代 vs 推論時代:核心對比

  • 訓練時代:算力是前期資本支出,追求更大模型、更多數據、更長訓練周期
  • 推論時代:算力是持續營運成本,追求低延遲、高吞吐、確定性性能
  • 訓練時代硬體:大規模GPU叢集,以FP16/BF16精度為主
  • 推論時代硬體:混合架構(GPU + 專用加速器),INT8/INT4量化,確定性調度
  • 關鍵轉折:2026年底推論算力佔比預計首次超越訓練

「解耦推論架構」:VentureBeat的前瞻預言

科技媒體VentureBeat在對這筆交易的分析中提出了一個引人注目的概念:Nvidia收購Groq標誌著「解耦推論架構」(Disaggregated Inference Architecture)時代的開端。

在傳統的AI推論部署中,模型的所有組件——預處理、注意力計算、前饋網路、解碼生成——都運行在同一類型的硬體上(通常是Nvidia GPU)。這種「耦合」架構簡單直觀,但效率並非最優,因為不同計算步驟對硬體的需求特性截然不同:注意力計算是記憶體密集型的,前饋網路是計算密集型的,解碼生成則對延遲極度敏感。用同一款通用硬體執行所有步驟,意味著在每一個步驟上都存在某種程度的資源浪費。

解耦推論架構的理念是將這些不同的計算步驟分配到最適合它們的專用硬體上——例如,用傳統GPU處理計算密集型的前饋層,用LPU式的確定性加速器處理延遲敏感的token生成,用高頻寬記憶體模組處理記憶體密集型的KV緩存。這種架構需要一個複雜的軟體調度層來協調不同硬體之間的數據流動,但它有潛力實現遠超同質化硬體部署的整體效率。

如果Nvidia成功將Groq的技術整合進Vera Rubin平台,它有可能成為第一家在單一產品線中同時提供通用GPU運算和確定性推論加速的公司——這正是解耦推論架構在商業產品層面的第一個具體化身。這也是為什麼VentureBeat將這筆交易視為一個時代的開端,而非僅僅一次公司層面的併購。

Jonathan Ross:從TPU到LPU的十年架構演化

在這筆交易中,Jonathan Ross的個人角色值得特別關注。他的職業軌跡,幾乎就是AI專用硬體發展史的縮影。

Ross在Google的TPU項目中擔任首席架構師,是全球最早將「為AI設計專用晶片」從構想推向大規模生產的工程師之一。TPU的成功不僅為Google提供了超越競爭對手的AI算力,更重要的是它證明了一個原則:在AI工作負載上,專用設計可以比通用設計高效一個數量級以上。這個原則後來成為整個AI晶片新創浪潮的理論基礎。

離開Google後,Ross創立Groq時做出了一個更為激進的架構選擇——不只是設計一款「更好的AI加速器」,而是從根本上重新定義推論處理器的架構範式。TPU仍然保留了某種程度的通用性(它可以用於訓練和推論),而LPU則完全專注於推論,以確定性邏輯取代了傳統的動態調度機制。這是一個從「改良」到「顛覆」的思維跳躍。

現在,Ross帶著十年的AI專用硬體設計經驗加入Nvidia——一家擁有全球最先進的晶片設計能力、最龐大的軟體生態系統和最深厚的客戶關係的公司。如果他能夠在Nvidia的資源平台上將LPU的設計哲學與GPU的計算能力深度融合,其成果可能定義未來十年AI硬體的演進方向。

財務解讀:一筆「輕鬆負擔」的天價交易

200億美元是一個驚人的數字,但對於當今的Nvidia而言,它在財務上幾乎構成不了壓力。截至最近一個財季,Nvidia的資產負債表上持有606億美元的現金及有價證券。200億美元的交易額大約相當於Nvidia一個季度自由現金流的規模——換言之,Nvidia只需用大約三個月的利潤就能完全覆蓋這筆交易的成本。

這個財務事實揭示了AI晶片產業中一個極其不對稱的權力格局。Nvidia的年營收已經超過1300億美元,其中絕大部分來自AI加速器——而整個AI晶片新創生態系統中,即使是估值最高的公司(如69億美元估值的Groq),在Nvidia面前也僅是零頭。這種極端的規模差距意味著Nvidia有能力以「零花錢」的方式收購幾乎任何它認為具有戰略價值的技術或人才。

85%預付、10%中期、5%尾款的付款結構也值得解讀。高比例的預付款(170億美元)對Groq的投資者而言是最有利的條款,因為它最大化了確定性回報。而對Nvidia而言,這種前置付款結構暗示了取得Groq技術的緊迫性——Vera Rubin平台預計2026年下半年量產,要在此之前完成技術整合,Nvidia需要儘早鎖定Groq的知識產權和核心工程師。

"對Nvidia來說,200億美元大約是一個季度的自由現金流。這不是一筆需要深思熟慮的財務決策——這是一筆戰略必需品的採購,而Nvidia恰好有能力用現金支票來完成它。"

— 投資銀行分析師

Vera Rubin平台:Groq技術的最終載體

這筆交易的最終技術回報,將體現在Nvidia即將推出的Vera Rubin運算平台上。Vera Rubin是Nvidia在Blackwell之後的下一代AI超級晶片架構,預計在2026年下半年開始全面量產。多位消息來源透露,Nvidia的計劃是將Groq的確定性邏輯設計原則「原生整合」(natively incorporate)進Vera Rubin的架構中。

這種「原生整合」的含義超越了簡單的功能添加。它意味著確定性推論邏輯將不是作為一個「附加模組」或「可選功能」存在,而是作為Vera Rubin架構的核心組成部分之一。如果實現,Vera Rubin的用戶將能夠在同一個硬體平台上,根據工作負載的性質動態選擇通用GPU運算模式或確定性推論加速模式——這將是AI硬體歷史上第一次在單一平台上實現這兩種根本不同的計算範式的統一。

這也解釋了為什麼Nvidia願意支付2.9倍的估值溢價。Groq的技術如果能成功整合進Vera Rubin,將使Nvidia的下一代產品在推論效率上建立起難以逾越的領先優勢,進一步鞏固其在整個AI硬體市場的霸主地位。而如果這項技術被AMD或其他競爭者取得,它可能成為打破Nvidia推論市場壟斷的關鍵武器。200億美元的代價,相對於這個戰略回報和風險規避的組合,可能是Nvidia歷史上最具性價比的投資之一。

產業連鎖反應:推論晶片生態的重新洗牌

Nvidia收購Groq對AI晶片產業的衝擊波,遠超交易雙方本身。它將引發整個推論晶片生態系統的連鎖反應。

對其他推論晶片新創的影響。Etched(Sohu ASIC)、Cerebras、SambaNova等公司面臨著一個尖銳的新現實:它們最大的潛在收購者Nvidia,已經通過Groq交易取得了推論專用硬體的技術路線圖。這可能降低了其他新創被高溢價收購的可能性,同時也增加了它們在獨立發展路徑上與「Nvidia + Groq」融合體競爭的難度。

對雲端巨頭的影響。Google(TPU)、Amazon(Trainium/Inferentia)、Microsoft(Maia)等擁有自研AI晶片的雲端公司,現在面臨著一個更強大的Nvidia。這些公司發展自研晶片的動機之一就是減少對Nvidia的依賴,但Nvidia吸收Groq技術後在推論效率上的潛在飛躍,可能迫使它們重新評估「自研」vs「採購Nvidia」的經濟賬。

對AMD的影響。作為Nvidia在AI加速器市場最直接的競爭對手,AMD的處境因為這筆交易而變得更加微妙。AMD的MI系列GPU在推論性能上一直努力追趕Nvidia,但如果Nvidia通過整合Groq技術在推論效率上實現代際躍進,AMD的追趕任務將變得更加艱巨。

對香港的啟示

Nvidia收購Groq這筆交易對香港的AI產業發展具有多層面的啟示意義,值得本地企業、投資者和政策制定者深入思考。

推論成本的下降將加速AI應用落地。香港作為一個高成本、高效率的商業環境,AI推論成本的大幅降低將直接擴大AI應用的經濟可行性邊界。目前,許多本地企業——特別是中小型企業——在評估AI部署時面臨的最大障礙不是技術能力,而是推論算力的持續成本。隨著Nvidia將Groq的確定性推論技術整合進下一代平台,推論的性價比將出現階梯式提升,這對香港金融科技、法律科技、醫療科技等高價值服務行業的AI滲透將產生直接的推動作用。

AI基礎設施採購策略需要前瞻性調整。香港的數據中心運營商和雲端服務提供商在規劃未來一至三年的硬體採購時,需要將「推論時代」的硬體需求轉變納入考量。繼續按照「訓練時代」的思路大規模採購通用GPU叢集,可能在Vera Rubin等新一代混合架構產品推出後面臨設備過時的風險。前瞻性的採購策略應該為推論專用或混合架構硬體的部署預留預算和機架空間。

「解耦推論架構」為本地技術人才創造新機會。VentureBeat所描述的「解耦推論架構」趨勢,需要大量的系統工程師、編譯器專家和AI基礎設施架構師來設計和優化異構硬體之間的協調調度。香港的大學和研究機構——特別是在計算機體系結構和系統軟體方面有深厚積累的團隊——應該關注這一新興的人才需求方向,培養能夠在異構AI硬體環境中進行系統級優化的專業人才。

大灣區AI晶片生態的戰略思考。Nvidia通過收購Groq進一步鞏固了其在AI硬體領域的主導地位,這對中國大陸以及香港在AI自主可控方面的戰略考量具有深刻影響。在美國對華晶片出口管制持續收緊的背景下,推論專用硬體技術的集中化趨勢意味著中國AI產業在推論硬體方面的技術差距可能進一步擴大。香港作為連接內地與國際市場的橋樑,在推動大灣區AI硬體研發合作和人才交流方面可以發揮獨特作用。

編輯觀點:200億美元買的不是一家公司,而是一個時代的入場券

回到這筆交易最本質的意義。Nvidia支付200億美元,買到的不是Groq這家公司——事實上,Groq作為法律實體仍然存在。Nvidia買到的也不僅僅是一組專利或一群工程師——雖然這些確實是交易的具體內容。Nvidia真正買到的,是在「推論時代」繼續定義遊戲規則的能力。

過去十年,Nvidia通過CUDA生態系統和持續迭代的GPU架構,牢牢掌控了「訓練時代」的話語權。但推論時代的硬體需求與訓練時代有著根本性的差異:訓練追求的是峰值算力,而推論追求的是延遲、吞吐量和確定性的最優組合。這意味著僅僅擁有「最快的GPU」可能不足以在推論市場維持同樣的主導地位——除非Nvidia能夠從架構層面重新定義什麼是最優的推論處理器。而Groq的確定性邏輯技術,正是完成這一重新定義所需要的關鍵拼圖。

Cantor Fitzgerald說Nvidia「同時在進攻和防守」,這個觀察是準確的,但還可以更進一步。Nvidia做的不僅是進攻和防守,而是在重新劃定戰場的邊界。如果Vera Rubin成功整合了確定性推論邏輯,它將創造一個新的產品品類——一個任何競爭對手都無法僅靠改良自身GPU就能複製的品類。Nvidia將從「AI訓練硬體的壟斷者」進化為「AI全棧硬體——從訓練到推論——的壟斷者」。這才是200億美元的真正戰略回報。

當然,風險同樣真實。Hedgeye對LPU記憶體限制的警告不應被忽視。確定性邏輯設計能否在萬億參數模型上保持其速度優勢,目前沒有人能給出確定的答案。Groq技術與Nvidia GPU架構的深度融合在工程層面極其複雜,Jonathan Ross是否能在大型企業的官僚體系中保持在初創公司時的技術敏銳度,同樣是一個開放性問題。此外,監管機構未來是否會重新審視這筆交易的「名義獨立」結構,也存在不確定性。

但從產業史的角度來看,這筆交易的意義是清晰的。它是AI硬體產業從「訓練時代」向「推論時代」轉軌的里程碑事件。正如Nvidia在2020年通過收購Mellanox(高速互連技術)為大規模訓練集群奠定了硬體基礎,2025年底通過收購Groq(確定性推論技術)為大規模推論部署奠定了架構基礎。兩次收購,分別定義了兩個時代的硬體基礎設施範式。

對於整個AI產業而言,這個信號再明確不過了:當你讀到這篇文章的時候,每一次AI對話、每一次程式碼生成、每一次圖像理解背後的推論計算,正在成為AI的真正戰場。而Nvidia——現在攜帶著Groq的確定性邏輯技術——已經為這場新的戰爭做好了準備。推論時代的帷幕,正式拉開。