DeepSeek V4 發布:1兆參數但僅啟用320億,以極低成本挑戰西方頂尖模型

DeepSeek V4 launches with 1 trillion parameters, only 32B active per token

中國 AI 研究機構 DeepSeek 再度以一款顛覆業界認知的模型震驚全球:DeepSeek V4 的總參數量達到 1兆,但採用混合專家架構(Mixture of Experts, MoE),每次推理時僅啟用其中的 320億個參數——比 V3 的啟用參數量更少,卻在多項主流基準測試中大幅領先規模更大的競爭對手。

架構的高效哲學

DeepSeek V4 的核心創新是將「模型規模」與「推理成本」徹底解耦。傳統上,更大的模型意味著更高的推理費用。但 V4 透過精密的 MoE 路由機制,讓每個 Token 的生成只調用最相關的少數專家模組,使得即便是 1兆參數的巨型模型,其推理計算量與輸出品質的比值仍遠優於同等規模的密集模型。

基準測試表現

根據公布的數據,DeepSeek V4 在以下測試中超越主要競爭對手:

  • GPQA Diamond(科學推理):84.2%,超越多款 GPT-5 系列變體
  • AIME 2025(競賽數學):91.3%,接近人類頂尖選手水準
  • SWE-Bench Verified(實際軟體工程任務):65.7%

地緣政治背景

DeepSeek V4 的發布再次引發美國政策圈的警覺。這款在美國出口管制限制下開發的模型,其能力竟足以比肩甚至超越部分使用最新 NVIDIA H100/B100 晶片訓練的西方旗艦模型,對「晶片管制能有效遏制中國 AI 發展」的論點構成直接質疑。DeepSeek 繼續以 MIT 授權開源發布,讓全球開發者可免費下載和部署完整模型。