DeepSeek V4 發布：1兆參數但僅啟用320億，以極低成本挑戰西方頂尖模型

中國 AI 研究機構 DeepSeek 再度以一款顛覆業界認知的模型震驚全球：DeepSeek V4 的總參數量達到 1兆，但採用混合專家架構（Mixture of Experts, MoE），每次推理時僅啟用其中的 320億個參數——比 V3 的啟用參數量更少，卻在多項主流基準測試中大幅領先規模更大的競爭對手。

架構的高效哲學

DeepSeek V4 的核心創新是將「模型規模」與「推理成本」徹底解耦。傳統上，更大的模型意味著更高的推理費用。但 V4 透過精密的 MoE 路由機制，讓每個 Token 的生成只調用最相關的少數專家模組，使得即便是 1兆參數的巨型模型，其推理計算量與輸出品質的比值仍遠優於同等規模的密集模型。

基準測試表現

根據公布的數據，DeepSeek V4 在以下測試中超越主要競爭對手：

GPQA Diamond（科學推理）：84.2%，超越多款 GPT-5 系列變體
AIME 2025（競賽數學）：91.3%，接近人類頂尖選手水準
SWE-Bench Verified（實際軟體工程任務）：65.7%

地緣政治背景

DeepSeek V4 的發布再次引發美國政策圈的警覺。這款在美國出口管制限制下開發的模型，其能力竟足以比肩甚至超越部分使用最新 NVIDIA H100/B100 晶片訓練的西方旗艦模型，對「晶片管制能有效遏制中國 AI 發展」的論點構成直接質疑。DeepSeek 繼續以 MIT 授權開源發布，讓全球開發者可免費下載和部署完整模型。