DeepSeek V4問世:1兆參數MoE模型,開源權重挑戰美國頂尖水平
DeepSeek最新版本V4為1兆參數專家混合模型,開源權重採用Apache 2.0授權,訓練成本僅520萬美元,性能與美國前沿模型不相上下。
共 4 篇
DeepSeek最新版本V4為1兆參數專家混合模型,開源權重採用Apache 2.0授權,訓練成本僅520萬美元,性能與美國前沿模型不相上下。
據悉,DeepSeek正計劃將其V4 AI模型遷移至華為芯片平台,以減少對英偉達硬件的依賴。這一轉變反映了中國在AI硬件自主化方面的戰略調整。
中國 DeepSeek 發布 V4,以混合專家架構達到1兆總參數,每次推理僅啟用320億,在多項基準超越規模更大的西方模型。