性能逼近頂級,成本降低95%
M2.5在多個關鍵基準測試中表現出色:SWE-Bench Verified得分80.2%(Claude Opus 4.6為80.8%,GPT-5.2為80%),BrowseComp搜索與工具使用得分76.3%(業界領先),Multi-SWE-Bench多語言編程得分51.3%(SOTA),BFCL工具調用得分76.8%。這些成績使M2.5成為目前最具性價比的前沿模型。
M2.5提供兩個版本:Lightning版本以100 tokens/秒運行,定價每百萬輸入tokens僅0.30美元、輸出2.40美元;標準版本以50 tokens/秒運行,成本更低。MiniMax宣稱,企業可以用約1萬美元的年成本持續運行四個AI代理。
M2.5技術規格
- 架構:混合專家模型(MoE)
- 總參數:2300億
- 推理活躍參數:僅100億
- 上下文窗口:204,800 tokens
- 最大輸出:131,072 tokens
- 開源協議:修改版MIT許可證
- 推理能力:支持擴展思考鏈推理
MoE架構的威力
M2.5的秘密武器是其混合專家(MoE)架構。雖然模型總共有2300億參數,但推理時只啟動100億參數——這意味著它可以在更少的計算資源上運行,同時保持接近全尺寸模型的性能。這種設計使M2.5在成本效率上遠超同類競爭產品。
M2.5不僅擅長編程,還擴展到了通用辦公場景:生成和操作Word、Excel和PowerPoint文件,在不同軟件環境之間切換,以及在不同AI代理和人類團隊之間協作。這使它成為一個真正的通用辦公AI助手。
中國AI的實力證明
M2.5的發布與另一家中國公司智譜(Zhipu/z.ai)的GLM-5幾乎同時推出,再次證明中國在AI領域與美國的差距正在迅速縮小。M2.5在SWE-Bench上超越了GPT-5.2和Gemini 3 Pro,而GLM-5也展示了令人印象深刻的前沿能力。
更關鍵的是,M2.5以開源方式在Hugging Face上發布,採用修改版MIT許可證(商業使用需標註「MiniMax M2.5」)。這意味著任何開發者都可以使用這個接近頂級的模型,而不必支付高昂的API費用。對於預算有限的初創公司和研究機構而言,M2.5可能是改變遊戲規則的存在。
對前沿AI市場的衝擊
M2.5的定價策略正在迫使整個行業重新思考AI服務的經濟模式。當一個開源模型能以1/20的成本提供95%以上的頂級性能時,企業客戶將不得不重新評估是否值得為最後那5%的性能優勢支付20倍的溢價。
對於OpenAI和Anthropic而言,M2.5的出現增加了商業模式的壓力。它們需要在純模型性能之外尋找差異化——無論是通過更強的企業服務、更好的安全保障,還是更完善的生態系統。前沿AI正在從「有沒有」的問題變成「值不值」的問題,而中國公司正在加速這一轉變。