DeepSeek mHC：解決Transformer訓練穩定性的架構突破

十年難題的突破

DeepSeek在2025年除夕夜發布的這篇論文，解決了大規模AI訓練中一個基礎性問題：Transformer架構在深度擴展時的不穩定性。

每個現代AI模型都通過「殘差流」（residual stream）處理信息，就像一條高速公路承載數據穿過數百個神經網絡層。2024年，ByteDance研究人員引入了「超連接」（Hyper-Connections），將這條高速公路擴展為多條並行車道，無需額外計算成本即可實現更好的信息處理。

然而，這些並行車道在訓練過程中不斷「崩潰」。問題只有在大規模訓練時才會顯現：損失突然飆升、梯度爆炸，模型越深，問題越嚴重。

mHC的核心原理

mHC（Manifold-Constrained Hyper-Connections，流形約束超連接）的核心創新在於：通過將矩陣投影到受約束的流形上來確保穩定性。

技術細節：

雙隨機約束：強制要求每行和每列的和都等於1
譜範數控制：將譜範數保持在1以內，防止梯度爆炸
組合封閉性：兩個雙隨機矩陣相乘仍是雙隨機矩陣，保證整個網絡深度的穩定性

DeepSeek的mHC為並行數據流添加了數學「護欄」，強制這些並行流以受控方式運行。

實驗結果

DeepSeek在三個模型規模（30億、90億和270億參數）上測試了mHC：

                    關鍵發現
                    mHC訓練的模型信號增益保持在理論理想值1.0x附近，與模型規模無關
無約束的超連接在大規模訓練時經常變得不穩定，而mHC保持平穩
最終模型在推理和語言基準測試中實現更低損失和更好性能
這些提升隨著模型從小規模擴展到超大規模而持續保持

                

更重要的是，mHC僅帶來6.7%的額外開銷，這對於解決如此關鍵的問題來說代價極低。

對AI產業的影響

這一突破的意義在於：它可能解鎖萬億參數級AI模型的穩定訓練。

此前，訓練超大規模模型面臨的最大挑戰之一就是訓練穩定性。損失突然飆升可能導致數百萬美元的計算資源浪費。mHC提供了一種理論上穩健、實際可行的解決方案。

對不同參與者的意義

AI實驗室：可以更自信地投入大規模訓練，降低失敗風險
研究人員：獲得新的架構設計工具，探索更深的網絡
企業用戶：未來可能受益於更強大、更可靠的AI模型

DeepSeek的下一步

DeepSeek CEO梁文峰是mHC論文的共同作者之一，這一信號表明該技術很可能出現在公司的下一代旗艦模型中。

分析師預計，DeepSeek R2或V4可能會採用mHC架構，預計在2026年2月農曆新年期間發布。

截至2026年1月，DeepSeek尚未發布mHC的公開實現代碼，這意味著其他研究者暫時無法直接複製這一方法。

更廣泛的研究趨勢

mHC的發布是2026年初AI研究的一個重要趨勢的體現：對Transformer基礎架構的重新思考。

近期的多篇論文開始質疑Transformer的某些基本假設，探索替代方案：

狀態空間模型（如Mamba）對注意力機制的挑戰
世界模型作為語言模型的替代範式
對殘差連接和層歸一化的重新設計

DeepSeek的mHC代表了這一趨勢中的重要一步——不是完全拋棄Transformer，而是通過更深入的數學理解來改進它。

對香港AI研究的啟示

mHC的成功展示了架構創新的重要性。對於香港的AI研究社群而言：

基礎研究仍然能夠帶來重大突破
即使沒有頂級算力，架構創新也能產生影響
深入理解數學原理是創新的關鍵