十年難題的突破

DeepSeek在2025年除夕夜發布的這篇論文,解決了大規模AI訓練中一個基礎性問題:Transformer架構在深度擴展時的不穩定性。

每個現代AI模型都通過「殘差流」(residual stream)處理信息,就像一條高速公路承載數據穿過數百個神經網絡層。2024年,ByteDance研究人員引入了「超連接」(Hyper-Connections),將這條高速公路擴展為多條並行車道,無需額外計算成本即可實現更好的信息處理。

然而,這些並行車道在訓練過程中不斷「崩潰」。問題只有在大規模訓練時才會顯現:損失突然飆升、梯度爆炸,模型越深,問題越嚴重。

mHC的核心原理

mHC(Manifold-Constrained Hyper-Connections,流形約束超連接)的核心創新在於:通過將矩陣投影到受約束的流形上來確保穩定性。

技術細節:

  • 雙隨機約束:強制要求每行和每列的和都等於1
  • 譜範數控制:將譜範數保持在1以內,防止梯度爆炸
  • 組合封閉性:兩個雙隨機矩陣相乘仍是雙隨機矩陣,保證整個網絡深度的穩定性

DeepSeek的mHC為並行數據流添加了數學「護欄」,強制這些並行流以受控方式運行。

實驗結果

DeepSeek在三個模型規模(30億、90億和270億參數)上測試了mHC:

關鍵發現

  • mHC訓練的模型信號增益保持在理論理想值1.0x附近,與模型規模無關
  • 無約束的超連接在大規模訓練時經常變得不穩定,而mHC保持平穩
  • 最終模型在推理和語言基準測試中實現更低損失和更好性能
  • 這些提升隨著模型從小規模擴展到超大規模而持續保持

更重要的是,mHC僅帶來6.7%的額外開銷,這對於解決如此關鍵的問題來說代價極低。

對AI產業的影響

這一突破的意義在於:它可能解鎖萬億參數級AI模型的穩定訓練。

此前,訓練超大規模模型面臨的最大挑戰之一就是訓練穩定性。損失突然飆升可能導致數百萬美元的計算資源浪費。mHC提供了一種理論上穩健、實際可行的解決方案。

對不同參與者的意義

  • AI實驗室:可以更自信地投入大規模訓練,降低失敗風險
  • 研究人員:獲得新的架構設計工具,探索更深的網絡
  • 企業用戶:未來可能受益於更強大、更可靠的AI模型

DeepSeek的下一步

DeepSeek CEO梁文峰是mHC論文的共同作者之一,這一信號表明該技術很可能出現在公司的下一代旗艦模型中。

分析師預計,DeepSeek R2或V4可能會採用mHC架構,預計在2026年2月農曆新年期間發布。

截至2026年1月,DeepSeek尚未發布mHC的公開實現代碼,這意味著其他研究者暫時無法直接複製這一方法。

更廣泛的研究趨勢

mHC的發布是2026年初AI研究的一個重要趨勢的體現:對Transformer基礎架構的重新思考。

近期的多篇論文開始質疑Transformer的某些基本假設,探索替代方案:

  • 狀態空間模型(如Mamba)對注意力機制的挑戰
  • 世界模型作為語言模型的替代範式
  • 對殘差連接和層歸一化的重新設計

DeepSeek的mHC代表了這一趨勢中的重要一步——不是完全拋棄Transformer,而是通過更深入的數學理解來改進它。

對香港AI研究的啟示

mHC的成功展示了架構創新的重要性。對於香港的AI研究社群而言:

  • 基礎研究仍然能夠帶來重大突破
  • 即使沒有頂級算力,架構創新也能產生影響
  • 深入理解數學原理是創新的關鍵