十年難題的突破
DeepSeek在2025年除夕夜發布的這篇論文,解決了大規模AI訓練中一個基礎性問題:Transformer架構在深度擴展時的不穩定性。
每個現代AI模型都通過「殘差流」(residual stream)處理信息,就像一條高速公路承載數據穿過數百個神經網絡層。2024年,ByteDance研究人員引入了「超連接」(Hyper-Connections),將這條高速公路擴展為多條並行車道,無需額外計算成本即可實現更好的信息處理。
然而,這些並行車道在訓練過程中不斷「崩潰」。問題只有在大規模訓練時才會顯現:損失突然飆升、梯度爆炸,模型越深,問題越嚴重。
mHC的核心原理
mHC(Manifold-Constrained Hyper-Connections,流形約束超連接)的核心創新在於:通過將矩陣投影到受約束的流形上來確保穩定性。
技術細節:
- 雙隨機約束:強制要求每行和每列的和都等於1
- 譜範數控制:將譜範數保持在1以內,防止梯度爆炸
- 組合封閉性:兩個雙隨機矩陣相乘仍是雙隨機矩陣,保證整個網絡深度的穩定性
DeepSeek的mHC為並行數據流添加了數學「護欄」,強制這些並行流以受控方式運行。
實驗結果
DeepSeek在三個模型規模(30億、90億和270億參數)上測試了mHC:
關鍵發現
- mHC訓練的模型信號增益保持在理論理想值1.0x附近,與模型規模無關
- 無約束的超連接在大規模訓練時經常變得不穩定,而mHC保持平穩
- 最終模型在推理和語言基準測試中實現更低損失和更好性能
- 這些提升隨著模型從小規模擴展到超大規模而持續保持
更重要的是,mHC僅帶來6.7%的額外開銷,這對於解決如此關鍵的問題來說代價極低。
對AI產業的影響
這一突破的意義在於:它可能解鎖萬億參數級AI模型的穩定訓練。
此前,訓練超大規模模型面臨的最大挑戰之一就是訓練穩定性。損失突然飆升可能導致數百萬美元的計算資源浪費。mHC提供了一種理論上穩健、實際可行的解決方案。
對不同參與者的意義
- AI實驗室:可以更自信地投入大規模訓練,降低失敗風險
- 研究人員:獲得新的架構設計工具,探索更深的網絡
- 企業用戶:未來可能受益於更強大、更可靠的AI模型
DeepSeek的下一步
DeepSeek CEO梁文峰是mHC論文的共同作者之一,這一信號表明該技術很可能出現在公司的下一代旗艦模型中。
分析師預計,DeepSeek R2或V4可能會採用mHC架構,預計在2026年2月農曆新年期間發布。
截至2026年1月,DeepSeek尚未發布mHC的公開實現代碼,這意味著其他研究者暫時無法直接複製這一方法。
更廣泛的研究趨勢
mHC的發布是2026年初AI研究的一個重要趨勢的體現:對Transformer基礎架構的重新思考。
近期的多篇論文開始質疑Transformer的某些基本假設,探索替代方案:
- 狀態空間模型(如Mamba)對注意力機制的挑戰
- 世界模型作為語言模型的替代範式
- 對殘差連接和層歸一化的重新設計
DeepSeek的mHC代表了這一趨勢中的重要一步——不是完全拋棄Transformer,而是通過更深入的數學理解來改進它。
對香港AI研究的啟示
mHC的成功展示了架構創新的重要性。對於香港的AI研究社群而言:
- 基礎研究仍然能夠帶來重大突破
- 即使沒有頂級算力,架構創新也能產生影響
- 深入理解數學原理是創新的關鍵