小模型怎麼變得這麼厲害？「模型蒸餾」技術入門指南

你有沒有注意到，最近的 AI 模型越來越多「Mini」版本？GPT-5 Mini、Gemini Flash、Llama 小版……這些「小」模型不但比大版便宜很多，在某些測試中甚至表現得更好。

這是怎麼做到的？答案是一種叫「模型蒸餾」的技術。

先說一個比喻

想像一位學了30年料理的廚師傅（大模型），廚師把他的廚藝寫成一本食譜，並一步步教導一位年輕學徒（小模型）。

學徒不需要自己花30年累積經驗，只要跟著師傅的食譜練習，就能很快掌握大部分廚藝。

師傅 = 大型 AI 模型（如 GPT-4o） 學徒 = 小型 AI 模型（如 GPT-5 Mini） 食譜 = 蒸餾訓練數據

這就是「模型蒸餾」的核心思想。

普通訓練： 學生（小模型）靠自己看大量文章和例子學習。就像一個小朋友自己讀書，不知道哪裡最重要。

蒸餾訓練： 老師（大模型）先把每道題的思考過程都寫出來。學生跟著學老師如何思考，而不只是最終答案。

結果：學生學得更快，而且學到了思考的技巧。

這聽起來很奇怪，但確實可能發生，原因有幾個：

1. 專注特定任務 大模型要「什麼都懂」，但小模型可以透過蒸餾，重點學習某類任務（如數學題或代碼），在這些領域反而更精準。

2. 沒有「廢話」的干擾 大模型有太多不相關的知識，有時反而分散注意力。小模型只記了最重要的精華。

3. 推理速度快 小模型計算量少，回答更快，在速度很重要的場景（如即時聊天）表現更自然。

你可能已經在用蒸餾技術訓練出來的 AI 了：

這些都不可能用巨大的雲端模型，因為太慢也太貴。蒸餾技術讓「AI 住進你的設備」成為可能。

AI 世界裡，「聰明」和「大」不一樣。蒸餾技術正在讓每個人都能用上真正聰明的 AI。