什麼是 MoE（混合專家模型）？Mistral Small 4 用 128 個專家教你理解

法國 AI 公司 Mistral 最近推出了一個名叫 Mistral Small 4 的新模型，它有一個很特別的設計——內建了 128 個專家。聽起來很酷對吧？但這到底是什麼意思？讓我們用最簡單的方式來解釋。

先想像一間超級醫院

假設你生病了，去一間什麼科都有的大醫院。你不需要每個醫生都幫你看診——掛號台會根據你的症狀，把你分配到最適合的科別。如果你頭痛，就去看神經內科；如果你咳嗽，就去看胸腔科。

MoE（Mixture of Experts，混合專家模型）的運作方式就跟這間醫院一模一樣。

在 Mistral Small 4 裡面，有 128 個「專家」——每個專家擅長不同的任務。當你問 AI 一個問題時，模型裡面有一個「路由器」（就像掛號台）會判斷：「這個問題應該交給哪幾個專家來處理？」然後只啟動最適合的專家來回答你。

你可能會想：「128 個專家全部一起動起來，不是更厲害嗎？」

理論上是沒錯，但問題在於運算資源。讓所有專家同時工作，就像讓整間醫院的醫生同時替你看診——不是做不到，而是太浪費了。你只是頭痛而已，不需要骨科、眼科、皮膚科全部出動。

MoE 的聰明之處在於：模型的「總知識」很大，但每次回答問題時只用一小部分資源。 Mistral Small 4 雖然總共有 128 個專家，但每次只會啟動其中大約 24 個。這意味著：

這就是最讓人興奮的部分了。

目前最強大的 AI 模型（像是 GPT-4 或 Claude）需要超級強大的伺服器才能運行，普通人的電腦根本跑不動。但 MoE 架構改變了這個局面。

因為每次只啟動一小部分專家，Mistral Small 4 需要的記憶體和運算力大幅降低。這意味著你可以：

對於擔心隱私的人來說，這特別有吸引力——你的對話、文件、資料完全不需要離開你的裝置。

用一個簡單的表格來整理：

Mistral Small 4 不只是用了 MoE 技術而已，它還有幾個特點讓它脫穎而出：

MoE（混合專家模型）是一種聰明的 AI 設計方式——用很多專家分工合作，但每次只叫需要的專家出來幫忙。這讓 AI 既聰明又高效，甚至能在你的個人電腦上運行。

Mistral Small 4 用 128 個專家證明了：強大的 AI 不一定需要超級電腦，它可以就在你的口袋裡。 如果你對在自己電腦上跑 AI 有興趣，Mistral Small 4 是一個非常好的起點。