Google 發布 Gemini 3.1 Flash-Lite:每百萬 token 僅需 $0.25,速度提升 2.5 倍

Google launches Gemini 3.1 Flash-Lite: $0.25/M tokens, 2.5x faster, challenging the efficiency tier

Google 於 3 月初正式推出 Gemini 3.1 Flash-Lite,在 AI 模型的效率定價層引發新一輪競價壓力——每百萬輸入 token 僅需 $0.25 美元,輸出 token 則為 $1.50 美元,同時在速度與推理能力上全面超越前代 Gemini 2.5 Flash。

定價衝擊:比 Claude Haiku 便宜 75%

以輸入 token 定價比較:

模型輸入 $/M tokens輸出 $/M tokens
Gemini 3.1 Flash-Lite$0.25$1.50
Gemini 2.5 Flash(前代)$0.30$2.50
Claude 4.5 Haiku$1.00$5.00
GPT-5.4 mini$0.30$1.20

Flash-Lite 對 Claude Haiku 的定價優勢尤為明顯,在大量呼叫 API 的企業場景下,每月可節省數以萬計美元的成本差距。

速度:每秒 231.9 個 token

在 Artificial Analysis 基準測試中,Gemini 3.1 Flash-Lite 的輸出速度達到每秒 231.9 個 token,遠超同價位模型的中位數(94.9 t/s),Time to First Token 較 Gemini 2.5 Flash 縮短 2.5 倍。

對於需要即時回應的應用場景(如客服機器人、即時翻譯、程式碼補全),這一速度優勢具有實際的使用者體驗意義。

能力:不只是「便宜版本」

Flash-Lite 並非單純降規的廉價模型,在多項標竿測試中表現亮眼:

  • GPQA Diamond(研究生等級科學推理):86.9%
  • MMMU Pro(多模態大學水準理解):76.8%
  • Arena.ai Elo 分數:1,432(與部分中階旗艦模型相當)

模型支援最多 100 萬 token 的上下文視窗,以及文字、圖像、語音、影片等多模態輸入,知識截止時間為 2025 年 1 月。

可調節思考層級

Flash-Lite 導入了「思考層級(Thinking Levels)」功能,讓開發者在 Google AI Studio 與 Vertex AI 中手動調節模型在回應前「思考」的深度。這一設計讓開發者能夠在成本與品質之間靈活取捨:簡單任務使用低思考模式,複雜推理任務則啟用完整思考鏈。

市場意涵

Flash-Lite 的定價策略延續了 Google 在 AI 模型市場的一貫打法:以規模優勢壓低成本,搶佔高用量的開發者與企業客戶。在 OpenAI 和 Anthropic 仍聚焦於高單價旗艦模型之際,Google 正通過超低定價構建龐大的 API 用量護城河。

目前 Flash-Lite 仍處於預覽版本(Preview),正式 GA(正式上線)後定價與限制可能調整,開發者建議在確定架構前先在 Google AI Studio 進行驗證測試。