Google 發布 Gemini 3.1 Flash-Lite:每百萬 token 僅需 $0.25,速度提升 2.5 倍
Google launches Gemini 3.1 Flash-Lite: $0.25/M tokens, 2.5x faster, challenging the efficiency tier
Google 於 3 月初正式推出 Gemini 3.1 Flash-Lite,在 AI 模型的效率定價層引發新一輪競價壓力——每百萬輸入 token 僅需 $0.25 美元,輸出 token 則為 $1.50 美元,同時在速度與推理能力上全面超越前代 Gemini 2.5 Flash。
定價衝擊:比 Claude Haiku 便宜 75%
以輸入 token 定價比較:
| 模型 | 輸入 $/M tokens | 輸出 $/M tokens |
|---|---|---|
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 |
| Gemini 2.5 Flash(前代) | $0.30 | $2.50 |
| Claude 4.5 Haiku | $1.00 | $5.00 |
| GPT-5.4 mini | $0.30 | $1.20 |
Flash-Lite 對 Claude Haiku 的定價優勢尤為明顯,在大量呼叫 API 的企業場景下,每月可節省數以萬計美元的成本差距。
速度:每秒 231.9 個 token
在 Artificial Analysis 基準測試中,Gemini 3.1 Flash-Lite 的輸出速度達到每秒 231.9 個 token,遠超同價位模型的中位數(94.9 t/s),Time to First Token 較 Gemini 2.5 Flash 縮短 2.5 倍。
對於需要即時回應的應用場景(如客服機器人、即時翻譯、程式碼補全),這一速度優勢具有實際的使用者體驗意義。
能力:不只是「便宜版本」
Flash-Lite 並非單純降規的廉價模型,在多項標竿測試中表現亮眼:
- GPQA Diamond(研究生等級科學推理):86.9%
- MMMU Pro(多模態大學水準理解):76.8%
- Arena.ai Elo 分數:1,432(與部分中階旗艦模型相當)
模型支援最多 100 萬 token 的上下文視窗,以及文字、圖像、語音、影片等多模態輸入,知識截止時間為 2025 年 1 月。
可調節思考層級
Flash-Lite 導入了「思考層級(Thinking Levels)」功能,讓開發者在 Google AI Studio 與 Vertex AI 中手動調節模型在回應前「思考」的深度。這一設計讓開發者能夠在成本與品質之間靈活取捨:簡單任務使用低思考模式,複雜推理任務則啟用完整思考鏈。
市場意涵
Flash-Lite 的定價策略延續了 Google 在 AI 模型市場的一貫打法:以規模優勢壓低成本,搶佔高用量的開發者與企業客戶。在 OpenAI 和 Anthropic 仍聚焦於高單價旗艦模型之際,Google 正通過超低定價構建龐大的 API 用量護城河。
目前 Flash-Lite 仍處於預覽版本(Preview),正式 GA(正式上線)後定價與限制可能調整,開發者建議在確定架構前先在 Google AI Studio 進行驗證測試。