Google 發布 Gemini 3.1 Flash-Lite：每百萬 token 僅需 $0.25，速度提升 2.5 倍

Google 於 3 月初正式推出 Gemini 3.1 Flash-Lite，在 AI 模型的效率定價層引發新一輪競價壓力——每百萬輸入 token 僅需 $0.25 美元，輸出 token 則為 $1.50 美元，同時在速度與推理能力上全面超越前代 Gemini 2.5 Flash。

定價衝擊：比 Claude Haiku 便宜 75%

以輸入 token 定價比較：

模型	輸入 $/M tokens	輸出 $/M tokens
Gemini 3.1 Flash-Lite	$0.25	$1.50
Gemini 2.5 Flash（前代）	$0.30	$2.50
Claude 4.5 Haiku	$1.00	$5.00
GPT-5.4 mini	$0.30	$1.20

Flash-Lite 對 Claude Haiku 的定價優勢尤為明顯，在大量呼叫 API 的企業場景下，每月可節省數以萬計美元的成本差距。

速度：每秒 231.9 個 token

在 Artificial Analysis 基準測試中，Gemini 3.1 Flash-Lite 的輸出速度達到每秒 231.9 個 token，遠超同價位模型的中位數（94.9 t/s），Time to First Token 較 Gemini 2.5 Flash 縮短 2.5 倍。

對於需要即時回應的應用場景（如客服機器人、即時翻譯、程式碼補全），這一速度優勢具有實際的使用者體驗意義。

能力：不只是「便宜版本」

Flash-Lite 並非單純降規的廉價模型，在多項標竿測試中表現亮眼：

GPQA Diamond（研究生等級科學推理）：86.9%
MMMU Pro（多模態大學水準理解）：76.8%
Arena.ai Elo 分數：1,432（與部分中階旗艦模型相當）

模型支援最多 100 萬 token 的上下文視窗，以及文字、圖像、語音、影片等多模態輸入，知識截止時間為 2025 年 1 月。

可調節思考層級

Flash-Lite 導入了「思考層級（Thinking Levels）」功能，讓開發者在 Google AI Studio 與 Vertex AI 中手動調節模型在回應前「思考」的深度。這一設計讓開發者能夠在成本與品質之間靈活取捨：簡單任務使用低思考模式，複雜推理任務則啟用完整思考鏈。

市場意涵

Flash-Lite 的定價策略延續了 Google 在 AI 模型市場的一貫打法：以規模優勢壓低成本，搶佔高用量的開發者與企業客戶。在 OpenAI 和 Anthropic 仍聚焦於高單價旗艦模型之際，Google 正通過超低定價構建龐大的 API 用量護城河。

目前 Flash-Lite 仍處於預覽版本（Preview），正式 GA（正式上線）後定價與限制可能調整，開發者建議在確定架構前先在 Google AI Studio 進行驗證測試。