Gemini 3代理視覺:AI學會「主動觀察」世界
Google DeepMind正式發布Gemini 3系列首款模型gemini-3-pro-preview,帶來了一項革命性的新功能:代理視覺(Agentic Vision)。這項技術將AI的圖像理解從被動的「看一眼」轉變為主動的「仔細調查」,標誌著多模態AI進入了全新階段。
代理視覺:從被動到主動
傳統的AI視覺模型工作方式是:接收一張圖片,然後給出描述或回答問題。這種「一次性」的處理方式存在明顯局限——AI無法決定自己需要更仔細地看什麼地方,也無法要求更多視角或更高解析度的信息。
Gemini 3的代理視覺徹底改變了這一範式。當面對一張圖片時,AI會像偵探一樣制定調查計劃:決定需要放大哪些區域、需要從什麼角度重新檢視、需要執行什麼樣的圖像處理來提取更多信息。這種「視覺推理與程式碼執行」的結合,讓AI能夠逐步深入分析複雜的視覺場景。
👁️ 代理視覺的工作流程
- 初步掃描:AI快速瀏覽整張圖片,識別感興趣的區域
- 制定計劃:根據任務目標,決定需要深入調查的區域
- 執行調查:放大、旋轉、增強對比度等操作
- 綜合分析:整合所有觀察結果,得出結論
- 迭代優化:如有需要,重複以上步驟直到獲得足夠信息
Chrome深度整合:AI常駐瀏覽器
伴隨Gemini 3發布,Google同時宣布將更多Gemini AI功能整合到Chrome瀏覽器中。最引人注目的是新版Chrome設計中的側邊面板——Gemini聊天機器人將常駐於瀏覽器右側,隨時可用。
這次整合帶來了三項重要功能:
- Nano Banana:基於Gemini的圖像生成工具,可直接在瀏覽器中創建圖片
- Personal Intelligence:個人化智能功能,學習用戶習慣提供定制建議
- Auto Browse:代理式AI工具,可自動瀏覽和收集網頁信息
Auto Browse功能尤其值得關注。它讓Gemini能夠自主瀏覽多個網頁,收集信息,並綜合分析——這是AI代理在日常應用中的重要突破。
AI搜索全球升級
Google宣布Gemini 3將成為AI Overviews的全球默認模型。AI Overviews是Google搜索結果頁面上的AI生成回答功能,現在用戶可以直接從AI概覽中提出後續問題,進入對話式互動模式。
這意味著搜索不再是「輸入關鍵字→瀏覽結果」的單向過程,而變成「提問→獲得答案→追問→深入了解」的對話式體驗。對於香港用戶而言,這種搜索方式的改變可能顯著提升信息獲取效率。
Boston Dynamics合作:AI進入機器人
在CES 2026上,Google DeepMind宣布與Boston Dynamics建立戰略合作,將Gemini Robotics模型整合到Boston Dynamics的人形機器人Atlas中。這是Gemini進入物理世界的重要一步。
「我們開發Gemini Robotics模型,目的是將AI帶入物理世界。通過與Boston Dynamics的合作,我們正在賦予機器人感知、推理、使用工具和與人類互動的能力。」——Carolina Parada,Google DeepMind機器人部門高級總監
Gemini Robotics是基於大規模多模態Gemini模型構建的機器人AI基礎模型,設計目的是讓任何形態和大小的機器人都能夠理解環境、做出決策並執行複雜任務。
Genesis計劃:AI加速科學發現
Google DeepMind同時宣布支持美國白宮的Genesis計劃——這是一項利用AI加速科學研究的國家級倡議。Google貢獻了其「AI共同科學家」(AI Co-Scientist)系統,這是一個基於Gemini構建的多代理虛擬科學協作者。
AI共同科學家能夠:
- 綜合分析海量科學文獻
- 生成新穎的研究假設
- 設計實驗方案
- 解釋實驗結果
- 加速科學發現的整體進程
Gemini 3技術規格
| 特性 | Gemini 3 Pro |
|---|---|
| 架構類型 | 多模態Transformer |
| 核心能力 | 推理、多模態理解、代理式操作、編程 |
| 視覺處理 | 代理視覺(主動調查式) |
| 代理能力 | 多步驟任務規劃與執行 |
| 整合平台 | Chrome、Google搜索、Workspace |
廣告計劃:商業化路徑明確
值得注意的是,Google已向廣告客戶透露計劃在2026年將廣告引入Gemini聊天機器人。這是Gemini商業化的重要信號,也意味著AI對話體驗可能會發生改變。
如何在提供有價值的AI服務與插入廣告之間取得平衡,將是Google面臨的挑戰。對於用戶而言,這可能影響是否繼續選擇Gemini作為主要AI助手。
對香港科技界的意義
Gemini 3的發布對香港的科技企業和開發者具有重要意義。代理視覺技術可以應用於製造業品質檢測、醫療影像分析、零售視覺搜索等多個領域。同時,Chrome的深度整合意味著企業可以更容易地將AI能力嵌入日常工作流程。
隨著Google不斷擴展Gemini的能力邊界,我們正在見證AI從單一工具演變為無處不在的智能層。這種轉變將深刻影響我們與技術互動的方式。