技術突破

Gemini 3代理視覺:AI學會「主動觀察」世界

📅 2026年1月28日 ✍️ AI Academy HK 編輯部 ⏱️ 閱讀時間:7分鐘

Google DeepMind正式發布Gemini 3系列首款模型gemini-3-pro-preview,帶來了一項革命性的新功能:代理視覺(Agentic Vision)。這項技術將AI的圖像理解從被動的「看一眼」轉變為主動的「仔細調查」,標誌著多模態AI進入了全新階段。

代理視覺:從被動到主動

傳統的AI視覺模型工作方式是:接收一張圖片,然後給出描述或回答問題。這種「一次性」的處理方式存在明顯局限——AI無法決定自己需要更仔細地看什麼地方,也無法要求更多視角或更高解析度的信息。

Gemini 3的代理視覺徹底改變了這一範式。當面對一張圖片時,AI會像偵探一樣制定調查計劃:決定需要放大哪些區域、需要從什麼角度重新檢視、需要執行什麼樣的圖像處理來提取更多信息。這種「視覺推理與程式碼執行」的結合,讓AI能夠逐步深入分析複雜的視覺場景。

👁️ 代理視覺的工作流程

  1. 初步掃描:AI快速瀏覽整張圖片,識別感興趣的區域
  2. 制定計劃:根據任務目標,決定需要深入調查的區域
  3. 執行調查:放大、旋轉、增強對比度等操作
  4. 綜合分析:整合所有觀察結果,得出結論
  5. 迭代優化:如有需要,重複以上步驟直到獲得足夠信息

Chrome深度整合:AI常駐瀏覽器

伴隨Gemini 3發布,Google同時宣布將更多Gemini AI功能整合到Chrome瀏覽器中。最引人注目的是新版Chrome設計中的側邊面板——Gemini聊天機器人將常駐於瀏覽器右側,隨時可用。

這次整合帶來了三項重要功能:

Auto Browse功能尤其值得關注。它讓Gemini能夠自主瀏覽多個網頁,收集信息,並綜合分析——這是AI代理在日常應用中的重要突破。

AI搜索全球升級

Google宣布Gemini 3將成為AI Overviews的全球默認模型。AI Overviews是Google搜索結果頁面上的AI生成回答功能,現在用戶可以直接從AI概覽中提出後續問題,進入對話式互動模式。

這意味著搜索不再是「輸入關鍵字→瀏覽結果」的單向過程,而變成「提問→獲得答案→追問→深入了解」的對話式體驗。對於香港用戶而言,這種搜索方式的改變可能顯著提升信息獲取效率。

Boston Dynamics合作:AI進入機器人

在CES 2026上,Google DeepMind宣布與Boston Dynamics建立戰略合作,將Gemini Robotics模型整合到Boston Dynamics的人形機器人Atlas中。這是Gemini進入物理世界的重要一步。

「我們開發Gemini Robotics模型,目的是將AI帶入物理世界。通過與Boston Dynamics的合作,我們正在賦予機器人感知、推理、使用工具和與人類互動的能力。」——Carolina Parada,Google DeepMind機器人部門高級總監

Gemini Robotics是基於大規模多模態Gemini模型構建的機器人AI基礎模型,設計目的是讓任何形態和大小的機器人都能夠理解環境、做出決策並執行複雜任務。

Genesis計劃:AI加速科學發現

Google DeepMind同時宣布支持美國白宮的Genesis計劃——這是一項利用AI加速科學研究的國家級倡議。Google貢獻了其「AI共同科學家」(AI Co-Scientist)系統,這是一個基於Gemini構建的多代理虛擬科學協作者。

AI共同科學家能夠:

Gemini 3技術規格

特性 Gemini 3 Pro
架構類型 多模態Transformer
核心能力 推理、多模態理解、代理式操作、編程
視覺處理 代理視覺(主動調查式)
代理能力 多步驟任務規劃與執行
整合平台 Chrome、Google搜索、Workspace

廣告計劃:商業化路徑明確

值得注意的是,Google已向廣告客戶透露計劃在2026年將廣告引入Gemini聊天機器人。這是Gemini商業化的重要信號,也意味著AI對話體驗可能會發生改變。

如何在提供有價值的AI服務與插入廣告之間取得平衡,將是Google面臨的挑戰。對於用戶而言,這可能影響是否繼續選擇Gemini作為主要AI助手。

對香港科技界的意義

Gemini 3的發布對香港的科技企業和開發者具有重要意義。代理視覺技術可以應用於製造業品質檢測、醫療影像分析、零售視覺搜索等多個領域。同時,Chrome的深度整合意味著企業可以更容易地將AI能力嵌入日常工作流程。

隨著Google不斷擴展Gemini的能力邊界,我們正在見證AI從單一工具演變為無處不在的智能層。這種轉變將深刻影響我們與技術互動的方式。

Gemini 3 Google DeepMind 代理視覺 多模態AI Chrome 機器人