技術突破

Gemini 3代理視覺：AI學會「主動觀察」世界

📅 2026年1月28日 ✍️ AI Academy HK 編輯部 ⏱️ 閱讀時間：7分鐘

👁️

Google DeepMind正式發布Gemini 3系列首款模型gemini-3-pro-preview，帶來了一項革命性的新功能：代理視覺（Agentic Vision）。這項技術將AI的圖像理解從被動的「看一眼」轉變為主動的「仔細調查」，標誌著多模態AI進入了全新階段。

代理視覺：從被動到主動

傳統的AI視覺模型工作方式是：接收一張圖片，然後給出描述或回答問題。這種「一次性」的處理方式存在明顯局限——AI無法決定自己需要更仔細地看什麼地方，也無法要求更多視角或更高解析度的信息。

Gemini 3的代理視覺徹底改變了這一範式。當面對一張圖片時，AI會像偵探一樣制定調查計劃：決定需要放大哪些區域、需要從什麼角度重新檢視、需要執行什麼樣的圖像處理來提取更多信息。這種「視覺推理與程式碼執行」的結合，讓AI能夠逐步深入分析複雜的視覺場景。

                👁️ 代理視覺的工作流程
                初步掃描：AI快速瀏覽整張圖片，識別感興趣的區域
制定計劃：根據任務目標，決定需要深入調查的區域
執行調查：放大、旋轉、增強對比度等操作
綜合分析：整合所有觀察結果，得出結論
迭代優化：如有需要，重複以上步驟直到獲得足夠信息

            

Chrome深度整合：AI常駐瀏覽器

伴隨Gemini 3發布，Google同時宣布將更多Gemini AI功能整合到Chrome瀏覽器中。最引人注目的是新版Chrome設計中的側邊面板——Gemini聊天機器人將常駐於瀏覽器右側，隨時可用。

這次整合帶來了三項重要功能：

Nano Banana：基於Gemini的圖像生成工具，可直接在瀏覽器中創建圖片
Personal Intelligence：個人化智能功能，學習用戶習慣提供定制建議
Auto Browse：代理式AI工具，可自動瀏覽和收集網頁信息

Auto Browse功能尤其值得關注。它讓Gemini能夠自主瀏覽多個網頁，收集信息，並綜合分析——這是AI代理在日常應用中的重要突破。

AI搜索全球升級

Google宣布Gemini 3將成為AI Overviews的全球默認模型。AI Overviews是Google搜索結果頁面上的AI生成回答功能，現在用戶可以直接從AI概覽中提出後續問題，進入對話式互動模式。

這意味著搜索不再是「輸入關鍵字→瀏覽結果」的單向過程，而變成「提問→獲得答案→追問→深入了解」的對話式體驗。對於香港用戶而言，這種搜索方式的改變可能顯著提升信息獲取效率。

Boston Dynamics合作：AI進入機器人

在CES 2026上，Google DeepMind宣布與Boston Dynamics建立戰略合作，將Gemini Robotics模型整合到Boston Dynamics的人形機器人Atlas中。這是Gemini進入物理世界的重要一步。

「我們開發Gemini Robotics模型，目的是將AI帶入物理世界。通過與Boston Dynamics的合作，我們正在賦予機器人感知、推理、使用工具和與人類互動的能力。」——Carolina Parada，Google DeepMind機器人部門高級總監

Gemini Robotics是基於大規模多模態Gemini模型構建的機器人AI基礎模型，設計目的是讓任何形態和大小的機器人都能夠理解環境、做出決策並執行複雜任務。

Genesis計劃：AI加速科學發現

Google DeepMind同時宣布支持美國白宮的Genesis計劃——這是一項利用AI加速科學研究的國家級倡議。Google貢獻了其「AI共同科學家」（AI Co-Scientist）系統，這是一個基於Gemini構建的多代理虛擬科學協作者。

AI共同科學家能夠：

綜合分析海量科學文獻
生成新穎的研究假設
設計實驗方案
解釋實驗結果
加速科學發現的整體進程

Gemini 3技術規格

特性	Gemini 3 Pro
架構類型	多模態Transformer
核心能力	推理、多模態理解、代理式操作、編程
視覺處理	代理視覺（主動調查式）
代理能力	多步驟任務規劃與執行
整合平台	Chrome、Google搜索、Workspace

廣告計劃：商業化路徑明確

值得注意的是，Google已向廣告客戶透露計劃在2026年將廣告引入Gemini聊天機器人。這是Gemini商業化的重要信號，也意味著AI對話體驗可能會發生改變。

如何在提供有價值的AI服務與插入廣告之間取得平衡，將是Google面臨的挑戰。對於用戶而言，這可能影響是否繼續選擇Gemini作為主要AI助手。

對香港科技界的意義

Gemini 3的發布對香港的科技企業和開發者具有重要意義。代理視覺技術可以應用於製造業品質檢測、醫療影像分析、零售視覺搜索等多個領域。同時，Chrome的深度整合意味著企業可以更容易地將AI能力嵌入日常工作流程。

隨著Google不斷擴展Gemini的能力邊界，我們正在見證AI從單一工具演變為無處不在的智能層。這種轉變將深刻影響我們與技術互動的方式。

Gemini 3 Google DeepMind 代理視覺多模態AI Chrome 機器人

代理視覺：從被動到主動

👁️ 代理視覺的工作流程

Chrome深度整合：AI常駐瀏覽器

AI搜索全球升級

Boston Dynamics合作：AI進入機器人

Genesis計劃：AI加速科學發現

Gemini 3技術規格

廣告計劃：商業化路徑明確

對香港科技界的意義

📖 相關文章

人形機器人元年：Atlas量產與DeepMind合作

AI影片生成突破：Sora 2與Runway Gen-4.5

GPT-5.2震撼發布