AI 怎樣「看」圖片?多模態 AI 的工作原理超簡單解釋

How Does AI See Images? A Beginner's Guide to Multimodal AI

你有沒有試過把圖片傳給 ChatGPT 或 Gemini,然後問它「這張圖裡有什麼?」

AI 居然真的能回答!但它是怎樣「看」圖片的?它有眼睛嗎?今天我們來揭開這個秘密。

AI 沒有眼睛,但有數字

我們人類用眼睛接收光線,大腦把光線轉換成「我看到了一隻貓」的概念。

AI 沒有眼睛,但它可以把圖片轉換成數字

想像你把一張圖片切成很多很多個小方格(叫做「像素」):

  • 一張普通手機照片有幾百萬個像素
  • 每個像素都用數字記錄顏色(如紅=255, 綠=128, 藍=0)
  • 整張圖片就變成了一大串數字

AI 看的就是這些數字,然後從中找出規律。

舊方法 vs. 新方法

舊方法(分兩步走):

  1. 第一個 AI 負責「看圖」,把圖片轉成文字描述(「左邊有一隻橙色的貓,正在睡覺…」)
  2. 第二個 AI 負責「讀文字」,根據這個描述回答問題

問題:中間轉換會丟失很多細節。就像讓一個人先用文字描述一幅畫,再讓另一個人根據描述來回答問題,資訊在傳遞中會流失。

新方法(原生多模態):

最新的 AI(如 Gemini 2.0)不再分兩步。它同時接收圖片和文字,在同一個「大腦」裡一起處理。

就像你用眼睛看圖片的同時,耳朵聽到問題,大腦一起思考,而不是先把圖片翻譯成文字再去聽問題。

為什麼新方法更厲害?

理解細節更準確 舊方法可能把圖表裡的「98.5%」讀成「98%」;新方法可以精確讀取數字。

能看懂更難的圖片 手寫字、複雜圖表、醫學影像——這些都需要同時理解視覺和含義,新方法做得更好。

速度更快 一次處理,不用兩步走,自然更快。

多模態 AI 能做什麼?

你現在可以用多模態 AI 做的事情:

📸 拍照問問題 看到一道不認識的菜,拍照傳給 AI 問「這是什麼?怎麼做?」

📊 分析圖表 把工作報告的圖表截圖,讓 AI 幫你解讀數據趨勢

📄 讀文件 把掃描的收據或合同圖片傳給 AI,讓它幫你找重要資訊

🌿 識別植物/動物 出去行山時,對著花草拍照,AI 告訴你是什麼種類

🔧 看圖說明書 拍下 IKEA 說明書的圖,讓 AI 用中文解釋每個步驟

動手試試看

想體驗多模態 AI?試試這些免費工具:

  • Google Gemini(gemini.google.com)— 點擊圖片圖標上傳圖片
  • ChatGPT(chatgpt.com,需要帳號)— 對話框左下角有圖片上傳按鈕
  • Claude(claude.ai)— 直接把圖片拖放到對話框

試試拍一張你桌上的東西,問 AI「這個是什麼用途?」你會對它的回答感到驚訝!

AI 的「眼睛」比我們想像的更靈活,而且還在不斷進化中。