大英百科與韋氏詞典聯合控告 OpenAI：未經授權抓取近10萬篇版權文章訓練模型

兩個擁有逾百年歷史的知識品牌——大英百科全書（Encyclopedia Britannica）與韋氏詞典（Merriam-Webster）——聯合向 OpenAI 提起訴訟，指控其在未獲授權的情況下，抓取近 10萬篇版權線上文章用於訓練其大型語言模型。

雙重指控

此次訴訟包含兩項主要指控：

訓練資料侵權：OpenAI 在未支付授權費、未取得同意的情況下，系統性地爬取兩家機構的線上內容作為模型訓練語料。原告方認為，這些精心編寫、長期維護的知識性內容是其核心商業資產，被免費用於訓練商業 AI 服務構成不公平競爭。

RAG 複製侵權：訴訟同時針對 OpenAI 的檢索增強生成（RAG）工作流程，指控 ChatGPT 在回應用戶問題時，實際上是在複製百科與詞典的原始內容，而非生成獨立的再創作——這構成直接侵害著作財產權。

AI 版權訴訟潮的縮影

此案是2024年以來 AI 版權訴訟潮中最新的一樁。《紐約時報》早在2023年底起訴 OpenAI 和微軟；Getty Images 起訴 Stable Diffusion；多位小說家和音樂人也相繼提出索賠。原告們的核心論點日趨一致：生成式 AI 的商業成功，是建立在對創作者無償剝削的基礎上的。OpenAI 則一貫堅持「訓練 AI 屬於合理使用（fair use）」的立場，這一問題的最終裁定將對整個 AI 產業的商業模式產生深遠影響。