Amazon計劃推出AI訓練數據市集：出版商的內容變現新渠道

從抓取到授權：AI訓練數據的範式轉變

AI公司用於訓練大型語言模型的數據來源一直是爭議焦點。大量訴訟案件正在司法系統中進行，挑戰AI公司未經授權使用版權材料的做法。Amazon的市集計劃代表了一種新的方向：從灰色地帶的數據抓取，轉向合法、透明的內容授權。

根據洩露的AWS簡報，Amazon正在將這個即將推出的市集與其核心AI工具——如Amazon Bedrock和QuickSight——歸為同一類別。這暗示Amazon將版權授權內容視為生成式AI的基本「建構組件」，與計算和模型一樣重要。

市集的運作模式

Amazon的AI內容市集將允許媒體公司通過AWS授權其文章、圖像和影片，直接賣給AI開發者。出版商可以設定使用條款和權利，AI公司則獲得乾淨、合規的數據集。

這一模式與Amazon既有的商業邏輯一致——就像Amazon電商市集連接賣家和買家一樣，AI訓練數據市集將連接內容創作者和AI模型開發者，而Amazon從中收取平台費用。

                    AI內容授權的競爭格局
                    Amazon：計劃通過AWS推出AI訓練數據市集
Microsoft：上週已推出自己的AI內容授權市集，Yahoo是首個公開的內容買家
Cloudflare：收購UK初創Human Native，為其出版商客戶建設AI內容授權基礎設施

                

Amazon已有的內容授權實踐

Amazon在AI內容授權方面已經有了實質性的投入。據報導，公司每年向《紐約時報》支付超過2000萬美元，用於AI模型訓練和Alexa功能。上週，Amazon還推出了免費的網頁版Alexa+助理，整合了超過200家媒體機構的內容。

這些現有的一對一授權協議為市集平台的推出奠定了基礎——Amazon已經了解內容授權的定價、條款和技術需求。

出版商的定價期望

出版商越來越傾向於基於使用量的補償模式——根據AI系統依賴其內容的頻率來計費，而不是固定的授權費。行業高管認為，這種模式可以隨着AI使用量的增長提供更可持續的收入來源。

但許多人也擔心，AI公司參與市集的數量可能不足以使其在經濟上有意義。如果只有少數AI公司願意通過市集採購數據，而大多數繼續依賴灰色地帶的數據抓取，市集的價值將大打折扣。

版權vs AI：法律戰場

AI訓練數據市集的出現，部分源於法律壓力。多家媒體公司——包括《紐約時報》——已經對AI公司提起了版權侵權訴訟。同時，許多媒體公司擔心，搜索引擎和AI助理中的AI生成摘要會減少用戶對原始文章的點擊，從而降低廣告收入。

直接向AI系統授權內容，可以將AI採用從威脅轉變為變現機會。但這需要一個前提：授權市場必須足夠大，價格必須足夠高，才能真正彌補AI對傳統媒體商業模式的衝擊。

2026年的戰略意義

洩露的AWS簡報暗示，市集的推出時間可能與2026年企業AI支出的預期激增相吻合。分析師Andrew Boone指出，Anthropic預計2026年將花費約70億美元用於推理、120億美元用於訓練，其中Amazon預計將獲得大部分份額。

如果AI訓練數據市集成功規模化，它可能成為AI產業鏈中的一個新的價值節點——正如雲計算市集改變了軟體分發一樣，AI內容市集可能改變AI訓練數據的獲取方式。