從抓取到授權:AI訓練數據的範式轉變
AI公司用於訓練大型語言模型的數據來源一直是爭議焦點。大量訴訟案件正在司法系統中進行,挑戰AI公司未經授權使用版權材料的做法。Amazon的市集計劃代表了一種新的方向:從灰色地帶的數據抓取,轉向合法、透明的內容授權。
根據洩露的AWS簡報,Amazon正在將這個即將推出的市集與其核心AI工具——如Amazon Bedrock和QuickSight——歸為同一類別。這暗示Amazon將版權授權內容視為生成式AI的基本「建構組件」,與計算和模型一樣重要。
市集的運作模式
Amazon的AI內容市集將允許媒體公司通過AWS授權其文章、圖像和影片,直接賣給AI開發者。出版商可以設定使用條款和權利,AI公司則獲得乾淨、合規的數據集。
這一模式與Amazon既有的商業邏輯一致——就像Amazon電商市集連接賣家和買家一樣,AI訓練數據市集將連接內容創作者和AI模型開發者,而Amazon從中收取平台費用。
AI內容授權的競爭格局
- Amazon:計劃通過AWS推出AI訓練數據市集
- Microsoft:上週已推出自己的AI內容授權市集,Yahoo是首個公開的內容買家
- Cloudflare:收購UK初創Human Native,為其出版商客戶建設AI內容授權基礎設施
Amazon已有的內容授權實踐
Amazon在AI內容授權方面已經有了實質性的投入。據報導,公司每年向《紐約時報》支付超過2000萬美元,用於AI模型訓練和Alexa功能。上週,Amazon還推出了免費的網頁版Alexa+助理,整合了超過200家媒體機構的內容。
這些現有的一對一授權協議為市集平台的推出奠定了基礎——Amazon已經了解內容授權的定價、條款和技術需求。
出版商的定價期望
出版商越來越傾向於基於使用量的補償模式——根據AI系統依賴其內容的頻率來計費,而不是固定的授權費。行業高管認為,這種模式可以隨着AI使用量的增長提供更可持續的收入來源。
但許多人也擔心,AI公司參與市集的數量可能不足以使其在經濟上有意義。如果只有少數AI公司願意通過市集採購數據,而大多數繼續依賴灰色地帶的數據抓取,市集的價值將大打折扣。
版權vs AI:法律戰場
AI訓練數據市集的出現,部分源於法律壓力。多家媒體公司——包括《紐約時報》——已經對AI公司提起了版權侵權訴訟。同時,許多媒體公司擔心,搜索引擎和AI助理中的AI生成摘要會減少用戶對原始文章的點擊,從而降低廣告收入。
直接向AI系統授權內容,可以將AI採用從威脅轉變為變現機會。但這需要一個前提:授權市場必須足夠大,價格必須足夠高,才能真正彌補AI對傳統媒體商業模式的衝擊。
2026年的戰略意義
洩露的AWS簡報暗示,市集的推出時間可能與2026年企業AI支出的預期激增相吻合。分析師Andrew Boone指出,Anthropic預計2026年將花費約70億美元用於推理、120億美元用於訓練,其中Amazon預計將獲得大部分份額。
如果AI訓練數據市集成功規模化,它可能成為AI產業鏈中的一個新的價值節點——正如雲計算市集改變了軟體分發一樣,AI內容市集可能改變AI訓練數據的獲取方式。