日韩综合网-日韩综合网站-日韩综合一区-日韩综合在线视频-色涩网站-色涩网站在线观看

Cloud&AI
`
2025/6/26 09:05
為訓練 AI 模型 Claude,Anthropic 耗資數百萬美元購入并“銷毀”巨量圖書
0
0

據外媒 Ars Technica 今日報道,當地時間周一公開的法庭文件披露,人工智能公司 Anthropic 曾斥資數百萬美元,將實體圖書拆解并掃描成數字文件,用于訓練類似 ChatGPT 的 AI 助手 Claude。為了獲取訓練數據,公司將大量圖書拆除裝訂、掃描進系統,隨后直接丟棄原件。

判決書長達 32 頁,披露了 Anthropic 在 2024 年 2 月雇傭 Tom Turvey 的經過。Turvey 曾負責 Google Books 項目的合作事務,公司委托他“獲取全世界的圖書”。這一戰略性人事安排,顯然是希望復制谷歌曾被法院認定為合理使用的圖書數字化模式。

最終,法官 William Alsup 裁定,該掃描方式構成合理使用,理由是圖書已由 Anthropic 合法購買、掃描后即刻銷毀,且數字文件僅限內部使用,未向外傳播。他認為這類轉換相當于“節省空間”的數字化轉化,具有合理使用中的“轉化性”特征。如果公司一開始就遵守這一路徑,或許已樹立 AI 合理使用的首個判例,但早期的盜版行為削弱了其合法性。

核心原因其實很簡單:AI 訓練需要海量優質文本。為了構建大語言模型,研究人員需將億萬詞語輸入神經網絡,反復訓練模型,建立詞語與概念之間的關系。

訓練數據的質量直接影響模型輸出的準確性。相比網絡評論等雜亂信息,編輯過的書籍和文章能顯著提升 AI 的語言能力。

AI 公司急需出版內容,但通常不愿耗費時間談授權。美國的“首次銷售原則”提供了法律空間:買下實體書之后,使用者可以自行處理。這就讓購買圖書成為一種合法的“繞道方案”。

和許多同行一樣,Anthropic 最初選擇了繞過版權的捷徑。IT之家從法庭材料獲悉,為了繞開冗長復雜的授權流程,CEO 阿莫代伊曾主張使用盜版電子書。但到了 2024 年,出于法律考慮,公司開始尋求更安全的替代方案。

收購二手書成為理想選擇:不必談授權,又能獲得質量上乘的訓練文本。為了加快數字化進程,Anthropic 采用“破壞式掃描”,大量購入圖書,拆封、裁剪、整批掃描為機器可讀的 PDF 文件,完成后紙本全部廢棄。整個流程耗資數百萬美元。

該公司的購買對象大多是零售渠道的普通舊書。但事實上,非破壞性掃描技術早已成熟。比如 Internet Archive 就開發出可保留原書的數字化手段。本月早些時候,OpenAI微軟也宣布與哈佛大學圖書館合作,計劃使用近百萬本公版書籍訓練 AI,這些書籍在被數字化的同時依舊妥善保存。

免責聲明:本文僅代表作者個人觀點,與C114通信網無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

給作者點贊
0 VS 0
寫得不太好

C114簡介     聯系我們     網站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號-4

C114通信網版權所有 舉報電話:021-54451141 用戶注銷

主站蜘蛛池模板: 国产一极毛片 | 日韩在线高清视频 | 国产亚洲人成网站观看 | 久久精品亚瑟全部免费观看 | 国产丶欧美丶日韩丶不卡影视 | 久草视频资源在线观看 | 99成人在线观看 | 亚洲男人网 | 免费观看国产精品 | 三级成人网 | 亚洲综合一二三区 | 免费 成年人 | 午夜国产理论 | 国产精品综合久成人 | 日韩美女视频在线观看 | 绝对真实偷拍盗摄高清在线视频 | 国产盗摄精品一区二区三区 | 亚洲精品国产综合一线久久 | 性做久久久久久免费观看 | 亚洲精品色一区二区三区 | 超矿碰人人超人人看 | 99在线观看精品 | 视频在线一区 | 男女性关系视频免费观看软件 | 国产成人女人视频在线观看 | 欧美一级在线全免费 | 色涩五月天 | 亚洲欧美卡通动漫丝袜美腿 | 男女性关系视频免费观看软件 | 国产图片亚洲精品一区 | 一级毛片在线看 | 久草不卡视频 | 很黄很色的摸下面的视频 | 美女视频一区二区三区在线 | 毛片观看网址 | 粉嫩高中生的第一次在线观看 | 天天看片欧美 | 午夜67194 | 久草网在线 | 亚洲高清无在码在线无弹窗 | 成年人在线观看视频免费 |