AI训练新方式！Anthropic 斥巨资 “拆书” 换数据，法律之争引热议

2025-06-26 09:01 · 来源： AIbase基地

近日，人工智能公司 Anthropic 以数百万美元的巨额投入，购买并 “拆解” 大量图书，用于训练其 AI 助手 Claude。这一举动引发了公众的广泛关注和法律界的热议。

根据外媒 Ars Technica 报道，Anthropic 为了获取训练数据，采取了一种颇具争议的方法。他们将大量实体书籍拆解、扫描成数字文件，然后直接销毁原件。这一做法在法庭文件中被披露，法官 William Alsup 对此进行了裁定，认为这种扫描方式构成合理使用。法官指出，Anthropic 所购买的书籍经过合法渠道获取，并在扫描后即刻销毁，数字文件仅用于内部使用，并未对外传播。这一判决为其他 AI 公司在获取数据时提供了法律上的参考。

机器人 AI 人工智能 (2)

图源备注：图片由AI生成，图片授权服务商Midjourney

这一策略背后，Anthropic 希望借鉴谷歌书籍项目的成功经验。Anthropic CEO 阿莫代伊曾提到，早期公司曾考虑使用盗版电子书，但出于法律风险的考虑，最终选择了通过购买二手书籍的方式来获取高质量的训练文本。通过 “破坏式扫描”，公司能够快速高效地将书籍转化为可供机器阅读的 PDF 格式，从而为 AI 模型的训练提供充足的数据支持。

然而，非破坏性扫描技术其实已经相当成熟。比如，Internet Archive 就开发出能够保留原书的数字化方式，OpenAI 和微软近期也与哈佛大学图书馆合作，计划数字化近百万本公版书籍，确保这些书籍的原版依然得到妥善保存。与这些同行相比，Anthropic 的做法显得有些激进，但无疑为 AI 训练领域开辟了新的思路。

随着人工智能的发展，如何在尊重知识产权的前提下获取训练数据将成为业界的持续话题。Anthropic 的尝试虽然引起争议，但也为未来的 AI 发展提供了新的可能性。

AI训练新方式！Anthropic 斥巨资 “拆书” 换数据，法律之争引热议

Reddit 起诉 Anthropic，称其未支付AI训练数据费用

在版权诉讼中，Anthropic 赢下了关键AI训练裁决

Anthropic 的 AI 博客“夭折”早逝

隐藏的AI指令揭示了 Anthropic 是如何控制 Claude 4 的

Anthropic 开始给 Claude 搞“语音模式”了

学历贬值后读书还有用吗引热议！张雪峰痛批读书无用论荒谬

女子立遗嘱将十多万留给宠物狗引热议工作人员：法律上有效

上线后即引热议！《捞女游戏》宣布改名《情感反诈模拟器》

打印店用微信传输要留意个人隐私引热议：务必记得删除

DigitalOcean 携手 AMD 推出 AMD Instinct MI300X GPU Droplet，加速 AI 创新

今日大家都在搜的词：

热文

2025新财富500创富榜发布：张一鸣问鼎首富梁文锋进前十

小米MIX Flip 2外观公布：配备骁龙8至尊版、5165mAh电池

中消协发倡议抵制极端吃播：平台应严格识别、及时下架

苹果官网首次支持国补目前仅限北京收货地址及上海线下购买

小米预告AI眼镜雷军：自带小爱同学啥都能直接问

雷军称YU7定价合理：希望大家猜测YU7价格要讲科学

罗永浩回应为何总能融到钱并回击谩骂

雷军分享小米端到端辅助驾驶进展：YU7全系搭载 SU7下月升级