近日,人工智能公司 Anthropic 以数百万美元的巨额投入,购买并 “拆解” 大量图书,用于训练其 AI 助手 Claude。这一举动引发了公众的广泛关注和法律界的热议。
根据外媒 Ars Technica 报道,Anthropic 为了获取训练数据,采取了一种颇具争议的方法。他们将大量实体书籍拆解、扫描成数字文件,然后直接销毁原件。这一做法在法庭文件中被披露,法官 William Alsup 对此进行了裁定,认为这种扫描方式构成合理使用。法官指出,Anthropic 所购买的书籍经过合法渠道获取,并在扫描后即刻销毁,数字文件仅用于内部使用,并未对外传播。这一判决为其他 AI 公司在获取数据时提供了法律上的参考。
图源备注:图片由AI生成,图片授权服务商Midjourney
这一策略背后,Anthropic 希望借鉴谷歌书籍项目的成功经验。Anthropic CEO 阿莫代伊曾提到,早期公司曾考虑使用盗版电子书,但出于法律风险的考虑,最终选择了通过购买二手书籍的方式来获取高质量的训练文本。通过 “破坏式扫描”,公司能够快速高效地将书籍转化为可供机器阅读的 PDF 格式,从而为 AI 模型的训练提供充足的数据支持。
然而,非破坏性扫描技术其实已经相当成熟。比如,Internet Archive 就开发出能够保留原书的数字化方式,OpenAI 和微软近期也与哈佛大学图书馆合作,计划数字化近百万本公版书籍,确保这些书籍的原版依然得到妥善保存。与这些同行相比,Anthropic 的做法显得有些激进,但无疑为 AI 训练领域开辟了新的思路。
随着人工智能的发展,如何在尊重知识产权的前提下获取训练数据将成为业界的持续话题。Anthropic 的尝试虽然引起争议,但也为未来的 AI 发展提供了新的可能性。