首页 > 业界 > 关键词  > AI训练数据集最新资讯  > 正文

反盗版组织下线AI训练数据集 “Books3” Meta大模型也曾使用

2023-08-22 09:38 · 稿源:站长之家

本文概要:

1. 反盗版组织成功要求在线盗版书籍资源库 The Eye 下线 AI 训练数据集 "Books3"。

2. "Books3" 数据集包含了37GB 的文本,用于训练人工智能模型,已被多家公司使用。

3. 反盗版组织表示 AI 对版权产生了新的挑战,计划继续打击其他存有该数据集的网站。

站长之家(ChinaZ.com)8月22日 消息:近日,反盗版组织成功要求在线盗版书籍资源库 The Eye 下线 AI 训练数据集 "Books3" 的事件。"Books3" 数据集是一个大规模的盗版书籍资源,包含了37GB 的文本,用于训练人工智能模型。

Books3存储库包含196,640本书,全部采用 plain.txt 格式,旨在为新兴的 AI 项目提供与 ChatGPT 制造商 OpenAI 等项目竞争的优势。

丹麦的反盗版组织 Rights Alliance 向 The Eye 发送了 DMCA 通知书,要求其下线该数据集。该组织表示,Books3数据集包含其成员公司出版的约150本书。Rights Alliance 还联系了 AI 模型托管网站 Hugging Face(该网站托管了数据卡和 Books3下载链接)以及 EleutherAI。两个组织都将反盗版组织的目标指向了“The Eye”。

非营利研究组织 EleutherAI 最初发布 Books3作为 AI 训练集 The Pile 的一部分,The Pile 是一个800GB 的开源训练数据块,其中包含22个专门为训练语言模型而设计的其他数据集。

尽管 "Books3" 数据集已被下线,其发布者Shawn Presser(人工智能开发人员和著名开源人工智能支持者) 又在 Twitter 上发布了两个新的下载链接。反盗版组织表示将继续追踪和打击存有该数据集的网站。

尽管如此,大型科技公司在训练 AI 模型时使用版权数据的普遍性,但这些公司并不会公开发布其训练数据,这造成了与个人和非营利项目的不公平竞争。反盗版组织表示,AI 对版权产生了新的挑战,需要加强监管和规范。

据了解,Meta 等公司也使用了 "Books3" 数据集来训练 AI 模型。在描述原始 LlaMA 语言模型的白皮书中,Meta 研究人员将 Books3描述为“用于训练大型语言模型的公开数据集”。Meta 引用了来自The Pile的这个数据集。另外,OpenAI 的 GPT-3模型使用 Books2训练集来训练其 AI。Books1和 Books2都占 GPT-3训练数据的近15%。

image.png

举报

  • 相关推荐
  • 重磅!标贝科技推出「十万音色·自然语音数据集」 重构AI语音训练基础设施

    标贝科技发布"十万音色·自然语音数据集",覆盖中英双语,包含10万种音色样本(中文5万、英文5万),基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破,支持多情感表达和跨场景应用,涵盖基础情绪到特定风格,话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术,从海量数据中甄选出高质量样本,为语音识别、合成等AI模型训练提供坚实基础,助力实现更自然、真实的语音交互体验。

  • 苹果官网更新:三款MacBook被列为过时产品

    今天苹果官网过时产品名单中新增了三款Mac电脑,具体如下。 MacBook Air(11英寸,2015款) MacBook Pro(13英寸,2017款,配备4个雷雳3端口) MacBook Pro(15英寸,2017款) 据悉,某款设备自苹果停止分销之日起超过7年,便会被归为过时产品”,苹果零售店及苹果授权服务提供商通常不维修过时产品,但苹果表示,MacBook在停止分销后长达10年内仍可能符合电池更换条件,具体取决于

  • B站要变成AI站

    互联网平台都在跟AI结合,B站没有成为例外。从新一季度财报来看,B站的AI味儿也越来越浓了。 8月21日,B站公布第二季度业绩,总营收达73.4亿元人民币,同比增长20%。其中,游戏业务收入为16.1亿元,同比增长60%,广告业务收入为24.5亿元,同比增长20%。由此推动B站毛利率从去年同期的29.9%提升至36.5%,调整后净利润达到5.6亿元,创下历史最好成绩。 从整体来看,B站生态集聚

  • AI火花集|AI火花先锋添新力,拆解保险、客服、物联网AI落地实战

    AI正加速渗透产业,2025年全球AI投资预计达2000亿美元,年增长近翻倍。保险、电商客服、智能家居成为落地先锋。暖哇科技、云起未来、蜂助手分别聚焦保险理赔自动化、电商智能客服、5G+AI物联网,通过实战方案推动AI从概念验证走向规模化应用。面临数据价值陷阱、流通壁垒等挑战,企业需构建专业知识库并优化人机协同。未来AI将深入产业毛细血管,汇聚零散创新火花,�

  • 卖家精灵火热亮相郑州跨交会,AI+大数据助力华中跨境电商跑出“加速度”

    8月28日至30日,郑州国际跨境电商交易博览会成功举办。卖家精灵作为亚马逊认证服务商参展,展示AI+大数据选品与运营解决方案,现场人气火爆。展会聚焦产业带与跨境服务融合,汇聚近百家服务商和400家工厂。卖家精灵重点演示AI选品工具,日均接待超千人咨询,数百份资料首日领完。定制品牌水成为交流纽带,促进业务对接。卖家精灵将持续以数据驱动帮助卖家科学决策,把握全球市场新机遇。

  • 卖家精灵火热亮相长沙跨交会,AI+大数据赋能湘品差异化出海!

    8月29日至31日,湖南长沙成功举办跨境电商交易会。卖家精灵作为亚马逊认证服务商受邀参展,展示AI+大数据驱动的选品、运营与出海赋能方案,展位人气高涨。重点推出AI市场洞察、实时查竞价等功能,助力卖家数据化决策。现场吸引众多产业带负责人洽谈合作,未来将持续迭代产品服务,陪伴更多卖家从经验驱动走向数据驱动,共赢跨境新机遇。

  • 卖家精灵将亮相9月深圳CCBEC&武汉电博会,以AI+大数据赋能跨境卖家高效突围!

    9月跨境卖家盛会双城联动:17-19日深圳CCBEC展会聚焦全产业链生态,汇聚1500+供应商;19-21日武汉电博会以“链接全球·数创未来”为主题,探讨数字贸易创新。两大展会呈现最新行业成果,举办20+高端论坛,提供选品策略、流量运营等一站式出海解决方案。卖家精灵作为官方合作伙伴,将展示AI选品工具与运营指南,助力卖家赢得全球市场竞争优势。

  • AI与数据库双向赋能,达梦靠自主创新把握弯道超车机遇

    AI时代下,数据库行业正经历深刻变革。达梦数据副总经理李庄庄指出,AI与数据库双向赋能、深度融合,带来多模态数据处理、高并发低延迟等新需求。数据库需提升智能化自治能力,通过架构升级、AI技术集成及生态开放应对挑战。达梦通过AI4DB和DB4DB双路径布局,已在智能参数调优、多引擎数据库等领域取得进展。未来,数据库将更智能、普惠,技术硬实力与落地价值是关键竞争力。

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • 天翼云TeleDB通过信通院“可信数据库”安全专项测试

    中国信通院公布2025上半年“可信数据库”评估结果,天翼云TeleDB高可用关系型数据库通过安全专项测试,产品性能与安全能力达行业领先水平。TeleDB具备高性能、高可用、高可靠、高安全、易扩展、易管理等优势,已在政务、物联网、新能源、医疗等行业广泛应用,助力企业数字化转型。此次评测进一步验证了国产数据库的技术实力,推动我国数据库产业快速发展。

今日大家都在搜的词: