首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Meta 停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源

2023-07-19 17:44 · 稿源:站长之家

站长之家(ChinaZ.com) 7月19日消息:版权问题引发大规模的生成式人工智能争议,Meta 试图以不公开训练数据的方式规避争议。

Llama2,Meta,人工智能,大语言模型,AI

周二,社交媒体巨头 Meta 发布了一款名为 Llama 2 的庞大新模型,但在研究论文中几乎没有透露使用了哪些数据「新的公开可用的在线数据,」Meta 的研究人员在论文中写道,几乎没有其他信息。

这是不同寻常的。迄今为止,人工智能行业一直对模型的训练数据持开放态度。原因在于:这种强大的技术必须被理解,其输出必须尽可能地可解释和可追溯,以便研究人员在出现问题时可以进行修复。训练数据对这些模型的性能至关重要。

例如,原始的 Transformer 研究论文揭示了用于训练的详细数据。其中包括来自WSJ 的约 40,000 个句子。

Meta 在今年二月发布第一版 LLaMA 时,论文中列出了所有的训练数据。它包括一堆图书和 Common Crawl 数据集,这是一个自 2008 年以来积累的庞大互联网副本,存储在亚马逊的云端,随时可以下载。该数据集占 Meta 用于训练 LLaMA 的信息的三分之二以上。

而在过去五个月里,出版商、作家和其他创作者突然意识到他们的作品被用于训练所有这些人工智能模型。他们并没有被征求许可。

已经有一系列诉讼挑战了科技公司使用这些信息训练 AI 模型的权利。Sarah Silverman投诉可能是迄今为止最有名的一个。

对于大型科技公司来说,他们知道这是一个风险。微软作为产业领导者 OpenAI 的支持者,最近在其季度 SEC 文件中增加了这个风险因素。微软在四月份增加的新部分中强调了版权作为知识产权法的重要组成部分。

谷歌,作为另一个人工智能领域的领导者,不愿为在线内容付费,因为这会削弱其高盈利的商业模式。谷歌的高级法律顾问 Halimah DeLaine Prado 表示,美国法律「支持使用公共信息来创造新的有益用途」,这一观点在法庭上可能占上风。

而 Meta 似乎已经认定,在这个新法律问题得到解决之前,不告诉任何人使用了哪些数据是一个安全的做法。

此外,Meta 可能还有其他原因保持沉默。Lamini AI 创业公司的 CEO Sharon Zhou 提出了一些理论,包括最具争议的一点:Meta 在规避法律责任,公司想要保留将 Llama 2 复制的能力,也有可能是因为整理所有元数据是很费时的工作,所以 Meta 可能会在合适的时候发布训练数据的细节。

对此,Meta 表示,他们将发布模型权重和起始代码,以供开发者使用,并强调他们致力于负责任和道德的开发生成式 AI 产品,确保他们的政策符合不同背景的要求和不断变化的社会期望。

举报

  • 相关推荐
  • Meta新品发布,技术路线与影目INMO“撞车”,中国智造先行优势凸显

    三星Galaxy S25系列专为学生群体打造,融合AI生产力、影像创作与性能释放。通过Galaxy AI实现智能笔记、实时翻译等功能提升学习效率;搭载多摄系统与AI影像引擎,支持复杂场景拍摄;配备骁龙8芯片和优化散热系统,兼顾游戏娱乐与续航表现。轻薄设计搭配多款配色,满足个性化需求,现可通过教育优惠活动实惠入手。

  • ChatExcel重磅发布:基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

    ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站,重构数据全链路,打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构,实现本地流畅运行GPT-oss-120B等大型模型,保障数据安全的同时显著提升分析效率。该方案以财务场景为例,支持多任务并行处理,将原本需1天完成的月度报表压缩至2小时,解决“数据不外发”与“高效处理”的核心矛盾。

  • Reviews.ai 依托 DigitalOcean 高效实现 AI 业务扩展

    Reviews.ai是一个消费者反馈聚合平台,帮助品牌将客户评论转化为可执行的洞察。该平台专注于评论分析,通过AI驱动功能(如按需报告、主题分类和智能代理)提升产品与服务。近期从Review Monitor更名后,团队迁移至DigitalOcean云平台,解决了原有专用服务器架构的扩展瓶颈。迁移过程在合作伙伴Aquazeel支持下高效完成,仅用数周,成本降低近30%。新架构采用Droplets、托管数据库和负载均衡器,支持灵活扩展。未来计划利用GPU Droplets增强AI能力,进一步优化大型语言模型处理效率。

  • 硬核创新比肩华为,Momenta首度荣膺WNEVC 2025全球新能源创新技术

    9月27日,2025世界新能源汽车大会在海口开幕。会上,Momenta凭借其全场景量产辅助驾驶方案Mpilot,荣获“全球新能源汽车创新技术”奖项。该方案基于全国首个量产“端到端大模型”,实现全场景智能驾驶,覆盖复杂道路环境,极大减轻驾驶员负担。目前,Momenta合作车型超160款,覆盖奔驰、宝马、丰田等全球主流车企。未来,公司将持续推动无人驾驶技术规模化落地,助力智能出行产业发展。

  • 数贸会今日开幕!每日互动展台人气火爆,GAI Station引领AI办公新体验

    2025全球数字贸易博览会于9月25日在杭州开幕。每日互动公司(展位7A-T022)集中展示了AI产业实践与数据流通领域成果,重点推出10万元级智能工作站GAI+Station,集成写作、会议纪要、智能问答等功能,内置8大模型能力,破解成本与安全痛点。其“发数站”战略打通数据高效流通链路,已在医疗、交通等多领域落地,“数智绿波”应用覆盖全国30多个省市,通行效率提升20%以上。此外,AITA超级营销助手实现升级,机器狗互动表演吸引关注。展会期间将举办10余场专业发布,涵盖数据要素、大模型应用等行业实战,助力企业把握数字化机遇。

  • iOS 26.1 Beta 2发布:闹钟需要滑动停止、苹果智能支持繁体中文

    苹果今天凌晨正式发布了iOS 26.1 Beta 2开发者预览版,加入开发者计划的用户都能升级体验。 这次对用户影响最大的是闹钟功能的改进,之前iOS 26将闹钟的停止按钮加大,导致停止更方便,同时也更容易误触,苹果目前已经进行大改,需要滑动才能停止。 这个设计让用户在迷迷糊糊中点击手机的无法结束闹钟,不会错过起床时间了。 除了闹钟升级之外,Apple Intelligence还在更�

  • 腾讯云大数据TBDS重磅升级,助力金融行业构建Data+AI一体化数智新范式

    腾讯云在腾讯全球数字生态大会上宣布,其大数据平台TBDS面向AI时代完成重磅升级。此次升级聚焦“数据与AI一体化”,旨在为金融机构提供兼具数据工程与数据科学能力的综合平台,打破传统数据处理与智能应用间的壁垒。新TBDS通过多模湖仓平台、WeData数智开发治理平台及DataAgent数据智能即服务构成核心架构,实现数据存储、管理、开发、治理与运维全面智能化。平台支持多模数据统一汇聚、异构计算负载调度,并显著提升数据开发到模型上线的全链路效率。在金融场景中,新TBDS已应用于信贷自动审批等业务,帮助机构提质增效。未来,腾讯云TBDS将持续发挥专业化与智能化优势,助力金融行业加速数字化转型。

  • Checkout.com正式推出Flow Remember Me: 一键支付,全球通用

    Checkout.com推出嵌入式支付产品Flow的"记住我"功能,消费者仅需存储一次银行卡信息即可在全球商户网络实现跨平台快捷支付。测试数据显示,该功能最高可缩短70%付款时间并提升7%支付成功率。同时公司升级AI分析套件、支付优化工具及收单网络,并与Visa、Mastercard和Google达成AI智能体合作,助力商户在数字支付领域保持领先地位。

  • 影视飓风Tim突然送给罗永浩iPhone 17 Pro Max 2TB 本人非常惊喜

    罗永浩预告他的新一期播客节目邀请到了影视飓风Tim。在播客录制现场,Tim突然送了罗永浩一台iPhone17 Pro Max 2TB。 罗永浩表示,非常感谢这个礼物,在现场收到非常惊喜,至于手机本身,明天中午12点来看影视飓风Tim带来的这个惊喜礼物。

  • 卡萨帝小炫风Max烟机京东首发,28小时斩获销额TOP1

    9月30日,卡萨帝小炫风Max烟机首发即创佳绩:京东平台28小时销量突破2400套,稳居油烟机品类榜首,并在4500元以上高端价位段表现强势。其成功源于两大差异化优势:设计上实现超薄平嵌,完美融入橱柜;科技上搭载FPA直驱变频电机与AI降噪系统,静音强吸双突破,重新定义高端烟机标准,印证了以用户为中心的高端战略路径。

今日大家都在搜的词: