首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Meta 停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源

2023-07-19 17:44 · 稿源:站长之家

站长之家(ChinaZ.com) 7月19日消息:版权问题引发大规模的生成式人工智能争议,Meta 试图以不公开训练数据的方式规避争议。

Llama2,Meta,人工智能,大语言模型,AI

周二,社交媒体巨头 Meta 发布了一款名为 Llama 2 的庞大新模型,但在研究论文中几乎没有透露使用了哪些数据「新的公开可用的在线数据,」Meta 的研究人员在论文中写道,几乎没有其他信息。

这是不同寻常的。迄今为止,人工智能行业一直对模型的训练数据持开放态度。原因在于:这种强大的技术必须被理解,其输出必须尽可能地可解释和可追溯,以便研究人员在出现问题时可以进行修复。训练数据对这些模型的性能至关重要。

例如,原始的 Transformer 研究论文揭示了用于训练的详细数据。其中包括来自WSJ 的约 40,000 个句子。

Meta 在今年二月发布第一版 LLaMA 时,论文中列出了所有的训练数据。它包括一堆图书和 Common Crawl 数据集,这是一个自 2008 年以来积累的庞大互联网副本,存储在亚马逊的云端,随时可以下载。该数据集占 Meta 用于训练 LLaMA 的信息的三分之二以上。

而在过去五个月里,出版商、作家和其他创作者突然意识到他们的作品被用于训练所有这些人工智能模型。他们并没有被征求许可。

已经有一系列诉讼挑战了科技公司使用这些信息训练 AI 模型的权利。Sarah Silverman投诉可能是迄今为止最有名的一个。

对于大型科技公司来说,他们知道这是一个风险。微软作为产业领导者 OpenAI 的支持者,最近在其季度 SEC 文件中增加了这个风险因素。微软在四月份增加的新部分中强调了版权作为知识产权法的重要组成部分。

谷歌,作为另一个人工智能领域的领导者,不愿为在线内容付费,因为这会削弱其高盈利的商业模式。谷歌的高级法律顾问 Halimah DeLaine Prado 表示,美国法律「支持使用公共信息来创造新的有益用途」,这一观点在法庭上可能占上风。

而 Meta 似乎已经认定,在这个新法律问题得到解决之前,不告诉任何人使用了哪些数据是一个安全的做法。

此外,Meta 可能还有其他原因保持沉默。Lamini AI 创业公司的 CEO Sharon Zhou 提出了一些理论,包括最具争议的一点:Meta 在规避法律责任,公司想要保留将 Llama 2 复制的能力,也有可能是因为整理所有元数据是很费时的工作,所以 Meta 可能会在合适的时候发布训练数据的细节。

对此,Meta 表示,他们将发布模型权重和起始代码,以供开发者使用,并强调他们致力于负责任和道德的开发生成式 AI 产品,确保他们的政策符合不同背景的要求和不断变化的社会期望。

举报

  • 相关推荐
  • 15天快装开业,Lamett乐迈石晶地墙品类投资模式解析

    贝壳研究院数据显示,2025年中国存量房装修市场规模将达3.34万亿元,消费者对健康环保、便捷高效的家装需求持续攀升。乐迈石晶作为全球石晶品类开创者,推出"100㎡开店、10余万投资、15天极速开业"轻资产模式,携手经销商掘金"新房整装+旧房改造"市场。其首创的石晶地板和石晶柜板技术,实现从地面材料向墙面、柜体等全屋空间应用的跨越,构建"地墙柜一体化"健康整装系统。凭借"零醛添加、防水防潮"等核心性能优势,石晶材料正加速替代传统建材。目前乐迈石晶在全球拥有10余家工厂及销售机构,业务遍及80多个国家和地区,为高端住宅及商业空间提供整体解决方案。

  • Lamett乐迈石晶携手肖战共筑品牌势能,经销商信心倍增抢滩市场

    欧洲高端建材品牌Lamett乐迈石晶宣布肖战成为首位全球品牌代言人,双方将共同推动"健康、安全"理念。Lamett创立于1985年,专注新型建材研发,2016年首创全球首款石晶地板,2024年又推出石晶柜板,实现从地面到全屋空间的应用突破。此次合作将助力品牌从专业领域走向大众视野,通过"全域营销+供应链布局+数字化管理"赋能经销商。目前品牌在中国设有七大直营体验中心,未来将通过"东西南北中"五大生产基地实现全链路自主把控。

  • AI日报:阿里开源Qwen-Image-Edit;淘宝“AI万能搜”功能灰度测试;小红书发布DynamicFace人脸生成技术

    本期AI日报聚焦多项AI领域创新:1)阿里开源Qwen-Image-Edit图像编辑模型,支持中文渲染与精准文本编辑;2)淘宝测试"AI万能搜"功能,重构电商搜索体验;3)小红书发布DynamicFace人脸生成技术,实现高质量图像视频换脸;4)Gemini API新增URL Context功能,简化网页内容获取流程;5)Nvidia推出小型开放模型Nemotron-Nano-9B-v2,支持智能推理开关;6)马斯克发布Grok Imagine 0.1测试版,进军AI图像生成领域;7)Vercel推出iOS版AI开发工具v0;8)理想汽车发布MindGPT 3.1模型,处理速度提升5倍;9)ToonComposer工具简化动画制作流程;10)ElevenLabs推出视频到音乐生成流程。

  • AI最新资讯在哪里看?AIbase:高效获取国内外AI新闻头条与行业动态

    文章探讨了AI时代信息过载的困境:有价值的前沿动态、重磅模型发布和行业解读分散各处,筛选成本高、效率低下。AIbase资讯导航站应运而生,通过四大核心功能解决痛点:1)聚合主流信源,过滤低质噪音;2)结构化分类呈现大模型动态、行业应用等六大板块;3)提炼核心要点,拒绝标题党;4)高频更新确保信息鲜度。该平台致力于成为AI领域的"信息雷达",帮助用户节省70%信息搜集时间,将精力聚焦于思考与创造。适用于技术负责人快速掌握行业动态、产品经理调研案例、投资人捕捉趋势等多元场景。

  • 智谱AI发布AutoGLM 2.0 - 首个为手机而生的通用Agent。

    智谱今天,终于发了AutoGLM2.0。 想一想,AutoGLM1.0的版本,距离我第一次首发写他们,已经过去快10个月了。 那个时候,他们掀起了一波Agent热潮,甚至连A股都出现了智谱概念股,他们也开启了Agent的另一条支线,用视觉的方式来操控原有设备。 当时,我对着我的手机说:我29号要去一趟深圳,你帮我定个罗湖地铁站附近的酒店,预算600元以内,大床房。 然后,我的手机,就像

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • 七夕浪漫指南:用三星Galaxy S25系列为欢聚时光加点AI

    七夕将至,三星Galaxy S25系列成为兼具心意与实用性的礼物之选。其优雅设计、专业影像与AI功能,既能记录甜蜜瞬间,又能在日常中贴心助力。从智能翻译到日程提醒,从夜拍优化到创意编辑,全方位提升情侣互动体验。科技让浪漫更具体,是传递爱意的理想方式。

  • “无限量”供应Claude,就是AI IDE们的百亿补贴

    Anthropic于2025年7月28日宣布,将从8月28日起对Claude Code工具新增每周调用限额——因为少数重度用户全天候高频使用,一次使用成本甚至高达数万美元,远远超过普通订阅预期。 同样在上个月,Cursor曾因其“I’ll keep it unlimited”的Pro收费模式悄然变更为计算tokens限制,导致大量用户抱怨“实际上并非无限”,纷纷在社群中吐槽,迫使公司CEO出面道歉、甚至给出退款补偿。 这两�

  • 普渡机器人发布3D感知AI扫地机器人PUDU MT1 Max,重塑智能清洁新高度

    普渡机器人于2025年8月20日发布3D感知AI扫地机器人PUDU MT1Max。该产品在MT1基础上大幅升级,搭载3D雷达与多传感器融合系统,显著增强复杂场景感知与避障能力。通过AI技术实现自适应清洁、垃圾识别、巡检清洁等功能,支持10万平方米以上大场景作业。具备自动振尘过滤和智能避雨机制,提升安全性与运维效率,重塑智能清洁行业新标准。

  • 哪里找最新AI工具官网?如何快速对比ChatGPT替代品?AI工具导航指南 - AIbase

    文章探讨了在AI工具爆炸式增长的时代,用户面临的信息过载和筛选困难问题。主要内容包括:1)AI领域迭代速度远超传统软件,个人追踪信息效率低下且容易错过关键更新;2)AIbase.cn平台致力于解决这一问题,通过聚合主流AI工具、严格审核信息来源、持续更新行业动态;3)平台提供多维对比功能,结构化呈现工具参数,帮助用户快速定位适合需求的解决方案;4)建议用户定期浏览平台资讯栏目,善用搜索筛选功能,通过对比视图做出明智选择。核心价值在于降低信息筛选成本,让用户更高效地获取有价值的AI工具和前沿资讯。

今日大家都在搜的词: