Meta 停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源

2023-07-19 17:44 · 稿源：站长之家

站长之家(ChinaZ.com) 7月19日消息:版权问题引发大规模的生成式人工智能争议，Meta 试图以不公开训练数据的方式规避争议。

Llama2，Meta，人工智能，大语言模型，AI

周二，社交媒体巨头 Meta 发布了一款名为 Llama 2 的庞大新模型，但在研究论文中几乎没有透露使用了哪些数据。「新的公开可用的在线数据，」Meta 的研究人员在论文中写道，几乎没有其他信息。

这是不同寻常的。迄今为止，人工智能行业一直对模型的训练数据持开放态度。原因在于：这种强大的技术必须被理解，其输出必须尽可能地可解释和可追溯，以便研究人员在出现问题时可以进行修复。训练数据对这些模型的性能至关重要。

例如，原始的 Transformer 研究论文揭示了用于训练的详细数据。其中包括来自WSJ 的约 40，000 个句子。

Meta 在今年二月发布第一版 LLaMA 时，论文中列出了所有的训练数据。它包括一堆图书和 Common Crawl 数据集，这是一个自 2008 年以来积累的庞大互联网副本，存储在亚马逊的云端，随时可以下载。该数据集占 Meta 用于训练 LLaMA 的信息的三分之二以上。

而在过去五个月里，出版商、作家和其他创作者突然意识到他们的作品被用于训练所有这些人工智能模型。他们并没有被征求许可。

已经有一系列诉讼挑战了科技公司使用这些信息训练 AI 模型的权利。Sarah Silverman的投诉可能是迄今为止最有名的一个。

对于大型科技公司来说，他们知道这是一个风险。微软作为产业领导者 OpenAI 的支持者，最近在其季度 SEC 文件中增加了这个风险因素。微软在四月份增加的新部分中强调了版权作为知识产权法的重要组成部分。

谷歌，作为另一个人工智能领域的领导者，不愿为在线内容付费，因为这会削弱其高盈利的商业模式。谷歌的高级法律顾问 Halimah DeLaine Prado 表示，美国法律「支持使用公共信息来创造新的有益用途」，这一观点在法庭上可能占上风。

而 Meta 似乎已经认定，在这个新法律问题得到解决之前，不告诉任何人使用了哪些数据是一个安全的做法。

此外，Meta 可能还有其他原因保持沉默。Lamini AI 创业公司的 CEO Sharon Zhou 提出了一些理论，包括最具争议的一点：Meta 在规避法律责任，公司想要保留将 Llama 2 复制的能力，也有可能是因为整理所有元数据是很费时的工作，所以 Meta 可能会在合适的时候发布训练数据的细节。

对此，Meta 表示，他们将发布模型权重和起始代码，以供开发者使用，并强调他们致力于负责任和道德的开发生成式 AI 产品，确保他们的政策符合不同背景的要求和不断变化的社会期望。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
延迟降低2倍！英特尔披露至强6处理器针对Meta Llama 3模型的推理性能

近日，Meta重磅推出其80亿和700亿参数的MetaLlama3开源大模型。该模型引入了改进推理等新功能和更多的模型尺寸，并采用全新标记器，旨在提升编码语言效率并提高模型性能。即使80亿参数的Llama3模型比70亿参数的Llama2模型参数更高，在AWSm7i.metal-48xl实例上运行BF16推理时，整体prompt的推理时延几乎相同。

Meta Llama 3
Meta新大语言模型LLama 3将在英特尔和高通硬件上运行

Meta最近发布了LLama3，这是一款新的大型语言模型，用于实现更安全、更准确的生成式人工智能体验。除了LLM，Meta还推出了LlamaGuard2、CodeShield和CyberSecEval2等信任和安全工具，以帮助确保符合行业和用户安全期望。随着400亿参数显示出更高的准确性，可以推断出更高的AI硬件需求不会很快减少。

Meta LLama3 AI头条
Meta即将推出新一代Llama3大语言模型

MetaPlatforms公司计划在下周推出Llama3大语言模型的两个小参数版本，作为即将在2024年夏天推出的Llama3最大版本的前奏。Llama3最高版本可能拥有超过1400亿个参数，这将使其性能有望赶上OpenAI最新的GPT-4Turbo版本。Meta正在全力推进Llama3的开发，这不仅体现了该公司在AI领域的野心，也为用户带来了更加智能和开放的AI服务的期待。

语言模型 Llama3 多模态技术
Llama 3官网体验入口 Meta最新开源语言模型免费使用地址

MetaLlama3是Meta公司最新推出的一款开源大型语言模型。它在多项行业基准测试中表现出色，性能卓越，可支持广泛的使用场景，包括改善推理能力等新功能。要了解更多信息，请访问MetaLlama3官方网站。

Llama3 Meta 开源模型
Meta计划下周推Llama3基础版，夏季推出全面版

Meta计划在下周预演其大型语言模型Llama3的两个基础版本。Llama3预计将支持多模态功能，允许用户输入文本和图像予以回应。预计将Meta在全球夏季推出完整的Llama3模型。

Meta Llama3
OpenAI针对API客户引入更多企业级AI功能，与Meta的Llama 3竞争

尽管Meta的新型Llama3迅速成为使用最广泛和定制程度最高的巨型语言模型排行榜榜首，但率先开启生成式人工智能时代的竞争对手OpenAI却通过为其GPT-4TurboLLM和其他模型之上构建和编程引入新的企业级功能来摆脱竞争。OpenAI今天宣布了其面向API客户的企业级功能的扩展，进一步丰富了其助手API，并引入了一些旨在增强安全性和管理控制权以及更有效地控制成本的新工具。如果您公司的一个团队使用一套面向公众的文档，另一个团队使用一套机密或内部文档，那么您可以在OpenAI的API中为每个团队分配一个单独的项目，并且这两个团队都可以使用AI模型来处理这些文档不会混合或危及后者。

OpenAI Meta AI头条
荐全球首个「开源GPT-4」出世！Llama 3震撼发布，Meta AI免登录可用

LLM界的「真·OpenAI」，又来整顿AI圈了!业内惊呼:首个开源GPT-4级的模型，终于来了!开源模型追上闭源模型的历史性一刻，或许就在眼前了?一石激起千层浪，Llama3才刚刚发布没几小时，就破纪录地登顶了HuggingFace排行榜。Meta共开源了Llama38B和Llama370B两款模型，分别有预训练和指令微调两个版本。MetaAI即将在Quest头显中推出。

开源GPT-4 Llama3 Meta
扎克伯格称 Meta 需要数年才能从生成式 AI 赚钱

在Meta的首季度财报电话会议上，CEO马克・扎克伯格向投资者表示，生成式AI的热潮已经到来，但不要指望它能很快带来利润。Meta公司净利润在上个季度已经达到120亿美元，营收为365亿美元，但未来其营收增长有望放缓，同时在AI和元宇宙方面的支出也创下历史新高。但现在似乎很明显，时尚AI眼镜也有一个有意义的市场无需显示屏。

Meta 生成式AI AI头条
阿里开源千亿参数模型 Qwen1.5-110B，性能超越 Meta-Llama3-70B

阿里巴巴宣布开源其最新的Qwen1.5系列语言模型-Qwen1.5-110B。这是Qwen1.5系列中规模最大的模型，也是该系列中首个拥有超过1000亿参数的模型。它在与最近发布的SOTA模型Llama-3-70B的性能上表现出色，并且明显优于72B模型。
荐Llama 3超大杯有何惊喜？Meta会一直开源吗？当初为何笃信元宇宙？扎克伯格新访谈回应一切

Meta突然官宣了Llama3，把开源模型的实力又往上提了一截。Llama3总共有三个版本——8B、70B和405B。正如BenHorowitz所说，「keepthemainthing，themainthing」，并努力专注于你的关键优先事项。

Llama3 Meta 人工智能

今日大家都在搜的词：

热文

3 天
7天

Meta 停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源

今日大家都在搜的词：

热文

站长商机