AI公司用“AI合成数据”来训练AI大语言模型成趋势

2023-07-19 14:25 · 稿源：站长之家

站长之家（ChinaZ.com）导语:AI 公司正试图通过“创造信息”来获得用于训练 AI 系统的大量数据，这被称为 "合成数据"。现在，AI 模型的发展已经达到了人类创造的数据的极限，因此需要新的方法来训练模型。

目前，训练 AI 模型的数据主要来自于互联网，用于训练这些系统的数据包括数字化的图书、新闻文章、博客、搜索查询、Twitter 和 Reddit 帖子、YouTube 视频和 Flickr 图像等内容。

人工智能 AI教育

但是随着生成式 AI 技术的发展，即使是资金充裕的 AI 公司也很难找到易获取且高质量的数据。合成数据的使用可以绕过这个问题，公司可以使用 AI 模型生成文本、代码等信息，并用于训练更先进的模型。

根据 Cohere 的首席执行官 Aidan Gomez 的说法，合成数据已经很多，只是没有被广泛传播。例如，为了训练一个模型进行高级数学，Cohere 可能会使用两个互相交流的 AI 模型，其中一个扮演数学导师，另一个扮演学生。Gomez 表示:“他们正在进行三角学的对话…… 这完全是合成的。这些只是模型想象出来的。然后人类观察这段对话，如果模型说错了内容，就进行修正。这是目前的现状。”

微软研究院的两项最新研究表明，合成数据可以用于训练比 OpenAI 的 GPT-4或 Google 的 PaLM-2等最先进的软件更小更简单的模型。其中一篇论文描述了 GPT-4生成的一组短篇故事的合成数据集，该数据集只包含一个典型四岁孩子可能理解的词语。这个数据集被称为 TinyStories，然后用于训练一个简单的 LLM，能够生成流利和符合语法的故事。

另一篇论文展示了可以使用合成的 Python 代码进行训练，这些代码以教科书和练习的形式存在，他们发现这些代码在编码任务上表现相对不错。

一些初创公司如 Scale AI 和 Gretel.ai 已经提供合成数据作为服务，这种数据可以保护个人隐私，同时保持统计数据的完整性。Gretel 由前美国国家安全局和中央情报局的情报分析师创立，与谷歌、汇丰银行、Riot Games 和 Illumina 等公司合作，通过合成数据的方式来增强他们现有的数据，以帮助训练更好的 AI 模型。

然而，使用低质量的合成数据可能会阻碍进展，并可能导致技术的退化。随着 AI 生成的文本和图像开始充斥互联网，AI 公司在搜索训练数据时不可避免地会使用其自身早期版本生成的原始数据，这种现象被称为 “dog-fooding”。一项来自牛津和剑桥等大学的研究最近警告称，训练模型时使用自身的原始输出（可能包含虚假或捏造的信息）可能会逐渐损害和降低技术的质量，造成 “不可逆的缺陷”。尽管存在这些风险，AI 研究人员认为合成数据有助于加速超级智能 AI 系统的发展。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
荐秒懂生成式AI—大语言模型是如何生成内容的？

备受关注的大语言模型，核心是自然语言的理解与文本内容的生成，对于此，你是否好奇过它们究竟是如何理解自然语言并生成内容的，其工作原理又是什么呢?要想了解这个，我们就不得不先跳出大语言模型的领域，来到机器翻译这里。传统的机器翻译方式是采用RNN循环神经网络。以上就是大语言模型的工作原理了，强大Transformer的实用性还不止于在自然语言处理领域，包括�

生成式AI
AI研究人员发现了主要大语言模型中关键漏洞可低成本复制

大型语言模型如ChatGPT和Bard在全球范围内引起了广泛的关注，众多公司投资数百万美元用于开发这些人工智能工具一些领先的AI聊天机器人的估值已达到了数十亿美元。这些LLM主要被应用于AI聊天机器人，它们通过整合互联网上的大量信息来学习和为用户提供请求的答案，这些请求通常被称为“提示”。”这项研究为我们提醒了虽然AI技术带来了巨大的机会，但也伴随着一系列潜在的威胁，因此必须谨慎行事。
荐「深呼吸」让大模型表现更佳！谷歌DeepMind利用大语言模型生成Prompt，还是AI更懂AI

【新智元导读】谷歌DeepMind提出了一个全新的优化框架OPRO，仅通过自然语言描述就可指导大语言模型逐步改进解决方案，实现各类优化任务。「深呼吸，一步一步地解决这个问题。这项研究首次提出并验证了使用大语言模型进行优化的有效性，为利用LLM进行更广泛优化任务提供了框架和经验，是这个新的研究方向的开拓性工作，具有重要意义。

DeepMind 大语言模型
使用AI语言模型有助于诊断精神分裂症

伦敦大学学院神经学院的科学家开发了一些新的工具，这些工具基于AI语言模型，可以特征化被诊断患有精神分裂症的患者语音中的细微特征。这项发表在《美国国家科学院院刊》上的研究，旨在了解自动语言分析如何帮助医生和科学家诊断和评估精神疾病。如果这些工具被证明是安全和可靠的，他预计它们会在未来十年开始应用于临床。

AI语言模型
丰田训练AI机器人制作早餐，无需编码、通过触觉学习

丰田研究院近日宣布，他们成功使用生成式人工智能在“机器人幼儿园”中培训机器人执行各种灵巧任务无需进行繁琐的编码工作。这一突破性的技术使得机器人可以通过触觉感知和学习，像人类一样执行各种任务。与丰田研究人员的方法类似，他们的机器人利用他们所获得的经验来推断如何做事。

AI机器丰田 AI头条
Hugging Face 大语言模型三大优化技术

大语言模型的生产部署面临着两个主要挑战:一是需要庞大的参数量，二是需要处理超长的上下文信息输入序列。HuggingFace基于他们在提供大型模型服务方面的经验，分享了一些应对这些难题的技术。文章深入剖析了大语言模型优化的关键技术点，对于产业实践具有重要参考价值。

大模型
英伟达与 Anyscale 合作：提高大型语言模型和生成式 AI 应用的开发效率

用于生成式AI工具的大型语言模型通常会极大地增加对更多处理器的需求，这些处理器通常价格昂贵且供应受限。即使是云资源也不能总是解决企业试图扩展规模并利用最新的生成式AI技术所面临的问题。」Anyscale首席执行官兼联合创始人RobertNishihara在一份声明中表示。

英伟达 Anyscale 生成式AI
OpenLM：一个专为中等规模语言模型设计的模型训练库

OpenLM是一个旨在训练中等规模语言模型的PyTorch代码库，它强调了最大化GPU利用率和训练速度的设计。该库已经通过训练OpenLM-1B和OpenLM-7B两个语言模型，分别在1.6T和1.25T的文本标记上进行验证，取得了令人瞩目的成果。OpenLM的团队成员和致谢也在文章中列出，表明了该项目的合作性质和开源精神。

OpenLM
Headless语言模型：通过捆绑嵌入提高模型的训练速度

研究人员发现了一种改进语言模型性能的方法——Headless语言模型，即将输入嵌入与模型的其他嵌入捆绑在一起，并使用对比损失。通常情况下，语言模型的输入和输出嵌入层是分开的，但这种新方法通过捆绑它们，提高了模型的训练速度和准确性。这项工作为以对比学习取代交叉熵作为自监督预训练目标开辟了道路，为语言表示学习提供了一种高效可行的替代方案。

语言模型
开源机器学习库vLLM 提升大语言模型推理速度

大语言模型在改变人们的生活和职业方面影响越来越大，因为它们实现了编程助手和通用聊天机器人等新应用。这些应用的运行需要大量硬件加速器如GPU，操作成本非常高。更大的模型、更复杂的解码算法和更长的序列会导致更明显的改进。

vLLM

Chat UI:开源代码库，为HuggingChat应用提供动力

chat-ui是一个开源的聊天界面，使用开源模型如OpenAssistant或Llama。它是一个SvelteKit应用程序，为hf.co/chat上的HuggingChat应用提供支持。该产品允许用户通过自定义配置来运行和部署自己的Chat UI实例，支持多种语言模型和功能，如Web搜索、自定义模型等。

开源聊天应用 SvelteKit

360AI浏览器APP:360AI 浏览器，AI 赋能，秒懂一切。

360AI 浏览器利用人工智能技术，提供智能搜索、PDF、视频、网页总结等功能，旨在帮助用户高效获取知识，提升阅读体验。

智能搜索 PDF 阅读视频播放

FAQ Generator:免费AI生成FAQ，无需注册即可创建网站FAQ模板。

AI FAQ Generator是一款利用先进AI技术，通过分析常见问题自动生成FAQ列表的工具。它能够快速高效地生成FAQ，节省时间和资源，同时提供准确的答案，帮助提高客户满意度，并改善SEO效果。

AI技术自动化 FAQ创建

BrickCenter:一个创意无限的乐高设计平台，让你的想象力变为现实。

BrickCenter是一个在线平台，允许用户免费创建自己的乐高套装和迷你人物。它提供了一个将创意转化为详细乐高设计的工具，无论是复杂的场景还是个性化的迷你人物，用户都可以在这个平台上实现自己的设计梦想。该平台以其用户友好的界面和强大的定制功能而受到乐高爱好者的欢迎。

创意设计乐高

100 UI/UX Tips:在一个小时内学习如何制作令人印象深刻的应用程序界面。

《100 UI/UX Tips》提供了设计界面所需的所有提示，让用户感到满意。强调产品的主要优点、背景信息、价格和定位。

设计用户界面用户体验

whatwide.ai:提高生产力的AI助手，简单易用

whatwide.ai是一个提高生产力的AI助手，使用人工智能技术来节省时间并提高工作效率。它提供了50多种AI模型，包括文本生成、网站帮助、社交媒体分析、编程辅助等多种功能。whatwide.ai的优点在于高质量的内容生成、快速且安全的操作，以及多种AI类型供用户选择。

生产力文本生成网站帮助

Stream of Consciousness:一个展示想象中艺术家思绪的日常表演，通过创作和分享图像来表达创造力。

Stream of Consciousness是一个记录并分享艺术家思维的项目，通过创作和分享图像来展示创造力。它提供了一个深入艺术家思维的窗口，让人们了解艺术创作的过程和灵感的来源。

艺术创作思绪

Neurelo:是一种用于PostgreSQL、MongoDB和MySQL的云数据API平台，通过自动生成REST和GraphQL数据API、AI辅助的自定义查询API、查询可观察性等功能，简化和加速现代云应用程序开发。

Neurelo是一个专为云数据库而设计的平台，通过使用云API和人工智能技术，提供自动生成API、自定义查询API、查询可观察性和Schema as Code等功能，以提高开发人员的生产力。Neurelo能够简化数据库编程相关的复杂性，并具备可伸缩性、安全性和查询优化能力。

数据库云应用程序 API

EdrawMax:智能且风格多样的图表解决方案，简化您的想法可视化过程。

EdrawMax是一款功能强大的图表设计软件，它提供一站式的图表解决方案，适用于流程图、思维导图、组织结构图、甘特图、平面图和ER图等210多种图表类型。它具有简洁的用户界面，类似于MS Office的干净、整齐的界面，直观且易于导航的工具集，以及无缝的拖放功能。此外，EdrawMax还提供了23000多个用户制作的模板，850个精心制作的内置模板，以及26000多个免费符号，覆盖所有图表类型。它还具备AI功能，可以生成和分析22种类型的图表，包括文本到绘图和图片到绘图以及AI聊天。EdrawMax支持跨平台集成，可以在云端保存文件并通过链接共享，支持通过社交媒体或电子邮件发送作品，并能以13种格式导出图表，包括VSDX、PPTX和SVG等。此外，EdrawMax遵循GDPR标准，使用最高级别的256位SSL加密，确保用户隐私和数据安全。

图表设计 AI生成跨平台

Notta Showcase:通过AI技术，轻松实现视频的多语言翻译和配音，连接全球观众。

Notta Showcase是一款在线视频翻译和配音工具，它通过AI技术帮助用户将视频内容翻译成15种不同的语言，同时保持原始的语音风格和情感，以提供自然的听觉体验。该产品的主要优点包括高效率、成本效益、用户友好的界面、高准确度的转录和翻译，以及支持多种文件格式和平台。它适用于营销、社交媒体和教育等多个领域，可以显著扩大内容的全球影响力。

AI翻译视频配音内容本地化

SunoAI API:开源项目，实现AI音乐服务的API接口

Suno API是一个开源项目，允许用户设置自己的Suno AI音乐服务API。它实现了app.suno.ai的创建API，兼容OpenAI的API格式，支持自定义模式，一键部署到Vercel，并且拥有开放源代码许可证，允许自由集成和修改。

AI音乐 API 开源

x-crawl:灵活的 Node.js AI 辅助爬虫库，让爬虫工作更高效、智能、便捷。

x-crawl 是一款基于 Node.js 的 AI 辅助爬虫库，它通过强大的 AI 辅助功能，使得爬虫工作变得更加高效、智能和便捷。它支持对动态页面、静态页面、接口数据以及文件数据的爬取，同时提供了自动化操作、键盘输入、事件操作等控制页面的能力。此外，它还具备设备指纹、异步同步、间隔爬取、失败重试、轮换代理、优先队列和记录爬取等功能，以适应不同的爬取需求。x-crawl 拥有类型，通过泛型实现完整的类型，基于 MIT 许可发布，适合需要进行数据爬取的开发者和企业。

爬虫 AI辅助自动化

MetaCLIP:一种用于图像和文本数据的先进机器学习模型，专注于数据质量和透明度。

MetaCLIP是一个开源的机器学习模型，用于图像和文本的联合表示学习。它通过一个简单算法对CLIP数据进行筛选，不依赖于先前模型的过滤，从而提高了数据的质量和透明度。MetaCLIP的主要贡献包括无过滤的数据筛选、透明的训练数据分布、可扩展的算法和标准化的CLIP训练设置。该模型强调数据质量的重要性，并提供预训练模型，以支持研究人员和开发者进行控制实验和公平比较。

机器学习图像识别文本处理

AITown:一个虚拟城镇，AI角色在这里生活、聊天和社交。

AI Town是一个基于MIT许可的可部署启动套件，用于构建和定制您自己的AI城镇版本。这个项目受到了研究论文'Generative Agents: Interactive Simulacra of Human Behavior'的启发，旨在提供一个强大的基础平台，旨在被扩展。后端原生支持共享全局状态、事务和模拟引擎，适用于从简单的项目到可扩展的多人游戏。

AI 虚拟城镇聊天模拟

Vanna:通过自然语言生成SQL查询，简化数据库交互。

Vanna是一个使用Retrieval-Augmented Generation (RAG) 技术的开源Python框架，用于SQL生成和相关功能。它通过训练RAG模型，将自然语言问题转换为SQL查询，从而允许用户以提问的形式与数据库进行交互。Vanna的主要优点包括高准确度、安全性、私有性、自学习能力，并且支持任何SQL数据库。

SQL 自然语言处理数据库

Fal AI:AI图片生成式开发者平台

fal.ai 是一款面向开发者的生成媒体平台，提供了业界最快的推理引擎，可以让您以更低的成本运行扩散模型，创造出全新的用户体验。它拥有实时、无缝的 WebSocket 推理基础设施，为开发者带来了卓越的使用体验。fal.ai 的定价方案根据实际使用情况灵活调整，确保您只为消耗的计算资源付费，实现了最佳的可扩展性和经济性。

生成媒体推理引擎开发者工具

Chat With Llama 3:一个开源的聊天机器人，能够解释概念、写诗、编程、解逻辑谜题。

Chat With Llama 3 是一个开源的聊天机器人，由Meta AI开发。它能够进行多种智能对话，包括解释复杂概念、创作诗歌、编写代码、解决逻辑谜题，甚至帮助用户给宠物起名。这个聊天机器人的主要优点在于它的多功能性和开源性，使其可以被广泛地应用于各种场景，并且可以根据需要进行定制和改进。

人工智能聊天机器人开源

AI图片生成与搜索:释放创意，一键生成或搜索超过200万张AI图片。

AI图片生成与搜索是一个在线平台，利用先进的人工智能技术，允许用户快速生成或搜索各种风格的AI图片。该技术的重要性在于它能够极大提高设计和创意工作的效率，同时降低成本。产品的主要优点包括丰富的图片资源、高效的生成速度、以及用户友好的界面。产品背景信息显示，这是一个面向广大创意工作者和设计师的工具，旨在帮助他们快速实现创意构想。目前，该产品提供免费试用，但具体价格和定位信息未在页面中提供。

AI技术图像生成创意工具

OpenPerplex:，您的知识门户

OpenPerplex是一个提供广泛知识资源的在线平台，它通过整合多种信息源，为用户提供了一个便捷的知识获取渠道。该产品以其丰富的信息量、高效的检索能力和友好的用户界面而受到用户的青睐。它不仅适用于个人学习，也适合专业人士进行深入研究。

知识获取信息检索在线学习

JavaVision:基于Java的全能视觉智能识别项目

JavaVision是一个基于Java开发的全能视觉智能识别项目，它不仅实现了PaddleOCR-V4、YoloV8物体识别、人脸识别、以图搜图等核心功能，还可以轻松扩展到其他领域，如语音识别、动物识别、安防检查等。项目特点包括使用SpringBoot框架、多功能性、高性能、可靠稳定、易于集成和灵活可拓展。JavaVision旨在为Java开发者提供一个全面的视觉智能识别解决方案，让他们能够以熟悉且喜爱的编程语言构建出先进、可靠且易于集成的AI应用。

AI公司用“AI合成数据”来训练AI大语言模型成趋势

今日大家都在搜的词：

热文

站长商机