微软、OpenAI 和 Cohere 等公司已转向使用合成数据训练人工智能模型

2023-07-20 13:58 · 稿源：站长之家

站长之家(ChinaZ.com) 7月20日消息:人工智能公司 Cohere 的首席执行官 Aiden Gomez 表示，合成数据已经被用来训练人工智能模型。由于 Reddit 和 Twitter 等公司对于其他公司抓取其数据收费高昂，微软、OpenAI 和 Cohere 等 AI 公司正在转向合成数据。

互联网，大数据

Gomez 透露，合成数据的使用已经非常广泛，但并未广泛宣传。举例来说，如果他们想要训练一个高级数学模型，他们可以设置两个人工智能模型扮演老师和学生的角色，在其中讨论三角学等主题，然后观察的人会在必要时纠正对话。

虽然合成数据已经被用于训练模型，并成为几篇研究论文的重点，但模型主要的训练方式是从互联网上获取数据，包括数字图书、新闻文章、博客、社交媒体、Flickr 等。然后，人类通过强化学习反馈（RLHF）给出反馈并填补信息中的空白。

这种方法存在的一些问题包括可能导致侵犯版权和违反隐私，从而使公司陷入麻烦。Meta 已经停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源。

Financial Times 指出，微软研究的一篇有趣的研究论文名为「教科书就是你所需要的」，它解释了通过用教科书质量的数据训练一个编码模型，该模型在编码任务上表现得相当好。类似的方法也可以用于语言，其中一个模型被训练用简单的单词和句子，然后可以产生流畅和语法正确的故事。

当然，虽然使用合成数据来训练模型可能会取得突破，但公司也必须小心不要使用质量较差的合成数据，否则可能会导致随着时间的推移性能下降。

再加上 OpenAI 和 Anthropic 等公司正在开发的用于减少人工智能幻觉的 chain-of-thought techniques，合成数据可能会帮助人工智能帮助我们解决更多挑战。

（举报）

相关推荐

关键词：

OpenAI和微软的关系没那么糟，跟英伟达也没那么好

OpenAI的动作比所有人想象的都要快。上周二，OpenAI完成重组。其中一个重要变化是:彻底取消了与微软的排他性协议，结束了Azure长达六年的云服务独占模式。此前，OpenAI所有模型的训练、推理与部署都必须优先选择Azure，微软还享有优先购买权。宣布与Azure“分手”后不到一周，OpenAI便火速宣布了与AWS的战略合作——双方达成一项价值380亿美元的云计算协议，OpenAI将全面接入

OpenAI 云计算战略合作
AI全面落地双11，淘宝走出一条和OpenAI不同的路

今年的双11已经进入最后阶段，消费者和商家都有一个明显的感受是，AI的浓度真的很高，并且AI的全面落地应用，真的在改变传统用户购物、商家经营的链路。消费者能感受到两个比较明显的变化:一个是AI导购开始走进真实的购物场景。淘宝为双11投入了六款AI导购类产品，其公布的数据显示，AI万能搜已经帮助消费者解决了5000万个消费需求。另一个则是平台推荐的商品越

AI导购双11购物淘宝AI
荐OpenAI也来了，巨头为何决战AI浏览器？

AI浏览器赛道再添一位重量级玩家——ChatGPT Atlas，这是OpenAI推出的首款人工智能驱动的网页浏览器。这也被外界认为OpenAI要向谷歌宣战，挑战Chrome一直以来的浏览器霸王地位。ChatGPT Atlas发布当天，谷歌母公司Alphabet股价应声下挫，盘中最大跌幅接近5%，足见市场对这一新品的敏感度。近一年来，AI浏览器的战略价值成为行业共识，从业者更是将其与智能代理（Agent）、搜索引�

AI浏览器 ChatGPT Atlas
荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

本期AI日报涵盖八大热点：Lovart AI推出"元素拆分"功能，实现海报智能分层编辑；苹果Xcode 26.1.1优化AI编码性能；阿里云通义模型双11单日翻译调用量突破14亿次；Gemini 3在历史手稿破译中展现专家级能力；德国法院裁定OpenAI使用歌词训练构成侵权；开源语音模型Maya1实现富有表现力的实时文本转语音；Meta首席AI科学家LeCun计划离职创办世界模型公司；AI专家罗福莉加入小米，将致力于构建物理世界智能。

AI设计元素拆分海报编辑
人工智能巨头OpenAI拟上市估值或高达1万亿美元

OpenAI正积极推进上市计划，据知情人士透露，该公司可能最早于2026年下半年向证券监管机构提交上市申请，目标在2027年正式上市。此次IPO的估值有望达到约1万亿美元，或将跻身全球规模最大的IPO之列。在初步讨论中，OpenAI曾考虑通过上市筹集至少600亿美元资金，实际融资规模可能进一步扩大。

OpenAI IPO 上市计划
荐OpenAI 推出浏览器：“让位吧，Chrome”

北京时间10月22日凌晨，没等来传闻中的Gemini3，等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。简单来说，这是一个把ChatGPT"塞进"浏览器的产品，你在任何网页上都能随时唤出ChatGPT侧边栏，让AI帮你总结内容、编辑文字、甚至代替你完成购物和预订任务。听起来有点像Chrome装了个ChatGPT插件?确实如此，但OpenAI的野心远不止于此。

OpenAI
OPPO ColorOS 16正式版推送：首批适配11款机型

ColorOS 16正式版于10月30日启动推送，首批覆盖11款OPPO和一加热门机型。该系统引入极光引擎、潮汐引擎与繁星编译器三大流畅技术，实现感官、性能与底层的全方位提升。极光引擎打造业内首个“无缝隙架构”，确保全场景丝滑交互；潮汐引擎首发芯片级动态追帧技术，系统重载流畅度提升37%，功耗降低13%；繁星编译器首创安卓跨级融合编译技术，大幅提升低算力芯片性能。此次升级将增强品牌市场竞争力，为用户带来更出色的使用体验。

ColorOS16 OPPO Find
AI日报：腾讯发布全新ima2.0;微软发布 Copilot 一系列重磅更新；阿里夸克AI眼镜开启预售

本文汇总近期AI领域重要动态：月之暗面再获数亿美元融资，显示资本对国产大模型的信心；Anthropic为Claude推出记忆功能，兼顾个性化与隐私保护；中科大与字节发布MoGA长视频生成模型，实现分钟级高质量生成；腾讯ima2.0升级任务模式，可自主拆解复杂流程；阿里夸克AI眼镜开启预售，融合拍摄与智能功能；微软Copilot新增群聊、记忆与Edge AI模式；Opera推出深度研究代理ODRA提升�

AI 大模型 Kimi
端侧AI驱动产业链变革，elexcon2026聚焦芯片/存储/嵌入式核心器件创新

近期华为、三星、追觅、阿里巴巴等科技企业密集发布智能穿戴新品，推动设备从“手机配件”向“独立智能终端”转型。这一趋势正深刻影响上游技术路径与产业格局，在AI芯片、存储与嵌入式领域引发新一轮技术升级与价值重构。中国成为全球创新引擎，2025年第二季度全球腕戴设备出货量同比增长12.3%，中国市场增速达33.8%，占据全球近半份额。端侧AI驱动技术升级，供应�

智能穿戴 AI芯片市场增长
从“实现需求”到“共创价值”：AI Native时代需要什么样的工程师团队？

在1024程序员节，小红书技术副总裁风笛出席CCF工程师文化日五周年庆典，分享AI时代技术团队转型方向。他指出传统开发模式下工程师仅1/3时间编码，其余被会议沟通挤占，导致技术成长受阻、创新力下降。提出AI Native时代需重构协作模式：通过任务导向的扁平化组织，让工程师从需求执行者转变为价值创造者。以48小时上线翻译功能为例，展示新型协作效能。强调AI不会取代工程师，而是将其角色提升至系统定义和复杂性管理的新高度。

1024程序员节工程师文化 AI

今日大家都在搜的词：

热文

3 天
7天

微软、OpenAI 和 Cohere 等公司已转向使用合成数据训练人工智能模型

OpenAI和微软的关系没那么糟，跟英伟达也没那么好

AI全面落地双11，淘宝走出一条和OpenAI不同的路

荐OpenAI也来了，巨头为何决战AI浏览器？

荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

人工智能巨头OpenAI拟上市估值或高达1万亿美元

荐OpenAI 推出浏览器：“让位吧，Chrome”

OPPO ColorOS 16正式版推送：首批适配11款机型

AI日报：腾讯发布全新ima2.0;微软发布 Copilot 一系列重磅更新；阿里夸克AI眼镜开启预售

端侧AI驱动产业链变革，elexcon2026聚焦芯片/存储/嵌入式核心器件创新

从“实现需求”到“共创价值”：AI Native时代需要什么样的工程师团队？

今日大家都在搜的词：

热文

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

雷军回应小米双11战绩：谢谢大家支持

卢伟冰：小米手机双11连续三年国产销量第一

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

华为Mate 70 Air今日开售：处理器双版本可选售价4199元起

95岁巴菲特每周还上5天班此前计划年底退休

微信宣布治理恶意外部链接：6类违规内容将遭限访

京东发布双11战报：订单总量增长近60% 下单用户同比增长40%

中国移动北斗卫星短信业务升级：支持文字+图片+语音

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

雷军回应小米双11战绩：谢谢大家支持

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

卢伟冰：小米手机双11连续三年国产销量第一

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

华为Mate 70 Air维修备件价格公布：换主板2499元

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

站长商机