利用合成数据微调ChatGPT超越GPT-4摘要性能降低63%成本和提升11倍速度

2023-10-11 14:21 · 稿源：站长之家

文章概要:
- 利用链式密度提示微调ChatGPT在新闻摘要任务上超过GPT-4零样本表现，接近GPT-4链式提示。
- 通过ScoreStringEvalChain和改进的PairwiseStringEvalChain等自动评估链实现人类水平的量化评估。
- 微调ChatGPT比GPT-4零样本快11倍且便宜63%，比GPT-4链式提示快33倍且便宜84%。

站长之家(ChinaZ.com) 10月11日消息:近日，Elicit公司机器学习工程师Charlie George在LangChain博客上发表文章介绍了他们使用合成数据微调ChatGPT在新闻摘要任务上超越GPT-4的研究成果。

文章提到，尽管GPT-4被公认为世界上最强大的语言模型，但其调用限制、高成本和高延迟也限制了其实际应用。为解决这一问题，一些开发者转而使用ChatGPT等小模型，但小模型的表现通常不如GPT-4。文章介绍了微调的思路，即调整模型参数以更好地适应具体任务，但收集人类标注数据昂贵且耗时，而传统评估指标如困惑度也无法准确反映用户体验。

为解决数据问题，采用了一种合成数据生成方法，即使用GPT-4通过链式密度（CoD）提示逐步改进其生成的摘要。然后，使用LangSmith平台收集这些改进后的摘要作为训练数据，微调ChatGPT。

在评估方面，文章认为传统的BLEU和ROUGE指标往往不能准确捕捉现代语言模型的细微差异。相比之下，人工评估虽可靠但耗时耗力。最佳方案是开发自动化评估系统，但也需要人工验证其有效性。研究者已经开发了与真人高度一致的自动化评估链ScoreStringEvalChain和PairwiseStringEvalChain。

说明:经过微调的 ChatGPT 超越了 GPT-4零样本，并接近带有 CoD 的 GPT-4

说明:经过微调的 ChatGPT 比 GPT-4零样本快11倍以上，比带 CoD 的 GPT-4快33倍

经过微调的 ChatGPT 比 GPT-4零样本便宜63%，比带 CoD 的 GPT-4便宜84%

结果显示，相比GPT-4零样本，微调后的ChatGPT在新闻摘要任务上的表现优于前者，几乎达到GPT-4链式提示的水平，但其速度提高11倍，成本降低63%。与零样本GPT-4相比，微调ChatGPT在双样本评估中获胜率达96%。

分析称，合成数据微调展现了增强语言模型能力的巨大潜力。LangChain提供了创建复杂链条和迁移到小模型的完美工具。自动化评估为快速可靠地评估实际表现提供了有效手段。这为新一代AI应用大规模部署提供了路径。

（举报）

相关推荐

关键词：

ChatGPT正秘密测试私信功能：支持用户之间直接交流

OpenAI正在为其明星产品ChatGPT测试名为私信”（Direct Messages）的社交功能。这一变化意味着ChatGPT正从原本用户与AI单向交互的语言模型工具，逐步转向具备人与人通过AI连接”能力的社交平台。 OpenAI此次测试的私信”功能允许用户创

ChatGPT OpenAI 社交功能
曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

苹果公司正在开发一款类似ChatGPT的手机应用“Veritas”，用于内部测试明年将推出的新版Siri。该应用可快速评估Siri新功能，包括搜索个人数据、执行App内操作（如编辑照片）等。虽然不面向消费者发布，但该工具标志着苹果对Siri的全面升级已进入新阶段，旨在帮助员工高效完成测试。

苹果 Siri ChatGPT
荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

快手发布KAT系列代码大模型，腾讯推出“混元图像3.0”实现多模态突破，苹果研发类ChatGPT应用升级Siri，谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型，YouTube Music测试AI音乐主播功能，VideoFrom3D框架简化3D视频生成，Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型，展现强大性能。

AI日报快手KAT系列大模型
女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

美国弗吉尼亚州女子卡丽爱德华为非经常购彩者，近日通过手机向ChatGPT询问彩票号码建议，AI提供几组数字供参考。她购买后幸运中得15万美元（约106万元人民币）大奖。领奖时她当场宣布将全部奖金捐出，帮助有需要的人，并表示自己已足够幸运，希望以此鼓励其他中奖者回馈社会。

ChatGPT 彩票中奖 AI推荐
“你好BOE”再度携非遗与当代设计亮相米兰以科技之力向世界展现东方美学 http://news.cnmtpt.com/?Sid=0_765W618634033&date=20251009

10月3日，“新生万物”中国非遗与当代设计展暨“你好BOE”品牌巡展在米兰开幕。BOE（京东方）作为首席显示技术合作伙伴，通过透明屏、万境屏等前沿产品，生动呈现茶酒论、唐人宫乐图等非遗文化，展现科技与艺术的深度融合。展览正值中意建交55周年，成为两国文化交流的重要见证，体现BOE以创新科技推动文化传承、拓展全球品牌影响力的战略实践。

中国非遗当代设计展 BOE(京东方)
ChatExcel重磅发布：基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站，重构数据全链路，打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构，实现本地流畅运行GPT-oss-120B等大型模型，保障数据安全的同时显著提升分析效率。该方案以财务场景为例，支持多任务并行处理，将原本需1天完成的月度报表压缩至2小时，解决“数据不外发”与“高效处理”的核心矛盾。

文章搜索核心标签 AMD锐龙AI
影视飓风Tim突然送给罗永浩iPhone 17 Pro Max 2TB 本人非常惊喜

罗永浩预告他的新一期播客节目邀请到了影视飓风Tim。在播客录制现场，Tim突然送了罗永浩一台iPhone17 Pro Max 2TB。罗永浩表示，非常感谢这个礼物，在现场收到非常惊喜，至于手机本身，明天中午12点来看影视飓风Tim带来的这个惊喜礼物。

罗永浩影视飓风Tim iPhone17
Checkout.com正式推出Flow Remember Me：一键支付，全球通用

Checkout.com推出嵌入式支付产品Flow的"记住我"功能，消费者仅需存储一次银行卡信息即可在全球商户网络实现跨平台快捷支付。测试数据显示，该功能最高可缩短70%付款时间并提升7%支付成功率。同时公司升级AI分析套件、支付优化工具及收单网络，并与Visa、Mastercard和Google达成AI智能体合作，助力商户在数字支付领域保持领先地位。

支付产品 Remember Me
续科天下发布全新XUKE TECH产品体系，为AI时代构建可靠数据基石

续科天下发布XUKE TECH完整AI数据处理系统，推出Base、Embed、Vault三款核心产品，解决企业AI化过程中的非结构化数据处理难题。该系统能统一处理多模态数据，通过向量化转换和安全存储管理，形成端到端解决方案，帮助企业将70%的数据预处理精力转向模型开发，显著缩短AI项目上线周期，已在金融、互联网等领域验证实效。

AI数据预处理非结构化数据处理智能数据基础设施
Matrixport 于 Token2049 新加坡期间举办 DAT 高峰论坛，聚焦下一轮市场周期话语权

在2025年TOKEN2049新加坡峰会期间，Matrixport举办闭门论坛探讨数字资产财库战略。与会专家一致认为，DAT正从风控工具升级为机构战略核心，预计将形成寡头主导格局。Matrixport通过一站式解决方案推动行业标准化，其管理的DATCO持仓规模突破千亿美元。论坛凸显DAT作为华尔街资本入局加密市场的重要通道，未来将在全球金融体系中扮演关键角色。

数字资产加密市场财库管理

今日大家都在搜的词：

热文

3 天
7天

利用合成数据微调ChatGPT超越GPT-4摘要性能降低63%成本和提升11倍速度

ChatGPT正秘密测试私信功能：支持用户之间直接交流

曝苹果为新Siri做了内部版ChatGPT 正测试搜索个人数据、执行App内操作等功能

荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

女子用ChatGPT选号中百万大奖全部捐出帮助有需要的人

“你好BOE”再度携非遗与当代设计亮相米兰以科技之力向世界展现东方美学 http://news.cnmtpt.com/?Sid=0_765W618634033&date=20251009

ChatExcel重磅发布：基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

影视飓风Tim突然送给罗永浩iPhone 17 Pro Max 2TB 本人非常惊喜

Checkout.com正式推出Flow Remember Me：一键支付，全球通用

续科天下发布全新XUKE TECH产品体系，为AI时代构建可靠数据基石

Matrixport 于 Token2049 新加坡期间举办 DAT 高峰论坛，聚焦下一轮市场周期话语权

今日大家都在搜的词：

热文

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

雷军：小米17系列首销权益延续至10月31日

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

三星W26折叠屏手机官宣10月11日发布

iQOO 15官宣：10月20日发布

京东双11今晚开启：现货开卖官方直降低至一折

新款智界R7/S7上市44天大定破38000台

荣耀Magic8系列暨MagicOS10发布会定档10月15日

真我官宣与理光达成影像战略合作：真我GT8 Pro首发搭载

iQOO 15搭载自研电竞芯片Q3 能效提升40%

微信又更新了撤回消息有大变化：可撤回本次发送的全部消息

比特币价格突破12.5万美元刷新历史最高纪录

雷军：小米17系列首销权益延续至10月31日

雷军：小米17系列开售仅5天销量破100万台

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

腾讯混元图像3.0登顶LMArena榜一

AI日报：Veo 3.1可生成1分钟视频；蚂蚁发布万亿参数语言模型 L

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

三星W26折叠屏手机官宣10月11日发布

iQOO 15官宣：10月20日发布

站长商机

利用合成数据微调ChatGPT超越GPT-4摘要性能 降低63%成本和提升11倍速度

今日大家都在搜的词：

热文

站长商机

利用合成数据微调ChatGPT超越GPT-4摘要性能降低63%成本和提升11倍速度