华人团队破解Token限制，扩散模型的潜力超越自回归三倍！

2025-08-13 17:55 · 来源： AIbase基地

在 AI 领域，Token 的数量限制一直是一个亟待解决的问题。最近，一项由华人团队完成的研究引起了广泛关注，研究显示，扩散语言模型在 Token 数量受限的情况下，展现出比自回归模型多三倍的数据学习潜力。这一发现可能会为未来的语言模型训练开辟新局面。

这项研究的核心是一个参数规模为10亿的扩散模型，团队使用10亿个 Token 进行了480个周期的训练。在 HellaSwag 和 MMLU 基准测试中，该模型分别达到了56% 和33% 的准确率，且训练过程中未使用任何特殊技巧或数据筛选。更令人惊讶的是，即使在极度重复的数据训练中，模型的性能仍未出现饱和，表明它可以从同一数据中提取出更多有用的信息。

研究人员分析了扩散语言模型的强大数据学习能力，归结为两个主要原因。首先，扩散模型采用了双向建模和扩散目标，这使其能够更全面地挖掘数据中的信息，而传统的自回归模型在处理数据时存在因果限制。其次，扩散模型的计算密度更高，它在训练和推理过程中投入了更多计算资源，通过多次处理数据来优化预测，从而提升了模型的整体性能。

尽管扩散模型对数据的重复使用表现出一定的鲁棒性，研究团队发现，随着训练周期的增加，模型会出现过拟合现象。然而，令人惊讶的是，即使在过拟合的情况下，模型在下游任务中的性能并没有立即下降，反而有时会继续提升。这是因为验证损失的变化与下游任务的准确率之间并不总是呈正相关，模型在处理有限的训练数据时，可能会对某些文本片段表现出过于自信。

这项研究的发现为未来 AI 模型的训练方法提供了新的思路，尤其在 Token 数量受限的情况下，扩散语言模型的应用前景将更加广阔。研究团队计划在接下来的工作中使用更大的模型和更多独特的数据，以进一步验证这些发现。

相关推荐

ChatGPT 5更新：三种模式可选 4o重新回归

OpenAI首席执行官Sam Altman在社交媒体上宣布，ChatGPT 5正式推出三种可选模式：自动（Auto）、快速（Fast）和思考（Thinking）。

ChatGPT 5 OpenAI
深信服 aSAN 实测揭秘：硬盘软隔离技术如何超越VMware，破解存储亚健康难题

文章探讨了数字化时代企业存储系统面临的挑战，重点分析了分布式存储系统中硬盘亚健康问题对业务连续性的影响。传统解决方案存在检测效率低、误判率高等缺陷。深信服推出的aSAN硬盘软隔离技术通过创新的软隔离框架，实现了秒级故障感知和精准隔离，大幅提升了存储系统稳定性。该方案采用纯软件隔离机制，避免了硬件兼容性问题，并通过智能IO分析实现多级隔离策略，比主流厂商方案更精准高效。实践案例显示，该技术能15秒内处理硬盘卡顿，半年内多次成功应对亚健康问题，显著提升制造执行系统稳定性，降低运维成本，为企业数字化转型提供可靠存储保障。

数字化转型分布式存储硬盘软隔离
如何快速精准计算AI大模型费用？试试这个三步完成的免费工具！

文章讲述AI项目预算失控的普遍现象：李工团队因手动计算GPT-4等大模型调用成本复杂，最终预算比实际支出少25%。行业调查显示73%团队曾因模型成本失控被迫调整项目。AIbase推出三步极速成本计算器解决痛点：1）集成50+主流大模型参数库；2）用自然语言描述需求即可生成预算；3）10秒输出详细成本对比报告。该工具已帮助电商企业节省40%预算，其优势在于实时追踪官方定价、智能匹配场景规则、自动生成多模型对比报告，让晦涩的token计价变得直观透明。目前已有超12万开发者使用该工具优化AI项目成本。

AI客服系统 GPT-4成本大模型预算
马斯克称正在训练新FSD模型：约十倍参数最快下月底发布

马斯克今日在X上发文表示，特斯拉正在训练新的十倍参数FSD模型，如果一切顺利则可能会在下个月底准备好面向公众发布。

特斯拉 FSD 完全自动驾驶
苹果iOS 26开发者预览版Beta 7发布：美版Apple Watch血氧回归

今天凌晨，苹果发布了iOS 26开发者预览版Beta 7，虽然已经处于测试后期，但依然加入了新功能。首先是美版Apple Watch的血氧检测功能回归，这与上周的iOS 18.6.1正式版同步，为美国Apple Watch Series 9、Series 10和Apple Watch Ultra 2用户提供了新的血氧体验。从2024年1月18日开始，因美国国际贸易委员会（ITC）认定苹果部分Apple Watch血氧传感器专利侵权，所有在美国销售的Apple Watch Series 9�

iOS 26 Apple
AI大模型计费器如何精准比价？38款模型隐藏费用一键预警，三步告别超支

文章揭示了AI项目成本失控的三大痛点：1)计费维度分裂，如输入/输出token分开计价；2)参数迷雾，如文心一言4.0增强模式成本是基础版3.2倍；3)汇率陷阱，海外模型美元报价波动导致实际成本偏差超15%。通过AIbase费用计算器可精准测算：支持38个主流API对比，包含隐藏费用提醒，提供四大维度的决策矩阵（百万token成本/长文本溢价/月度总价/性价比评分）。案例显示某团队发现自研模型成本比通义千问高27%后及时调整采购策略。该工具能帮助开发者避免"成本黑箱"，实现零成本预算推演。

AI成本 GPT-4消费模型计价
再惠宁波运营团队：成功并非偶然，而是日积月累的坚守

再惠宁波运营团队凭借卓越的团队协作屡创佳绩。团队在负责人高涵带领下，充分发挥成员专长，通过清晰业务规划攻克多项难题，2025年上半年已斩获多项团队及个人荣誉。团队坚持"老带新"传统，建立长效培养机制，从理论到实践全方位提升成员能力。面对客户需求全员待命，以专业服务赢得高度认可。未来团队将继续秉持"在一起，我们可以做到更多"的信念，脚踏实地迎接新挑战。

团队合作专业能力标杆客户
告别“数据录入机器”：ToB智能体如何让CRM回归业务本质

2025年腾讯全球数字生态大会上，销售易推出首款AI CRM产品NeoAgent，基于大模型技术重构企业销售流程。该产品通过语音指令自动完成客户拜访规划、关联历史数据并生成策略建议，实现从菜单点击到自然对话的交互变革。销售易通过"三阶跃迁"模式：解放双手的语音转结构化记录、突破菜单层级的智能检索、结合销售方法论的场景赋能，深度重构CRM系统。产品依托统一数据平台，实现多模态信息整合与权限管控，采用混合模型架构平衡响应速度与决策质量。目前已在米其林等企业应用中显著提升销售转化率，并通过"用户+流量"混合收费模式验证商业化路径。这标志着ToB领域AI正从效率工具向"数字同事"进化，其核心价值在于理解业务、适配场景并创造增量。

AI CRM 智能体
AI模型选型太耗时？三分钟精准匹配需求的多维对比库

文章介绍了AI模型选择面临的三大痛点：模型爆炸式增长导致选择困难、信息碎片化增加搜集成本、多维度对比效率低下。针对这些问题，AIbase模型库(https://model.aibase.cn/llm)提供了解决方案：一站式聚合主流AI模型信息，实时更新模型状态；结构化表格直观对比核心参数；支持自定义筛选条件快速锁定目标模型。该工具能帮助开发者、产品经理和研究者节省前期调研时间，将精力集中在更有价值的应用构建和创新探索上。

AI模型选型模型库导航大模型对比
荐AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术；360智脑推出Light-IF系列模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V，这是该公司在通向通用人工智能（AGI）道路上的又一重要探

今日大家都在搜的词：

热文

3 天
7天

华人团队破解Token限制，扩散模型的潜力超越自回归三倍！

ChatGPT 5更新：三种模式可选 4o重新回归

深信服 aSAN 实测揭秘：硬盘软隔离技术如何超越VMware，破解存储亚健康难题

如何快速精准计算AI大模型费用？试试这个三步完成的免费工具！

马斯克称正在训练新FSD模型：约十倍参数最快下月底发布

苹果iOS 26开发者预览版Beta 7发布：美版Apple Watch血氧回归

AI大模型计费器如何精准比价？38款模型隐藏费用一键预警，三步告别超支

再惠宁波运营团队：成功并非偶然，而是日积月累的坚守

告别“数据录入机器”：ToB智能体如何让CRM回归业务本质

AI模型选型太耗时？三分钟精准匹配需求的多维对比库

荐AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术；360智脑推出Light-IF系列模型

今日大家都在搜的词：

热文

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

REDMI Note 15系列定档将于8月21日发布

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

华为余承东官宣：鸿蒙智行首款旅行车享界S9T今日开启预售

转战播客赛道！罗永浩微博改名“罗永浩的十字路口”

REDMI Note 15 Pro+外观公布：配备全等深微曲屏幕与机身

享界S9T开启预售：32.8万起华为鸿蒙智行旗下首款旅行车

真我15系列官宣9月发布号称轻薄影像神器

王腾晒出REDMI Note 15 Pro：云霞紫配色亮相

曝iPhone18标准版推迟到2027年折叠屏与Pro系列率先登场

苹果iOS 18.6.1正式版发布：美版Apple Watch血氧功能上线

60岁李国庆谈再婚：妻子是“白月光” 年轻时2次爱而不得

AI日报：腾讯混元开源Hunyuan-GameCraft；最强图像编辑器nano-

REDMI Note 15系列定档将于8月21日发布

AI日报：可灵2.1推出全新首尾帧功能；昆仑万维上线AI音乐模型M

AI日报：腾讯推音效生成工具AudioGenie；阿里推智能体WebWatch

华为MatePad Air 12英寸2025发布：售价2799元起

苹果正式入驻小红书 iPhone 17系列下月发布

REDMI Note 15 Pro系列官宣下周发布

华为MatePad Air新款官宣8月15日发布

站长商机