首页 > 业界 > 关键词  > 小模型最新资讯  > 正文

Chinchilla之死:只要训练足够长时间,小模型也能超过大模型

2023-10-03 09:29 · 稿源: 机器之心公众号

2022年3月,DeepMind 一篇论文《Training Compute-Optimal Large Language Models》通过构建的 Chinchilla 模型得出了一个结论:大模型存在训练不足的缺陷,模型大小和训练 token 的数量应该以相等的比例扩展。也就是说模型越大,所使用的训练 token 也应该越多。但事实可能并非如此

......

本文由站长之家合作伙伴自媒体作者“机器之心公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • AI不再健忘!红熊AI发布“记忆熊”,给大模型装上“海马体”

    当前大模型虽能力惊人,却普遍存在“记忆缺失”问题,制约了AI应用的深度与用户体验。红熊AI推出的开源记忆系统“记忆熊”,旨在突破这一瓶颈。它基于认知科学原理,构建了包含存储层、编排层和应用层的三层架构,模拟人类记忆的感知、提炼、关联与遗忘全周期,为智能体提供长期记忆框架。该系统不仅显著提升了任务性能与效率,降低了幻觉生成,更标志着AI设计从“即时响应”向“持续认知”的关键转变。记忆系统的完善,将驱动AI在医疗、教育、企业服务等领域实现更深度的智能化升级,开启人机协作的新时代。

  • 拒绝做“套金属壳”的伪AI:看“大模型国家队”如何啃下硬骨头

    人工智能成为资本市场热点,随之而来的是鱼龙混杂的乱象。简单包装、打着AI旗号卖高价的“套壳”现象层出不穷。科大讯飞董事长刘庆峰强调,发展人工智能要有长期主义精神,告别“虚火”,把根扎在国产算力的土壤里。下半场比拼的不再是概念堆砌,而是全栈自主可控的硬实力与赋能千行百业的真本事。可靠与安全才是基石,算力是最大瓶颈。企业需构建安全底座并解决真实痛点,才能穿越周期。科大讯飞坚持“顶天立地”战略,既要在源头技术上领先,又要在产业应用上解决民生刚需,展示了AI技术“落地”的正确姿态。

  • 中国太原煤炭交易中心与腾讯云深化合作 共建煤炭价格指数大模型

    12月11日,中国太原煤炭交易中心与腾讯云签署深化合作协议,双方将聚焦人工智能、大数据等数字技术与煤炭产业的深度融合,共同探索产业数字化升级新路径。合作将重点推进价格指数智能化升级、数据要素价值释放、客服体系提质增效及产业生态共建,通过技术创新与场景融合,推动煤炭产业数字化转型迈向新阶段。

  • 京东自研AI毛绒玩具上架:支持情绪感知 搭载JoyAI大模型

    京东近日推出首款自研AI毛绒玩具,主打无屏幕实体交互,旨在减少儿童对电子屏幕的依赖。该玩具基于京东JoyAI大模型技术,具备讲故事、知识问答和互动沟通功能,内置280本有声书资源,并能识别儿童情绪变化。此次共推出13款AI产品,覆盖多个品类,其中AI毛绒玩具系列凭借个性化设计受到市场欢迎,部分款式迅速售罄。

  • 腾讯星脉网络摘得广东省XAIR科技进步奖一等奖,十万卡级算力“高速路”打破大模型困局

    腾讯“星脉网络”获2025年广东省人工智能与机器人奖一等奖。该网络专为AI大模型训练设计,解决传统网络带宽瓶颈、延迟高等问题,提升大规模GPU/NPU集群协同效率。已成功赋能开源生态,并为行业落地十万卡级GPU集群,具备高稳定性和扩展性。作为腾讯云智算矩阵核心,星脉网络与自研AI基础设施深度整合,覆盖大模型全生命周期,提供高效稳定服务。目前腾讯云智算已服务国内90%大模型厂商及行业客户,未来将持续投入,推动大模型技术落地与产业智能化。

  • 阿里发布通义万相2.6系列模型 支持角色扮演功能

    阿里巴巴通义万相2.6系列模型在专业影视制作与图像创作领域实现突破性升级,成为国内首个支持角色扮演功能的视频生成模型。该模型融合音画同步、多镜头生成、声音驱动等核心技术,构建了当前全球功能最完整的视频生成体系。它能够精准捕捉主体情绪、姿态及多角度视觉特征,并提取音色、语速等声学特征,实现从画面到声音的全感官一致性。目前,万相2.6已支持单人和多人表演场景,单次视频生成时长达到国内最高的15秒,并新增角色扮演和分镜控制两大核心功能,极大简化创作流程,满足专业影视级场景的严苛需求。

  • 余杭,让AI与青才双向奔赴 ——“AI杭州 码动未来”AI模型智能体创新大赛圆满落幕

    “AI杭州+码动未来”AI模型智能体创新大赛决赛近日在余杭落幕。作为2025杭州国际人才交流与项目合作大会的重点活动,大赛吸引了近200名AI领域青年才俊、专家学者及产业代表参与。赛事聚焦“AI+大健康”“AI+未来教育”“AI+办公提效”“AI+具身智能”四大前沿方向,汇聚了来自北京大学、浙江大学、中国人民大学等顶尖高校及高潜力初创企业的550余名青年人才,征集项目200余个。经过激烈角逐,最终评选出一等奖4项、二等奖4项、三等奖8项及优秀奖8项。大赛不仅是竞技平台,更是产业化的起点。余杭区通过设立总奖金池、提供办公空间免租、推出算力券模型券等政策,并联动“海创未来”人才项目、创新创业项目等,构建了覆盖技术研发、场景验证、精准服务的产业支撑体系,旨在为青年人才提供从创新到创业的全周期支持,打造AI开发者一站式服务平台,推动人才与产业双向奔赴。

  • 翟学魂:物流 AI「蝴蝶结模型」如何让行业效率翻十倍?

    在2025年中国物流学术年会,G7易流创始人翟学魂提出“物流蝴蝶结模型”,系统拆解物流AI核心方法论。模型以“感知-决策-执行”闭环为核心,通过AI连接数据采集、管理决策和一线作业,形成完整循环。该模型强调软硬一体与场景优先,需实时物理数据支撑,并聚焦一线具体作业场景。其价值在于重新定义行业竞争逻辑与人才方向,未来物流从业者应转向“AI智能体设计师”,企业核心竞争力将从传统KPI管理转向AI智能体的设计能力。

  • 逗哥配音ai软件|创新升级:自研大模型引领声音创作新浪潮

    在短视频蓬勃发展的当下,AI配音软件“逗哥配音”凭借自主研发的大模型技术引发关注。该软件拥有近千种风格的发声人资源,覆盖多语言及方言,通过精准的节奏控制和情感表达优化,显著降低高质量音频制作门槛。其创新的声音克隆技术仅需少量数据即可生成高度相似的人工语音,结合人声分离、文案提取等实用工具,为创作者提供跨领域音频解决方案,推动数字内容生态向多元化、个性化发展。

  • AI日报:Kling 2.6将发布;千问APP推学习大模型;Z-Image-Turbo-Fun-Controlnet-Union 开源

    本期AI日报聚焦多领域AI进展:Kling 2.6发布,支持音频同步生成,AI视频进入有声时代;千问APP推出学习大模型,提升拍照答疑与作业批改能力;阿里通义实验室开源图像生成模型,实现精准控制;豆包手机助手遭遇微信登录异常,凸显生态兼容挑战;米哈游推出带猫语特色的AI聊天模型AnuNeko;亚马逊云科技发布三款新型AI智能体,其中Kiro可自主编程数日;IDC报告预测具身智能�

今日大家都在搜的词: