斯坦福研究人员推出 Sophia 可高效低成本训练大模型

2023-07-26 15:53 · 稿源：站长之家专栏

站长之家（ChinaZ.com）7月26日消息:斯坦福大学的研究人员开发了一种名为 Sophia 的新型优化器，可将语言模型的预训练时间缩短一半。相比于 Adam 优化器，Sophia 可以更快地解决语言模型的问题。

Sophia 通过轻量级估计对角 Hessian 矩阵作为二阶优化器的预条件。在更新之后，通过取梯度的平均值除以估计 Hessian 的平均值来进行元素级别的剪切。

大模型元宇宙 (1).jpg

这种剪切限制了最坏情况下更新的大小，并减轻了轨迹的非凸性和快速 Hessian 变化的影响。Sophia 的平均每步时间和内存开销都很低，因为它只在每几次迭代中估计对角 Hessian 矩阵。在使用 GPT-2模型进行语言建模时，Sophia 相比于 Adam 的速度提升了一倍，包括步数、计算量和墙上时间。

研究人员还展示了 Sophia 可以适应语言建模任务中的大参数变化。这项工作的运行时限与损失函数的条件数无关。总的来说，Sophia 优化器的实现简单，使用 PyTorch 时只需在梯度之前加上对角 Hessian 的轻量级估计即可。Sophia 还可以确保所有参数

维度上的一致损失减少，通过在尖锐尺寸（具有大 Hessian）上更严厉地惩罚更新，而在平坦维度(具有小 Hessian)上较轻地惩罚更新。学术界即使资源有限，也可以研究语言模型的预训练并开发出新的有效算法。研究人员在研究过程中广泛使用了理论推理，并在明天发布的代码中使用了稍微修改过的学习率的定义。

（举报）

相关推荐

关键词：

荐最高提效8倍！腾讯游戏发布专业游戏AI大模型，美术师做动画不用辣么“肝”了

在最近与科隆国际游戏展同期举办的Devcom开发者大会上，AI再次赚足了脸面。微软、腾讯、谷歌、Meta等国际巨头带来超过20场AI相关议题，“AI如何提升游戏美术生产效率”、“AI工具如何与传统工作流无缝集成”、“AI在动画生成、场景构建等具体环节的应用案例”成为开发者们探讨的重点内容。近年来，游戏美术对精细度的要求呈现指数级增长。随之而来的是几何级增长的

AI 游戏美术生产效率
2025动感单车品牌TOP10：甄选品质，定义高效骑行体验

文章介绍2025年动感单车品牌TOP10榜单，从用户口碑甄选视角出发，筛选出工艺标准、骑行体验和用户评价均达较高水准的品牌产品。榜单不仅帮助避开“伪高端”陷阱，还能清晰感知不同品牌对“高端骑行”的定义，轻松选出契合自身健身需求与生活格调的理想装备。

居家健身动感单车品牌榜单
你的数据该管管了~小鹅通数据权限新升级！请接收你的团队高效管理新方案

深圳某企业因业务团队间数据权限问题困扰，三条业务线数据共享导致管理困难、效率低下。小鹅通数据权限功能从配置交互优化、应用范围扩大、统一管理平台三方面升级，通过三步流程实现数据与员工精准匹配，提升管理效率与数据安全。

数据权限管理业务线数据隔离销售撞单问题
荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

AI日报栏目每日更新AI领域热点内容，聚焦开发者需求。本期重点包括：阶跃星辰发布端到端语音大模型Step-Audio2 mini，在多项基准测试中表现优异；9月1日起AI生成内容需强制标识；美团推出开源大模型LongCat；上海AI实验室发布多模态大模型InternVL3.5；腾讯ARC团队推出音频生成模型AudioStory；OpenAI发布实时语音模型GPT-realtime；Meta与UCSD合作推出DeepConf技术；xAI代码库遭窃事件；阿里巴巴Qwen团队发布GUI自动化框架；微软推出Copilot Labs实验中心；小红书自动化工具xiaohongshu-mcp上线。

AI 语音大模型 Step-Audio2mini
如何精准计算AI大模型调用成本？复杂参数太多，预算总超支怎么办？

文章探讨了AI模型调用成本管理的痛点，包括GPT-4等模型复杂的计费规则（如Token分级、上下文溢价、多模态叠加收费）导致实际成本常超预算40%。提出AIbase计算器三步解决方案：自动匹配场景参数、实时联动报价、明细成本拆解。通过跨境电商客服和高校实验室案例验证工具有效性，强调数据溯源、用量预警和预算缓冲功能，帮助开发者实现精准成本控制，告别手动制表与定�

AI模型成本 GPT-4定价 Claude3降价
操作更高效交互更丝滑三星Galaxy手机展现AI智慧

三星Galaxy手机通过Galaxy AI技术，将复杂的多步骤操作简化为语音指令、拖放操作或智能截图，实现跨应用无缝执行任务。AI多截图功能可预测用户需求，提供翻译、生成摘要等快捷选项。折叠屏设备进一步优化交互体验，智能收藏和拖放功能提升效率。三星以AI减少操作步骤，让手机成为懂用户需求的智慧伙伴。

文章搜索核心标签三星Galaxy
将AI大模型费用计算器作为战略工具：企业如何规避AI项目的成本陷阱

AI项目规模化应用面临不可预测的运营成本挑战，尤其是大模型API调用费用难以精准预测，导致项目ROI计算失效。成本失控源于计费维度复杂、价格变动频繁及用户行为影响。领先企业通过成本管控前移，在项目可行性分析阶段引入AIbase等成本计算工具，实现成本可视化，支持技术选型和预算建模，从被动应对转向主动管理，提升AI应用的经济性和可持续竞争力。

数字化转型人工智能运营成本
护肝片十大品牌盘点，Swisse护肝片科学护肝更高效

现代生活节奏快、压力大，熬夜加班、频繁应酬等不良习惯给肝脏带来沉重负担。肝脏作为人体“解毒器官”，负责代谢毒素、分解脂肪等重要功能。文章强调护肝需从日常做起，保持良好作息、均衡饮食、适度运动，必要时可借助科学护肝产品。肝脏健康与身体状态息息相关，建议每年进行肝功能检查，及时了解肝脏状况。科学合理地呵护肝脏健康，内外兼顾才能让肝脏持续高效运转。

护肝片肝脏健康养肝方法
顺丰亮相亚宠展，数智物流解决方案助力宠物产业高效发展

8月20日，第二十七届亚洲宠物展览会在上海开幕。顺丰作为行业领先企业，展示了其数字化物流解决方案，包括智能仓储、智慧物流等最新方案。针对宠物食品时效性、安全性需求提升，顺丰构建全国仓配生态体系，提供高效履约服务，并优化末端配送网络，助力宠物产业升级。未来，顺丰将持续关注行业趋势，迭代服务能力，推动宠物产业发展。

亚宠展宠物经济数智化物流
轻装上阵高效成长三星Galaxy A56 5G开启校园新篇章

三星Galaxy A56 5G手机专为校园生活设计，搭载出色影像系统，支持AI人像和智能编辑功能；配备Bixby语音助手，提升学习与社交效率；采用轻薄耐用机身，具备强劲性能与长效续航，满足全天候使用需求，是学生群体的理想智能伴侣。

三星Galaxy A565G 校园生活

今日大家都在搜的词：

热文

3 天
7天

斯坦福研究人员推出 Sophia 可高效低成本训练大模型

荐最高提效8倍！腾讯游戏发布专业游戏AI大模型，美术师做动画不用辣么“肝”了

2025动感单车品牌TOP10：甄选品质，定义高效骑行体验

你的数据该管管了~小鹅通数据权限新升级！请接收你的团队高效管理新方案

荐AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃发布语音大模型Step-Audio 2 mini

如何精准计算AI大模型调用成本？复杂参数太多，预算总超支怎么办？

操作更高效交互更丝滑三星Galaxy手机展现AI智慧

将AI大模型费用计算器作为战略工具：企业如何规避AI项目的成本陷阱

护肝片十大品牌盘点，Swisse护肝片科学护肝更高效

顺丰亮相亚宠展，数智物流解决方案助力宠物产业高效发展

轻装上阵高效成长三星Galaxy A56 5G开启校园新篇章

今日大家都在搜的词：

热文

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列

人去世了朋友圈会消失？微信客服回应：建议保持账号活跃

腾讯回应被米哈游起诉：没正式程序不能违规提供QQ用户资料

《亮剑》开播20周年：今日全弹幕重返B站

蜜雪冰城上半年净赚27亿：全球门店破5.3万家加速全球化布局

小米澎湃OS 3超级岛适配应用公布加速推进多场景适配

AI日报：抖音打击AI技术滥用行为；OpenAI 收购开发数据分析平台

曝苹果Vision Air头显2027年登场：售价腰斩重量更轻

雷军凌晨3点就奔赴阅兵观礼台佩戴小米AI眼镜前往

首发iPhone 17系列！苹果Apple Store官方旗舰店入驻抖音商城

华为MatePad Mini外观公布支持蜂窝网络通话功能

AI日报：AI内容新规正式生效；美团推出开源大模型LongCat；阶跃

AI日报：腾讯开源3D世界模型HunyuanWorld-Voyager；即梦AI系列

人去世了朋友圈会消失？微信客服回应：建议保持账号活跃

苹果新增三款过时产品 iPhone 8 Plus被列为复古产品

腾讯回应被米哈游起诉：没正式程序不能违规提供QQ用户资料

抖音升级AI内容标识功能上线两项核心功能

小米汽车8月交付量超3万台全年交付量有望冲击42万

站长商机