谷歌提出全新RLHF方法：消除奖励模型，且无需对抗性训练

2024-02-12 10:29 · 稿源：机器之心公众号

效果更稳定，实现更简单。大型语言模型（LLM）的成功离不开「基于人类反馈的强化学习(RLHF)」。RLHF 可以大致可以分为两个阶段，首先，给定一对偏好和不偏好的行为，训练一个奖励模型，通过分类目标为前者分配更高的分数。然后通过某种强化学习算法优化这个奖励函数。然而，奖励模

......

本文由站长之家合作伙伴自媒体作者“机器之心公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

猛玛携全新极影生态，支持FIRST训练营青年电影创作

2025年6月17日，猛玛发布新一代无线图传监视器极影5，标志着"极影图传生态"进入2.0阶段。该产品配备1500nit超高亮屏、160°超广视角、双频协同+自动跳频等七大功能，专为中小型影视团队设计。极影5与极影全系图传设备和"立声PRO"通话系统共同构建无线音视频支持体系，服务青年电影人创作实践。同时，猛玛宣布成为第十九届FIRST青年电影展官方指定无线音视频技术品牌，将为42位入选青年电影人提供技术支持。猛玛自2017年推出首款专业无线图传以来，已服务《流浪地球》《长安十二时辰》等头部剧组，逐步确立"国产专业图传首选品牌"的行业地位。

无线音视频技术极影5 猛玛
平安租赁融惠GO 全新升级，火热进行中

平安租赁作为行业领先的创新租赁专家，通过"融资+融物"模式深度赋能产业链。2025年全新升级的"融惠GO"活动聚焦汽车、酒店、城市基建等五大场景，联动全国10城50家门店推出购车优惠，并创新酒店业供应链金融方案。公司累计投放超万亿支持实体经济，通过产业节等活动推动产融结合，以定制化金融方案助力中小企业设备升级，持续优化产业生态，释放实体经济发展动能。
首次提供单电机全新理想i6申报：李想问了一个尖锐的问题

在最新一批次工信部申报名录中，理想汽车全新纯电SUV车型i6现身其中，其采用与理想i8近似的外观设计，将于今年9月上市。正面看去，i6延续了i8的设计方案，车头仍然类似于高铁车头的流线设计，以降低风阻，前大灯组位于前包围处。前风挡采用大倾角，车顶配备一个尺寸更小的ATL全天候激光雷达，在前风挡下部是环形的贯穿式日行灯，两侧还有两个黄色的小灯。新车�

理想汽车 i6 SUV
苹果全新AirTag即将推出：将有这几点提升

近日，彭博社知名记者马克・古尔曼（Mark Gurman）在其《Power On》通讯中透露，传闻已久的苹果 AirTag2或已“基本准备就绪”，有望在近期与消费者见面。此前，古尔曼曾预测该产品将于2025年年中左右发布，而如今这一时间节点正逐步临近。在通讯的问答环节中，古尔曼提到新款 AirTag 的筹备工作在过去几个月里一直在进行，但他同时表示，该产品的发布并不值得特别关注，在

苹果 AirTag2 马克·古尔曼
荐AI日报：腾讯混元3D 2.1大模型开源；字节跳动AI Lab负责人李航卸任；OpenAI Codex 全新升级

本文介绍了AI领域最新动态：1)腾讯开源混元3D2.1大模型，提升3D生成质量；2)OpenAI Codex升级，优化代码生成功能；3)字节跳动AI Lab负责人李航卸任；4)微软发布700个AI应用案例；5)微软推出Code Researcher工具，解决58%系统崩溃问题；6)Observer AI实现屏幕操作自动化；7)Genspark发布AI浏览器；8)麻省理工用AI技术3.5小时修复15世纪名画；9)蚂蚁集团推出开源多模态GPT-4o模型Ming-Omni；10)MagicTryOn视频换衣框架；11)字节跳动发布实时互动AI视频生成模型Seaweed APT2；12)ChatGPT搜索功能升级；13)字节跳动与老凤祥合作开发AI智能眼镜。

人工智能 3D生成开源大模型
创新纳米包裹缓释技术，弹动鱼子酱洗发水6.0 全新升级

洗发水市场正从基础清洁向专业养护转型。82%消费者期待"洗护合一"产品，但传统配方存在活性成分易流失、吸收率低等问题。弹力鱼子酱氨基酸洗发水6.0采用创新纳米包裹缓释技术，通过多孔载体将侧柏叶和鱼子酱活性成分严密包裹，储存时防止氧化失效，使用时通过按摩精准释放。该技术还缓解了高浓度侧柏叶的刺激性，对敏感头皮更友好。产品实现"头皮-发丝"全链路护理，以"侧柏叶+鱼子酱"黄金配比兼顾控油固发与滋养抗衰双重功效，树立了行业新标杆。
360荣膺“杰出生态伙伴奖”，与华为共建数字安全新范式

360漏洞研究院凭借全链路漏洞攻防技术优势，荣获2024年度华为终端安全杰出生态伙伴奖，彰显其在全球数字安全领域的标杆地位。作为华为终端安全生态战略技术伙伴，360通过"AI+安全"双轮驱动构建深度协同模式，双方共建AI赋能的漏洞挖掘、威胁研判和应急响应闭环机制，显著提升高危漏洞挖掘效率和应急响应准确率。自2018年起，360已连续多年获得华为安全奖项，并持续刷新国际安全领域纪录，包括十余次登上BlackHat全球顶级安全峰会发布前沿研究成果，多次获得微软MSRC、天府杯等国际奖项。360将持续深化与产业龙头企业的技术协同，加速构建自主可控的数字安全新生态。

数字安全漏洞研究 AI安全
华为Pura 80系列支持全新个性色卡：参数实时可调

华为Pura 80系列今日正式发布，XMAGE色彩也再次升级，除了原生色卡还有新增的个性色卡。拍前拍后色卡参数都可实时调整，一共有胶片风格、电影风格、动漫风格，也可以直接导入别人的色号使用，创作更简单了。

华为Pura 80 XMAGE色彩升级
苹果macOS 26 Tahoe发布：全新玻璃风格顶栏全透明设计

据媒体报道，在备受瞩目的WWDC25开发者大会上，苹果正式揭晓了新一代操作系统：macOS 26 Tahoe。此次更新带来了从视觉焕新到功能强化的全方位升级。 macOS 26 Tahoe采用了全新的玻璃质感设计语言，覆盖了Dock栏、应用图标乃至桌面小部件。原生应用界面深度融入了这一风格，顶栏实现全透明化，营造出通透灵动的整体观感。用户还能自定义系统文件夹的配色方案，个性化体验得�

macOS 26 WWDC
华为云盘古预测大模型首创 Triplet Transformer 统一预训练架构

6月20日，华为发布盘古大模型5.5，五大基础模型全面升级。该模型采用业界首创的Triplet+Transformer统一预训练架构，能跨行业处理表格数据、时间序列数据和图片数据，显著提升预测精度和泛化能力。已在水泥、钢铁、电解铝、供热等多个工业场景落地应用：海螺水泥实现熟料强度预测，宝武钢铁高炉出铁温度合格率超90%，云南铝业年省电2600万度，天津供热能耗降低10%。模型聚焦工业领域，通过工艺优化和系统寻优，助力企业降本增效，推动行业智能化转型。

华为盘古大模型云计算

热文

3 天
7天

谷歌提出全新RLHF方法：消除奖励模型，且无需对抗性训练

猛玛携全新极影生态，支持FIRST训练营青年电影创作

平安租赁融惠GO 全新升级，火热进行中

首次提供单电机全新理想i6申报：李想问了一个尖锐的问题

苹果全新AirTag即将推出：将有这几点提升

荐AI日报：腾讯混元3D 2.1大模型开源；字节跳动AI Lab负责人李航卸任；OpenAI Codex 全新升级

创新纳米包裹缓释技术，弹动鱼子酱洗发水6.0 全新升级

360荣膺“杰出生态伙伴奖”，与华为共建数字安全新范式

华为Pura 80系列支持全新个性色卡：参数实时可调

苹果macOS 26 Tahoe发布：全新玻璃风格顶栏全透明设计

华为云盘古预测大模型首创 Triplet Transformer 统一预训练架构

热文

华为Mate X5折叠屏降价：8999元起至高优惠4000元

微信：聊天记录备份和迁移已支持外部存储设备可自动备份

罗马仕辟谣倒闭称定将努力解决一切问题

站长商机