首页 > 业界 > 关键词  > AI数据最新资讯  > 正文

微软研究人员指出,并非所有token都符合需求

2024-04-12 16:02 · 稿源:站长之家

划重点:

⭐️ RHO-1方法通过选择性语言建模,专注训练与所需分布一致的有用token。

⭐️ RHO-1的 SLM 方法可显著提高数学任务的准确性,表现优异于传统训练方法。

⭐️ 未来工作包括将 SLM 推广至其他领域,提高可扩展性,探索多个参考模型减少过拟合等。

站长之家(ChinaZ.com)4月12日 消息:微软研究人员挑战了语言模型(LM)预训练的传统方法,该方法在训练语料库中的所有token上均匀应用下一个token预测损失。相反,他们提出了一种新的语言模型称为 RHO-1,该模型利用选择性语言建模(SLM)。

RHO-1方法通过选择性训练与所需分布一致的有用token,而不是尝试预测每一个下一个token。他们引入了 Rho-Math-v0.1模型,其中 Rho-Math-1B 和 Rho-Math-7B 在 MATH 数据集上分别实现了15.6% 和31.0% 的少样本准确率,仅使用预训练token的3% 与 DeepSeekMath 相匹配。

Rho-Math-1B-Interpreter 是第一个在 MATH 数据集上实现超过40% 准确率的1B LLM。

Rho-Math-7B-Interpreter 在 MATH 数据集上实现52% 的准确率,仅使用69k 个样本进行微调。

RHO-1的 SLM 方法涉及使用参考模型对预训练token进行评分,并使用更加专注的损失对具有更高多余损失的token进行语言模型训练。这种选择性过程使 RHO-1能够在持续预训练15B OpenWebMath 语料库时,将9个数学任务的少样本准确率提高高达30%。

该模型在微调后在 MATH 数据集上实现了最先进的结果,并且在80B 通用token预训练时,在15个不同任务中平均提升了6.8%。

image.png

传统的训练方法通常使用启发式和分类器在文档级别上过滤数据,以提高数据质量和模型性能。然而,即使高质量的数据集可能包含对训练产生负面影响的嘈杂token。

SLM 方法直接解决了这个问题,通过专注于token级别,并在预训练期间消除不需要的token损失。

在研究中,SLM 在预训练期间选择的token与数学相关,有效地调整了模型对原始语料库的相关部分。研究人员在各个检查点中调查了token过滤,发现后续检查点选择的token倾向于在训练的后期具有更高的困惑度,并在早期具有更低的困惑度。

image.png

讨论部分强调了未来的工作,包括将 SLM 推广至数学领域以外的领域,将该技术扩展至更大的模型和数据集,以及探索在评分token时是否需要训练参考模型。

对 SLM 的改进可能包括重新加权token而不是选择它们,以及使用多个参考模型减少过拟合。

SLM 可以扩展到监督微调,以解决数据集中的噪声和分布不匹配,并通过训练一个强调帮助性、真实性和无害性的参考模型来获得在预训练期间获得本地对齐的基本模型。

rho:https://github.com/microsoft/rho

举报

  • 相关推荐
  • 续科天下发布全新XUKE TECH产品体系,为AI时代构建可靠数据基石

    续科天下发布XUKE TECH完整AI数据处理系统,推出Base、Embed、Vault三款核心产品,解决企业AI化过程中的非结构化数据处理难题。该系统能统一处理多模态数据,通过向量化转换和安全存储管理,形成端到端解决方案,帮助企业将70%的数据预处理精力转向模型开发,显著缩短AI项目上线周期,已在金融、互联网等领域验证实效。

  • 卖家精灵火热亮相杭州跨博会,以AI+大数据赋能跨境卖家高效出海!​

    2025杭州跨博会于9月25-27日成功举办,聚焦家电、宠物等六大产业带,吸引超2.6万人次到场。卖家精灵作为亚马逊服务商参展,通过万瓶定制水传递品牌温度,展示AI选品与运营工具,助力卖家数据化决策。展会整合跨境资源,推动企业转型与增长,未来将持续深化AI应用,促进行业从粗放经营向精细化运营升级。

  • ChatExcel重磅发布:基于AMD锐龙AI MAX+ 395处理器的数据分析Mini AI 工作站

    ChatExcel发布搭载AMD锐龙AI MAX+395处理器的Mini AI工作站,重构数据全链路,打造“找数-做数-分析数-看数-用数”的商业闭环平台。依托处理器96GB超大显存和统一内存架构,实现本地流畅运行GPT-oss-120B等大型模型,保障数据安全的同时显著提升分析效率。该方案以财务场景为例,支持多任务并行处理,将原本需1天完成的月度报表压缩至2小时,解决“数据不外发”与“高效处理”的核心矛盾。

  • 卖家精灵火热亮相武汉电博会,以大数据+AI驱动跨境电商新增长!

    2025年第十届武汉国际电子商务暨数字贸易博览会于9月19-21日成功举办,主题为“链接全球·数创未来”,展览面积达2万平方米。展会汇聚亚马逊、Wildberries等国际电商平台,通过展览、论坛等形式展示电子商务与数字贸易领域的前沿技术与创新应用。卖家精灵作为亚马逊官方服务商亮相,其“AI市场洞察”功能成为焦点,可基于大数据与人工智能快速生成市场分析报告,帮助卖

  • 宜享花依托AI与大数据技术,推动消费金融合规创新与服务提质

    宜人智科旗下品牌宜享花以人工智能与大数据技术为核心驱动力,构建覆盖全链路的一体化智能服务体系。平台在严格合规框架下,深度融合金融机构与多元场景资源,为消费者提供精准、安全的金融支持,并通过科技创新持续优化风控能力与服务体验。宜享花高度重视合规经营,建立覆盖业务全流程的个人信息保护机制,自主研发“Hawkeye反欺诈管理系统”有效识别并拦截欺诈行为。同时,平台发布《消费者权益保护2024年度报告》,建立六大消保评审维度,强化事前审查与专项检查机制。通过AI技术打造高效、智能的客户服务体系,累计提供智能客服超490万次,智能客服分流率达52%。未来,宜享花将持续深化科技应用,筑牢智能风控防线,完善消费者权益保护,为经济高质量发展注入科技金融新动能。

  • AI重塑经营体验:淘天为商家按下“减负键”

    10月15日,2025天猫双11将正式开启,电商人即将面临一场运营大考。 今年年初,淘天做了一次商家运营状况的深度调研。数据显示:淘天商家平均每天需要耗费近5小时在客服上、2小时在素材制作上,报名一场营销活动平均要耗费1小时以上。如果是双11大促这样的节点,商家的运营压力更大。 “不用说,这组数据对商家来说有些过于沉重。我觉得我们确实应该要敲敲板子了。”

  • 腾讯云大数据TBDS重磅升级,助力金融行业构建Data+AI一体化数智新范式

    腾讯云在腾讯全球数字生态大会上宣布,其大数据平台TBDS面向AI时代完成重磅升级。此次升级聚焦“数据与AI一体化”,旨在为金融机构提供兼具数据工程与数据科学能力的综合平台,打破传统数据处理与智能应用间的壁垒。新TBDS通过多模湖仓平台、WeData数智开发治理平台及DataAgent数据智能即服务构成核心架构,实现数据存储、管理、开发、治理与运维全面智能化。平台支持多模数据统一汇聚、异构计算负载调度,并显著提升数据开发到模型上线的全链路效率。在金融场景中,新TBDS已应用于信贷自动审批等业务,帮助机构提质增效。未来,腾讯云TBDS将持续发挥专业化与智能化优势,助力金融行业加速数字化转型。

  • AI排名监控工具实战指南:如何用GEO排名查询提升品牌AI搜索可见度

    随着ChatGPT等AI搜索引擎普及,传统SEO正经历深刻变革。文章指出,超60%用户开始使用AI搜索,而AI直接给出答案而非展示链接,导致品牌面临可见度危机。为此提出GEO(生成引擎优化)概念,强调需通过专业工具监测AI排名,并推荐AIBase平台的多平台覆盖、真实场景模拟和竞品分析功能。最后给出四步优化流程:建立监测基准、分析排名差异、针对性内容优化、持续迭代,帮助品牌在AI时代建立竞争优势。

  • 腾讯云大数据升级Data+AI能力体系,构建AI-Ready的数据智能平台

    9月17日,腾讯云在数字生态大会上宣布升级大数据产品矩阵Data+AI能力体系,覆盖底层架构、数据平台、数据应用全流程,助力企业应对数据治理、多模态融合与智能化应用等挑战。通过云原生架构、Data+AI一体化和Agent增强,推出TCLake智能数据湖、流湖引擎和企业级搜索ES,提升数据处理效率与智能化水平。WeData平台升级为端到端一体化Data+AI平台,打通数据接入、治理、建模、训练到推理全链路。引入AI+Agent能力,通过Data Agent和ChatBI等创新实践,将智能能力融入数据使用各环节,助力企业释放数据价值,形成差异化AI竞争力。

  • 千亿AI玩具市场:当IP被AI“唤醒”,玩具厂商如何开辟新赛道?

    过去两年AI技术热度飙升,从ChatGPT爆发到谷歌、Meta频发新一代大模型,AI已切实改变生活方式。传统玩具行业正孕育智能化尝试,迪士尼与乐森机器人合作推出Mini Robot智能潮玩,通过“通用底座+可替换IP公仔”平台化设计,结合机器人技术与情感交互,打破单一产品逻辑。该产品支持动作编程、语音定制及UGC内容共享,推动玩具从“产品消费”转向“情绪消费”,成为连接虚拟与现实的新型生命体。

今日大家都在搜的词: