首页 > 业界 > 关键词  > Mistral最新资讯  > 正文

Mistral、AI2 发布新的开源 LLMs:更小,更便宜

2025-01-31 11:12 · 稿源:站长之家

站长之家(ChinaZ.com) 1月31日消息:Mistral AI 和 Allen 人工智能研究所今天发布了新的大型语言模型(LLM),它们声称这些模型在各自类别中属于最先进的。

mistral

Mistral 的模型被称为 Mistral Small 3,而 Allen 人工智能研究所(通常简称 Ai2)发布的则是 Tülu 3 405B。这两款模型都可以在开源许可下使用。

Mistral Small 3 包含 240 亿个参数,远少于市场上最先进的 LLM,这使得它在启用量化后足够小,可以在某些 MacBook 上运行。量化是一种调整模型的技术,旨在在降低硬件资源需求的同时,减少一些输出质量的损失。

在一次内部评估中,Mistral 将 Mistral Small 3 与 Meta Platforms Inc. 发布的开源 LLM Llama 3.3 70B Instruct 进行了对比,后者的参数量是前者的三倍多。Mistral Small 3 提供了与 Llama 3.3 70B 类似的输出质量,但响应速度显著更快。在另一项测试中,这款新模型比 OpenAI 的 GPT-4o mini 提供了更高的输出质量和更低的延迟。

开发人员通常通过创建一个基础模型来构建 LLM,然后使用多种不同的训练方法来细化其输出质量。在构建 Mistral Small 3 时,该公司开发了基础模型,但跳过了后续的细化过程。这使得用户可以根据项目需求自行微调 Mistral Small 3。

该公司预计开发人员将会把这款 LLM 应用于各种任务,特别是在需要低延迟执行外部应用程序任务的 AI 自动化工具中。该公司表示,其一些客户还在机器人技术、金融服务和制造业等行业特定用例中使用 Mistral Small 3。

「Mistral Small 3 是一款预训练和指令式模型,专为应对『80%』的生成式 AI 任务而设计——这些任务需要强大的语言能力和指令跟随性能,并且延迟非常低,」Mistral 的研究人员在博客中写道。

今天 Mistral Small 3 的发布恰逢 Ai2(一个非营利的 AI 研究机构)发布新的 LLM。Tülu 3 405B 是 Meta 去年 6 月发布的开源 Llama 3.1 405B 模型的定制版。在 Ai2 的测试中,Tülu 3 405B 在多个基准测试中超过了原始的 Llama 模型。

该研究小组使用一种它们在 11 月首次详细说明的开发流程创建了这个 LLM。该工作流结合了多种 LLM 训练方法,其中包括 Ai2 自家发明的一种方法。

该工作流的第一步是监督微调。这是一种训练方法,通过向 LLM 提供示例提示和相应的答案,帮助它学习如何响应用户查询。接下来,Ai2 使用了另一种名为 DPO 的训练技术,将 Tülu 3 405B 的输出与一组用户偏好进行对齐。

Ai2 还使用一种名为 RLVR 的内部开发的训练方法进一步优化了模型的能力。RLVR 是强化学习的一种变体,强化学习是广泛应用的 AI 训练技术。Ai2 表示,RLVR 可以使 AI 模型在解决数学问题等任务中表现得更好。

Tülu 3 405B 代表了「完全开放的后训练方法首次应用于最大开放权重模型」,Ai2 的研究人员在博客中写道。「通过这一发布,我们展示了我们在 405B 参数规模上应用后训练方法的可扩展性和有效性。」

举报

  • 相关推荐
  • 2025国补什么时候开始到什么时候结束?国补和618哪个更便宜可以叠加吗?国补政策最新消息确定

    2025年国家补贴政策进入倒计时阶段,覆盖家电、手机数码、汽车三大领域,全国统一截止时间为2025年12月31日。消费者最关注三个核心问题:补贴何时截止、能否与618叠加、最新规则变化。京东618红包可叠加国家补贴,最高立减2000元;淘宝618红包最高25888元。补贴与618优惠可叠加使用,部分品类省幅高达40%。多地因资金消耗过快已暂停部分品类补贴,预计6月中下旬重启。建议高价值商品6月底前下单,避免年末额度告罄。6月17日晚8点是价格冰点,叠加补贴、满减、红包后部分品类省幅超40%。需注意:部分城市强制使用云闪付,地方额外补贴可达20%。政策窗口仅剩6个月,高需求地区建议提前行动。

  • 2025年618几号到几号?京东618真的比双十一更便宜吗?

    2025年京东618大促活动从5月13日持续至6月20日,共38天,分为预热期和正式期。核心优惠包括:每晚8点搜索口令"好运红包7788"可领三次红包,最高25618元;数码家电最高享30%折扣;叠加国家补贴后部分商品价格达年度最低。相比双十一,京东618在数码家电、家居品类补贴更集中,价格低10%-15%,物流更快;而双十一侧重服饰美妆。建议消费者根据需求选择:买家电数码选京东618,服饰美妆关注双十一,并善用红包、补贴等叠加优惠。

  • iQOO 15 Ultra首曝:首款骁龙8 Elite 2 Ultra旗舰

    iQOO将于年底推出iQOO 15系列旗舰手机,包含标准版和Ultra版。iQOO 15 Ultra将采用2K LIPO直屏,首批搭载骁龙8 Elite 2平台,配备潜望长焦镜头,支持无线充电和IP68防尘防水。相比上代,Ultra版回归直屏设计,新增主动散热风扇和潜望长焦,影像和性能大幅提升。采用全新LIPO封装工艺,通过优化显示驱动芯片和电路布局,大幅收窄边框。LIPO技术采用高密度连接设计,减少信号传输通道数量和长度,在保证信号稳定性的同时缩小边框宽度。iQOO 15 Pro预计10月亮相,将成为行业首款骁龙8 Elite 2 Ultra旗舰机型。

  • 谷歌推出 250 美元的 AI Ultra 套餐,重新定义“高端”

    谷歌或许想把 AI Ultra 打造成一个精英创作者工具包,但它也可能正在重新定义“高端”:只是贵而已……

  • AI触控云台浩瀚V3 Ultra发布,首发AI多模态追踪模块,定义手机云台轻旗舰标准!

    6月6日,浩翰V3 Ultra智能影像稳定器正式发布。作为旗舰级产品,它搭载行业首创AI多模态万物原生跟拍技术,支持10米远程触控彩屏、AI可视化构图、360°无死角跟拍及三轴稳拍等功能。新品采用第九代iSteady增稳系统,折叠后体积小巧便携。配备22英寸触控彩屏,支持5米手势控制和隔空补光功能。售价999元起,同步推出含无线麦克风的创作者套装。浩翰深耕稳定器行业11年,产�

  • AI日报:谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • 黑格 UltraCraft Reflex RS Turbo 携全“琥珀屏”震撼上市

    5月29日,黑格科技在成立十周年之际推出UltraCraft Reflex RS Turbo 3D打印机。作为畅销款Reflex RS的升级版,RS Turbo在保持快速打印的同时,通过增强型琥珀色屏幕延长了使用寿命,打印精度和表面质量显著提升。关键升级包括:1)566:1高对比度屏幕,新增光学膜减少杂散光;2)C5级Z轴模块将运动误差控制在±2微米内;3)动态运动算法3.0使打印速度最高提升33%。新品推出限时首发优惠,购买可享8折并赠送打印耗材。该产品已上线黑格天猫旗舰店。

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • AI日报:夸克发布首个高考志愿大模型;Trae月活跃用户破100万;Manus推出免费无限聊天模式

    【AI日报】今日AI领域热点速览: 1. 夸克APP推出高考志愿大模型,免费提供个性化填报指导 2. Manus AI开放免费无限聊天模式,挑战行业巨头 3. Trae开发者平台月活破百万,累计交付60亿行代码 4. 迪士尼环球起诉Midjourney侵犯影视版权 5. 维基百科暂停AI生成摘要实验 6. 360发布"纳米AI超级搜索智能体",内置80多款大模型 7. PartCrafter项目实现单张图片生成高精度3D模型 8. Meta推出AI视频编辑工具,支持50多种预设效果 9. 阿里工程师放弃春节假期全力追赶DeepSeek技术 10. 火山引擎发布PromptPilot智能提示优化平台 11. OpenAI洽谈400亿美元融资,拓展AI生态系统 12. 新一代o3-pro推理模型发布并调整API定价策略

  • AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。