首页 > AI头条  > 正文

​全新开源 AI 模型 Molmo 横扫业界巨头,超越 GPT-4o 与 Claude 3.5

2024-09-26 18:01 · 来源: AIbase基地

近日,艾伦人工智能研究所(Ai2)发布了 Molmo,这是一个全新的开源多模 AI 模型家族,表现出色,甚至在多个第三方基准测试中超越了 OpenAI 的 GPT-4o、Anthropic 的 Claude3.5Sonnet 和谷歌的 Gemini1.5。

image.png

Molmo 不仅能接受用户上传的图像进行分析,还使用了 “比竞争对手少1000倍的数据” 进行训练,这得益于其独特的训练技巧。

image.png

这次发布展示了 Ai2对开放研究的承诺,提供了高性能的模型以及开放的权重和数据,供更广泛的社区和企业使用。Molmo 家族包括四个主要模型,分别是 Molmo-72B、Molmo-7B-D、Molmo-7B-O 和 MolmoE-1B,其中 Molmo-72B 是旗舰模型,包含72亿个参数,表现尤为突出。

根据各项评估,Molmo-72B 在11重要基准测试获得了最高分,并在用户偏好方面仅次于 -4o。Ai2还推出了一款为 OLMoE 的模型,采用了 “小型模型组合” 的方式,旨在提高成本益。

Molmo 的架构经过精心设计,以实现高效和卓越的性能。所有模型使用 OpenAI 的 ViT-L/14336px CLIP 模型作为视觉编码器,将多尺度的图处理成视觉令。语言模型部分是解码器 Transformer,具有不同的容量和开放性。

在训练方面,Mol 经过了两阶段的训练:首先是多模预训练,其次是有监督的微调。与许多现代模型不同,Molmo 并未依赖于人类反馈的强化学习,而是通过细致调优的训练流程来更新模型参数。

Molmo 在多个基准测试中表现优异,特别是在文档阅读和视觉推理等复杂任务中,展现了其强大的能力。Ai2已经在 Hugging Face 上发布了这些模型和数据集,未来几个月还将推出更多模型和扩展技术报告,旨在为研究者提供更多资源。

如果你想了解 Molmo 的功能,现在可以通过 Molmo 的官方网站进行公开演示(https://molmo.allenai.org/)。

划重点:

🌟 Ai2Molmo 开源模态 AI 模型超越行业顶产品。

📊 Mol-72B 在多个基准测试中表现卓越,仅次于 GPT4o。

🔍 开放性强,模型和数据集供研究者与自由使用。

  • 相关推荐
  • “无限量”供应Claude,就是AI IDE们的百亿补贴

    Anthropic于2025年7月28日宣布,将从8月28日起对Claude Code工具新增每周调用限额——因为少数重度用户全天候高频使用,一次使用成本甚至高达数万美元,远远超过普通订阅预期。 同样在上个月,Cursor曾因其“I’ll keep it unlimited”的Pro收费模式悄然变更为计算tokens限制,导致大量用户抱怨“实际上并非无限”,纷纷在社群中吐槽,迫使公司CEO出面道歉、甚至给出退款补偿。 这两�

  • GPT-5和Claude 4 Opus谁更强?用这个AI大模型对比工具一眼明了

    OpenAI正式发布GPT-5,与Claude4Opus和Gemini2.5Pro进行对比测试。GPT-5在编程能力(SWE-bench测试74.9%)和数学推理(AIME2025测试94.6%)表现突出;Claude4Opus编程优异(72.5%)但数学较弱(33.9%);Gemini2.5Pro擅长长文本处理(100万token窗口)和多模态应用。价格方面,GPT-5和Gemini2.5Pro定价相近($1.25-$10),Claude4Opus较高($15-$75)。建议根据需求选择:GPT-5适合综合应用,Claude4Opus适合专业编程,Gemini2.5Pro适合长文档�

  • GPT-5正式发布:与Claude 4、Gemini 2.5等主流大模型谁更胜一筹?

    2025年8月7日,OpenAI正式发布GPT-5,官方称其为"最智能、最快速、最实用"的AI模型。GPT-5在数学推理能力上大幅提升,在AIME2025测试中取得94.6%的高分,处理速度也有明显改善。但与竞争对手相比仍存在差距:Claude4在代码生成和逻辑推理方面表现优异,支持200K token长文本;Gemini2.5具备2M超大上下文窗口和全模态支持;国产模型DeepSeek R1在中文理解和性价比方面具有优势。AI�

  • AI日报:百度推全球首批AI数字员工;Claude Opus4.1出世;谷歌DeepMind发布世界模型Genie 3

    AI日报栏目聚焦人工智能领域最新动态:1)Claude Opus4.1发布,编程能力提升74.5%;2)OpenAI开源GPT-OSS-120B和20B模型;3)谷歌DeepMind推出革命性3D世界模型Genie3;4)谷歌Gemini新增AI故事书生成功能;5)ElevenLabs推出商用AI音乐生成器;6)百度智能云发布首批AI数字员工;7)OpenAI估值或达5000亿美元;8)00后创业者推出云端AI协作开发工具Vinsoo;9)腾讯启动2026校园招聘,重点培养AI人才;10)马斯克宣�

  • AI日报:Wan 2.2-S2V模型即将发布;​字节跳动内测3D Model Generator;微软开源 VibeVoice-1.5B 模型

    本期AI日报聚焦多项技术突破:阿里通义万相发布Wan 2.2-S2V模型,实现视频音频同步生成;字节跳动研发3D模型生成工具,降低建模门槛;面壁智能推出MiniCPM-V4.5端侧多模态模型;苹果提出RLCF训练法提升模型性能;微软开源VibeVoice-1.5B支持超长语音合成;谷歌Imagen 4正式上线;英伟达发布Jetson Thor机器人计算平台;Genspark推出AI Designer一键生成品牌方案;豆包上线未成年人保护模式。

  • 智界全新LOGO正式发布!尹同跃:奇瑞集团所有资源向智界倾斜

    华为今日下午举办智界及问界秋季新品发布会。 会上,奇瑞集团董事长尹同跃介绍,智界是我们毫无保留的第一战略优先级品牌。 8月初,我和余承东总在深圳正式签订了智界品牌2.0战略协议,智界汽车由华为全面主导,从此进入纯血鸿蒙时代,智界汽车在全新战略下成立新能源公司,并完全独立运营。 奇瑞集团所有资源向智界倾斜,所有的产品线品牌,都要为智界让道,�

  • AI日报:DeepSeek V3.1正式发布;企业微信5.0推出全新AI能力;快手 Klear-Reasoner 模型成功登顶

    AI日报栏目聚焦人工智能领域最新动态。DeepSeek V3.1发布,大幅增强长文档分析和代码理解能力;企业微信5.0集成智能搜索、总结和机器人功能;快手Klear-Reasoner模型数学推理准确率超90%;谷歌Docs新增AI语音朗读功能;Firecrawl完成1450万美元融资并推出V2版本API;Meta上线AI语音翻译功能;微软Excel集成Copilot实现一键数据分析;Claude桌面客户端推动AI编程可视化;苹果Xcode将原生集成Cl

  • 2025年大模型选型核心指南:Beyond GPT-4,如何理性评估Qwen、DeepSeek等强者?

    大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架,强调需超越单一指标崇拜,基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析,展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程,采用专业工具进行多维度评估,通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型,而非盲目追求流行模型。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • AI日报:智谱AI发布AutoGLM 2.0;腾讯元宝接入腾讯视频;字节发布开源大语言模型 Seed-OSS

    本期AI日报聚焦多项AI技术突破:智谱发布革命性语音代理AutoGLM 2.0,实现全平台语音操控;腾讯元宝接入视频平台提升观影便捷性;字节跳动开源大模型Seed-OSS专注长文本处理;速卖通AI代理助力新品推广效率翻倍;微软测试Copilot智能文件搜索功能;Liquid AI推出低延迟视觉语言模型LFM2-VL;OpenAI月收入首破10亿美元;谷歌Pixel 10系列全面升级AI功能,包括情感识别和实时翻译;Pixel Buds Pro 2引入AI手势控制;ElevenLabs发布支持70+语言的文本转语音API。

今日大家都在搜的词:

热文

  • 3 天
  • 7天