腾讯混元领跑多模态AI：全方位领先GPT-4/Claude-3.5等

2024-08-08 16:27 · 来源： AIbase基地

在人工智能的多模态领域，国产大模型正展现出强劲的实力。最新发布的中文多模态大模型测评基准SuperCLUE-V榜单显示，腾讯的hunyuan-vision和上海AI Lab的InternVL2-40B分别成为国内闭源和开源界的两大领跑者，甚至超越了国际知名的Claude-3.5-Sonnet和谷歌的Gemini-1.5-Pro。

腾讯混元大模型的多模态版本，hunyuan-vision，不仅在API调用上受到开发者的青睐，更在腾讯元宝APP中免费向用户开放体验。元宝APP一直以"实用AI搭子"著称，强调实用易用性，而其在多模态能力上的突破，更是在评测中拿下国内第一的佳绩。

为了更直观地展示国产多模态大模型的进步，我们对腾讯元宝进行了一系列的测试。从梗图表情包理解、照片内容识别到视觉错觉挑战，腾讯元宝都展现出了出色的表现。在实际应用场景中，无论是财报摘要读取、学术图表识别还是行测找规律题，元宝都能够准确理解并给出合理的答案。

▲ 图源“ CLUE 中文语言理解测评基准”公众号，下同

特别是在一道考验对中国文化背景理解的附加题中，腾讯元宝准确识别了《葫芦兄弟》的截图，并正确回答了相关问题，显示出其在理解中文语境方面的优势。

腾讯混元大模型作为一位"老朋友"，自去年9月首次亮相以来，一直保持快速迭代，目前已扩展至万亿参数规模，覆盖文本、多模态理解及生成等领域。在国内大模型中，腾讯混元率先完成MoE架构升级，从单个稠密模型升级到多个专家组成的稀疏模型。

腾讯元宝APP，主打"实用AI搭子"，不仅在多端同步、聊天记录同步方面表现出色，更在多模态理解能力上展现出了强大的实力。无论是文档截图、人像风景、收银小票还是任意照片，元宝都能基于图中内容给出自己的理解和分析。

腾讯元宝团队表示，接下来将把更多精力放在融合模型多模态能力上，进一步提升用户体验。同时，腾讯也在深度搜索和深度长文阅读等方面进行了功能更新，减少了技术细节的暴露，简化了用户操作。

相关推荐

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

本文介绍了AI领域多项重要进展：1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen，显著提升建模效率；2)阿里发布多模态大模型HumanOmniV2，准确率达69.33%；3)钉钉AI表格实现1小时处理千项任务；4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级；5)微软推出Deep Research智能体，自动化研究流程；6)香港理工与OPPO联合开源视频超清框架DLoRAL；7)谷歌开源MCP工具箱简化AI与数据库集成；8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
AI重构社交生态 Soul以多模态技术赋能社交

社交平台Soul正通过AI技术重塑社交生态：1）2016年推出智能推荐系统"灵犀引擎"，2020年启动AIGC算法研发，2023年推出自研大模型Soul+X，开发AI虚拟人、智能聊天等应用；2）升级多模态大模型，支持文字对话、语音通话、多语言理解等功能，提供拟人化情感陪伴；3）围绕Z世代需求，促成超10万对情侣步入婚姻，并联合开展心理健康公益活动；4）以"技术+人文"双轮驱动，致力于打造更智能舒适的社交环境，重新定义人机关系。

AI社交 Soul平台多模态大模型
主流AI多模态大模型有哪些？超全的多模态大模型指南分享

2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据，实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型，对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

多模态大模型 AI技术发展 GPT-4V
最佳雇主安踏集团迎超千名校招生入职全方位关怀提升幸福感

安踏集团为应届毕业生提供全方位支持：1）住房保障：推出公租房、住房补贴等多项福利，租金低于市场价50%；2）餐饮福利：自营餐厅提供实惠餐食，每月赠送海鲜等"硬菜"；3）健康关怀：年度体检、补充医保及24小时心理咨询服务；4）运动设施：配备海景健身房、30+运动社团和专业教练指导；5）职业发展：建立"高中青三轮驱动"培养体系，新人一对一导师制，最快21个月可晋升至管理岗。2024年集团在员工福利投入超4亿元，计划到2027年累计投入近10亿元。安踏连续三年获评"ESG最佳雇主"，致力于打造卓越职场环境。
领先OpenAI三个月，百度文库GenFlow领跑通用Agent领域，2.0版本8月上线

百度文库即将在8月发布GenFlow2.0版本，该版本具备更强大的多模态能力，支持生成多种内容形态，大幅缩短任务交付时间。相比OpenAI同日发布的ChatGPT+Agent，百度文库早在4月就已上线GenFlow1.0，实现全场景覆盖和全链路调度。GenFlow基于MoE架构，在成本、性能和效率上占优，能快速生成PPT、研报等多样化内容，且依托百度14亿专业文档资源，内容质量更可靠。此外，GenFlow还能调用用户个人数据实现个性化定制，并提供内容后期编辑功能，灵活性更高。
荐秘塔AI也终于悄悄上线了DeepResearch。

测试完以后，我觉得这玩意，还是值得我将近通宵写一篇的。深度研究，也就是DeepResearch。我过去写过很多次秘塔AI了，因为我自己的搜索习惯，现在基本就是，大活上ChatGPT用DeepResearch，常识问答直接找豆包，一般的AI搜索就是秘塔AI。当然很多ChatBot产品都有AI搜索，但是我自己这两年，还是习惯用秘塔AI和Perplexity这样形态的原生AI搜索产品了，这可能就是习惯的力量吧。

秘塔AI 深度研究 AI搜索
普渡机器人发布AI扫吸推机器人PUDU MT1 Vac，重新定义智能吸尘新标准

普渡科技7月15日发布AI扫吸推机器人PUDU MT1Vac，专为大面积吸尘场景设计。产品采用双独立风道系统，吸尘效率提升200%，配备20L超大容量尘污分离系统，单次作业可覆盖1000㎡酒店地毯清洁需求。机器人具备55cm超宽吸尘宽度，集成HEPA级过滤系统，能识别不同地面材质自动调节吸力。搭载激光SLAM+视觉VSLAM融合定位系统，适应酒店、商超等复杂场景。该产品填补了大容量高效吸尘机器人市场空白，推动行业智能化升级。
IDC首次“盖章”！以太全光网成独立赛道，锐捷以太彩光领跑市场

IDC最新报告首次将"以太全光网络"列为独立细分市场，标志着该技术已成为全光园区网络主流架构。锐捷网络凭借彩光方案的技术突破，在中国以太光网络市场份额排名第一。相比传统铜缆和PON技术，以太彩光网络具有四大优势：1)单纤支持160G带宽，波分复用技术避免光纤堆叠；2)继承以太网可靠架构；3)独立链路保障低时延和强隔离；4)简化运维降低成本50%。锐捷已完成从1.0到4.0的迭代，部署近30万间，覆盖教育、医疗等多领域。随着Wi-Fi7和AI终端爆发，以太彩光网络"一次部署十年无忧"的特性，正推动园区网络进入"光进铜退"新时代。
荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

AI日报精选：1)百度开源文心大模型4.5系列，含10款新模型，性能优异；2)通义千问发布多模态模型Qwen-VL，支持图文交互；3)阿里开源3亿参数多模态模型Ovis-U1；4)华为开源盘古7B稠密和72B混合专家模型；5)美图MOKI推出AI创意广告功能，一键生成专业视频；6)谷歌Gemini 2.5 Pro API重新免费开放；7)豆瓣上线"深入研究"AI功能；8)小米"AI百宝箱"结束内测；9)北京智研院开源多模态系统OmniGen2；10)知乎升级"直答"知识库功能。

AI日报文心大模型开源模型
荐AI日报：12306 MCP Server上线；百度推AI搜索助手Tizzy.ai；ChatGPT录音模式面向Plus用户开放

【AI日报】今日AI领域重要动态：1)百度推出无广告智能搜索助手Tizzy.ai，整合影视资源与深度思考功能；2)12306开源火车票查询引擎上线，采用FastAPI架构实现秒级响应；3)ChatGPT向Plus用户全面开放录音功能，支持实时记录与内容总结；4)开源SaaS模板FireGEO助力快速构建现代化Web应用；5)国产工具ReadMeX可一键生成高质量GitHub文档；6)百度AI助手新增视频通话功能，支持方言识别；7)Jacky

人工智能智能搜索助手影视资源

今日大家都在搜的词：

热文

3 天
7天

腾讯混元领跑多模态AI：全方位领先GPT-4/Claude-3.5等

荐AI日报：腾讯混元推3D生成大模型Hunyuan3D-PolyGen；钉钉AI表格重磅来袭；阿里推多模态大语言模型HumanOmniV2

AI重构社交生态 Soul以多模态技术赋能社交

主流AI多模态大模型有哪些？超全的多模态大模型指南分享

最佳雇主安踏集团迎超千名校招生入职全方位关怀提升幸福感

领先OpenAI三个月，百度文库GenFlow领跑通用Agent领域，2.0版本8月上线

荐秘塔AI也终于悄悄上线了DeepResearch。

普渡机器人发布AI扫吸推机器人PUDU MT1 Vac，重新定义智能吸尘新标准

IDC首次“盖章”！以太全光网成独立赛道，锐捷以太彩光领跑市场

荐「6月30日AI日报」百度开源文心大模型4.5系列；通义千问发布多模态生成模型Qwen VLo

荐AI日报：12306 MCP Server上线；百度推AI搜索助手Tizzy.ai；ChatGPT录音模式面向Plus用户开放

今日大家都在搜的词：

热文

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

华为鸿蒙智行：尊界S800上市50天大定破8000台

华为MatePad Pro 12.2开启预约预计7月24日正式发布

小米深圳大厦开园：卢伟冰现场喝小米粥

小米骨传导耳机2发布：699元 7月21日开售

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

黄仁勋称想买一辆小米汽车英伟达在多方面与小米开展合作

华为鸿蒙智行：尊界S800上市50天大定破8000台

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

抖音：“抖音会议”App是诈骗软件会直接控制用户手机

华为MatePad Pro 12.2开启预约预计7月24日正式发布

理想i8开启预定：7月29日上市预售价35-40万元

小米深圳大厦开园：卢伟冰现场喝小米粥

站长商机