首页 > AI头条  > 正文

腾讯混元领跑多模态AI:全方位领先GPT-4/Claude-3.5等

2024-08-08 16:27 · 来源: AIbase基地

在人工智能的多模态领域,国产大模型正展现出强劲的实力。最新发布的中文多模态大模型测评基准SuperCLUE-V榜单显示,腾讯的hunyuan-vision和上海AI Lab的InternVL2-40B分别成为国内闭源和开源界的两大领跑者,甚至超越了国际知名的Claude-3.5-Sonnet和谷歌的Gemini-1.5-Pro。

腾讯混元大模型的多模态版本,hunyuan-vision,不仅在API调用上受到开发者的青睐,更在腾讯元宝APP中免费向用户开放体验。元宝APP一直以"实用AI搭子"著称,强调实用易用性,而其在多模态能力上的突破,更是在评测中拿下国内第一的佳绩。

为了更直观地展示国产多模态大模型的进步,我们对腾讯元宝进行了一系列的测试。从梗图表情包理解、照片内容识别到视觉错觉挑战,腾讯元宝都展现出了出色的表现。在实际应用场景中,无论是财报摘要读取、学术图表识别还是行测找规律题,元宝都能够准确理解并给出合理的答案。

▲ 图源“ CLUE 中文语言理解测评基准”公众号,下同

特别是在一道考验对中国文化背景理解的附加题中,腾讯元宝准确识别了《葫芦兄弟》的截图,并正确回答了相关问题,显示出其在理解中文语境方面的优势。

腾讯混元大模型作为一位"老朋友",自去年9月首次亮相以来,一直保持快速迭代,目前已扩展至万亿参数规模,覆盖文本、多模态理解及生成等领域。在国内大模型中,腾讯混元率先完成MoE架构升级,从单个稠密模型升级到多个专家组成的稀疏模型。

腾讯元宝APP,主打"实用AI搭子",不仅在多端同步、聊天记录同步方面表现出色,更在多模态理解能力上展现出了强大的实力。无论是文档截图、人像风景、收银小票还是任意照片,元宝都能基于图中内容给出自己的理解和分析。

腾讯元宝团队表示,接下来将把更多精力放在融合模型多模态能力上,进一步提升用户体验。同时,腾讯也在深度搜索和深度长文阅读等方面进行了功能更新,减少了技术细节的暴露,简化了用户操作。

  • 相关推荐
  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • AI重构社交生态 Soul以多模态技术赋能社交

    社交平台Soul正通过AI技术重塑社交生态:1)2016年推出智能推荐系统"灵犀引擎",2020年启动AIGC算法研发,2023年推出自研大模型Soul+X,开发AI虚拟人、智能聊天等应用;2)升级多模态大模型,支持文字对话、语音通话、多语言理解等功能,提供拟人化情感陪伴;3)围绕Z世代需求,促成超10万对情侣步入婚姻,并联合开展心理健康公益活动;4)以"技术+人文"双轮驱动,致力于打造更智能舒适的社交环境,重新定义人机关系。

  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • 最佳雇主安踏集团迎超千名校招生入职 全方位关怀提升幸福感

    安踏集团为应届毕业生提供全方位支持:1)住房保障:推出公租房、住房补贴等多项福利,租金低于市场价50%;2)餐饮福利:自营餐厅提供实惠餐食,每月赠送海鲜等"硬菜";3)健康关怀:年度体检、补充医保及24小时心理咨询服务;4)运动设施:配备海景健身房、30+运动社团和专业教练指导;5)职业发展:建立"高中青三轮驱动"培养体系,新人一对一导师制,最快21个月可晋升至管理岗。2024年集团在员工福利投入超4亿元,计划到2027年累计投入近10亿元。安踏连续三年获评"ESG最佳雇主",致力于打造卓越职场环境。

  • 领先OpenAI三个月,百度文库GenFlow领跑通用Agent领域,2.0版本8月上线

    百度文库即将在8月发布GenFlow2.0版本,该版本具备更强大的多模态能力,支持生成多种内容形态,大幅缩短任务交付时间。相比OpenAI同日发布的ChatGPT+Agent,百度文库早在4月就已上线GenFlow1.0,实现全场景覆盖和全链路调度。GenFlow基于MoE架构,在成本、性能和效率上占优,能快速生成PPT、研报等多样化内容,且依托百度14亿专业文档资源,内容质量更可靠。此外,GenFlow还能调用用户个人数据实现个性化定制,并提供内容后期编辑功能,灵活性更高。

  • 秘塔AI也终于悄悄上线了DeepResearch。

    测试完以后,我觉得这玩意,还是值得我将近通宵写一篇的。 深度研究,也就是DeepResearch。 我过去写过很多次秘塔AI了,因为我自己的搜索习惯,现在基本就是,大活上ChatGPT用DeepResearch,常识问答直接找豆包,一般的AI搜索就是秘塔AI。 当然很多ChatBot产品都有AI搜索,但是我自己这两年,还是习惯用秘塔AI和Perplexity这样形态的原生AI搜索产品了,这可能就是习惯的力量吧。

  • 普渡机器人发布AI扫吸推机器人PUDU MT1 Vac,重新定义智能吸尘新标准

    普渡科技7月15日发布AI扫吸推机器人PUDU MT1Vac,专为大面积吸尘场景设计。产品采用双独立风道系统,吸尘效率提升200%,配备20L超大容量尘污分离系统,单次作业可覆盖1000㎡酒店地毯清洁需求。机器人具备55cm超宽吸尘宽度,集成HEPA级过滤系统,能识别不同地面材质自动调节吸力。搭载激光SLAM+视觉VSLAM融合定位系统,适应酒店、商超等复杂场景。该产品填补了大容量高效吸尘机器人市场空白,推动行业智能化升级。

  • IDC首次“盖章”!以太全光网成独立赛道,锐捷以太彩光领跑市场

    IDC最新报告首次将"以太全光网络"列为独立细分市场,标志着该技术已成为全光园区网络主流架构。锐捷网络凭借彩光方案的技术突破,在中国以太光网络市场份额排名第一。相比传统铜缆和PON技术,以太彩光网络具有四大优势:1)单纤支持160G带宽,波分复用技术避免光纤堆叠;2)继承以太网可靠架构;3)独立链路保障低时延和强隔离;4)简化运维降低成本50%。锐捷已完成从1.0到4.0的迭代,部署近30万间,覆盖教育、医疗等多领域。随着Wi-Fi7和AI终端爆发,以太彩光网络"一次部署十年无忧"的特性,正推动园区网络进入"光进铜退"新时代。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • AI日报:12306 MCP Server上线;百度推AI搜索助手Tizzy.ai;ChatGPT录音模式面向Plus用户开放

    【AI日报】今日AI领域重要动态:1)百度推出无广告智能搜索助手Tizzy.ai,整合影视资源与深度思考功能;2)12306开源火车票查询引擎上线,采用FastAPI架构实现秒级响应;3)ChatGPT向Plus用户全面开放录音功能,支持实时记录与内容总结;4)开源SaaS模板FireGEO助力快速构建现代化Web应用;5)国产工具ReadMeX可一键生成高质量GitHub文档;6)百度AI助手新增视频通话功能,支持方言识别;7)Jacky

今日大家都在搜的词: