轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

2024-04-22 17:07 · 稿源：量子位公众号

一个可以自动分析PDF、网页、海报、Excel图表内容的大模型，对于打工人来说简直不要太方便。上海AI Lab，香港中文大学等研究机构提出的InternLM-XComposer2-4KHD（简写为IXC2-4KHD）模型让这成为了现实。相比于其他多模态大模型不超过1500x1500的分辨率限制，该工作将多模态大模型

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

（举报）

相关推荐

关键词：

多模态大模型

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠
荣耀Magic 8系列上新，火山引擎助力“YOYO助理”多模态升级

10月15日，荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等年度旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力，结合火山引擎与豆包大模型技术，支持联网问答、识图、修图、闲陪伴、口语练习、出行规划等场景，提供图文、语音、视频等多种输入输出形式，实现秒级响应与沉浸式交互体验，成为用户“口袋里的万能管家”。

荣耀Magic8系列 MagicOS10操作系统 YOYO助理
荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

10月15日，荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力，支持图文、语音、视频输入及多样化内容输出，结合火山引擎的豆包大模型技术，提供联网问答、智能识图、创意修图、出行规划等场景服务，实现“有问必答、答则精准”的智慧体验，成为用户贴身的“万能管家”。

荣耀Magic8系列 MagicOS10 YOYO助理
机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

银河通用发布全球首个跨本体全域环视导航基座大模型NavFoM，实现机器人从“学会完成导航任务”到“真正理解移动”的跨越。该模型支持全场景、多任务、跨本体应用，通过统一“视频流+文本指令→动作轨迹”范式，融合800万条跨任务导航数据，在真实机器人上实现零样本自主避障、路径规划等复杂任务。其技术突破将推动具身智能从单一功能进化为基础设施，为规模化商业落地奠定关键基础。

机器狗导航大模型 TrackVLA
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
来教装展，看全栈自主可控国产教育大模型何以赋能教学？

10月24-26日，第86届中国教育装备展在青岛举行。科大讯飞以“全栈自主可控国产教育大模型”为核心，展示五大智慧教育场景：智慧教学通过AI黑板实现师生协同，提升效率；科学教育推出AI虚拟科学家互动平台，激发探索精神；身心健康方案构建体育健康闭环与心理服务体系；教育治理推出数据驱动决策平台；学前教育引入游戏化学习产品。目前方案已覆盖全国5万余所学校，服务超1.3亿师生，展现AI从工具升级为“教育伴侣”的价值。

教育装备展示会人工智能+教育智慧教学
寒武纪：构建大模型开发到部署的全流程开放服务能力

华鑫证券研报显示，寒武纪2025年上半年业绩亮眼，营收28.81亿元，同比增长4347.82%；归母净利润10.38亿元，增长295.82%。公司募资39.85亿元，重点投向大模型芯片及软件平台建设，以增强AI算力芯片综合实力。凭借云边端一体、软硬协同等技术优势，其产品已获多领域客户认可，覆盖金融、互联网等行业。未来随着技术迭代与生态完善，业绩有望持续提升。

寒武纪 AI算力芯片大模型芯片
免费 GEO品牌可见度查询——让大模型信得过就这么玩

本文探讨在AI时代如何成为大模型信赖的信息源。关键点包括：可信信息源需具备数据来源清晰、内容结构化、可验证追踪等能力；提出五大实操要点——确保数据干净可追溯、采用RAG等技术增强可检索性、保持内容更新与时效性、强化品牌可见度、建立反馈优化机制。同时推荐使用AIBase平台的GEO排名查询工具免费监测内容可见度，通过持续优化提升在大模型入口的推荐概率。

文章搜索核心标签可信信息源
如何检查你的网站是否被大模型引用？AI排名查询工具推荐

本文探讨AI搜索时代网站流量获取新逻辑：传统SEO因Google搜索"零点击"现象失效，而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口，并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议：建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代，内容被LLM引用已成为新的流量生命线。

今日大家都在搜的词：

热文

3 天
7天

轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

荣耀Magic 8系列上新，火山引擎助力“YOYO助理”多模态升级

荣耀年度旗舰上新，火山引擎助力“YOYO助理”多模态智慧再升级

机器人“全能导航大脑”来了！银河通用发布NavFoM大模型

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

来教装展，看全栈自主可控国产教育大模型何以赋能教学？

寒武纪：构建大模型开发到部署的全流程开放服务能力

免费 GEO品牌可见度查询——让大模型信得过就这么玩

如何检查你的网站是否被大模型引用？AI排名查询工具推荐

今日大家都在搜的词：

热文

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

华为Mate70 Air官宣今日开启预售

何小鹏回应机器人IRON里是真人质疑：感谢认可

华为路由X3 Pro今日开启预售：售价1299元起

文件传输工具奶牛快传宣布12月8日正式停止服务

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

鸿蒙HarmonyOS 6与iOS数据互传功能预计12月上线

阿里回应饿了么更名：正处于灰度测试阶段

AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功

DeepSeek崩了上热搜页面显示“服务器繁忙”

特斯拉Cybercab不配备方向盘和踏板预计2026年二季度下线

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

OPPO ColorOS 16正式版11月升级机型公布：支持23款机型

站长商机