首页 > AI头条  > 正文

​X-SAM:打破图像分割的界限,实现任意分割的新突破

2025-08-19 14:57 · 来源: AIbase基地

近日,中山大学、鹏城实验室与美团联合发布了一项名为 X-SAM 的新型图像分割多模态大模型,标志着图像分割技术的一次重要进步。该模型的出现,不仅提高了图像分割的精度,还实现了从 “分割万物” 到 “任意分割” 的重大飞跃。

image.png

X-SAM 的核心在于其创新的设计理念,首先引入了统一的输入和输出格式,以适应不同的分割需求。用户可以通过文本查询或视觉查询的方式进行操作,前者适用于通用分割等任务,后者则可通过点、涂鸦等视觉提示实现交互式分割。此外,X-SAM 的输出采用统一表示,使得分割结果能够被有效解读。

为了提升分割效果,X-SAM 采用了双编码器架构,其中一个负责提取全局特征,另一个则关注细粒度特征。这种设计不仅增强了模型的图像理解能力,还确保了分割的精细化。同时,模型还引入了分割连接器和统一分割解码器,前者能够处理多尺度特征,后者则替换了传统的解码器架构,进一步提高了分割性能。

X-SAM 的训练过程分为三个阶段,第一阶段为分割器微调,旨在提升模型的基础分割能力;第二阶段进行对齐预训练,使语言与视觉的嵌入对齐;第三阶段则是混合微调,通过在多个数据集上进行协同训练来优化模型的整体性能。实验结果显示,X-SAM 在20多个分割数据集上均达到了最先进的性能,展现了其卓越的多模态视觉理解能力。

随着 X-SAM 的问世,研究团队希望未来能够将其应用扩展到视频领域,结合时间信息,推动视频理解技术的发展。这一新型模型的成功,不仅为图像分割研究开辟了新方向,也为构建更为通用的视觉理解系统奠定了基础。

  • 代码地址:https://github.com/wanghao9610/X-SAM

  • Demo地址: https://47.115.200.157:7861

划重点:

🌟 X-SAM 模型实现了从 “分割万物” 到 “任意分割” 的重大飞跃,提升了图像分割的精度和应用范围。  

💡 该模型引入统一输入输出格式,支持文本和视觉查询,提升用户交互体验。  

🚀 经过三阶段训练,X-SAM 在20多个数据集上达到了最先进性能,为未来的视觉理解系统奠定基础。

  • 相关推荐
  • 61岁大爷娶小16岁妻子结婚当日脑梗 房产分割诉请遭驳

    ​2016年,61岁的上海王老伯与小自己16岁的任芳步入婚姻殿堂,然而婚礼当天突发脑梗,病情逐渐恶化至2019年完全瘫痪失能,生活陷入无法自理的境地。王老伯与女儿王静对一处旧改安置房各享有50%产权,并曾获得200余万元补偿款,其中王老伯个人分得110余万元。 2021年,经法院诉讼程序,任芳被指定为王老伯的唯一监护人。随后,她代表王老伯起诉王静,要求分割征收利益�

  • 微算法科技(NASDAQ: MLGO)研发区块链可逆图像隐藏算法,提高信息隐藏完整性

    数字时代的信息安全需求催生了图像隐藏技术的持续演进。传统算法在密钥管理、抗攻击能力和认证机制方面存在固有缺陷,难以满足医疗、金融等领域的严苛安全要求。区块链技术的分布式账本特性与智能合约机制,为构建可信认证体系提供了新路径。微算法科技(NASDAQ: MLGO)研发区块链可逆图像隐藏算法(Blockchain-based Reversible Image Steganography Algorithm,BRISA),通过融合混沌加�

  • 从24小时直播到破界进化:智元机器人的技术突破与未来图景

    智元机器人远航A2在上海浦东新区完成全球首次24小时户外行走直播挑战,成功验证了人形机器人在高温、弱光等复杂环境下的自主行走能力。活动期间还举办了圆桌论坛,探讨AI与机器人融合的技术突破与未来形态。专家指出,通用智能的核心在于泛化能力,需突破传统自动化规则式弱AI的限制。未来十年,人形机器人有望在养老护理、太空建设等场景实现突破,逐步成为人类生活的延伸工具。安全是商业化前提,需构建覆盖硬件、软件、算法的全链路冗余体系。当前技术瓶颈在于小脑与大脑的协同,需上下游生态伙伴共同攻克。

  • AI日报:腾讯混元开源Hunyuan-GameCraft;最强图像编辑器nano-banana发布;字节开源Agent专用模型 M3-Agent-Control

    本文介绍了AI领域最新动态:1)腾讯开源Hunyuan-GameCraft框架,可快速生成高质量游戏视频;2)Nano-Banana模型在图像编辑领域超越FLUX+Kontext;3)字节开源基于Qwen 3 32B的328亿参数M3-Agent-Control模型;4)Kimi将推出PPT生成功能;5)阿里1688将上线"诚信通AI版"会员服务;6)苹果智能家居中心推迟至2026年发布;7)万兴科技接入GPT-5;8)全球AI独角兽达498家,总估值2.7万亿美元;9)谷歌为Slides和

  • 曝iPhone 18相机巨变:首发三星全新图像传感器

    据媒体报道,三星在得克萨斯州的一家工厂为即将推出的iPhone生产下一代图像传感器芯片,这标志着三星将会打破索尼在果链一家独大的局面,是苹果历史上的一次重大转变。 爆料称这颗芯片是三层堆叠图像传感器,通过垂直堆叠多个传感器层,能实现更高的像素密度和更出色的暗光性能,堆叠传感器架构还能提高读取速度、降低功耗并提升动态范围,这种制造工艺尚未实现

  • 国产操作系统新突破:KARE容器技术拓展应用生态边界

    KARE(麒麟应用运行时环境)是一种基于容器技术的Linux应用兼容解决方案,主要解决银河麒麟操作系统与其他Linux发行版间的应用兼容问题。其核心优势包括:1.通过资源隔离技术实现跨发行版应用稳定运行;2.相比传统虚拟机更节省系统资源;3.应用崩溃不会影响系统安全;4.卸载时能彻底清理残留文件。典型应用场景包括:旧版软件在新系统运行、特定开发环境维护、依赖复杂应用部署等。KARE将持续扩展兼容范围,完善国产操作系统生态体验。

  • 昇腾赋能三维生成新突破!浙大团队实现跨模态可控3D CAD建模

    浙江大学与魔芯科技团队合作,基于昇腾平台NPU开发了首个三维模型生成算法Img2CAD。该技术突破性地将草图、图片等多模态输入通过Transformer结构高效转化为三维几何信息,无需可微渲染器,完整在NPU上实现训练和推理。研究成果可生成高精度3D模型,直接导入CAD软件编辑,已应用于3D打印、数字制造等领域。项目完成3篇论文,包括1篇中科院1区期刊和2篇CCF-A类会议论文,部分成果实现商业化落地。该技术标志着智能三维内容创作进入"低门槛、高效率、高质量"新阶段,未来将为工业设计、AR/VR等行业提供创新动能。

  • 江波龙企业级存储:从SOCAMM技术落地看中国存储企业的硬实力

    2025年全球数字化浪潮加速,半导体存储市场迎来变革。中国企业江波龙凭借全链条存储解决方案能力,在数据中心、云计算、AI训练等核心场景取得突破。其即将推出的革命性产品SOCAMM采用LPDDR5X技术,带宽达传统DDR5的2.5倍,延迟降低20%,功耗仅为标准产品的1/3,并支持液冷技术优化数据中心PUE值。该产品通过14×90mm紧凑设计实现高密度部署,已与头部客户完成联合开发,未来将批量应用于NVIDIA Grace Blackwell等顶级平台。江波龙正加速构建"技术-产品-生态"闭环,第二代SOCAMM带宽将达400GB/s,并与戴尔、联想等厂商深化合作推动方案标准化。在绿色数据中心、边缘计算、智能驾驶等新兴领域持续拓展,有望成为全球存储新范式的定义者。

  • 时空壶X1:以技术硬实力领航AI同传领域

    时空壶X1同声传译器凭借AI技术革新翻译行业,支持40种语言93种口音识别,翻译准确率达95%。其自主研发的Babel OS系统整合语音识别、翻译与合成功能,通过端云协同技术确保复杂环境下的稳定服务。产品已应用于国际会议、商务谈判等场景,支持20人5种语言实时交互,并创新推出"演讲翻译"模式,单设备即可服务50名观众。在深圳文博会等国际活动中表现优异,噪声环境下仍保持92%识别率。X1推动行业从传统人工翻译向轻量化、智能化转型,降低企业使用门槛,成为跨国交流的核心工具。

今日大家都在搜的词: