首页 > AI头条  > 正文

​X-SAM:打破图像分割的界限,实现任意分割的新突破

2025-08-19 14:57 · 来源: AIbase基地

近日,中山大学、鹏城实验室与美团联合发布了一项名为 X-SAM 的新型图像分割多模态大模型,标志着图像分割技术的一次重要进步。该模型的出现,不仅提高了图像分割的精度,还实现了从 “分割万物” 到 “任意分割” 的重大飞跃。

image.png

X-SAM 的核心在于其创新的设计理念,首先引入了统一的输入和输出格式,以适应不同的分割需求。用户可以通过文本查询或视觉查询的方式进行操作,前者适用于通用分割等任务,后者则可通过点、涂鸦等视觉提示实现交互式分割。此外,X-SAM 的输出采用统一表示,使得分割结果能够被有效解读。

为了提升分割效果,X-SAM 采用了双编码器架构,其中一个负责提取全局特征,另一个则关注细粒度特征。这种设计不仅增强了模型的图像理解能力,还确保了分割的精细化。同时,模型还引入了分割连接器和统一分割解码器,前者能够处理多尺度特征,后者则替换了传统的解码器架构,进一步提高了分割性能。

X-SAM 的训练过程分为三个阶段,第一阶段为分割器微调,旨在提升模型的基础分割能力;第二阶段进行对齐预训练,使语言与视觉的嵌入对齐;第三阶段则是混合微调,通过在多个数据集上进行协同训练来优化模型的整体性能。实验结果显示,X-SAM 在20多个分割数据集上均达到了最先进的性能,展现了其卓越的多模态视觉理解能力。

随着 X-SAM 的问世,研究团队希望未来能够将其应用扩展到视频领域,结合时间信息,推动视频理解技术的发展。这一新型模型的成功,不仅为图像分割研究开辟了新方向,也为构建更为通用的视觉理解系统奠定了基础。

  • 代码地址:https://github.com/wanghao9610/X-SAM

  • Demo地址: https://47.115.200.157:7861

划重点:

🌟 X-SAM 模型实现了从 “分割万物” 到 “任意分割” 的重大飞跃,提升了图像分割的精度和应用范围。  

💡 该模型引入统一输入输出格式,支持文本和视觉查询,提升用户交互体验。  

🚀 经过三阶段训练,X-SAM 在20多个数据集上达到了最先进性能,为未来的视觉理解系统奠定基础。

  • 相关推荐
  • 腾讯混元图像3.0登顶LMArena榜一

    腾讯混元图像3.0模型发布仅一周,即在全球26个顶尖大模型中脱颖而出,登顶LMArena权威榜单首位,成为AI生图领域新王者。其成功得益于三大核心优势:能运用知识推理生成有逻辑内涵的图像;精准实现中英文长文本及细节标注的渲染;兼具真实质感与审美把控。作为开源模型,混元系列已构建覆盖多模态的技术生态,社区衍生模型超3000个,其中混元3D模型下载量超260万次,是全球最受欢迎的3D开源模型。未来腾讯将持续拓展其应用边界。

  • 科研抗老新突破!HBN推出新品双A醇晚霜3.0

    HBN品牌六周年之际在上海举办“循迹·求真之旅”护肤讲堂,发布新品“双A醇晚霜3.0”。活动汇聚学界、医界权威,探讨抗老科研前沿与功效护肤趋势。刘玲玲教授分享皮肤衰老临床干预策略,刘玮教授解析系统性衰老生物标志物研究进展。新品基于扎实科研,联合重庆大学、浙大医学院研究A醇抗衰新机制,成果发表于高分期刊。双A醇晚霜3.0创新提出三维“细胞生态网”理念,整合三大自研原料:补骨脂阿魏酸酯实现高效温和,乙基三肽-30瓜氨酸提升皮肤弹性,昆仑雪菊提取物舒缓抗氧。产品质地轻薄易吸收,从根源改善松弛、下垂、皱纹问题,开启系统性抗老新时代。

  • 雷军展示现任小米高管团队:12位高管中有9位都是新面孔

    今晚,2025雷军年度演讲正式开启。 演讲初始,雷军向大家展示了目前小米的高管团队。 他表示,小米12位高管里有9位是新面孔,当年一起创业喝小米粥的人,现在只有林斌和刘德还在,其他的高管都是从

  • 演唱会神器就选它!vivo X300 Pro灭霸长焦,让你坐后排也能拍出舞台神图

    文章聚焦演唱会场景下手机拍摄的挑战与解决方案,指出普通手机因距离远、光线复杂、人物移动快而难以捕捉清晰画面。推荐具备强大长焦能力的手机,并按2000-6000元价位段分类:vivo X300 Pro(5299元起)搭载2亿像素长焦与专业防抖,适合舞台特写;vivo X300标准版(4299元起)性价比更高;荣耀Magic6(3000-4000元)和小米14(中高端)提供均衡长焦体验;小米Civi4 Pro和荣耀100 Pro(2000-3000元)则适合入门用户。强调vivo X300 Pro凭借芯片级影像实力,可突破光线与距离限制,成为记录震撼瞬间的理想工具。

  • 今年中秋流行“爆改月饼”:年轻人用行动打破刻板印象

    2025年中秋前夕,年轻人掀起“再造月饼”热潮,通过创意与幽默重新定义传统节令食品。从DIY压模玩法到咸口鲜肉、冰淇凌等跨界新口味,月饼从单一走向多元。这场“爆改月饼”运动以轻松方式延续中秋文化内核,既融入地方特色食材,也实现甜品与糕点的跨界融合。看似“胡闹”的举动,实则是年轻人以独特方式参与节日仪式感构建,背后是对“团圆”寓意的深层守望。无论选择传统莲蓉双黄还是创意新品,本质上都是对中秋情感的延续。这场变革让月饼从“节日限定”转向“日常美好”,为传统文化注入时代活力。

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • 从控氧保鲜到平嵌美学,卡萨帝冰箱为何总能率先打破行业边界?

    9月27日,卡萨帝发布致境冰箱,以超99%营养留存率和平嵌美学重新定义高端冰箱。其持续引领行业的核心在于深耕用户需求、投入科技研发及链接高端圈层。通过控温、控湿、控氧三重保鲜技术,实现果蔬7天新鲜如初;原创平嵌科技实现家居融合。卡萨帝已与超6000位设计师合作,沉淀超5万用户,并推出AI鉴赏家冰箱,推动行业从被动保鲜迈向主动健康管理新纪元。

  • 17岁“小胖丫”跳拉丁舞火出圈 打破身材偏见展魅力

    17岁淮南少女王香屿因拉丁舞表演走红网络。她虽体型圆润,却以自信舞姿打破传统舞者身材刻板印象,坦言“发胖仍跳舞是因为有自信”。从童年习芭蕾到近年坚持狂舞,她在社交平台积累6万粉丝,获称“养成系博主”。其身影从校园舞台延伸至央视春晚,更在大学迎新晚会赢得满堂彩,用行动诠释热爱与坚持的力量,传递积极审美观。

  • 一图看懂OPPO Find X9系列影像系统 OPPO周意保:画质革命

    OPPO Find X9系列9月29日官宣影像系统,负责人周意保称将掀起移动影像画质革命。该系列在五大技术上突破:AOA主动光学校准、第四代徕卡色彩还原镜头、瞬时三曝光、满血版LYT-828传感器、LUMO超像素引擎并行异构计算,并首发3nm算力芯片。支持哈苏2亿像素直出、全焦段8K超清照片、4K超清实况照片及小红书分享链路。针对旅拍优化人像拍摄,配备专业增距镜等配件。视频支持4K 120fps杜比视界HDR、10bit Log格式及哈苏大师影调。10月16日发布,值得期待。

  • 最贵的最抢手!雷军:小米17 Pro Max首销占比超50%打破国产手机单机记录

    小米17系列今天上午10点首销,起售价4499元,这次共三款机型,分别是小米17、小米17 Pro、小米17 Pro Max。 其中,小米17和小米17 Pro是6.3英寸小直屏,小米17 Pro Max是6.9英寸大直屏。 值得注意的是,按照前两代的经验来看,应该是小屏版本更受欢迎,销量更高,而这次却是一反常态,最贵的大直屏销量更高。

今日大家都在搜的词: