X-SAM：打破图像分割的界限，实现任意分割的新突破

2025-08-19 14:57 · 来源： AIbase基地

近日，中山大学、鹏城实验室与美团联合发布了一项名为 X-SAM 的新型图像分割多模态大模型，标志着图像分割技术的一次重要进步。该模型的出现，不仅提高了图像分割的精度，还实现了从 “分割万物” 到 “任意分割” 的重大飞跃。

X-SAM 的核心在于其创新的设计理念，首先引入了统一的输入和输出格式，以适应不同的分割需求。用户可以通过文本查询或视觉查询的方式进行操作，前者适用于通用分割等任务，后者则可通过点、涂鸦等视觉提示实现交互式分割。此外，X-SAM 的输出采用统一表示，使得分割结果能够被有效解读。

为了提升分割效果，X-SAM 采用了双编码器架构，其中一个负责提取全局特征，另一个则关注细粒度特征。这种设计不仅增强了模型的图像理解能力，还确保了分割的精细化。同时，模型还引入了分割连接器和统一分割解码器，前者能够处理多尺度特征，后者则替换了传统的解码器架构，进一步提高了分割性能。

X-SAM 的训练过程分为三个阶段，第一阶段为分割器微调，旨在提升模型的基础分割能力;第二阶段进行对齐预训练，使语言与视觉的嵌入对齐;第三阶段则是混合微调，通过在多个数据集上进行协同训练来优化模型的整体性能。实验结果显示，X-SAM 在20多个分割数据集上均达到了最先进的性能，展现了其卓越的多模态视觉理解能力。

随着 X-SAM 的问世，研究团队希望未来能够将其应用扩展到视频领域，结合时间信息，推动视频理解技术的发展。这一新型模型的成功，不仅为图像分割研究开辟了新方向，也为构建更为通用的视觉理解系统奠定了基础。

代码地址:https://github.com/wanghao9610/X-SAM
Demo地址: https://47.115.200.157:7861

划重点:
🌟 X-SAM 模型实现了从 “分割万物” 到 “任意分割” 的重大飞跃，提升了图像分割的精度和应用范围。
💡 该模型引入统一输入输出格式，支持文本和视觉查询，提升用户交互体验。
🚀 经过三阶段训练，X-SAM 在20多个数据集上达到了最先进性能，为未来的视觉理解系统奠定基础。

相关推荐

腾讯混元图像3.0登顶LMArena榜一

腾讯混元图像3.0模型发布仅一周，即在全球26个顶尖大模型中脱颖而出，登顶LMArena权威榜单首位，成为AI生图领域新王者。其成功得益于三大核心优势：能运用知识推理生成有逻辑内涵的图像；精准实现中英文长文本及细节标注的渲染；兼具真实质感与审美把控。作为开源模型，混元系列已构建覆盖多模态的技术生态，社区衍生模型超3000个，其中混元3D模型下载量超260万次，是全球最受欢迎的3D开源模型。未来腾讯将持续拓展其应用边界。

腾讯混元图像3.0 AI文生图开源生图模型
科研抗老新突破！HBN推出新品双A醇晚霜3.0

HBN品牌六周年之际在上海举办“循迹·求真之旅”护肤讲堂，发布新品“双A醇晚霜3.0”。活动汇聚学界、医界权威，探讨抗老科研前沿与功效护肤趋势。刘玲玲教授分享皮肤衰老临床干预策略，刘玮教授解析系统性衰老生物标志物研究进展。新品基于扎实科研，联合重庆大学、浙大医学院研究A醇抗衰新机制，成果发表于高分期刊。双A醇晚霜3.0创新提出三维“细胞生态网”理念，整合三大自研原料：补骨脂阿魏酸酯实现高效温和，乙基三肽-30瓜氨酸提升皮肤弹性，昆仑雪菊提取物舒缓抗氧。产品质地轻薄易吸收，从根源改善松弛、下垂、皱纹问题，开启系统性抗老新时代。

HBN新品发布会真功效护肤讲堂双A醇晚霜3.0
雷军展示现任小米高管团队：12位高管中有9位都是新面孔

今晚，2025雷军年度演讲正式开启。演讲初始，雷军向大家展示了目前小米的高管团队。他表示，小米12位高管里有9位是新面孔，当年一起创业喝小米粥的人，现在只有林斌和刘德还在，其他的高管都是从

雷军小米高管年度演讲
演唱会神器就选它！vivo X300 Pro灭霸长焦，让你坐后排也能拍出舞台神图

文章聚焦演唱会场景下手机拍摄的挑战与解决方案，指出普通手机因距离远、光线复杂、人物移动快而难以捕捉清晰画面。推荐具备强大长焦能力的手机，并按2000-6000元价位段分类：vivo X300 Pro（5299元起）搭载2亿像素长焦与专业防抖，适合舞台特写；vivo X300标准版（4299元起）性价比更高；荣耀Magic6（3000-4000元）和小米14（中高端）提供均衡长焦体验；小米Civi4 Pro和荣耀100 Pro（2000-3000元）则适合入门用户。强调vivo X300 Pro凭借芯片级影像实力，可突破光线与距离限制，成为记录震撼瞬间的理想工具。

演唱会手机摄影长焦手机推荐高清舞台拍摄
今年中秋流行“爆改月饼”：年轻人用行动打破刻板印象

2025年中秋前夕，年轻人掀起“再造月饼”热潮，通过创意与幽默重新定义传统节令食品。从DIY压模玩法到咸口鲜肉、冰淇凌等跨界新口味，月饼从单一走向多元。这场“爆改月饼”运动以轻松方式延续中秋文化内核，既融入地方特色食材，也实现甜品与糕点的跨界融合。看似“胡闹”的举动，实则是年轻人以独特方式参与节日仪式感构建，背后是对“团圆”寓意的深层守望。无论选择传统莲蓉双黄还是创意新品，本质上都是对中秋情感的延续。这场变革让月饼从“节日限定”转向“日常美好”，为传统文化注入时代活力。

再造月饼爆改月饼月饼创新
荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

快手发布KAT系列代码大模型，腾讯推出“混元图像3.0”实现多模态突破，苹果研发类ChatGPT应用升级Siri，谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型，YouTube Music测试AI音乐主播功能，VideoFrom3D框架简化3D视频生成，Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型，展现强大性能。

AI日报快手KAT系列大模型
从控氧保鲜到平嵌美学，卡萨帝冰箱为何总能率先打破行业边界？

9月27日，卡萨帝发布致境冰箱，以超99%营养留存率和平嵌美学重新定义高端冰箱。其持续引领行业的核心在于深耕用户需求、投入科技研发及链接高端圈层。通过控温、控湿、控氧三重保鲜技术，实现果蔬7天新鲜如初；原创平嵌科技实现家居融合。卡萨帝已与超6000位设计师合作，沉淀超5万用户，并推出AI鉴赏家冰箱，推动行业从被动保鲜迈向主动健康管理新纪元。

卡萨帝冰箱高端冰箱营养留存率
17岁“小胖丫”跳拉丁舞火出圈打破身材偏见展魅力

17岁淮南少女王香屿因拉丁舞表演走红网络。她虽体型圆润，却以自信舞姿打破传统舞者身材刻板印象，坦言“发胖仍跳舞是因为有自信”。从童年习芭蕾到近年坚持狂舞，她在社交平台积累6万粉丝，获称“养成系博主”。其身影从校园舞台延伸至央视春晚，更在大学迎新晚会赢得满堂彩，用行动诠释热爱与坚持的力量，传递积极审美观。

拉丁舞自信网络走红
一图看懂OPPO Find X9系列影像系统 OPPO周意保：画质革命

OPPO Find X9系列9月29日官宣影像系统，负责人周意保称将掀起移动影像画质革命。该系列在五大技术上突破：AOA主动光学校准、第四代徕卡色彩还原镜头、瞬时三曝光、满血版LYT-828传感器、LUMO超像素引擎并行异构计算，并首发3nm算力芯片。支持哈苏2亿像素直出、全焦段8K超清照片、4K超清实况照片及小红书分享链路。针对旅拍优化人像拍摄，配备专业增距镜等配件。视频支持4K 120fps杜比视界HDR、10bit Log格式及哈苏大师影调。10月16日发布，值得期待。

OPPO Find X9
最贵的最抢手！雷军：小米17 Pro Max首销占比超50%打破国产手机单机记录

小米17系列今天上午10点首销，起售价4499元，这次共三款机型，分别是小米17、小米17 Pro、小米17 Pro Max。其中，小米17和小米17 Pro是6.3英寸小直屏，小米17 Pro Max是6.9英寸大直屏。值得注意的是，按照前两代的经验来看，应该是小屏版本更受欢迎，销量更高，而这次却是一反常态，最贵的大直屏销量更高。

小米17系列首销销量纪录

今日大家都在搜的词：

热文

3 天
7天

X-SAM：打破图像分割的界限，实现任意分割的新突破

腾讯混元图像3.0登顶LMArena榜一

科研抗老新突破！HBN推出新品双A醇晚霜3.0

雷军展示现任小米高管团队：12位高管中有9位都是新面孔

演唱会神器就选它！vivo X300 Pro灭霸长焦，让你坐后排也能拍出舞台神图

今年中秋流行“爆改月饼”：年轻人用行动打破刻板印象

荐AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Coding大模型；苹果悄然研发ChatGPT式应用

从控氧保鲜到平嵌美学，卡萨帝冰箱为何总能率先打破行业边界？

17岁“小胖丫”跳拉丁舞火出圈打破身材偏见展魅力

一图看懂OPPO Find X9系列影像系统 OPPO周意保：画质革命

最贵的最抢手！雷军：小米17 Pro Max首销占比超50%打破国产手机单机记录

今日大家都在搜的词：

热文

比特币价格突破12.5万美元刷新历史最高纪录

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

雷军：小米17系列开售仅5天销量破100万台

理想汽车推出焕新版L系限时优惠 10 月 8 日前享1.5万置换补贴

小米回应“小米汽车突然自己开走”：排除车辆质量问题

马斯克个人财富达5000亿美元特斯拉市值飙升助力

鸿蒙智行9月交付新车52916台：全系累计交付突破95万台

比特币价格突破12.5万美元刷新历史最高纪录

小米17 1TB版明日开售售价5299元

乔布斯逝世14周年库克发文缅怀：我们深切怀念你

腾讯混元图像3.0登顶LMArena榜一

小米 17 标准版1TB版本 5299 元开售全系列销量同比增超20%

雷军：小米17系列开售仅5天销量破100万台

站长商机

​X-SAM：打破图像分割的界限，实现任意分割的新突破

今日大家都在搜的词：

热文

站长商机

X-SAM：打破图像分割的界限，实现任意分割的新突破