首页 > 业界 > 关键词  > 正文

蚂蚁集团研发多模态遥感基础模型SkySense,可用于地貌地物观测解译

2024-02-28 09:52 · 稿源:站长之家

站长之家(ChinaZ.com) 2月28日 消息:近日,蚂蚁集团推出20亿参数多模态遥感基础模型SkySense,这是蚂蚁百灵大模型在多模态领域最新的研发成果,其论文已被世界计算机视觉顶会CVPR2024接收。数据显示,SkySense在17项测试场景中指标均超过国际同类产品,这也是迄今为止国际上参数规模最大、覆盖任务最全、识别精度最高的多模态遥感基础模型。SkySense可用于地貌、农作物观测和解译等,有效辅助农业生产和经营。

image.png

(图片说明:SkySense在17项评测中均超过国际上最新的遥感模型)

随着人工智能的发展,大模型技术与卫星遥感技术相结合产生了新突破。SkySense是蚂蚁集团基于蚂蚁百灵大模型平台能力开发的多模态遥感模型。

SkySense在总计17项国际权威公开数据集进行了测评,其测试任务类型包括了土地利用监测、高分辨率目标识别、地物变化检测等7种常见遥感感知任务,并与国际上已发布的包括IBM和NASA联合研发的Prithvi等共18个全球主流同类模型做了测试结果比较。数据显示,17项测评中SkySense均名列第一。譬如,在国际高清遥感地物检测榜单FAIR1M2.0中,SkySense平均精度(mAP)领先第二名超3%。

在刚刚公布的CVPR2024论文入选结果上,SkySense的研究成果亦被收录。CVPR是由IEEE举办的计算机视觉和模式识别领域的顶级会议,是国际计算机视觉三大顶会之一。

传统的遥感影像理解技术,往往侧重于针对单一模态单一任务建模,缺乏对多模态数据、时间序列、地理先验知识的综合建模和利用,限制了其在海量数据和多种任务中的泛化能力。SkySense突破以上技术瓶颈,实现了文本、红外光、可见光、SAR雷达多种模态、多分辨率的时序遥感影像建模,在多样化的任务中展现出优异性能。在蚂蚁百灵大模型多模态能力支持下,研发人员基于内部构建的19亿遥感影像数据集进行预训练,得到了20.6亿参数量的模型SkySense,这也是迄今为止国际上参数规模最大、覆盖任务最全、识别精度最高的多模态遥感大模型。SkySense可广泛应用于城市规划、森林保护、应急救灾、绿色金融、农业监测等重要领域,目前通过蚂蚁内部MEarth平台提供数据与识别服务。

据了解,蚂蚁集团正在计划开放Skysense模型参数,与行业共建,促进智能遥感技术与应用发展。

SkySense由蚂蚁AI创新研发部门NextEvo与武汉大学联合研发。NextEvo是蚂蚁AI核心技术研发团队,主导了蚂蚁百灵大模型的研发工作,其研发方向涉及CV、NLP、多模态、AIGC、数字人、AI工程化等核心技术。去年,该部门升级了多模态团队,由杨铭带队全面布局多模态技术。杨铭美国西北大学博士,FacebookAIResearch(FAIR)创始成员,去年加入蚂蚁集团,先后就职于NEC美国实验室、FAIR、地平线机器人公司,是世界知名计算机视觉研究专家。

目前,蚂蚁集团多模态研究成果已应用于支付宝五福节AI大规模互动、蚂蚁医疗数字人等场景。

举报

  • 相关推荐
  • 武大、蚂蚁集团发布新一代遥感大模型:12边型战士

    近日,武汉大学与蚂蚁集团联合发布了新一代语义增强遥感大模型SkySense,堪称12边型战士。 其相关研究成果在国际知名学术期刊《自然机器智能》上在线发表。 当前,遥感基础大模型在复杂动态地球观测场景应用中面临挑战,如多模态遥感影像数据融合性能欠佳、下游任务微调依赖大量数据、对遥感语义信息挖掘不足等。 为攻克这些难题,研究团队基于前期多模态遥感大�

  • 寒武纪智能芯片赋能多模态大模型应用

    大模型快速发展推动人工智能技术迈向新阶段,从解决特定任务的弱人工智能向处理通用复杂任务的强人工智能演进。IDC报告显示,2024年中国大模型开发平台市场规模达16.9亿元,人工智能算力市场约190亿美元,预计2025年将达259亿美元。寒武纪等企业专注AI芯片研发,推出多款处理器及加速卡产品,支持大模型训练推理及多模态任务,并与产业链合作共同推进人工智能产业发展。

  • AI日报:B站测试AI视频工具花生AI;腾讯发布多模态模型Large-Vision;昆仑万维开源Skywork UniPic 2.0

    【AI日报】主要内容: 1. B站测试"花生AI"视频工具,3分钟可成片,同时推进自研大模型和多语言翻译功能 2. 昆仑万维开源多模态模型Skywork UniPic 2.0,实现高效统一的多模态生成能力 3. 马斯克指责苹果偏袒OpenAI,苹果回应称平台设计公平公正 4. 腾讯混元发布52B参数多模态理解模型Large-Vision,支持任意分辨率输入 5. DeepSeek官方否认8月发布R2模型的传闻 6. OpenAI推出超值ChatGPT Go套餐,仅399卢比降低使用门槛 7. AI新贵Perplexity豪掷345亿美元收购谷歌Chrome 8. Anthropic的Claude Sonnet 4模型支持100万token上下文 9. ChatGPT重大更新:恢复GPT-4o默认模式,为GPT-5引入多模式选择,优化交互体验

  • AI日报:GPT-5正式发布;百度将推文心5.0大模型;知网发布AIKBase V2.0多模态数据管理系统

    《AI日报》精选AI领域最新动态:1)OpenAI发布GPT-5模型,具备强大多模态能力但推理任务仍有局限;2)知网推出AIKBase V2.0多模态数据管理系统;3)Ideogram新增"角色"功能实现图像风格统一;4)Cursor发布CLI版本支持终端AI编程;5)百度即将推出全新推理模型和文心5.0大模型;6)dots.ocr推出1.7B参数多语言文档解析工具;7)特斯拉解散Dojo超算团队转向英伟达合作;8)谷歌Pixel 10引入AI相�

  • 微信聊天可以引用部分文字了!还可用表情包回复

    今日,微信派正式对外宣布,微信聊天新增引用部分文字功能,为用户交流带来全新便捷体验。 在过去,微信用户进行引用回复时,存在明显局限,只能将整条文字消息完整引用。当好友发来大段文字,而自己仅想引用其中某段精华内容时,就显得十分不便。 如今,这一状况得到极大改善。用户收到好友发来的大段文字消息后,若只想引用其中特定部分,可手动进行选择,�

  • AI 大模型选型指南:如何在众多模型中找到最适合你的那一个?

    本文探讨了如何从众多AI大模型中选择最适合自身需求的模型。文章提出应从四个核心维度进行评估:1)核心能力对比,包括通用任务表现和特定领域专长;2)成本与效率,考量API调用成本和响应速度;3)本地化与数据安全,满足合规要求;4)生态与社区支持,关注开发者活跃度和文档完善度。为解决模型对比难题,推荐使用专业平台如AIbase模型广场,可一站式对比主流模型的多维参数和评测数据。通过系统化评估,开发者能更高效地选择契合业务需求的AI模型。

  • 男子偷580斤西瓜都吃光:蚂蚁搬家式 偷4次被抓

    ​近日,一家水果店老板向警方报案,称放在店旁卡车里的西瓜频繁被盗。尽管西瓜用麻布严严实实地遮盖着,可还是没能躲过窃贼的“黑手”。据老板反映,截至报案时,已有40多个西瓜被盗,总重量超过580斤,经济损失约1500元。 民警经过细致调查发现,从7月5日开始,到11日凌晨1点至3点这个时间段,总有一名男子鬼鬼祟祟地靠近放置西瓜的卡车。他先是小心翼翼地用小刀

  • 同比增长17%!腾讯Q2研发投入202.5亿元 混元3D大模型接连突破

    腾讯控股今日发布了截至6月30日的2025年第二季度财报。营收为1845亿元,同比增长15%,经营利润(Non-IFRS)692.5亿元,同比增18%。 财报显示,当季腾讯研发投入达202.5亿元,同比增长17%;资本开支 191.1亿元,同比增幅达119%。在持续加码AI战略的推动下,AI技术带来的效益正在加速显现。 AI高投入背景下,腾讯通过数据增强与合成技术,提升了数据的质量与多样性,并通过更有效�

  • 赛事全面升级!2025TGA无畏契约蚂蚁电竞全国挑战赛火热进行中!

    2025年TGA无畏契约蚂蚁电竞全国挑战赛正式启动,覆盖全国13座城市,赛程从7月持续至11月。赛事新增资格赛环节,采用BO1海选+BO3晋级赛制,降低参与门槛同时保证专业性。最大亮点是打通职业通道——总决赛优胜者将直通无畏契约全国大赛16强,并有机会进入TE俱乐部青训营。蚂蚁电竞还将升级外设产品线,深化与KOL联动,构建连接大众热情与职业生态的桥梁。赛事奖金丰厚,冠军3万元,并设有晋级全国大赛的额外奖励。

  • 重磅!标贝科技推出「十万音色·自然语音数据集」 重构AI语音训练基础设施

    标贝科技发布"十万音色·自然语音数据集",覆盖中英双语,包含10万种音色样本(中文5万、英文5万),基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破,支持多情感表达和跨场景应用,涵盖基础情绪到特定风格,话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术,从海量数据中甄选出高质量样本,为语音识别、合成等AI模型训练提供坚实基础,助力实现更自然、真实的语音交互体验。

今日大家都在搜的词: