首页 > 业界 > 关键词  > 正文

蚂蚁集团研发多模态遥感基础模型SkySense,可用于地貌地物观测解译

2024-02-28 09:52 · 稿源:站长之家

站长之家(ChinaZ.com) 2月28日 消息:近日,蚂蚁集团推出20亿参数多模态遥感基础模型SkySense,这是蚂蚁百灵大模型在多模态领域最新的研发成果,其论文已被世界计算机视觉顶会CVPR2024接收。数据显示,SkySense在17项测试场景中指标均超过国际同类产品,这也是迄今为止国际上参数规模最大、覆盖任务最全、识别精度最高的多模态遥感基础模型。SkySense可用于地貌、农作物观测和解译等,有效辅助农业生产和经营。

image.png

(图片说明:SkySense在17项评测中均超过国际上最新的遥感模型)

随着人工智能的发展,大模型技术与卫星遥感技术相结合产生了新突破。SkySense是蚂蚁集团基于蚂蚁百灵大模型平台能力开发的多模态遥感模型。

SkySense在总计17项国际权威公开数据集进行了测评,其测试任务类型包括了土地利用监测、高分辨率目标识别、地物变化检测等7种常见遥感感知任务,并与国际上已发布的包括IBM和NASA联合研发的Prithvi等共18个全球主流同类模型做了测试结果比较。数据显示,17项测评中SkySense均名列第一。譬如,在国际高清遥感地物检测榜单FAIR1M2.0中,SkySense平均精度(mAP)领先第二名超3%。

在刚刚公布的CVPR2024论文入选结果上,SkySense的研究成果亦被收录。CVPR是由IEEE举办的计算机视觉和模式识别领域的顶级会议,是国际计算机视觉三大顶会之一。

传统的遥感影像理解技术,往往侧重于针对单一模态单一任务建模,缺乏对多模态数据、时间序列、地理先验知识的综合建模和利用,限制了其在海量数据和多种任务中的泛化能力。SkySense突破以上技术瓶颈,实现了文本、红外光、可见光、SAR雷达多种模态、多分辨率的时序遥感影像建模,在多样化的任务中展现出优异性能。在蚂蚁百灵大模型多模态能力支持下,研发人员基于内部构建的19亿遥感影像数据集进行预训练,得到了20.6亿参数量的模型SkySense,这也是迄今为止国际上参数规模最大、覆盖任务最全、识别精度最高的多模态遥感大模型。SkySense可广泛应用于城市规划、森林保护、应急救灾、绿色金融、农业监测等重要领域,目前通过蚂蚁内部MEarth平台提供数据与识别服务。

据了解,蚂蚁集团正在计划开放Skysense模型参数,与行业共建,促进智能遥感技术与应用发展。

SkySense由蚂蚁AI创新研发部门NextEvo与武汉大学联合研发。NextEvo是蚂蚁AI核心技术研发团队,主导了蚂蚁百灵大模型的研发工作,其研发方向涉及CV、NLP、多模态、AIGC、数字人、AI工程化等核心技术。去年,该部门升级了多模态团队,由杨铭带队全面布局多模态技术。杨铭美国西北大学博士,FacebookAIResearch(FAIR)创始成员,去年加入蚂蚁集团,先后就职于NEC美国实验室、FAIR、地平线机器人公司,是世界知名计算机视觉研究专家。

目前,蚂蚁集团多模态研究成果已应用于支付宝五福节AI大规模互动、蚂蚁医疗数字人等场景。

举报

  • 相关推荐
  • 算力赋能营销革新,东信云与华为云签约共建多模态大模型应用标杆

    6月21日,东信云与华为云在HDC2025大会上签署合作协议,双方将基于昇腾AI云服务深化合作,重点布局多模态大模型应用与数字人技术。合作内容包括:1)构建智能营销系统,整合文本、图像、视频等多元数据,提升市场分析和消费者行为预测能力;2)通过大模型实现营销内容自动化生成,包括新闻稿、社交媒体帖子和广告文案;3)优化大模型架构,提升训练和推理效率。东信云6月发布的"数字人智能引擎"已实现分钟级生成逼真数字人,显著提升推荐转化率。双方还将联合行业伙伴共建营销大模型生态系统,推动营销行业智能化升级。

  • 慧科讯业AI赋能数据标签化,破局多模态数据治理难题

    文章探讨了数字化浪潮下数据标签化的重要性及其商业应用。数据标签化作为大数据分析的基础,能帮助企业实现精准营销和智能决策。然而,多模态数据处理复杂、人工标注成本高、业务理解不足等问题制约了数据价值的释放。文章提出数据标签化在构建用户画像、舆情监控、市场趋势预测等场景中的核心价值,并分析了当前面临的挑战:包括传统NLP算法不精准、大语言模型成本高且不稳定等。慧科讯业通过TDaaS服务模式,结合行业领先的数据源、NLP技术和垂直知识图谱,为企业提供高效的数据标注解决方案,显著提升数据处理效率。未来,随着AI技术发展,知识图谱驱动的TDaaS模式将重新定义数据价值变现方式。

  • OpenAI 提升o3多模态模型推理实力,微美全息(WIMI.US)加速引领产业新变革征程

    OpenAI推出突破性的o3推理模型,首次实现图像直接融入推理过程,在多模态基准测试V* Bench上准确率达95.7%。DeepSeek完成R1模型升级,上下文窗口从12K扩展至23K,幻觉率降低45%-50%。行业呈现开源趋势,DeepSeek开源策略促使多家企业跟进,OpenAI也考虑开源。微美全息加速布局多模态大模型,计划提供实时多模态AI体验。专家指出AI发展重心正从大模型向智能体演进,开源技术显著降低训练门槛,提升泛化能力,为多模态智能探索开辟新路径。企业需紧跟趋势把握机遇,在大模型驱动的新时代找准定位。

  • 破局多模态数据治理难点,数据标注重构企业营销新基建

    文章探讨了AI数据标注行业的发展现状与未来趋势。主要内容包括:1)AI数据标注已成为企业数字化转型的核心基础设施,92.9%数据为非结构化形态;2)营销领域多模态数据融合正在重塑商业决策模式;3)慧科讯业等企业通过TDaaS服务帮助客户构建数据资产;4)数据标注服务商分为国际头部、自有生态型、垂直领域型和综合营销数字化型四类;5)未来趋势包括AI驱动的自动化标注、数据合规升级和人机协同模式创新。文章强调,高质量数据标注服务将助力企业实现从"可用"到"可信高效"的数字化转型。

  • AI日报:昆仑万维天工超级智能体APP上线;谷歌重磅发布三大Gemma模型变体;字节推出开源多模态模型BAGE

    本文介绍了AI领域最新动态:1)昆仑万维推出全球首款AI+Agent架构的Office智能体应用;2)研究显示ChatGPT能提升K12学生成绩近87%;3)谷歌视频生成工具Veo3扩展至更多地区;4)谷歌发布三款Gemma模型变体,覆盖医疗、手语翻译和海豚语言研究;5)VideoTutor实现一句话生成定制教学视频;6)字节跳动开源多模态模型BAGEL;7)Rork支持无代码开发iOS/Android应用;8)AingDesk降低AI助手开发门槛;9)Claude4登陆亚马逊Bedrock平台;10)Youware通过MCP协议提升网页生成能力。这些创新展示了AI技术在各领域的快速发展和应用潜力。

  • 多模态2025:技术路线“神仙打架”,视频生成冲上云霄

    一场大会,聚集了中国多模态大模型的“半壁江山”。 智源大会2025为期两天的论坛中,汇集了学界、创业公司和大厂等三方的热门选手,关于多模态的集中讨论达到了前所未有的热度。其中,创业公司就有爱诗科技、生数科技、Sand.ai、智象未来、Luma AI、智谱等六家公司创始人、CEO分享心得;隶属大厂队的字节、腾讯、百度的多模态技术负责人,以及学术界的人大和MIT(麻省�

  • Meta拟百亿美元投资Scale AI,微美全息(WIMI.US)端侧多模态AI加速开启科技新局

    Meta正与AI初创企业Scale AI洽谈数十亿美元投资,估值或超100亿美元,有望创下私营企业融资纪录。Scale AI为微软、OpenAI等提供数据标注服务,是生成式AI热潮主要受益者。这将是Meta史上最大规模外部AI投资,标志其战略转向。Meta CEO扎克伯格宣布将AI确立为战略重心,2024年将投入650亿美元推进相关项目,重点打造Llama模型成为行业标准。同时,谷歌推出Gemini助手"计划操作"新功能,支持任务自动化管理。科技巨头纷纷重金布局AI,微软向OpenAI注资逾130亿美元,亚马逊投资Anthropic数十亿美元。行业观察认为AI技术普及将推动效率革命,微美全息等企业正通过技术创新赋能产业转型,共同探讨人工智能技术突破新动态。AI正以前所未有的速度重塑全球发展格局。

  • AI日报:阿里云通义灵码AI IDE上线;小米多模态大模型Xiaomi MiMo-VL开源;黑森林实验室推出FLUX.1Kontext

    【AI日报】今日AI领域重要动态:1)阿里云推出通义灵码AI IDE,集成千问3模型,显著提升编程效率;2)小米开源多模态大模型MiMo-VL-7B,性能超越更大规模闭源模型;3)黑森林实验室发布FLUX.1Kontext图像生成模型,支持文本和参考图像多次编辑;4)Midjourney V7渲染速度提升40%,新增用户投票功能;5)DeepSeek R1-0528大模型在AGI领域取得突破,性能超越xAI等公司;6)Hugging Face进军机器人市场,推出开源人形机器人HopeJR;7)字节跳动火山方舟接入DeepSeek最新大模型;8)Anthropic开源"电路追踪"工具,揭示大模型决策过程;9)阿里巴巴开源自主搜索AI智能体WebAgent;10)Hume发布低延迟语音语言模型EVI3;11)Manus Slides支持一键生成专业幻灯片;12)Runway Gen-4 References支持手机照片艺术化处理。

  • AI触控云台浩瀚V3 Ultra发布,首发AI多模态追踪模块,定义手机云台轻旗舰标准!

    6月6日,浩翰V3 Ultra智能影像稳定器正式发布。作为旗舰级产品,它搭载行业首创AI多模态万物原生跟拍技术,支持10米远程触控彩屏、AI可视化构图、360°无死角跟拍及三轴稳拍等功能。新品采用第九代iSteady增稳系统,折叠后体积小巧便携。配备22英寸触控彩屏,支持5米手势控制和隔空补光功能。售价999元起,同步推出含无线麦克风的创作者套装。浩翰深耕稳定器行业11年,产�

  • 广东省出版集团与腾讯达成战略合作,已联合研发十余个图书智能体

    5月25日,广东省出版集团与腾讯签署战略合作协议,双方将在文化数字化、教育数字化领域展开合作,共同打造"人工智能+"时代新质生产力。合作内容包括智能内容推荐、交互式阅读等创新成果,已联合研发"岭南城市通"等十余个图书智能产品。广东省出版集团成立于1999年,业务涵盖图书出版、数字教育等领域。腾讯云将提供AI、大数据等技术支持,助力出版业数字化转型。此次合作将推动文化出版产业高质量发展,打造全国领先的文化科技融合示范区。