首页 > 业界 > 关键词  > Meta最新资讯  > 正文

Meta发布新AI模型Segment Anything 可检测图像中物体

2023-04-06 10:18 · 稿源:站长之家

站长之家(ChinaZ.com)4月6日 消息:Meta在人工智能方面有很大的野心,但却一直追不上OpenAI、微软甚至是谷歌的步伐。现在,这家公司发布了最新AI模型,可从图像中识别单个物体。

当地时间周三,Meta发布了其新的基于 AI 的 Segment Anything Model (SAM) ,该模型具有识别和分离图像和视频中的特定对象的功能。

目前,市面上已经有不少工具具备从图像中删除不需要的物体的功能,并且使用人工智能模型来查找和替换照片中的物体。从Segment Anything Model演示的测试中,Meta的产品更进了一步。比如,通过使用SAM,用户可以通过点击物体或输入文字提示选中编辑的物体。在测试演示中,输入“猫”这个词后,该工具在一张照片中的几只猫周围绘制了方框。

image.png

image.png

更让人意外的是,Meta开源了SAM模型,并进一步提供了其10亿掩码数据集的完整细节,该公司声称这是“有史以来最大的分段数据集”。这个SA-1B是一个语义分割数据集,它对图像中的每个像素进行分类,从而更容易对照片进行风格化或删除对象。根据Meta的说法,该系统本身在1100万张图像上进行训练,平均每张图像有100个掩码。

根据Meta关于SAM的研究论文指出,数据集使用了“来自与摄影师直接合作的提供商”的图像,但并没有具体说明是哪个提供商。系统训练的一些图像包括人脸和车牌等等。

SAM可以用于AR或VR功能,通过用户的注视来识别物体,这对Meta的AR耳机和眼镜的发展来说非常重要。

据了解,Meta已经在内部使用与SAM类似的技术,用于标记照片、审核违禁内容以及确定向Facebook和Instagram用户推荐哪些帖子等。公司表示,SAM的发布将扩大对这类技术的应用。

Segment Anything Model 网址:https://segment-anything.com/

举报

  • 相关推荐
  • TabTab 登顶模力工场 AI 应用榜榜首, 把 AI 数据分析师装进口袋,关键结论更快抵达!

    TabTab是一款全链路AI数据分析助手,核心功能包括多源数据连接(支持文档、数据库、电商平台等)、自动化采集清洗、内置分析模型及可视化呈现。其优势在于通过多智能体系统实现自然语言交互,降低分析门槛,让非技术人员也能快速完成客户洞察、销售业绩等分析,显著提升效率。产品定位中立,致力于构建多元化AI效率提升生态。

  • 进博会“全勤生”三星的AI全景图:AI Home中国首秀

    三星在进博会上首次展出AI+Home智能家庭解决方案,通过Bespoke AI、Vision AI和Galaxy AI三大模块,实现全场景智慧生活。AI正从"会语言"向"会行动"演进,软硬件协同成为核心竞争力。三星凭借从芯片到终端的全产业链优势,打破端侧AI的性能、算力与存储"不可能三角",构建起覆盖手机、电视、家电的生态闭环。未来,AI将全面接管生活,让科技真正服务于人。

  • 科普 | 读懂HBM和DRAM,才懂AI算力未来

    在AI算力需求激增的背景下,存储芯片成为决定计算性能的关键。文章重点分析了三大易失性存储技术:SRAM凭借高速读写特性在CPU缓存中不可替代;DRAM作为数字世界的“主内存”,在容量与速度间实现平衡;HBM则通过3D堆叠架构革命性提升带宽,突破AI训练中的“内存墙”瓶颈。当前HBM需求爆发式增长,预计2025年市场规模将达340亿美元。中国企业在DRAM领域逐步突破,并开始布局HBM技术,正通过持续技术积累提升在全球半导体生态中的地位。

  • 科杰科技&甲子光年:2025中国Data&AI数据基础设施白皮书

    当前全球正经历地缘政治重塑与人工智能革命驱动的深刻变革。全球化向区域化演进,供应链加速本土化,AI从前沿技术跃升为核心生产力。麦肯锡研究显示,生成式AI有望为全球经济贡献7万亿美元,中国预计占2万亿美元,接近全球总量三分之一。传统数据系统难以满足AI对实时性、多模态处理和高弹性算力的需求,企业需构建新一代数据基础设施,实现数据生产、治理与AI应用的动态融合,突破"数据烟囱",支持跨场景智能部署。Data&AI一体化将推动数据价值从效率提升向产业协同跃升,成为智能社会的核心引擎。

  • 何小鹏首次披露物理AI巨大进展 发布第二代VLA大模型

    小鹏汽车在2025科技日发布第二代VLA大模型,颠覆传统“视觉-语言-动作”架构,实现端到端直接输出动作指令,开创物理模型新范式。该模型具备动作生成与物理世界理解能力,参数规模达数十亿级,训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载,推动智驾技术显著进化,同步发布“小径NGP”功能,复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示,大模型将成为物理AI世界的操作系统,并宣布与大众汽车达成战略合作,共同推进智能出行发展。

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • 如何检查你的网站是否被大模型引用?AI排名查询工具推荐

    本文探讨AI搜索时代网站流量获取新逻辑:传统SEO因Google搜索"零点击"现象失效,而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口,并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议:建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代,内容被LLM引用已成为新的流量生命线。

  • VITA平台赋能AI办公,沸蛇AI语音鼠标提升办公效率

    云决科技推出VITA一站式AI办公平台,结合自研AI语音鼠标,通过软硬件协同创新提升企业效率。该平台集成DeepSeek等大模型,用户无需切换工具,语音即可调用文字处理、数据分析、创意设计等多元功能,实现会议纪要生成、PPT自动制作、视频一键合成等操作,节省80%工作时间。针对教育、IT、行政等不同行业提供专属解决方案,整合100多个AI应用场景和200多种模板,持续优化产品功能,致力于成为职场人士提升效率的智能助手。

  • 新Siri或明年春季发布 苹果公司或引入谷歌Gemini大模型 AI技术

    苹果因自研大模型项目遇瓶颈,决定引入谷歌Gemini大模型升级Siri,计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数,将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能,支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送,后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

  • 人工智能产业决胜与 Data&AI 数据基础设施建设——科杰科技于洋中国国际数字经济博览会主题演讲

    科杰科技董事善于洋在2025中国国际数字经济博览会发表演讲,强调高质量数据集是人工智能产业决胜关键。他指出,算力、算法和数据构成AI三大要素,而数据决定模型认知边界与输出可靠性。当前需构建Data&AI一体化平台作为核心基础设施,通过集中管理、分散赋能模式,打通数据采集、治理到AI训练全链路,推动产业智能化升级。该平台已在制造、金融等领域落地,助力企业释放数据要素价值,实现弯道超车。

今日大家都在搜的词: