首页 > 业界 > 关键词  > FoodSAM最新资讯  > 正文

专业的食品图像分割技术FoodSAM开源

2023-08-17 10:58 · 稿源:站长之家

站长之家(ChinaZ.com)8月17日 消息:FoodSAM 是一种用于食物图像分割的创新框架,结合了 Segment Anything Model(SAM)、语义分割器和物体检测器。它能够生成类别无关的二进制掩码,通过与掩码 - 类别匹配获取食物类别标签,并为背景掩码提供非食物类别。通过合并策略增强语义掩码,实现实例和全景分割,并具备可提示的分割能力。

image.png

虽然段落任意模型(SAM)在各种数据集的分割任务中表现优异,但在面具的特定类别细节上存在疏漏。FoodSAM 成功克服了这一问题。它结合了 SAM 的优势和新的特性,有效地分割食品图像,甚至识别出场景中的单个食品和其他物体。FoodSAM 是首个在食物图像上实现实例、全景和可提示分割的工作。

image.png

核心功能:

  • 语义分割:能够将食物图像进行语义分割,生成类别标签和语义掩码。

  • 实例分割:通过合并策略,将语义掩码增强为实例分割结果,能够分割出不同的食物实例。

  • 全景分割:结合物体检测器,将 FoodSAM 的零样本能力扩展到全景分割,有效捕捉非食物对象信息。

  • 可提示分割:集成了无缝提示 - 优先选择机制,实现可提示的分割,提供更灵活的分割结果。

举报

  • 相关推荐
  • DreamLLM:文字与图像同步创作的开源工具

    DreamLLM是一款强大的多模态大型语言模型学习框架,它首次实现了多模态理解和创作之间常常被忽视的协同效应。DreamLLM基于两个基本原则运作。图像生成:DreamLLM通过特殊的梦想令牌预测图像生成位置,生成与文本描述相关的图像,为用户提供强大的图像生成能力。

  • SyncDreamer:从单视图图像生成多视一致图像以实现3D重建

    3D生成领域经历了迅猛的进展,其中一个备受瞩目、在GitHubRepo上广受欢迎的项目备受关注。这个项目被认为是最为稳定和通用的,用户只需提供一张图像,模型就能自动合成多个视图并生成相应的3D模型。SyncDreamer生成的图像可以用于高质量的3D重建。

  • 谷歌、康奈尔提出真实的图像补全技术RealFill

    谷歌研究与康奈尔大学合作提出了一项名为RealFill的真实图像补全技术,旨在解决图像修复中的真实性和场景一致性问题。该技术的核心目标是使用少量的参考图像来填充给定目标图像的缺失部分,同时尽可能保持原始场景的真实性。这项技术的应用潜力广泛,将为图像处理和编辑领域带来新的可能性,使我们能够获得更完美的图像。

  • AMD推出最新形增强技术AMD FSR 3

    AMD最近推出了新一代图形增强技术AMDFidelityFXSuperResolution3,这是其与竞争对手Nvidia在图形渲染技术上的最新对抗。AMDFSR3通过使用超分辨率时域上采样和帧生成技术,可以有效地提升游戏在较低分辨率下的图像细节和整体视觉效果,同时不会对游戏性能造成很大影响。AMDFSR3是AM向玩家提供更出色图像质量的一次重要创新,希望未来能在更多游戏中发挥效用,提供更好的游戏体验。

  • 在线视频实例分割技术TCOVIS 可保持时间一致性

    研究人员介绍了一种名为TCOVIS的在线视频实例分割技术,该技术注重时间一致性。实例分割是计算机视觉领域的一个热门研究课题,其目标是将视频帧中的每个独立实例进行识别和分割。该框架可以部署在资源受限的边缘设备上,实现实时高质量的视频实例分割。

  • Instagram 即将推出生成式 AI 图像编辑功能

    Meta正在努力兑现其承诺,即在所有产品中应用生成式AI。在Connect活动上,该公司揭示了Instagram的新AI图像编辑和贴纸创建功能。公司还宣布了25多种生成式AI聊天机器人,其中包括几种基于真人名人和创作者的人格。

  • 让摄影修成为享受!5K专业显示有什么特别魅力?

    来源:狼族视觉修图对于摄影师来说,是一件非常享受的事情,在大屏幕上看着自己的摄影作品,朝着理想效果一步步变化,确实非常开心和满足。但色彩不准、精度不够的显示器会降低这种修图体验感,甚至改变摄影创作方向。作为一位经常与图片/视频打交道的摄影人,是一个很好的选择。

  • AMD收购开源AI软件企Nod.ai 加速AI硬件优化

    AMD宣布计划收购Nod.ai,这是一家专门针对高性能硬件优化人工智能软件的初创公司。对成立仅三年的Nod.ai的收购表明,AMD认真地想在快速增长的人工智能芯片市场中占据一席之地,据行业分析师称,该市场预计到2032年将达到3837亿美元。Nod.ai是SHARK和Torch-MLIR等多个研究人员广泛使用的AI软件库的贡献者。

  • 谷歌提出生成式图像动力学:让静态片动起来

    谷歌团队最新提出「生成图像动力学」,这项研究提出了一种基于图像空间的场景动力学先验模型。该模型可以将单张静态图片转换成无缝循环视频,或者用于与图片中的对象进行交互。该研究为基于单张图片合成视频开辟了新的思路。

  • KOO钱包业务员专业水平过硬,为用户提供定制服务

    在互联网金融平台当中,KOO钱包备受关注,因其透明合理的金融利息和专业靠谱的服务,受到诸多年轻消费者的喜爱。提到服务,KOO钱包业务员专业水平过硬,能够在了解用户需求的基础上,为用户提供定制化的金融服务方案。KOO钱包业务员全面升级 坚守以用户为中心原则KOO钱包作为一个互联网金融服务平台,希望通过技术和服务为消费者打造更舒心的金融服务体验。除了打�