首页 > 业界 > 关键词  > Florence-2最新资讯  > 正文

微软开源多功能视觉模型Florence-2,分割、识别一切图片!

2024-11-16 10:42 · 稿源: ​AIGC开放社区公众号

微软Azure AI 团队宣布开源视觉模型——Florence-2。据悉,Florence-2是一个多功能视觉模型,可提供图像描述、目标检测、视觉定位、图像分割等。例如,上传一张风景照片,让其解读一下图片的内容;或者上传一张超市货架的照片,让其精准找出牛奶的所在位置。Florence-2一共有230M和

......

本文由站长之家合作伙伴自媒体作者“​AIGC开放社区公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • AI日报:阿里开源Z-Image图像模型;夸克AI眼镜发布;Opera Neon 浏览器升级

    本期AI日报聚焦多项技术突破:阿里巴巴开源轻量图像模型Z-Image,以6B参数实现高效生成;夸克AI眼镜通过硬件升级优化体验;Opera Neon浏览器集成Gemini3,支持文档自动化编辑;清华大学发布AI教育应用指导原则,规范学术使用;DeepMind推出Gemini 3 Pro系统指令,提升任务可靠性;Adobe推出Project Graph重塑创意流程;Trae SOLO中国版新增多任务编程功能;巨人网络联合高校发布多模态生�

  • 豆包语音识别模型2.0发布:能听懂字看懂图 支持13种外语

    今日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),依托Seed混合专家大语言模型架构构建。 据介绍,2.0版本模型推理能力提升,可以通过深度理解上下文完成精准识别,上下文整体关键词召回率提升20%。 同时支持多模态视觉识别,不仅听懂字”还能看懂图”,通过单图和多图等视觉信息输入让文字识别更精准。

  • FLUX.2 图像生成模型发布,针对 NVIDIA RTX GPU 优化

    Black Forest Labs推出全新FLUX.2图像生成模型系列,支持FP8量化技术,显著降低40%显存占用同时提升40%性能。该模型具备多参考图像生成功能,可批量生成数十张相似图像,支持直接姿态控制与400万像素高分辨率输出,文字渲染清晰锐利。通过与NVIDIA及ComfyUI合作优化,用户现可直接在升级版ComfyUI中使用该模型,无需额外安装。模型需搭配RTX GPU运行,建议更新软件后通过官方渠道获取模板。

  • 易鑫开源汽车金融业首个Agentic大模型,加速AI生态共建

    易鑫集团(02858.HK)宣布开源其自主研发的Agentic大模型YiXin-Agentic-Qwen3-14B,成为汽车金融行业首个开源此类模型的企业。该模型基于通义千问Qwen3-14B深度优化,具备卓越推理、复杂任务处理及多方协作的智能体能力,在多项性能测试中位列榜首,推理成本较行业平均水平降低三分之一。模型搭载金融领域专属知识体系与工具集,覆盖语音交互、车辆评估、风控、欺诈识别等功能,形成全链路智能支撑体系。易鑫提出“底座开放-社区共建-能力迭代-企业部署-生态繁荣”的开源共建模式,通过提供低代码私有化模板,帮助企业快速落地AI应用。此次开源与之前发布的行业首个开源推理大模型YiXin-Distill-Qwen-72B形成“垂直底座+Agentic大脑”双轮技术矩阵,填补了汽车金融领域专业开源AI工具链的空白。

  • 行业首家!易鑫正式开源Agentic大模型,定义汽车金融AI新范式

    易鑫宣布开源自主Agentic大模型YiXin-Agentic-Qwen3-14B,成为汽车金融行业首个开源此类模型的企业。该模型基于Qwen3-14B,参数规模140亿,通过多阶段训练体系深度优化,在智能体协作、函数调用、推理等能力上可比肩参数200B以上的商用大模型。多项专业评测显示,其在金融专业知识理解方面显著优于DeepSeek V3.1、Kimi-K2等主流模型,并在智能体工具使用任务中同样表现卓越,位居同尺寸模型性能测试首位。该模型既展现出强劲的专业理解力与协作推理能力,又兼具高实用性与经济效益,将为汽车金融及各类专业场景提供高效、可靠的智能引擎。易鑫以技术创新为核心驱动力,持续引领行业迈向智能化转型。

  • AI日报:豆包输入法正式上线;混元开源HunyuanOCR模型;Claude Opus4.5发布

    本期AI日报聚焦多项技术突破:腾讯开源10亿参数OCR模型HunyuanOCR,在多场景实现SOTA性能;豆包输入法整合AI实现智能预测;Anthropic推出Claude Opus4.5提升推理效率;ChatGPT新增购物推荐功能准确率达64%;全球首款纯AMD训练MoE模型ZAYA1发布;微软推出本地运行助手Fara-7B;谷歌NotebookLM新增幻灯片生成功能;亚马逊Leo卫星网络启动企业测试,实现“卫星+云+AI”一体化通信。

  • 一加Ace 6T预装ColorOS 16:游戏助手大升级 清体力、肝材料一键搞定

    一加Ace 6T将于12月3日发布,搭载全新ColorOS 16系统。一加中国区总裁李杰表示,新机最大体验提升来自系统,尤其是游戏助手功能。游戏助手支持“游戏流体云”,玩家被击倒后无需紧盯倒计时,复活时间直接显示在云端;还提供“游戏指令”功能,可录制操作自动完成刷副本、清体力等重复任务,实现“系统替你代肝”。此外,Ace 6T还拥有召唤师技能倒计时、游戏相机、静音启动等多项游戏辅助功能,全面提升玩家体验。

  • AI日报:Kling 2.6将发布;千问APP推学习大模型;Z-Image-Turbo-Fun-Controlnet-Union 开源

    本期AI日报聚焦多领域AI进展:Kling 2.6发布,支持音频同步生成,AI视频进入有声时代;千问APP推出学习大模型,提升拍照答疑与作业批改能力;阿里通义实验室开源图像生成模型,实现精准控制;豆包手机助手遭遇微信登录异常,凸显生态兼容挑战;米哈游推出带猫语特色的AI聊天模型AnuNeko;亚马逊云科技发布三款新型AI智能体,其中Kiro可自主编程数日;IDC报告预测具身智能�

  • 可灵2.6模型上线!语音、音效与画面一键直出 重构AI视频创作工作流

    可灵视频生成2.6模型推出“音画同出”功能,彻底改变了传统AI视频“先无声画面、后人工配音”的工作流程。它能在单次生成中,输出包含自然语言、动作音效及环境氛围的完整视频,重构了AI视频创作工作流,极大提升创作效率。该模型在中文语音生成效果上保持全球领先,支持生成最长10秒的视频,可广泛应用于广告营销、自媒体、电商等内容创作场景。

  • 拒绝做“套金属壳”的伪AI:看“大模型国家队”如何啃下硬骨头

    人工智能成为资本市场热点,随之而来的是鱼龙混杂的乱象。简单包装、打着AI旗号卖高价的“套壳”现象层出不穷。科大讯飞董事长刘庆峰强调,发展人工智能要有长期主义精神,告别“虚火”,把根扎在国产算力的土壤里。下半场比拼的不再是概念堆砌,而是全栈自主可控的硬实力与赋能千行百业的真本事。可靠与安全才是基石,算力是最大瓶颈。企业需构建安全底座并解决真实痛点,才能穿越周期。科大讯飞坚持“顶天立地”战略,既要在源头技术上领先,又要在产业应用上解决民生刚需,展示了AI技术“落地”的正确姿态。

今日大家都在搜的词: