首页 > 业界 > 关键词  > DepthAnything最新资讯  > 正文

港大、TikTok推新MDE模型Depth Anything 分分钟看穿纪念碑谷式错觉图像

2024-01-23 14:26 · 稿源:站长之家

要点:

1、单目深度估计(MDE)是一种可有效利用大规模无标注图像的新模型,Depth Anything凭借强大的性能引起了广泛讨论。

2、Depth Anything是一个实用的解决方案,具备更好的零样本能力以及更好的效果。

3、该模型通过设计一种数据引擎来收集和自动标注大规模无标注数据,扩大数据集的规模,降低泛化错误。

站长之家(ChinaZ.com)1月23日 消息:近日,一种名为Depth Anything的模型在社交网络上引起了广泛关注。Depth Anything是一种可以利用大规模无标注图像的单目深度估计模型,其具备强大的性能和实用性。该模型是通过设计一种数据引擎来收集和自动标注大规模无标注数据,以扩大数据集的规模,降低泛化错误。

image.png

项目地址:https://top.aibase.com/tool/depth-anything

Depth Anything模型是一个实用的解决方案,相较于以往的模型,具备更好的零样本能力以及更好的效果。值得一提的是,模型的任务使用一个共享的编码器和两个单独的解码器得到深度预测结果和分割预测结果。这意味着大规模、低成本和多样化无标注图像的数据扩展对MDE的价值巨大,同时也指出了在联合训练大规模有标注和无标注图像方面的一个重要实践方法。

Depth Anything模型的出现为机器人、自动驾驶、虚拟现实等领域带来了新的希望。这一模型的出现,让人们对单目深度估计问题的解决充满了信心。值得期待的是,这一模型未来在实际应用中能够取得更好的效果,为各行各业带来更多的便利。

举报

  • 相关推荐
  • AI日报:百度发布文心5.0;可灵2.5Turbo模型上线“首尾帧”功能;微博推出 VibeThinker-1.5B

    本期AI日报聚焦多项技术突破:OpenAI推出GPT-5.1,提升对话自然度与响应速度;百度发布原生全模态大模型文心5.0,支持跨文本图像生成;微博开源VibeThinker-1.5B模型,以低成本实现高效推理;可控视频生成模型新增首尾帧控制功能;李飞飞团队推出商用3D世界生成工具Marble;东北大学开源多语言翻译模型支持60种语言;谷歌Gemini语音功能升级实现更自然交互;阿里启动“千问”项目对标ChatGPT,全面布局C端AI应用竞争。

  • AI日报:上海首例涉AI提示词著作权案宣判;Kimi K2 Thinking发布;中文图像编辑新王UniWorld-V2发布

    今日AI领域动态:上海首例AI提示词著作权案宣判,法院认定提示词不具独创性;月之暗面发布Kimi K2思考模型,实现自主多轮工具调用;UniWorld-V2图像编辑模型支持中文框选即改,性能超越GPT-Image;谷歌推出AI文件检测工具Magika 1.0,支持超200种格式;Sora安卓版首日下载量达47万次;我国发布全球首个AI海洋大模型“瞰海”,可精准预测10天内海洋变化;宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控;谷歌Gemini API推出文件搜索工具,简化私有RAG系统集成。

  • 50人团队、1亿美元ARR,AI PPT还在续写“神话”?

    AI 生成 PPT 可以说是去年的热门赛道,尤记得关于这类产品是否具有真正竞争力的热烈讨论,而2025年9月份的数据显示,赛道头部的明星创企 Gamma 却已经默默接近3000万的访问量。并且,今天官宣了由 a16z 领投的6800万美元 B 轮融资,融资后估值达到21亿美元。 而不仅 Gamma,根据 AI 产品榜数据,9月份,AIPPT 赛道的 Top3产品流量平均涨幅30%+,更有一款

  • AI日报:Lovart AI上线“元素拆分”功能;Xcode 26.1.1发布;阿里云通义模型首次大规模赋能双11

    本期AI日报涵盖八大热点:Lovart AI推出"元素拆分"功能,实现海报智能分层编辑;苹果Xcode 26.1.1优化AI编码性能;阿里云通义模型双11单日翻译调用量突破14亿次;Gemini 3在历史手稿破译中展现专家级能力;德国法院裁定OpenAI使用歌词训练构成侵权;开源语音模型Maya1实现富有表现力的实时文本转语音;Meta首席AI科学家LeCun计划离职创办世界模型公司;AI专家罗福莉加入小米,将致力于构建物理世界智能。

  • 品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

    某互联网大厂品牌总监分享:投入200万SEO使"企业级CRM"关键词在Google排名第一,但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时,AI回答中根本没有该品牌。更值得警惕的是,竞品不仅被提及,还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区:企业不知道AI如何"看待"自身品牌。 数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道,而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念,通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力,并给出五步实施流程:建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明,系统化GEO优化能在3个月内提升品牌提及率33个百分点,证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。

  • OpenAI发布GPT-5.1:情商大涨 本周开始推送

    OpenAI正式推出GPT-5.1模型,以“智商与情商深度融合”为核心亮点。新模型优化推理能力,强化情绪价值与个性化交互,包含Instant与Thinking两大核心版本:Instant首次引入自适应推理功能,针对复杂任务延长思考时间,简单问题保持极速响应;Thinking版本智能分配思考时长,提升回答透彻度与通俗性。新增Auto功能自动匹配最佳模型,支持六种官方预设风格及精准微调。安全评估首次纳入心理健康与情感依赖维度,防范拟人化风险。付费用户可保留旧版三个月过渡期。

  • 全球“双11”热潮席卷俄罗斯!即将引爆Yandex Market平台流量!

    2025年俄罗斯电商旺季即将开启,中国“双十一”购物节已发展为全球商业盛事。俄罗斯电商平台Yandex Market将“双十一”作为重要促销节点,数据显示2024年其销售额同比增长1.4倍,订单量增长1.7倍。平台将于11月29日在深圳举办品牌峰会,发布招商、物流及流量政策重大调整,并邀请胡锡进分享俄罗斯电商机遇。俄罗斯电商旺季持续4个月,占全年销售额一半以上,成为跨境卖家重要增长机会。

  • AI日报:月之暗面开源AI新框架Kosong;百度发布新模型ERNIE-4.5-VL;GPT-5.1“隐身”登场

    本期AI日报聚焦多项技术突破:月之暗面开源AI代理框架Kosong,支持异步编排与插件化设计;Replit推出AI集成功能,可一键调用300+模型;商汤发布空间智能模型SenseNova-SI,性能超越GPT-5;百度推出多模态模型ERNIE-4.5-VL,新增图像思考能力;谷歌地图全面AI化,集成Gemini实现智能交互;ChatTutor上线可视化教学系统,覆盖多学科实时推演;新版Google Finance引入AI深度搜索与财报追踪;OpenAI低调上线Polaris Alpha模型,支持256K上下文并更新知识库至2024年10月。

  • 颠覆Diffusion局限!Utopai双模型耦合架构,攻克AI影视长叙事核心难题

    Utopai Studios推出专为影视制作设计的AI模型与工作流,区别于主流视频生成模型,其核心能力在于理解剧本、规划镜头及生成场景,通过自回归模型负责叙事规划与一致性约束,扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题,提升制作效率与作品品质。目前工作流仅用于公司自有项目,强调AI作为创作者协作者的角色,并遵循行业道德与版权规范。

  • 软件定义汽车的质量革命:AI Agent如何终结座舱OTA的“路测噩梦”

    在“软件定义汽车”浪潮下,智能汽车竞争核心转向座舱体验、ADAS功能及OTA迭代质量。然而,传统软件测试模式成本高、耗时长,难以覆盖复杂场景,易导致漏洞。AI驱动的“无人测试”通过大模型与智能体技术实现三大突破:需求自主解析与测试规划、GUI自主探索与自愈维护、智能诊断与根因分析。这将催生“人机协同”新范式,测试工程师角色转向质量策略师。到2027年,超80%企业将集成AI测试工具,汽车行业2025年成为转型关键节点。

今日大家都在搜的词: