首页 > 业界 > 关键词  > ViewDiff最新资讯  > 正文

Meta 推出 ViewDiff 模型:文本生成多视角 3D 图像

2024-04-15 09:06 · 稿源:站长之家

划重点:

⭐ 创新模型 ViewDiff 助力快速生成高质量多视角3D 图像

⭐ ViewDiff 解决了文本生成一致性、多视角3D 图像的三大难点

⭐ 自回归生成模块使 ViewDiff 在任意视角上生成更多的3D 一致性图像

站长之家(ChinaZ.com)4月15日 消息:Meta 与德国慕尼黑工业大学研发出创新模型 ViewDiff,旨在帮助用户通过文本、图像或二者结合使用,快速生成高质量多视角3D 图像。

该模型解决了传统文本生成多视角3D 图像领域的三大难点:无法生成真实背景环境、图像质量和多样性不理想、缺乏多视角和一致性。通过引入一种创新架构,ViewDiff 采用文生成图模型作为先验知识和图像流生成器,再通过显式的3D 建模为图像赋予一致性和多视角能力。

image.png

为了有效捕获3D 几何和全局风格,研究人员对原有 U-Net 架构进行了创新,增强了跨帧注意力层和投影层。跨帧注意力层替换了标准自注意力层,实现跨图像风格匹配;而投影层将多视图2D 特征集成为显式的3D 体素特征,保证了输出图像的3D 几何一致性。在此基础上,ViewDiff 还开发了自回归生成模块,使其能在任意视角上生成更多的3D 一致性图像,进一步提升了模型的生成能力。

该研究的推出填补了文本生成多视角3D 图像领域的技术空白,有望为游戏开发、元宇宙等行业提供更便捷、高效的模型构建方案。该模型的推出不仅在技术层面上具有重大意义,也将为未来的3D 图像生成领域带来更多创新可能。

论文地址:https://arxiv.org/abs/2403.01807

项目地址:https://top.aibase.com/tool/viewdiff

举报

  • 相关推荐
  • 登榜LMArena!文心大模型5.0-Preview文本能力国内第一

    11月8日,文心全新模型ERNIE-5.0-Preview-1022在LMArena大模型竞技场排名中位列全球第二、中国第一。该模型在创意写作、复杂长问题理解和指令遵循方面表现突出,超越多款国内外主流模型。创意写作可高效生成文章、营销文案等内容;复杂长问题理解适用于学术问答、报告分析等任务;指令遵循能力支持智能助理、代码生成等场景,为多领域内容生产提供高效支撑。

  • AI日报:Hailuo 2.3发布;豆包AI编程史诗级升级;马斯克推出AI百科全书Grokipedia

    本期AI日报聚焦多领域突破:海螺AI 2.3实现视频生成技术跃升,支持双模式免费试用;豆包AI编程工具实现零基础可视化开发;马斯克推出AI百科Grokipedia;Mistral发布企业级AI开发平台;Anthropic推出金融版Claude,显著提升分析师效率;Pinterest升级AI购物助手功能;英伟达推出全能模型OmniVinci刷新性能纪录;DeepSeek模型在港大美股交易竞赛中以10.61%年化回报率夺冠。

  • ​畅玩《战地6》,双11电脑DIY装机配置推荐

    双11期间恰逢《战地6》等热门游戏发布,是升级主机的绝佳时机。推荐一套专为FPS电竞优化的硬件组合:AMD锐龙7 9800X3D处理器凭借大缓存实现帧率爆发,技嘉B850M电竞主板配备一键超频与散热技术确保稳定输出,搭配技嘉RTX 5070魔鹰显卡支持DLSS4技术,游戏帧率最高提升6倍。三款产品性能超值,组合购买享优惠,注册后更享4年质保与免费维修服务。

  • 趣链科技牵头两项IEEE国际标准正式发布,全球技术标准再添“中国方案”

    近日,IEEE标准协会正式发布由趣链科技牵头制定的两项区块链国际标准,标志着我国在数字技术国际标准化工作中取得重要突破。两项标准分别为《区块链即服务参考架构标准》和《区块链一体机参考架构标准》,由浙江大学等机构主导制定,多家产学研机构专家共同参与。标准规范了区块链服务化平台与软硬件融合系统的技术框架,将提升我国在全球区块链领域的标准制定能力与国际话语权,为产业协同创新提供支撑。

  • 浅醺猫DIY鸡尾酒获20亿战略投资

    中国夜间经济正迎来结构性升级,2025年规模预计突破5.2万亿元,Z世代消费占比达52%,推动场景向沉浸式、科技化转型。在此背景下,创新品牌“浅酩猫DIY”完成20亿元战略投资,启动“全国万店工程”,以AI智能柜为核心构建微醺消费新生态。该模式结合无人零售与DIY调酒,单柜日均销量较传统便利店提升3倍,计划2026年布局10万点位,目标2028年冲击百亿美元市值。品牌通过跨

  • 年轻人DIY服装200元做出大牌同款 网友:真正的私人高定

    在商场里一件标价上千元的连衣裙,如今年轻人只需花200元就能自制出同款,这样的“价格差”正吸引着越来越多年轻人走进布料市场,亲手开启DIY服装的潮流。近日,这一现象在网络和现实中引发广泛关注。 自制服装不仅能省钱,还能满足年轻人对独特风格的追求。有年轻人表示,自己做衣服能获得独一无二的风格,绝对不会跟别人重样,这才是真正的私人高定。同时,一

  • 快手进军AI Coding,开发工具、模型和Maas平台齐登场

    10月23日,快手StreamLake发布全新AI编程产品矩阵,以“工具+模型+平台”三位一体战略布局AI Coding领域。核心产品包括智能开发助手CodeFlicker、自研高性能编码模型KAT-Coder系列及企业级服务平台快手万擎。CodeFlicker提供全流程开发支持,KAT-Coder在权威测试中性能超越GPT-5,平台保障99.95%服务可用性。该生态旨在通过技术普惠,为企业与开发者提供颠覆性研发体验,推动AI编程普及。

  • 行业首个!海尔冰箱获ISO/IEC 42001人工智能管理体系认证

    2025年10月,海尔冰箱成为全球首个通过ISO/IEC42001人工智能管理体系认证的家电企业,标志着其AI技术研发与管理达国际领先水平。该认证覆盖语音交互、视觉识别、健康保鲜等核心功能全流程,确保用户数据安全与隐私保护。目前AI系统已应用于博观、麦浪等高端产品,推动智能冰箱行业规范化发展。未来海尔将持续优化AI技术,为用户提供更安全、智能的健康饮食体验。

  • AI日报:HeyGen发布AI视频翻译引擎;科大讯飞推星火 X1.5;QQ浏览器推出AI+小窗

    本期AI日报聚焦多项技术突破:HeyGen推出精准唇形同步的视频翻译引擎;科大讯飞发布星火X1.5大模型,提升多语言处理能力;QQ浏览器新增AI助手浮窗;科大讯飞推出软硬一体方案,实现高噪声环境精准识别;谷歌Gemini 3 Pro预览版支持百万级上下文窗口;Comfy Cloud让Stable Diffusion实现零门槛创作;谷歌Gemini新增深度研究功能,可整合邮件生成智能报告;上海AgiBot机器人10分钟完成复杂制造任务,重塑生产效率。

  • 有AI就有无限可能,灰豚AI发布新一代GEO系统

    11月1日,灰豚AI发布新一代GEO系统,突破传统仅支持文本内容优化的局限,全面支持国内短视频平台作品优化,实现近乎零算力成本。该技术被视作行业重大创新,是当前国内GEO源头厂商的重要突破。系统通过AI训练提升企业在生成式搜索中的品牌影响力,助力企业获得竞争优势。未来电商将从平台化转向AI化,灰豚GEO系统支持多种合作模式,让企业以业务增长为导向,抢占AI市场先机。

今日大家都在搜的词: