11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。
《黑神话·悟空》的火爆,带火的不仅是3D游戏本身有背后暗潮汹涌的AI3D生成技术。外界对3D大模型赛道的关注度都稍逊于语言模型和视频模型。3DScalingLaw或将带来的突破性进展,似乎已经预示了人工智能领域下一个焦点的方向。
上海交大和香港中文大学的研究团队推出了一个名为Bootstrap3D的新框架,它通过结合微调的3D感知多模态大模型,能够自动生成任意数量的高质量多视角图片数据,显著提升3D生成模型的能力。这个框架的合成数据集已经全面开源,供研究人员和开发者免费使用。实验结果证明,使用TTR策略的多视图扩散模型在图像-文本对齐、图像质量和视图一致性方面表现优异,有效提升了多�
使用大模型合成的数据,就能显著提升3D生成能力?来自上海交大、香港中文大学等团队还真做到了。他们推出Bootstrap3D框架,结合微调的具备3D感知能力的多模态大模型。Bootstrap3D生成的数据集已经全面开源,任何研究人员和开发者都可以免费访问和使用。
GPTEval3D提供了一个用于评估文本到3D生成模型性能的评估指标。利用OpenAI和PyTorch,它通过ELO评分系统提供了一个全面的框架,用于评估文本到3D生成模型的性能。3DTopia/GPTEval3D为评估和比较文本到3D生成模型提供了一个用户友好的平台,提供了结构化的方法、清晰的文档和未来增强功能的一瞥,为更强大的评估体验铺平了道路。
将一幅图像转换为3D的方法通常采用ScoreDistillationSampling的方法,尽管结果令人印象深刻,但仍然存在多个不足之处,包括多视角不一致、过度饱和、过度平滑的纹理,以及生成速度缓慢等问题。为了解决这些问题,北京大学、新加坡国立大学、武汉大学等机构的研究人员提出了Repaint123,以减轻多视角偏差、纹理退化,并加速生成过程。图4:Repaint123两阶段单视角3D生成框架实验�
德克萨斯大学奥斯汀分校和MetaRealityLabs的研究人员联手推出了SteinDreamer,该技术集成了SteinScoreDistillation技术,以改进文本至3D生成领域的梯度估计高方差问题。这一技术的突破对于自动化和加速虚拟现实、电影和游戏中的3D资产创建具有重要意义。SteinDreamer通过SSD技术呈现出更丰富的纹理和较低级别的方差,相较于SDS产生了更少的过饱和和过度平滑的伪影。
生成式AI在3D领域在很长一段时间内都在等待自己的「ChatGPT」时刻。传统3D建模涉及游戏、影视、建筑等多个行业,普遍依赖专业人员手动操作,生产周期短则几天,多则以月为单位,单个3D模型的创建成本至少需要几千元。或许在不久之后,3D赛道也会出现像「ChatGPT」这样的现象级产品VAST这家年轻的中国初创公司格外值得期待。
ChatGPT给AI行业注入一剂鸡血,一切曾经的不敢想,都成为如今的基操。正持续进击的Text-to-3D,就被视为继Diffusion和GPT后,AIGC领域的下一个前沿热点,得到了前所未有的关注度。”可以看到,ChatAvatar背后技术从无到有的搭建,揭示了一家AI初创公司的不断创新;从这家公司对人才的渴望以小见大,更揭示着AIGC浪潮下,每一个细分领域想要从水下浮出水面的心。
影眸科技与上海科技大学的研发团队提出了一种文本指导的渐进式3D生成框架——DreamFace,结合了视觉-语言模型、隐式扩散模型和基于物理的材质扩散技术,可以生成符合计算机图形制作标准的3D资产。项目网站:https://sites.google.com/view/dreamface预印版论文:https://arxiv.org/abs/2304.03117Web+Demo:+https://hyperhuman.topHuggingFace+Space:https://huggingface.co/spaces/DEEMOSTECH/ChatAvatar这项技术可以解决基于神