腾讯发布全新 AI 框架 PrimitiveAnything：颠覆 3D 形状生成方式！

2025-05-12 09:31 · 来源： AIbase基地

在计算机视觉和图形学中，3D 形状的抽象是一个基础且关键的研究领域。通过将复杂的3D 形状分解为简单的几何单位，研究者能够更好地理解人类视觉感知的机制。

然而，现有的3D 生成方法通常无法满足机器人操作或场景理解等任务对语义深度和可解释性的要求。传统的形状抽象方法往往面临过度细分或缺乏泛化能力的问题。

PrimitiveAnything:革命性框架

腾讯 AIPD 与清华大学的研究团队联合推出了 PrimitiveAnything 框架，旨在将形状抽象重新定义为原始组件生成任务。该框架采用解码器式的变换器，能够根据形状特征生成可变长度的原始组件序列，极大地提升了几何准确性和学习效率。

PrimitiveAnything 的核心在于其统一的、无歧义的参数化方案，能够支持多种原始形状类型。这一创新设计使得框架能够有效捕捉复杂形状是如何被分解为更简单的组件，从而更符合人类的直观理解。

自动回归生成:高效重构

PrimitiveAnything 通过自动回归的方式生成3D 形状。每个原始组件的类型、位置、旋转和缩放等属性被编码并输入到变换器中，以预测下一个组件。该框架使用级联解码器来建模属性间的依赖关系，确保生成过程的一致性。

在训练过程中，PrimitiveAnything 结合了交叉熵损失、Chamfer 距离（用于重构准确性）和 Gumbel-Softmax(用于可微采样)，直到生成一个结束标记为止。这一流程能够灵活且类人地分解复杂的3D 形状。

人类原始组件数据集:全面评估

为验证框架的有效性，研究团队构建了一个大规模的 HumanPrim 数据集，其中包含12万样本及手动注释的原始组件。通过多项指标如 Chamfer 距离、地球移动者距离、Hausdorff 距离等进行评估，PrimitiveAnything 在重构准确性和与人类抽象模式的一致性上均表现优异。

此外，该框架支持从文本或图像输入生成3D 内容，用户能够轻松编辑生成结果，具备高建模质量，并实现超过95% 的存储节省，特别适合于高效的互动3D 应用。

结论:高效便捷的3D 生成

PrimitiveAnything 框架通过将3D 形状抽象视为序列生成任务，充分利用人类设计的原始组件，成功捕捉到直观的分解模式。该框架在各种物体类别中都能实现高质量的生成，显示出强大的泛化能力。

凭借其高效和轻量化的特性，PrimitiveAnything 非常适合用于游戏等需要性能和操作简便性的用户生成内容应用。

demo:https://huggingface.co/spaces/hyz317/PrimitiveAnything

相关推荐

能理解海豚声音！谷歌开发全新AI模型DolphinGemma

快科技4月15日消息，谷歌公布了一款名为DolphinGemma”的大型语言模型，旨在帮助科学家理解海豚的声音，并生成类似海豚的声音序列。研究人员预计在未来几个月内测试DolphinGemma及其配套的Cetacean Hearing Augmentation Telemetry（CHAT）发声系统，以探索是否能够翻译并模仿海豚的声音，进而实现与海豚的某种对话”。海豚是地球上最聪明且最善于沟通的动物之一，其社交互动极其复杂�

谷歌 DolphinGemma 海豚沟通
腾讯“物种之眼”AI全新升级高效识别数千物种

AI系统“物种类辨”通过少量数据学习，显著提升了对多种生物的识别准确率与召回率，尤其在高精度识别多类生物方面表现出色，推动生态保护与智能技术发展。腾讯开放平台“野生生物多态数据协作”项目助力野生动物监测及保护工作，促进公众科学参与。

雪豹物种保护 AI技术
荐AI日报：腾讯混元3D生成模型2.5版本发布；海螺推出图像人物参考功能；百度上线移动端超级智能体心响App

本文介绍了多款AI领域的新产品和技术进展：1)Kortix-AI推出开源通用AI智能体平台Suna；2)腾讯混元3D生成模型升级至2.5版本；3)海螺AI推出基于单张图像生成多角度角色图像功能；4)百度发布"心响"App整合多智能体协作；5)Nari Labs开源媲美真人的对话语音模型Dia；6)Grok新增视觉处理和多语言支持；7)Genspark推出AI幻灯片工具；8)Character.AI发布让静态图片"说话"的AvatarFX模型；9)pad.ws结合白板和代码编辑器；10)OpenBMB开源社区推出长文本生成模型"卷姬"；11)腾讯推出AI阅读助手"企鹅读伴"；12)OpenAI有意收购Chrome浏览器；13)字节跳动调整AI产品线布局。这些创新展现了AI技术在自动化、3D生成、语音交互、内容创作等领域的快速发展。

人工智能 AI产品开源平台
荐AI日报：Kimi全新音频基础模型Kimi-Audio；阶跃星辰开源图像编辑模型Step1X-Edit；夸克AI超级框上线 “拍照问夸克”

本期AI日报聚焦多项AI技术突破与应用：1)Moonshot AI推出开源音频模型Kimi-Audio，基于13亿小时训练数据，支持语音识别等任务；2)阶跃星辰开源图像编辑模型Step1X-Edit，展现强大生成能力；3)夸克AI上线"拍照问夸克"功能，实现视觉问答；4)苹果iOS18.5将在中国推送，带来智能功能；5)谷歌发布601个生成式AI应用案例，覆盖多行业；6)微软推出深度整合Windows的UFO²自动化系统；7)OpenAI升级ChatGPT至GPT-4o版本，提升STEM领域能力；8)Ema公司推出高性价比语言模型EmaFusion；9)Liquid AI发布面向边缘设备的Hyena Edge模型；10)LemonAI推出实时音视频数字人产品Slice Live。此外，国内方面，智谱与生数科技达成战略合作推动大模型发展，宝马中国宣布新车将接入DeepSeek技术。

AI日报音频技术开源模型
联想thinkplus三包plus服务升级3.0，覆盖售前、售中、售后全周期

4 月 17 日，全球领先的专业视听及集成体验解决方案展会——InfoCommChina 2025 于北京国家会议中心成功举办。

联想thinkplus 联想 AI
10倍精度升级！腾讯混元3D模型v2.5版本发布

腾讯混元3D模型升级至v2.5版本，建模精度和贴图真实度显著提升。新版本参数体量从1B增至10B，有效面片数增加超10倍，支持1024几何分辨率。纹理系统支持4K高清贴图和凹凸细节，率先支持多视图生成PBR模型。针对动画场景优化骨骼蒙皮系统，支持非标准姿态自动绑定。新增文生/图生3D减面模型、多视图建模模板等专业工作流。混元3D v2.5已全面更新至腾讯AI创作引擎，免费生成额度提升至每日20次，并正式上线腾讯云API面向企业开放。GitHub开源版本累计Star超1.2万。

腾讯混元3D 模型升级
可灵AI发布全新2.0模型：上线多模态视频编辑功能

快科技4月16日消息，据报道，可灵AI在北京举行灵感成真”2.0模型发布会，正式发布可灵2.0视频生成模型及可图2.0图像生成模型。据介绍，可灵2.0模型在动态质量、语义响应、画面美学等维度保持领先；可图2.0模型在指令遵循、电影质感及艺术风格表现等方面显著提升。3月27日，全球AI基准测试机构Artificial Analysis发布了最新的全球视频生成大模型榜单，快手可灵1.6pro（高品质模

可灵AI 视频生成模型图像生成模型
山石网科发布全新Open XDR解决方案：开启安全运营新范式

山石网科发布全新Open XDR解决方案，以"开放融合、AI赋能、智慧运维"为核心理念，突破传统安全架构局限。该方案通过南北向开放架构实现全领域数据采集与异构设备联动，打破数据孤岛；集成云端/本地AI大模型，降低安全运维门槛，实现日志精准解读和威胁深度分析；创新"案件调查"功能构建完整攻击链路，结合可视化剧本编排实现闭环安全运维。方案支持多源数据接入和无代码插件扩展，构建灵活可扩展的安全生态，助力企业从被动防御转向主动研判，为数字化转型提供智能化安全运营保障。

开放融合 AI赋能智慧运维
AI日报： OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

【AI日报】栏目聚焦人工智能领域最新动态：1) OpenAI推出ChatGPT图像生成API，开发者可轻松集成AI绘图功能，已生成超7亿张图片；2) 谷歌Gemini月活用户突破3.5亿，但仍落后于ChatGPT的6亿用户；3) OpenAI预测2029年收入将达1250亿美元，AI代理业务成主要增长点；4) Ostris发布8B参数扩散模型Flex.2-preview，优化ComfyUI工作流；5) 英伟达推出多模态LLM模型Describe Anything，支持指定区域生成详细描�

OpenAI ChatGPT 图像生成
腾讯混元视频生成工具全新开源：人物不会“变脸” 物体不会“漂移”

腾讯混元5月9日宣布推出开源的多模态定制化视频生成工具HunyuanCustom。该工具基于混元视频生成大模型打造，支持文本、图像、音频等多模态输入，能生成高质量定制视频。主要功能包括：单/多主体视频生成、视频配音、局部编辑等，在保持主体一致性的同时可灵活调整场景和动作。适用于广告、电商、影视等场景，如快速更换商品背景、制作数字人视频等。目前单主体生成功能已开源，其他功能将于5月陆续开放。用户只需上传图片和文字描述即可生成连贯自然的视频内容。

多模态视频生成腾讯混元 HunyuanCustom

今日大家都在搜的词：

热文

3 天
7天

腾讯发布全新 AI 框架 PrimitiveAnything：颠覆 3D 形状生成方式！

能理解海豚声音！谷歌开发全新AI模型DolphinGemma

腾讯“物种之眼”AI全新升级高效识别数千物种

荐AI日报：腾讯混元3D生成模型2.5版本发布；海螺推出图像人物参考功能；百度上线移动端超级智能体心响App

荐AI日报：Kimi全新音频基础模型Kimi-Audio；阶跃星辰开源图像编辑模型Step1X-Edit；夸克AI超级框上线 “拍照问夸克”

联想thinkplus三包plus服务升级3.0，覆盖售前、售中、售后全周期

10倍精度升级！腾讯混元3D模型v2.5版本发布

可灵AI发布全新2.0模型：上线多模态视频编辑功能

山石网科发布全新Open XDR解决方案：开启安全运营新范式

AI日报： OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

腾讯混元视频生成工具全新开源：人物不会“变脸” 物体不会“漂移”

今日大家都在搜的词：

热文

AI侵权纠纷愈演愈烈，特朗普罢免美国版权主管

三星、LG本月开始为iPhone 17批量生产OLED面板

在由人类创造的“AI驱动”的世界里，人类该何去何从？

C++创始人：需要改变的不是语言，而是开发者的思维方式！

2027 年太晚了？随着竞争加剧，iPhone 已失去光彩

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

AI侵权纠纷愈演愈烈，特朗普罢免美国版权主管

苹果高管称：10 年后，可能 iPhone 将不复存在！

特朗普关税政策颠覆汽车行业，福特率先开启“涨价潮”！

三星、LG本月开始为iPhone 17批量生产OLED面板

在由人类创造的“AI驱动”的世界里，人类该何去何从？

基于安卓16的三星 One UI 8 本月发布首个测试版本

苹果“为彼此创造”不再？听乔纳森·艾维忆往昔、谈传承

C++创始人：需要改变的不是语言，而是开发者的思维方式！

站长商机