CHOIS:基于语言引导的合成逼真3D人机交互的AI方法

2023-12-11 09:42 · 稿源：站长之家

**划重点:**
1. 🌐 CHOIS是由斯坦福大学与FAIR Meta研究团队开发的AI系统，通过语言描述、初始状态和稀疏对象航点，实现了在3D场景中生成对象和人物同步运动的突破性方法。
2. 🚶‍♂️ 与先前集中于手部运动合成的方法不同，CHOIS关注在对象抓取之前的全身运动，并根据人体运动预测对象运动，为交互式3D场景模拟提供全面解决方案。
3. 📈 CHOIS通过使用条件扩散方法生成基于语言描述、对象几何和初始状态的同步对象和人体运动，通过评估显示在条件匹配、接触准确性等指标上的优越性，提高了在3D环境中生成逼真人物行为的能力。

站长之家（ChinaZ.com）12月11日消息:斯坦福大学与FAIR Meta的研究人员合作开发的CHOIS系统，通过引入基于语言描述、初始状态和稀疏对象航点的方法，成功解决了在3D场景中生成对象和人物同步运动的难题。该系统通过在指定的3D环境中产生逼真且可控的运动，控制了人物与对象之间的交互。

CHOIS利用大规模高质量的运动捕捉数据集（如AMASS），推动了生成式人体运动建模的兴趣，包括动作条件和文本条件的合成。与以往使用VAE公式从文本生成多样人体运动的方法不同，CHOIS专注于人物与对象的交互。与侧重于手部运动合成的现有方法不同，CHOIS考虑了在对象抓取之前的全身运动，并根据人体运动预测对象运动，为交互式3D场景模拟提供了全面的解决方案。

CHOIS解决了在3D环境中合成逼真人物行为的重要需求，对计算机图形学、具身人工智能和机器人技术至关重要。该系统通过基于语言描述、初始状态和稀疏对象航点生成同步的人体和对象运动，应对了逼真运动生成、适应环境杂乱、以及从语言描述中合成交互的挑战，为在不同3D场景中可控的人物-物体交互提供了全面的系统。

在评估阶段，CHOIS系统与基线和消融模型进行了严格对比，展示了在条件匹配、接触准确性、减少手-物体穿透和脚浮动等指标上的卓越性能。在FullBodyManipulation数据集上，对象几何损失提升了模型的性能。在3D-FUTURE数据集上，CHOIS在新对象上的泛化表现优于基线和消融模型。人类感知研究突显了CHOIS在与文本输入对齐以及相比基线更优越的交互质量方面的优势。定量指标包括位置和方向误差，用于衡量生成结果与地面真实运动之间的偏差。

总体而言，CHOIS是一个基于语言描述和稀疏对象航点生成逼真人物-物体交互的系统。在培训过程中，该程序考虑了对象几何损失，并在采样过程中采用了有效的引导术语，以增强结果的逼真性。CHOIS学到的交互模块可以集成到一个管道中，用于基于语言和3D场景合成长期交互。CHOIS在生成与提供的语言描述一致的逼真人物-物体交互方面有了显著改进。

未来的研究可以探索通过整合额外的监督，如对象几何损失，以提高生成的对象运动与输入航点的匹配性。研究更先进的引导术语以强制执行接触约束可能会产生更逼真的结果。将评估扩展到多样的数据集和场景将测试CHOIS的泛化能力。进一步的人类感知研究可以提供有关生成交互的更深层次的洞察。将学到的交互模块应用于基于3D场景对象航点生成长期交互也将拓展CHOIS的适用性。

项目网址:https://lijiaman.github.io/projects/chois/

论文网址:https://arxiv.org/abs/2312.03913

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
Spline发布3D生成工具AI 3D Generation 支持文/图生3D模型及混合编辑3D模型

Spline的最新3D生成工具的发布，标志着3D设计领域的一次重大进步。这款在线3D编辑工具不仅支持从文字和图片生成3D模型能够混合和编辑3D模型，为用户提供了一个全面强大的3D设计解决方案。这意味着用户可以始终接触到行业的最新趋势，并将这些新功能应用到自己的项目中，保持创作的前沿性和创新性。

3D模型 AI头条
Interactive3D：可直接通过交互操作指导3D模型生成

Interactive3D技术为3D内容的创造和修改提供了一种极其灵活的方法。用户可以直接通过交互操作来指导3D模型的生成，这一过程不仅直观具有高度的创造性。无论是专业的3D设计师还是业余爱好者，都能通过这一技术轻松实现自己的创意构想。

3D模型 AI头条
港大与浙大联合研发SC-GS模型鼠标拖拽实时可编辑3D重建

在数字资产创造和3D重建领域，香港大学CVMI实验室与3D大模型公司VAST以及浙江大学的联合研究团队提出了一项突破性成果——SC-GS模型。这一模型不仅在新视角合成领域掀起了革命性浪潮，更在动态场景的实时交互编辑方面展现了巨大潜力。他们期待在2024年看到更多基于高斯溅射技术的创新工作和探索。

SC-GS AI头条
AI人声合成引擎ACE Studio 可修改Suno生成的音乐甚至替换歌手的声音

ACEStudio是一款尖端的AI人声合成引擎，其设计理念是创造出既自然又富有感情的类真人歌声。这款引擎运用了最前沿的AI技术，将人工智能融入声音生成的每一个环节，力求让合成出来的声音尽可能地接近真实人声的表现力和情感深度。ACEStudio为音乐制作人提供了强大的工具，使他们能够在创作中发挥更大的想象力和创造力，同时以高品质的人声为作品增添灵魂和情感。

Suno ACEStudio AI头条
Domo AI推视频色度抠图功能可将扣出的人物合成到新背景中

DomoAI近日推出了一项新功能，用户现在可以通过“--key”命令扣出主体人物后更换对应颜色的背景。这一功能的引入，无疑为用户带来了更多的便利和创作空间。DomoAI的这一新功能，无疑为用户提供了更多的创作自由度，使得视频和移动创作变得更加便捷和个性化。

Domo AI头条
荐小游戏出海，跑出日本最赚钱的合成游戏

出海小游戏《肥鹅健身房》2月27日登陆日本，当日登顶日本iOS下载总榜。时隔近一个月后我们再来看这款游戏，下载排名依旧稳定在下载总榜Top30，累计下载量63w次，尤其让人惊喜的是畅销榜排名的变动，3月25日位列iOS游戏畅销榜Top87，将《MergeMansion》、《SeasideEscape》等的明星产品都甩到身后。根据data.ai信息，青瓷游戏获授权发行的塔防游戏《TotemvsBOT》以及肉鸽动作游戏《骑�

游戏
OpenAI公开语音合成引擎Voice Engine：支持语音克隆，未开放使用

OpenAI近日分享了一个名为VoiceEngine语音合成模型的初步结果。VoiceEngine支持语音克隆，但是未开放使用，提供给了HeyGen等公司使用。OpenAI希望通过与各方合作，加强社会对合成语音技术带来的挑战的防范，促进对合成语音技术的了解和应用。

VoiceEngine OpenAI AI头条
PhysDreamer：让3D物体符合物理规律动起来

在创建沉浸式虚拟体验时，实现真实物体交互至关重要。针对新型交互合成真实的3D物体动态仍然是一项重大挑战。PhysDreamer通过使静态3D物体能够以物理合理的方式动态响应互动刺激，迈出了向更具吸引力和真实感的虚拟体验的一步。

PhysDreamer AI生成视频 AI头条
DiffHuman官网体验入口 3D人体建模软件使用方法教程指南

DiffHuman是一种概率性的光度逼真的3D人体重建方法。它可以从单张RGB图像预测一个3D人体重建的概率分布，并通过迭代降噪采样多个细节丰富、色彩鲜明的3D人体模型。要获取更多详细信息并开始使用DiffHuman，请访问DiffHuman官方网站。

DiffHuman
ACE Studio官网体验入口 AI歌手音乐制作人声合成工具软件下载链接

ACEStudio是一个先进的AI人声合成引擎，旨在制作听起来像真人一样自然和充满感情的歌声。其功能包括AI唱歌合成引擎、支持多语言的AI歌手、商业用途的免费使用权、多维AI情感参数、简化声乐制作流程、创造独特音色和唱法。ACEStudio的关键功能提供自然、富有表现力的人声合成支持多语言的AI歌手商业用途的免费使用权多维AI情感参数控制简化声乐制作流程创造独特音色和唱法如何使用ACEStudio想要体验ACEStudio的强大功能，只需访问ACEStudio官方网站，了解更多详细信息并开始您的声音合成之旅。

ACEStudio

今日大家都在搜的词：

热文

3 天
7天

CHOIS:基于语言引导的合成逼真3D人机交互的AI方法

今日大家都在搜的词：

热文

站长商机