首页 > 业界 > 关键词  > InsActor最新资讯  > 正文

创新性生成框架InsActor:用指令就能将人体运动模型转化为逼真的物理动画

2024-01-02 10:19 · 稿源:站长之家

**划重点:**

1. 🚶‍♂️ 利用最新的扩散式人体运动模型,InsActor能够生成基于高级人类指令的物理动画。

2. 🌐 通过扩散策略进行灵活条件化运动规划,InsActor捕捉高级人类指令与角色动作之间的复杂关系。

3. 🎮 在实验证明,InsActor在包括指令驱动运动生成和航点导向等任务上取得了最先进的结果。

站长之家(ChinaZ.com)1月2日 消息:在这项最新的研究中,来自南洋理工大学的研究团队介绍了一项名为InsActor的创新性生成框架。该框架旨在通过使用先进的扩散式人体运动模型,以指令驱动的方式生成基于物理的角色动画。

研究指出,尽管生成具有直观控制的基于物理的角色动画一直是一项令人向往的任务,但由于物理环境的复杂性和人类语言的丰富性,生成反映高级人类指令的物理模拟动画仍然是一个困难的问题。

image.png

为了解决这个问题,InsActor采用了一种有原则的生成框架,利用了最新的扩散式人体运动模型的进展。该框架通过使用扩散策略进行灵活条件化的运动规划,使InsActor能够捕捉高级人类指令与角色动作之间的复杂关系。

为了克服计划运动中的无效状态和不可行状态转换,InsActor发现了低级技能,并将计划映射到紧凑的潜在空间中的潜在技能序列。文章强调,InsActor在各种任务上取得了最先进的结果,包括指令驱动的运动生成和指令驱动的航点导向。

的实验证明,InsActor能够生成在执行丰富指令的长时任务中非常有价值的物理模拟动画。此外,由于扩散模型的灵活性,动画可以通过加入额外条件(例如航点)进行定制,展示了InsActor的广泛适用性。

InsActor不仅能够生成视觉上引人注目的动画,忠实地遵循指令,同时保持物理可行性,还作为语言条件的基准为基于物理的动画生成提供了重要的基础。

image.png

研究也指出了InsActor的一些局限性,如扩散模型的计算复杂性可能对将方法扩展到更复杂环境和更大数据集提出挑战。在最后,文章表示InsActor的能力使其成为未来指令驱动的基于物理的动画发展的重要基准。

项目体验网址:https://top.aibase.com/tool/insactor

论文网址:https://arxiv.org/pdf/2312.17135.pdf

举报

  • 相关推荐
  • 扣子也可以一键转化为 MCP Server 了

    受 Dify 启发,我在扣子上开发了一个应用,可以一键把扣子的工作流转化为 MCP Server。你不需要知道什么是 MCP Server也不需要知道怎么写 MCP Server只需要按下面的要求填个表单,按提示复制、粘贴、再复制、再粘贴,就好了。给你要转化为的 MCP 服务起个名、描述一下它的功能和输入输出参数,就可以得到一段 Python 代码,复制存到你电脑上,按应用下面的配置说明,复制粘贴到�

  • TikTok 上线 Brand Consideration! 助力品牌将影响力转化为消费意向!

    TikTok推出Brand Consideration营销方案,聚焦消费者决策链中的"种草阶段"。数据显示,处于种草阶段的用户对品牌偏好度比认知阶段高28%,贡献46%的GMV,转化效率可达认知阶段用户的12倍。该方案通过AI分析用户全渠道行为数据,精准识别高意向人群,帮助品牌降低46%的获客成本。东南亚市场实践表明,结合达人内容和电商广告的组合投放,能有效提升18.5%的种草效率。TikTok的差异化优势在于:1)Market Scope监测平台实时分析人群增长趋势;2)Symphony AI工具快速生成高质量内容;3)TikTok One平台便捷对接优质达人。该方案解决了数字营销中长期存在的中间漏斗转化难题,实现从认知到购买的全链路优化。

  • 豆包视频生成模型Seedance 1.0 lite发布:“迅速生成影视级的视频”

    火山引擎在FORCE LINK AI创新巡展上发布多款AI模型升级产品:1)Seedance 1.0 lite视频生成模型,支持5-10秒480P/720P视频生成,具备影视级画质和生成速度优势,适用于电商广告、影视创作等场景;2)豆包1.5视觉深度思考模型,仅20B参数但具备多模态理解能力,在60项基准测试中38项达SOTA水平;3)升级版豆包音乐模型,新增英文歌曲创作功能,并能根据视频内容自动适配BGM。目前这些模型已在火山方舟平台和豆包APP上线。

  • 夸夸就能省钱?燕荚这波福利玩真的

    燕巢平台推出"好评赚钱"活动:用户只需在社交平台发布带图好评并@官方账号,截图发送客服即可领取10元优惠券(满11元可用)。活动亮点:零门槛参与、不限次数领取、全品类通用(国货美妆/食品/日用品等),优惠券3天内有效。特别适合学生党和打工人,实现"边夸边省"的购物新方式。活动长期有效,先到先得,让每次分享都变成"省钱密码"!平台旨在通过真实用户反馈推动国货品质提升,实现"中国制造"向"中国质造"跨越。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • 持续霸榜!可灵2.0模型登顶全球视频生成大模型榜单

    快手旗下可灵AI 2.0模型在权威AI评测中表现优异,以1124分超越自研1.6版本,连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示,自2023年6月上线以来,可灵AI全球用户突破2200万,月活激增25倍,累计生成视频1.68亿个、图片3.44亿张。商业化方面,其单月流水已超千万元,并与伊利、vivo等头部品牌达成深度合作,展现出AI视频生成技术的广阔商业前景。

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • 低端显卡登上AI的大船!6GB显存就能生成高质量视频

    快科技4月20日消息,GitHub的Lvmin Zhang联合斯坦福大学的Maneesh Agrawala,发布了一项突破性的新技术FramePack,通过在视频扩散模型中使用固定长度的时域上下文,可以更高效地生成时间更长、质量更高的视频。根据实测,基于FramePack构建的130亿参数模型,只需一块6GB显存的显卡,就能生成60秒钟的视频。FramePack是一种神经网络架构,使用多级优化策略,完成本地AI视频生成。目前,�

  • 杭州铭师堂携手全国名校,共研假期高质量育人体系教育创新

    5月10日,全国70余位名校校长、教研组长齐聚河北衡水中学,参加"破局·赋能·共生——假期育人创新与五育融合实践研讨会"。会议围绕"五育融合"实践、初升高衔接痛点、数智化教学管理等议题展开研讨。衡水中学党委书记郗会锁作主题报告,强调教师是精神育人的核心载体。升学派产品负责人方珠明提出数智技术赋能假期育人的解决方案。会议设置教学管理圆桌会议和九大学科平行分会场,专家与一线教师共同探讨新高考背景下的学科教学创新。杭州铭师堂教育研究院院长徐浩强指出,数字技术是破解假期育人资源均衡配置难题的关键。会议旨在构建高质量假期育人体系,通过技术赋能与教育创新,让假期成为学生全面发展的"第三学期"。

  • 字节发布豆包1.5深度思考模型:“实拍级”图像生成

    快科技4月17日消息,据报道,今日,在火山引擎AI创新巡展杭州站的现场,字节跳动旗下火山引擎总裁谭待正式发布了备受瞩目的豆包1.5深度思考模型。谭待指出,豆包1.5深度思考模型在多个关键领域展现出卓越性能。在数学、编程、科学推理这类专业领域中,它能够精准高效地处理复杂问题;在创意写作等通用任务方面,同样表现出色。该模型采用MoE架构,总参数为200B,激�