首页 > 业界 > 关键词  > 正文

商汤科技提出Story-to-Motion:从长文本生成人体运动轨迹

2023-11-22 10:55 · 稿源:站长之家

要点:

  • 人工智能在动画、游戏和电影领域的应用中,从长篇文本中生成自然人类运动是一个复杂而困难的任务。研究团队提出了一种新的方法,通过三个主要组件,即文本驱动的运动调度、文本驱动的运动检索系统和渐进式掩蔽变换器,成功解决了这一挑战。

  • 提出的方法通过引入轨迹和语义,能够从长篇文本中生成全面的运动,从而解决了“故事到运动”问题。特别地,文本驱动的运动匹配为准确、可定制的运动合成提供了新方法。在多个子任务上的实验证明,该方法在轨迹跟踪、时间动作组合和运动混合方面优于现有技术。

  • 该系统代表了从文本叙述中合成人类运动的重大进展,将在动画、游戏和电影行业产生深远的影响。它为“故事到运动”任务提供了全面解决方案,具有改变行业格局的潜力。

站长之家(ChinaZ.com)11月22日 消息:人工智能正逐渐渗透到各行各业,其中一项重要的进展是通过长篇文本生成自然人类运动,这在动画、游戏和电影等领域具有巨大潜力。然而,从文本到运动的转化一直是一个巨大挑战,尤其是在处理角色在不同区域移动和执行特定动作时。

尽管过去已经付出了大量努力来研究文本到运动和角色控制,但迄今为止尚未找到合适的解决方案。现有的角色控制方法存在许多限制,无法处理文本描述,而当前的文本到运动方法则需要更多的位置约束,导致生成不稳定的运动。

image.png

项目地址:https://story2motion.github.io/

为了应对这些挑战,研究团队提出了一种独特的方法,该方法通过三个关键组件解决了“故事到运动”的问题。首先是文本驱动的运动调度,它利用现代大型语言模型从长篇文本中提取文本、位置和持续时间对,作为文本驱动的运动调度器,确保生成的运动基于故事并包含有关每个动作的位置和长度的详细信息。

其次是文本驱动的运动检索系统,通过将运动匹配和对运动轨迹和语义的约束相结合,创建了一个全面的运动检索系统,确保生成的运动满足预期的语义和位置属性以及文本描述。最后是渐进式掩蔽变换器,它专门设计用于处理过渡运动中的常见伪影,如脚滑动和不寻常的姿势,以提高生成运动的质量,产生更平滑的过渡和更真实的外观。

这一方法经过了在运动混合、时间动作组合和轨迹跟踪等三个子任务上的测试,结果显示在每个领域都优于先前的运动合成技术。

研究人员总结了他们的主要贡献,包括引入轨迹和语义以从长篇文本生成全面的运动,提出了一种新方法——基于文本的运动匹配,以提供准确和可定制的运动合成,并在轨迹跟踪、时间动作组合和运动混合子任务上的实验证明其优于现有技术。

总的来说,这个系统标志着从文本叙述中合成人类运动的一大步前进。它不仅为“故事到运动”任务提供了完整的解决方案,还在动画、游戏和电影等行业中具有革命性的影响。这项研究的成果为人工智能技术在创意产业中的应用开辟了新的可能性,有望为相关领域带来巨大的发展。

举报

  • 相关推荐
  • 数贸会今日开幕!每日互动展台人气火爆,GAI Station引领AI办公新体验

    2025全球数字贸易博览会于9月25日在杭州开幕。每日互动公司(展位7A-T022)集中展示了AI产业实践与数据流通领域成果,重点推出10万元级智能工作站GAI+Station,集成写作、会议纪要、智能问答等功能,内置8大模型能力,破解成本与安全痛点。其“发数站”战略打通数据高效流通链路,已在医疗、交通等多领域落地,“数智绿波”应用覆盖全国30多个省市,通行效率提升20%以上。此外,AITA超级营销助手实现升级,机器狗互动表演吸引关注。展会期间将举办10余场专业发布,涵盖数据要素、大模型应用等行业实战,助力企业把握数字化机遇。

  • 不让苹果17 Air独美!联想官宣moto X70 Air新机 又轻薄又有AI

    联想宣布moto X70 Air将于10月底上市,主打“有AI的Air”概念。该机以超薄设计为亮点,背部采用微凸双摄,外观舒适。对比iPhone 17 Air的5.6mm厚度和165g重量,moto新机具体配置未公布,但有望在轻薄度上超越苹果,引发市场期待。

  • Testin 云测入选 “2025 新科技 100 强金 i 奖”,AI测试技术成核心壁垒

    9月19日,Testin云测凭借AI测试技术入选“2025新科技100强金i奖”,获评“AI测试领航服务商”。其推出的Testin XAgent系统通过自然语言处理、视觉识别与自主探索能力,实现测试用例自动生成与全流程覆盖,推动软件测试从自动化向智能化升级。同时,Testin积极参与行业标准制定,联合信通院启动智能测试能力评估体系,助力构建规范化行业生态。目前,Testin已服务超300万款应用,未来将持续以AI为核心引擎,重塑软件研发质量效能,彰显中国技术在AI测试领域的领先实力。

  • Miss Pep闪耀TikTok达人赛,以“时尚健康美学”燃爆纽约地标

    2025年9月20日,纽约本土健康品牌Miss Pep受邀参加在American Dream Mall举办的“美国梦×TikTok达人明星全美品牌推广赛”。品牌通过产品展示、达人直播互动及宣讲,向日均超18万客流传递“健康与美缺一不可”理念。现场设置互动扫码送定制纹身贴等趣味活动,吸引大量潮流人士。多位顶流明星及达人助阵,结合线上线下联动直播,触达数百万粉丝,强化品牌认知。Miss Pep深耕健康美学30年,产品覆盖养颜、膳食补充等多领域,以“细胞级靶向修护+超天然成分”为核心,正加速全球化布局,覆盖超20国市场,致力成为健康美学的领军者。

  • 苹果破天荒史诗升级!iPhone 17标准版首次支持Pro Motion:120Hz高刷

    iPhone 17系列终于在万众期待中亮相,首先介绍的就是屏幕,采用更窄边框的6.3英寸屏幕。 大家盼望多年的重磅升级终于来了标准版首次支持高刷。

  • StarRocks Connect 2025 圆满落幕:AI Native 时代,数据分析未来已来

    StarRocks Connect 2025峰会圆满落幕,聚焦AI Native时代的数据分析未来。活动汇聚全球开发者与行业专家,分享StarRocks在复杂业务场景中的实践,探讨技术演进方向。从性能引擎到AI原生平台,StarRocks 4.0将支持多智能体协作框架,提升数据分析效率。多家企业展示应用案例,覆盖电商、金融、旅游等领域,验证了其高性能与成本优势。开源精神推动技术创新,共同探索数据智能的无限可能。

  • 途鸽科技创始人张衡IOTE 2025最新演讲:AI赋能智能产业下的全球新范式

    2025年8月27日,IOTE国际物联网展期间在深圳举办“世界人工智能与物联网创新应用生态大会”。途鸽科技创始人张衡受邀发表主题演讲,分享AI与物联网深度融合趋势下,通信技术、人工智能和全球化三大关键发展方向。他指出,未来通信将从实体SIM卡向eSIM卡转变,5G向6G跨越,人工智能将成为通信架构核心,助力端到端网络革新。途鸽科技作为全球云通信服务平台,以平台化�

  • AI日报:腾讯重磅发布混元图像3.0;快手发布KAT系列Agentic Coding大模型;苹果悄然研发ChatGPT式应用

    快手发布KAT系列代码大模型,腾讯推出“混元图像3.0”实现多模态突破,苹果研发类ChatGPT应用升级Siri,谷歌更新Gemini 2.5 Flash Lite提升效率。苹果还推出Manzano图像模型,YouTube Music测试AI音乐主播功能,VideoFrom3D框架简化3D视频生成,Moondream 3.0在多项基准测试中超越GPT-5等顶尖模型,展现强大性能。

  • 易鑫发布Agentic大模型,破解汽车金融风控与效率痛点

    9月12日,易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”,成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出,易鑫以AI为核心驱动力,通过自研大模型“智鑫多维”等技术,显著提升风控水平与融资通过率,推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构,服务覆盖牧民、基层员工等多元群体,体现技术普惠价值。未来将持续加大科技创新投入,深化国内普惠金融服务,并探索技术出海,助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可,更反映出行业正加速拥抱智能化变革。

  • 让搜索“一步到位”! 快手提出端到端生成式搜索方案OneSearch

    当前电商平台普遍采用“召回、粗排、精排”级联式搜索架构,但存在商品描述混乱、相关性差、冷启动难等痛点。快手提出业界首个工业级端到端生成式搜索框架OneSearch,集成三大创新模块:关键词增强量化编码(KHQE)提升商品特征建模能力,多视角用户行为序列注入策略实现精准偏好捕捉,偏好感知奖励系统(PARS)优化排序多样性。实际部署后,订单量提升3.22%,买家数增长2.4%,在线推理成本降低75.4%,冷启动场景表现尤为突出。该系统标志着生成式模型在大规模工业场景中首次完整替代传统搜索链路,为电商搜索技术发展指明方向。

今日大家都在搜的词: