首页 > 业界 > 关键词  > MuseV最新资讯  > 正文

MuseV:虚拟人视频完整解决方案 保持角色一致、不限视频长度

2024-04-02 13:42 · 稿源:站长之家

划重点:

⭐️ MuseV 是基于扩散的虚拟人类视频生成框架,支持使用新颖的视觉条件并行去噪方案进行无限长度生成。

⭐️ 可训练的虚拟人类视频生成模型已在人类数据集上训练完成,支持图像到视频、文本到图像到视频、视频到视频的生成。

⭐️ MuseV 还支持多参考图像技术,包括 IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID 等。

站长之家(ChinaZ.com)4月2日 消息:MuseV 是一个基于扩散的虚拟人类视频生成框架,支持无限长度生成,使用了一种新颖的视觉条件并行去噪方案。已经发布了在人类数据集上训练的虚拟人类视频生成模型。

image.png

该框架还支持图像到视频、文本到图像到视频、视频到视频的生成,并与 Stable Diffusion 生态系统兼容,包括 base_model、lora、controlnet 等。简单的说,MuseV基于SD,支持文生视频、图生视频、视频生视频,能保持角色一致,不限视频长度。

此外,MuseV 还支持多参考图像技术,包括 IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID。

开发团队表示,未来将发布 MuseTalk,一个实时高质量的嘴型同步模型,可以与 MuseV 一起作为完整的虚拟人类生成解决方案。

项目入口:https://top.aibase.com/tool/musev

在线体验:https://huggingface.co/spaces/AnchorFake/MuseVDemo

举报

  • 相关推荐
  • 阿里发布Wan2.7-Video视频生成模型!从演迈向导 聚焦创作全链路

    阿里巴巴今日正式发布Wan2.7-Video视频生成系列模型,涵盖文生视频、图生视频、参考生视频和视频编辑四大模型。 新模型拥有全面的创作控制力,将AI的能力从单一素材生成扩至创作全链路,从演”迈向导”。

  • 视频生成每秒仅需1元!字节Seedance2.0正式上线API服务

    今日,字节旗下火山引擎正式上线Seedance 2.0系列API服务,企业和个人用户现在可以调用其视频生成能力。 作为全球SOTA模型,Seedance 2.0支持文字、图片、音频、视频四种模态输入;同时它在复杂交互和运动场景下的可用率更高,更加贴合工业级创作场景的需求。 此外,火山引擎还为Seedance 2.0建立了肖像与版权安全标准,覆盖视频生成涉及的各种模态和创作前后的全部流程。 �

  • 阿里云百炼上线三方视频生成模型,PixVerse首发登陆

    全球领先的AI视频生成模型PixVerse V5.6正式登陆阿里云百炼平台,成为该平台首批引入的视频生成模型。此次合作标志着PixVerse从技术领先迈向规模化商业应用。模型支持文生视频、图文生视频等多种创作模式,并推出按需、按时长计费的灵活模式,大幅降低高质量视频创作门槛。同时,PixVerse V5.6在复杂运动场景的稳定性和“镜头语言”理解能力上显著提升,能生成更符合商业交付标准的内容。通过百炼平台,PixVerse将触达阿里云庞大的企业用户群,推动AI视频从“演示级能力”迈向“工业化生产”,在电商营销、泛娱乐内容、短剧创作等多个行业展现广泛应用价值。

  • AI日报:火山引擎Seedance2.0 API全面开放;阿里巴巴首款具身机器人曝光;Skywork AI发布实时视频生成系统Matrix-Game 3.0

    本期AI日报聚焦多领域前沿动态:火山引擎Seedance 2.0 API上线,提供SOTA级视频生成能力;Skywork AI发布Matrix-Game 3.0,实现720p实时高清“世界生成”;特斯拉2026春季更新将带来Grok语音助手升级与FSD一键订阅。此外,五部门联合部署“人工智能+教育”行动,计划到2030年构建深度融合格局;爱奇艺CEO预测3-6个月内或出现AI商业大片;阿里巴巴发布首款具身四足机器人;LPM1.0模型实现单图转实时交互式数字人视频;谷歌Gemini推出基于Nano Banana技术的交互式可视化图像生成功能。

  • Soul CEO张璐团队开源SoulX-LiveAct:从“能生成”到“能长时间稳定生成”

    Soul CEO张璐团队开源实时数字人生成模型SoulX-LiveAct,旨在解决长时连续生成难题。模型基于AR Diffusion框架,采用分块生成与上下文传递机制,结合Neighbor Forcing和ConvKV Memory优化性能与一致性。在多项基准测试中表现优异,支持数字人直播、AI教育等在线场景。该模型与团队此前开源的SoulX-FlashTalk、SoulX-FlashHead共同完善技术布局,推动AI应用生态发展。

  • 爱诗科技PixVerse V6 正式发布,AI视频生成迈向“真实世界模拟”

    爱诗科技发布新一代视频生成模型PixVerse V6,在保持秒级生成速度基础上,全面升级人物真实感、复杂运动表现、物理模拟及声画协同能力,最长可生成15秒视频。该模型在AI视频生成榜单中位列全球第二,显示其领先水平。V6重点提升视频的真实世界模拟能力,优化人物细节表现,强化复杂场景处理,增强物理属性模拟,并优化镜头连续性。同时降低创作门槛,用户可通过简洁描述生成复杂镜头效果。目前PixVerse V6已在拍我AI Web端、App端及API平台上线,并推出限时优惠活动。

  • 谷歌Gemini再升级!解锁新玩法:输入提示词即可生成交互式3D模型

    近日,谷歌Gemini AI推出最新升级,用户只需输入提示词,就能让聊天机器人生成交互式3D模型和实时模拟。 这一新功能支持多种互动操作,包括旋转模型、拖动滑块调整参数或输入数值改变模拟结果。 例如,用户询问月球绕地球轨道时,Gemini会创建一个3D模型,并提供轨道速度滑块、路径线切换开关以及暂停按钮。

  • 智谱发布GLM-5V-Turbo模型:编程告别纯文本 一张图片就能生成代码

    智谱AI于4月2日发布GLM-5V-Turbo多模态编程模型,专为视觉编程打造。该模型深度融合视觉与文本能力,能看懂设计稿、截图、网页界面并生成可运行代码,实现“看得懂画面、写得出代码”。其三大核心特性包括:原生多模态编程基座,支持图片、视频、设计稿等多模态输入;兼顾视觉与编程能力,在多模态编程、GUI+Agent等基准上表现领先;深度适配Claude Code与龙蜥场景,可实现环境规划与动作执行的完整闭环。实测显示,该模型在设计稿还原、视觉代码生成等任务中表现优异,在AndroidWorld、WebVoyager等GUI操控测试中同样突出,纯文本编程能力稳定。目前已落地图像即代码、龙蜥视觉赋能等典型场景。

  • 长视频的AI竞赛:技术是门票,人才是底牌

    一条由B站UP主“DiDi_OK”创作的7分钟AI短片《牌子》最近引发了不少关注。 火星神秘警示牌降临引发全球性混乱,背后竟隐藏着关于人类文明重启、巴别塔式困境的多重隐喻;从异兽出没到街头枪战,镜头切换快速且流畅,还不乏“炫技”式的一镜到底……无论从主题丰富度还是画面效果来看,《牌子》都达到了“以假乱真”的程度。

  • 灵初智能双模型亮相,全球最大人类手部数据集正式开源

    灵初智能发布新一代具身大模型Psi-R2与Psi-W0,并开源首个1000小时人类手部操作全模态数据集。该数据集总储备达10万小时,为当前行业最大的开源人类手部操作数据集,标志着具身智能从实验室走向产业化的关键一步。Psi-R2是首个使用10万小时量级人类数据预训练的World Action Model,输入图片和语言即可输出预测的未来视频和机器人动作。Psi-W0作为Action-Conditioned World Model,核心功能是对Policy进行评估与提升,并通过强化学习将人类数据的dynamic迁移至机器人dynamic。此次开源的数据集具备三大亮点:全模态覆盖视觉、语言、关节角度、触觉四类信息;通过自研外骨骼手套采集,3D轨迹精度达亚毫米级;涵盖工业装配、生活操作、物体抓取等多场景任务。该数据集可广泛应用于智能制造、物流仓储、商业服务等商业化场景,加速具身智能在千行百业的落地应用。

今日大家都在搜的词: