首页 > 业界 > 关键词  > PixelDance最新资讯  > 正文

视频生成新突破!PixelDance还可以做复杂动作和特殊效果

2023-11-24 14:14 · 稿源:站长之家

要点:

  • PixelDance是一项新的视频生成技术,相较于其他模型,它在生成高度一致性和丰富动态性的视频方面取得了显著的进展,引起了广泛关注。

  • PixelDance提供基础模式和高级魔法模式两种生成模式。基础模式仅需一张指导图片和文本描述,而高级魔法模式则需要两张指导图片,为用户提供更大的创造空间。这两种模式均能产生复杂、生动的视频效果。

  • PixelDance在视频生成中的创新在于采用文本指导和首尾帧图片指导的方法,使模型更关注学习视频的动态信息。值得注意的是,PixelDance在公开的WebVid-10M数据集上,只使用1.5B大小的模型就取得了出色的效果,相对于其他方法,不依赖于复杂的数据集和大规模的模型训练。

站长之家(ChinaZ.com)11月24日 消息:近期,视频生成技术取得了显著的进展,其中PixelDance成为焦点。相较于其他模型如Runway的Gen-2、Meta的Emu Video、Stability.ai的SVD等,PixelDance在生成高度一致性和丰富动态性的视频方面表现出色。

PixelDance分为基础模式和高级魔法模式两种,前者只需一张指导图片和文本描述,而后者需要两张指导图片,为用户提供更大的创造空间。

image.png

体验地址:https://top.aibase.com/tool/make-pixels-dance

从官方展示的效果来看,PixelDance能够处理不同风格和复杂度的指导图片,包括真实风格、动画风格、二次元风格和魔幻风格。不仅如此,它能够完成人物动作、脸部表情、相机视角控制、特效动作等,展现了出色的生成效果。

PixelDance的技术创新在于采用文本指导和首尾帧图片指导的方法。这使得模型更专注于学习视频的动态信息,克服了视频生成中动作多样性和特征空间显著更大的挑战。

此外,PixelDance在公开的WebVid-10M数据集上,只使用1.5B大小的模型就取得了出色的效果,相较于其他方法,这显示了其对数据集和模型规模的简洁性。

在展示的3分钟故事短片中,PixelDance展现了出色的能力,无论是真实场景如埃及、长城,还是虚幻场景如外星球,都能生成细节丰富、动作丰富的视频。这为用户提供了创作空间,使得长视频生成不再依赖于拼凑弱相关的短视频片段。

PixelDance的突破意味着人们可以更轻松地生成复杂动作和炫酷特效的视频,为视频生成领域带来了新的可能性。未来,PixelDance将进一步迭代模型效果,并在2-3个月内放出供人们试用的模型,为创作者提供更多可能性。

举报

  • 相关推荐
  • 豆包视频生成模型Seedance 1.0 lite发布:“迅速生成影视级的视频

    火山引擎在FORCE LINK AI创新巡展上发布多款AI模型升级产品:1)Seedance 1.0 lite视频生成模型,支持5-10秒480P/720P视频生成,具备影视级画质和生成速度优势,适用于电商广告、影视创作等场景;2)豆包1.5视觉深度思考模型,仅20B参数但具备多模态理解能力,在60项基准测试中38项达SOTA水平;3)升级版豆包音乐模型,新增英文歌曲创作功能,并能根据视频内容自动适配BGM。目前这些模型已在火山方舟平台和豆包APP上线。

  • 对标Sora!谷歌发布AI视频生成器Veo 3:可同时生成视频和音效

    谷歌在I/O开发者大会上发布第三代视频生成模型Veo+3,对标OpenAI的Sora。该模型不仅能基于文本和图像生成高质量视频,还能为人物对话、鸟鸣等场景自动匹配音效,实现更逼真的视听体验。目前Veo+3面向美国Gemini Ultra订阅用户,月费249.99美元,并将纳入企业级Vertex AI平台。谷歌同期还发布了升级版图像模型Imagen 4、电影制作工具Flow等AI产品。值得注意的是,谷歌在AI图像生成领域并非一帆风顺,此前Imagen 3曾因生成含历史错误的图像引发争议。

  • 必应引入OpenAI的Sora视频生成器,完全免费使用

    微软表示:“Bing 视频生成器体现了我们让 AI 视频创作变得全民可及的努力。我们相信,创造力应当轻松且人人可用,从而助力你的探索与表达。”

  • 腾讯混元视频生成工具全新开源:人物不会“变脸” 物体不会“漂移”

    腾讯混元5月9日宣布推出开源的多模态定制化视频生成工具HunyuanCustom。该工具基于混元视频生成大模型打造,支持文本、图像、音频等多模态输入,能生成高质量定制视频。主要功能包括:单/多主体视频生成、视频配音、局部编辑等,在保持主体一致性的同时可灵活调整场景和动作。适用于广告、电商、影视等场景,如快速更换商品背景、制作数字人视频等。目前单主体生成功能已开源,其他功能将于5月陆续开放。用户只需上传图片和文字描述即可生成连贯自然的视频内容。

  • 持续霸榜!可灵2.0模型登顶全球视频生成大模型榜单

    快手旗下可灵AI 2.0模型在权威AI评测中表现优异,以1124分超越自研1.6版本,连续三个月蝉联全球图生视频领域冠军。4月15日发布的2.0大师版在视频质量、语义理解和画面美学等核心指标持续领先行业。数据显示,自2023年6月上线以来,可灵AI全球用户突破2200万,月活激增25倍,累计生成视频1.68亿个、图片3.44亿张。商业化方面,其单月流水已超千万元,并与伊利、vivo等头部品牌达成深度合作,展现出AI视频生成技术的广阔商业前景。

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • AI日报:QQ浏览器升级为AI浏览器;OpenAI全新编程智能体Codex;B站团队推动漫视频生成模型AniSora

    本文介绍了AI领域多项最新进展:1)B站团队推出开源动漫视频生成模型AniSora,支持多种风格创作;2)OpenAI发布编程智能体Codex,提升开发效率;3)Google测试AI问答功能AI Mode;4)ChatGPT将整合MCP协议,支持第三方AI服务对接;5)阿里推出ZeroSearch框架,减少对搜索引擎的依赖;6)Stability AI与Arm合作推出手机端音频生成AI;7)Qwen发布WorldPM系列大模型;8)GPT-5将整合多款产品功能;9)ListenHub上线AI播客生成工具;10)QQ浏览器升级为AI浏览器;11)数学建模AI助手MathModelAgent面世;12)GenSpark推出全球首个智能下载代理;13)谷歌NotebookLM将推出视频摘要功能。这些创新展现了AI技术在各领域的快速发展和广泛应用。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • Pixelfox AI智能修图,小白也能上手,抛弃PS

    高效、精准的图片处理工具已成为创作者与企业不可或缺的助力……

  • 全球首款生成式人形机器人运动大模型发布:可根据指令生成跑步、舞蹈等连贯动作

    今日上午,国家地方共建人形机器人创新中心联合复旦大学未来信息创新学院,正式发布了全球首款生成式人形机器人运动大模型 龙跃”(MindLoongGPT)。 龙跃大模型以自然语言驱动”为核心,构建了从多模态输入到高保真动作生成的完整闭环,颠覆传统运动控制范式。 也就是说,用户无需学习专业术语或操作复杂软件,仅需像与人类对话一样发出指令,例如以优雅的姿势递