首页 > 业界 > 关键词  > StoryDiffusion最新资讯  > 正文

StoryDiffusion:保持角色一致,可生成多图漫画和长视频

2024-05-06 10:46 · 稿源:站长之家

划重点:

🔮 Consistent self-attention 实现角色连贯图像生成

🎥 Motion predictor 实现长视频生成

🎨支持漫画生成、图像转视频、长短视频等多种内容生成功能

站长之家(ChinaZ.com)5月6日 消息:南开大学 HVision 团队开发了 StoryDiffusion,一款能够创造神奇故事的工具。StoryDiffusion可以保持角色一致,生成多图漫画和长视频。

image.png

该工具通过实现 Consistent self-attention 和 Motion predictor,能够生成连贯的图像和视频。用户可以提供文本提示来生成角色连贯的图像序列,同时也能实现长视频生成,预测不同条件图像之间的运动,实现更大幅度的运动预测。

StoryDiffusion 的应用范围广泛,可用于漫画生成、图像转视频等多种场景。通过 Consistent self-attention 机制生成的图像,可以顺利过渡为视频,实现两阶段长视频生成方法。此外,结合两个部分,还能生成常长且高质量的 AIGC 视频。

image.png

用户可以通过提供一系列用户输入的条件图像,使用 Image-to-Video 模型生成视频。此外,用户可以通过 Jupyter notebook 或本地 adio demo 来生成漫画。目前,该项目发布了生成漫画部分的源码。

产品入口:https://top.aibase.com/tool/storydiffusion

试玩入口:https://huggingface.co/spaces/YupengZhou/StoryDiffusion

举报

  • 相关推荐
  • 腾讯元宝又叒叕上新:一句话即可生成Mermaid

    据其介绍,只要在元宝里输入一句话,比如帮我用Mermaid生成一张xxx流程图”,系统就会自动生成饼图、流程图、甘特图、时序图等。生成后,用户可以立刻预览效果,或者复制代码拿去其他地方使用。 腾讯元宝介绍,这个功能比较适合用在学术研究、工作报告、数据分析等场景,能帮助用户把复杂的内容快速变成图表,让信息更直观,沟通也更高效。

  • 苹果Vision Air曝光:采用钛金属 设备更轻

    快科技4月17日消息,当前Vision Pro 256G版本售价为29999元起,设备重量为600克至650克,根据遮光罩和头带配置不同可能有所差异,其单独的电池重量为353克,不少线下体验者表示,该头显的重量影响其体验舒适度。苹果也意识到了这个问题,其下一代头显的研发重点是减重”,有博主在社交平台上爆料称,苹果正在研发全新头显Vision Air,其特点是采用轻量化设计,同时带来午夜�

  • 阿里开源通义新模型:指定首尾图片生成视频

    快科技4月18日消息,据报道,阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面,智能生成720p高清过渡视频,为视频创作带来全新可能。该模型通过先进的深度学习算法,能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后,模型会智能分析画面中的视觉元素,包括物体形�

  • 苹果Siri团队大换血!Vision Pro班底全面上马

    苹果正对Siri团队进行大规模重组,由新任工程主管Mike Rockwell主导改革。Rockwell从Vision Pro项目调来核心成员,重组了语音、理解、性能等关键团队。Vision Pro项目副手Ranjit Desai将负责Siri主要工程事务,Olivier Gutknecht接手用户体验设计。此次重组旨在简化开发流程,提升Siri功能。苹果AI/ML团队此前因管理混乱被员工戏称为"AI/less"。业内建议苹果应考虑重塑Siri品牌形象,推出全新数字助手以摆脱负面评价。

  • 苹果要 all in 智能眼镜?Vision Pro 2 也已准备就绪

    苹果已着手开发轻便且低价的 AR 智能眼镜,同时也在开发第二代头显设备 Vision Pro。

  • vivo Vision混合现实头显宣布下半年发布

    vivo宣布其MR设备vivo Vision将于今年下半年正式发布,引发市场广泛关注。该设备可能与vivo X300系列手机同步上市,形成产品矩阵效应。Vision头显设计借鉴夏普Vision Pro风格,采用曲面抛光镜片,集成了多颗摄像头,但具体技术参数尚未公开。此布局被视为vivo战略转型的关键一步,旨在通过MR技术强化实时空间计算能力,为基础的未来机器人物联网应用奠定基础。vivo计划打造一套视觉感知系统,重点提升机器人的视觉捕捉、处理、理解、空间建模及边缘计算等五大维度的智能化水平。这一战略定位依赖于依图科技在AI大模型与混合现实技术领域的积累,vivo加速布局机器人赛道的相关落地措施已进入实质推进阶段。伴随Vision头显的发布,行业或将迎来新一轮技术竞争。这被寄予厚望的设备能否在空间计算领域实现突破,仍需等待市场验证。

  • ChatGPT上线库功能:可管理AI生成图

    快科技4月16日消息,据报道,OpenAI近日宣布将为ChatGPT推出全新的Image Library图库功能,该功能将帮助用户更高效地管理和查看AI生成的图像。这项创新功能将逐步向所有用户开放,包括移动端和网页端的免费版、Plus版及Pro版用户。新功能的设计充分考虑了用户体验的便捷性。用户只需点击ChatGPT侧边栏的Library入口,就能进入一个直观的图像网格界面。在这个界面中,用户可以轻�

  • AI日报:扣子空间开放测试;腾讯混元开源视频生成工具HunyuanCustom;阿里开源大模型搜索引擎ZeroSearch

    本文汇总了近期AI领域多项重要进展:1)扣子空间开放测试,无需邀请码即可体验AI协作平台;2)腾讯推出HunyuanCustom视频生成工具,实现音视频同步编辑;3)阿里巴巴ZeroSearch技术降低AI训练成本88%;4)OpenAI新增GitHub连接器,强化代码分析功能;5)联想发布天禧个人超级智能体,具备感知交互能力;6)OpenAI在亚洲推出数据驻留计划;7)Multiverse发布全球首款AI生成多人游戏;8)秘塔AI上线"讲题"功能辅助家长辅导;9)Genspark推出智能电子表格工具AI Sheets;10)Google Gemini API新增缓存功能可节省75%成本;11)PixVerse v4视频生成速度质量双提升;12)快手推出内容净化器KuaiMod;13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度,展现了AI技术的快速发展和广泛应用。

  • 苹果两款Vision Pro开发中!一款更轻更便宜、一款近乎零延迟

    快科技4月14日消息,据媒体报道,苹果正在开发两款新的Vision Pro设备,一款更轻、更便宜,另一款则主打近乎零延迟的体验。Mark Gurman透露,苹果正在开发一款比当前Vision Pro更轻、更便宜的设备。当前Vision Pro起售价高达3499美元,重量约600-650克,而新款设备将针对普通消费者,解决重量和价格两大问题。具体价格尚未披露,但有消息称其价格可能与高端iPhone相当,预计在1600美

  • UniToken:多模态AI的“全能选手”,一次编码搞定文理解与图像生成

    复旦大学与美团研究者提出UniToken框架,首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码,有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略(视觉语义对齐、多任务联合训练、指令强化微调),UniToken在多个基准测试中性能超越专用模型。其创新性体现在:1)统一的双边视觉编码