首页 > 业界 > 关键词  > StoryDiffusion最新资讯  > 正文

StoryDiffusion:保持角色一致,可生成多图漫画和长视频

2024-05-06 10:46 · 稿源:站长之家

划重点:

🔮 Consistent self-attention 实现角色连贯图像生成

🎥 Motion predictor 实现长视频生成

🎨支持漫画生成、图像转视频、长短视频等多种内容生成功能

站长之家(ChinaZ.com)5月6日 消息:南开大学 HVision 团队开发了 StoryDiffusion,一款能够创造神奇故事的工具。StoryDiffusion可以保持角色一致,生成多图漫画和长视频。

image.png

该工具通过实现 Consistent self-attention 和 Motion predictor,能够生成连贯的图像和视频。用户可以提供文本提示来生成角色连贯的图像序列,同时也能实现长视频生成,预测不同条件图像之间的运动,实现更大幅度的运动预测。

StoryDiffusion 的应用范围广泛,可用于漫画生成、图像转视频等多种场景。通过 Consistent self-attention 机制生成的图像,可以顺利过渡为视频,实现两阶段长视频生成方法。此外,结合两个部分,还能生成常长且高质量的 AIGC 视频。

image.png

用户可以通过提供一系列用户输入的条件图像,使用 Image-to-Video 模型生成视频。此外,用户可以通过 Jupyter notebook 或本地 adio demo 来生成漫画。目前,该项目发布了生成漫画部分的源码。

产品入口:https://top.aibase.com/tool/storydiffusion

试玩入口:https://huggingface.co/spaces/YupengZhou/StoryDiffusion

举报

  • 相关推荐
  • 高德地图上线AR打卡功能:实现3D立体打卡 生成专属打卡视频

    阿里巴巴旗下高德地图正式上线创新AR打卡功能,通过深度整合AI技术与地图服务,为用户带来虚实融合的沉浸式打卡体验,无缝连接现实世界。 该功能依托前沿AI空间融合技术,突破传统二维地图限制,首创3D立体打卡。用户打开最新版高德地图App,点击右上角 ”号即可轻松开启AR之旅。 支持图片、视频、趣味AR道具及虚拟形象等多种打卡形式,完成打卡后系统将自动生成并

  • AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0

    【AI日报】今日AI领域重要动态:1)阿里开源支持链式推理的音频生成模型ThinkSound,实现高保真空间音频生成;2)谷歌Veo3升级,支持静态图片生成生动视频;3)Hugging Face发布30亿参数小模型SmolLM3,性能优于Llama-3.2-3B;4)阿里开源网络智能体WebSailor,展现强大推理和检索能力;5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5;6)Vidu Q1支持最多七张参考图像生成一致性视频;7)苹果�

  • 墨刀AI生成原型图,产品设计快人一步

    国内原型设计平台墨刀发布"AI生成原型图2.0"功能,30秒即可生成可编辑原型图,大幅提升产品设计效率。该功能通过AI技术解决传统原型设计周期长、效率低、修改繁琐等痛点,支持文字描述或图片上传自动生成高保真原型图,并可二次编辑优化。这一创新不仅标志着墨刀AI能力的全面升级,更代表产品设计方式的一次革新,显著加快产品迭代速度。未来,AI原型设计有望成为行业标配,助力企业更快响应市场需求,提升产品竞争力。

  • LiblibAI 重磅发布「星流 Agent」:中文语义 + 图片视频3D全能生成,中国最强设计 Agent

    LiblibAI推出Lovart中文版"星流Agent",这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上,针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化,可处理平面设计、视频生成和3D建模等跨模态创作,内置符合中国文化的视觉风格库。该产品的推出标�

  • AI日报:智谱上线PPT生成功能AI Slides;可灵 AI 发布可图2.1模型

    本文介绍了AI日报栏目及近期AI领域多项突破性进展:1)智谱推出免费AI Slides工具,基于GLM模型快速生成高质量PPT;2)可灵AI发布可图2.1模型,支持180多种风格图像生成;3)NVIDIA推出DiffusionRenderer技术,实现视频到可编辑3D场景转换;4)墨刀AI新增30秒生成高保真原型功能;5)Higgsfield推出Soul ID工具,10张照片即可生成虚拟形象;6)谷歌DeepMind开源GenAI Processors工具库;7)谷歌Veo新增图像转视频功能;8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

  • Neousys宸曜科技亮相2025 Vision China(北京)

    2025年6月19-20日,北京机器视觉助力智能制造创新发展大会暨Vision+China2025在京成功举办。Neousys宸曜科技展示了多款边缘AI计算平台解决方案,包括:1)Nuvo-9160GC强固型AI推理平台,支持行为分析、安防监控等应用;2)NRU-230V-AWP自动驾驶计算平台,具备IP66防护和备用电源;3)基于NVIDIA Jetson的智能采集卡系列;4)Nuvo-10001系列高性价比嵌入式平台。产品覆盖机器视觉、自动驾驶、智能制造等领域,以宽温强固、无风扇设计满足严苛工业环境需求,获得现场观众高度评价。

  • ppt自动生成工具最好用的3个

    文章介绍了当前AI生成PPT工具的发展现状,重点推荐了"秒出PPT"这一专业平台。该平台具有三大特色功能:1)智能对话式生成,支持中途修改需求;2)提供三种编辑模式(纯文本、纯设计和文本+设计);3)支持导入文档自动排版,提供"保持原文"和"AI智能修改"两种模式。平台还拥有丰富的模板库,支持在线更换颜色、字体等设计元素。虽然需要购买会员,但相比市面上质量参差不齐的同类产品,该工具在交互体验和功能完整性上表现突出。

  • A日报:B站升级动漫视频生成模型AniSora V3;字节开源4D视频生成框架EX-4D;DeepSWE开源AI Agent系统强势登顶

    AI日报栏目汇总了近期AI领域的重要进展:1)字节跳动开源EX-4D框架,可将单目视频转换为多视角4D视频;2)B站开源动漫视频生成模型AniSora V3,支持多种风格;3)DeepSWE+开源基于Qwen3-32B的AI Agent系统;4)字节开源3亿参数图像编辑模型VINCIE-3B;5)Stability AI推出移动端音频生成模型Stable Audio Open Small;6)谷歌发布免费教育AI工具套件Gemini for Education;7)Topview推出革命性AI数字人带货技术Avatar

  • 辞掉暴走漫画主编,“跑得巨慢”的@纸巾老撕 为何比马拉松冠军还火?

    35岁前认为跑步毫无意义,这个中年男人,却用一年半时间从零完成了全程马拉松,甚至为此还辞去了《暴走漫画》主编,全程做跑步UP主。 在B站跑步区,@纸巾老撕跑跑步 绝对是个“异类”。 别人家跑步博主是一个比一个练得苦、跑得快,可纸巾老撕却硬是靠“很少训练、跑得巨慢、过于搞笑”的特质杀出重围,B站粉丝突破了20万。 这个粉丝数,甚至超过了“长得又帅、�

  • 可灵AI全系模型上线“视频音效”功能 可同步生成高质量立体声音效

    可灵AI宣布全系列视频模型上线“视频音效”功能,用户在使用可灵AI进行视频创作时,不仅能获得高质量的视频画面,更能体验到与视频精准匹配、富有空间感的立体声音效……