StoryDiffusion：保持角色一致，可生成多图漫画和长视频

2024-05-06 10:46 · 稿源：站长之家

划重点:
🔮 Consistent self-attention 实现角色连贯图像生成
🎥 Motion predictor 实现长视频生成
🎨支持漫画生成、图像转视频、长短视频等多种内容生成功能

站长之家（ChinaZ.com）5月6日消息:南开大学 HVision 团队开发了 StoryDiffusion，一款能够创造神奇故事的工具。StoryDiffusion可以保持角色一致，生成多图漫画和长视频。

该工具通过实现 Consistent self-attention 和 Motion predictor，能够生成连贯的图像和视频。用户可以提供文本提示来生成角色连贯的图像序列，同时也能实现长视频生成，预测不同条件图像之间的运动，实现更大幅度的运动预测。

StoryDiffusion 的应用范围广泛，可用于漫画生成、图像转视频等多种场景。通过 Consistent self-attention 机制生成的图像，可以顺利过渡为视频，实现两阶段长视频生成方法。此外，结合两个部分，还能生成常长且高质量的 AIGC 视频。

用户可以通过提供一系列用户输入的条件图像，使用 Image-to-Video 模型生成视频。此外，用户可以通过 Jupyter notebook 或本地 adio demo 来生成漫画。目前，该项目发布了生成漫画部分的源码。

产品入口：https://top.aibase.com/tool/storydiffusion

试玩入口：https://huggingface.co/spaces/YupengZhou/StoryDiffusion

（举报）

相关推荐

关键词：

腾讯元宝又叒叕上新：一句话即可生成Mermaid图表

据其介绍，只要在元宝里输入一句话，比如帮我用Mermaid生成一张xxx流程图”，系统就会自动生成饼图、流程图、甘特图、时序图等。生成后，用户可以立刻预览效果，或者复制代码拿去其他地方使用。腾讯元宝介绍，这个功能比较适合用在学术研究、工作报告、数据分析等场景，能帮助用户把复杂的内容快速变成图表，让信息更直观，沟通也更高效。

腾讯元宝 Mermaid图表图表生成
苹果Vision Air曝光：采用钛金属设备更轻

快科技4月17日消息，当前Vision Pro 256G版本售价为29999元起，设备重量为600克至650克，根据遮光罩和头带配置不同可能有所差异，其单独的电池重量为353克，不少线下体验者表示，该头显的重量影响其体验舒适度。苹果也意识到了这个问题，其下一代头显的研发重点是减重”，有博主在社交平台上爆料称，苹果正在研发全新头显Vision Air，其特点是采用轻量化设计，同时带来午夜�

苹果 Vision Pro
阿里开源通义新模型：指定首尾图片生成视频

快科技4月18日消息，据报道，阿里巴巴旗下通义万相宣布开源其创新视频生成技术首尾帧生视频14B模型。这项突破性AI技术能够根据用户提供的起始和结束画面，智能生成720p高清过渡视频，为视频创作带来全新可能。该模型通过先进的深度学习算法，能够精准理解输入画面的内容、风格及主题特征。当用户提供首尾两帧图像后，模型会智能分析画面中的视觉元素，包括物体形�

阿里巴巴通义万相视频生成技术
苹果Siri团队大换血！Vision Pro班底全面上马

苹果正对Siri团队进行大规模重组，由新任工程主管Mike Rockwell主导改革。Rockwell从Vision Pro项目调来核心成员，重组了语音、理解、性能等关键团队。Vision Pro项目副手Ranjit Desai将负责Siri主要工程事务，Olivier Gutknecht接手用户体验设计。此次重组旨在简化开发流程，提升Siri功能。苹果AI/ML团队此前因管理混乱被员工戏称为"AI/less"。业内建议苹果应考虑重塑Siri品牌形象，推出全新数字助手以摆脱负面评价。

苹果 Siri重组用户体验
苹果要 all in 智能眼镜？Vision Pro 2 也已准备就绪

苹果已着手开发轻便且低价的 AR 智能眼镜，同时也在开发第二代头显设备 Vision Pro。

苹果AR眼镜 VisionPro AR眼镜
vivo Vision混合现实头显宣布下半年发布

vivo宣布其MR设备vivo Vision将于今年下半年正式发布，引发市场广泛关注。该设备可能与vivo X300系列手机同步上市，形成产品矩阵效应。Vision头显设计借鉴夏普Vision Pro风格，采用曲面抛光镜片，集成了多颗摄像头，但具体技术参数尚未公开。此布局被视为vivo战略转型的关键一步，旨在通过MR技术强化实时空间计算能力，为基础的未来机器人物联网应用奠定基础。vivo计划打造一套视觉感知系统，重点提升机器人的视觉捕捉、处理、理解、空间建模及边缘计算等五大维度的智能化水平。这一战略定位依赖于依图科技在AI大模型与混合现实技术领域的积累，vivo加速布局机器人赛道的相关落地措施已进入实质推进阶段。伴随Vision头显的发布，行业或将迎来新一轮技术竞争。这被寄予厚望的设备能否在空间计算领域实现突破，仍需等待市场验证。

vivo X200系列 MR头显
ChatGPT上线图库功能：可管理AI生成图片

快科技4月16日消息，据报道，OpenAI近日宣布将为ChatGPT推出全新的Image Library图库功能，该功能将帮助用户更高效地管理和查看AI生成的图像。这项创新功能将逐步向所有用户开放，包括移动端和网页端的免费版、Plus版及Pro版用户。新功能的设计充分考虑了用户体验的便捷性。用户只需点击ChatGPT侧边栏的Library入口，就能进入一个直观的图像网格界面。在这个界面中，用户可以轻�

OpenAI ChatGPT Image
荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

本文汇总了近期AI领域多项重要进展：1)扣子空间开放测试，无需邀请码即可体验AI协作平台；2)腾讯推出HunyuanCustom视频生成工具，实现音视频同步编辑；3)阿里巴巴ZeroSearch技术降低AI训练成本88%；4)OpenAI新增GitHub连接器，强化代码分析功能；5)联想发布天禧个人超级智能体，具备感知交互能力；6)OpenAI在亚洲推出数据驻留计划；7)Multiverse发布全球首款AI生成多人游戏；8)秘塔AI上线"讲题"功能辅助家长辅导；9)Genspark推出智能电子表格工具AI Sheets；10)Google Gemini API新增缓存功能可节省75%成本；11)PixVerse v4视频生成速度质量双提升；12)快手推出内容净化器KuaiMod；13)英伟达开源新一代OCR代码推理模型。这些创新覆盖AI应用、开发工具、成本优化等多个维度，展现了AI技术的快速发展和广泛应用。

AI产品人工智能技术趋势
苹果两款Vision Pro开发中！一款更轻更便宜、一款近乎零延迟

快科技4月14日消息，据媒体报道，苹果正在开发两款新的Vision Pro设备，一款更轻、更便宜，另一款则主打近乎零延迟的体验。Mark Gurman透露，苹果正在开发一款比当前Vision Pro更轻、更便宜的设备。当前Vision Pro起售价高达3499美元，重量约600-650克，而新款设备将针对普通消费者，解决重量和价格两大问题。具体价格尚未披露，但有消息称其价格可能与高端iPhone相当，预计在1600美

苹果 Vision Pro
荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

复旦大学与美团研究者提出UniToken框架，首次在统一模型中实现图文理解与生成任务的"双优表现"。该方案融合连续和离散视觉编码，有效解决了传统多模态建模中的"任务干扰"和"表示割裂"问题。通过三阶段训练策略（视觉语义对齐、多任务联合训练、指令强化微调），UniToken在多个基准测试中性能超越专用模型。其创新性体现在：1）统一的双边视觉编码

UniToken 多模态建模视觉编码

热文

3 天
7天

StoryDiffusion：保持角色一致，可生成多图漫画和长视频

腾讯元宝又叒叕上新：一句话即可生成Mermaid图表

苹果Vision Air曝光：采用钛金属设备更轻

阿里开源通义新模型：指定首尾图片生成视频

苹果Siri团队大换血！Vision Pro班底全面上马

苹果要 all in 智能眼镜？Vision Pro 2 也已准备就绪

vivo Vision混合现实头显宣布下半年发布

ChatGPT上线图库功能：可管理AI生成图片

荐AI日报：扣子空间开放测试；腾讯混元开源视频生成工具HunyuanCustom；阿里开源大模型搜索引擎ZeroSearch

苹果两款Vision Pro开发中！一款更轻更便宜、一款近乎零延迟

荐UniToken：多模态AI的“全能选手”，一次编码搞定图文理解与图像生成

热文

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

苹果高管称：10 年后，可能 iPhone 将不复存在！

特朗普关税政策颠覆汽车行业，福特率先开启“涨价潮”！

隐私被抛弃，监控成为主流？Meta为其AI眼镜新增人脸识别功能

每年多付1230亿美元？特朗普关税或将“掏空”美国人的钱包

基于安卓16的三星 One UI 8 本月发布首个测试版本

苹果“为彼此创造”不再？听乔纳森·艾维忆往昔、谈传承

三星推出新型微显示技术，加剧 AR 眼镜竞争

全网最大的“AI色情网站”MrDeepfakes宣布永久关闭

马斯克称地球会被太阳焚化，网友：有科学依据，但…

20周年纪念版iPhone迎来重大变革，全屏设计+屏下摄像头

特朗普准备撤回“AI芯片出口管制”……各国单独谈判

Anthropic推出Claude网络搜索API，押注“后谷歌时代”信息访问

2025 年，SpaceX 发射了多少枚火箭？

谷歌在Pixel 9 Pro广告中，嘲讽iPhone 17：抄袭、老旧！

苹果高管称：10 年后，可能 iPhone 将不复存在！

不顾特朗普的阻挠，Uber继续全球扩张…携手土耳其及中国企

今年第二次，亚马逊的 Zoox 召回 270 辆无人驾驶出租车

站长商机