Bilibili开源动漫视频生成模型AniSora V3版，一键生成多种风格动漫视频镜头

2025-07-03 11:59 · 来源： AIbase基地

Bilibili（B站）宣布其开源动漫视频生成模型AniSora迎来重大更新，正式发布AniSora V3。作为Index-AniSora项目的一部分，V3版本在原有基础上进一步优化了生成质量、动作流畅度和风格多样性，为动漫、漫画及VTuber内容创作者提供了更强大的工具。AIbase深入解读AniSora V3的技术突破、应用场景及行业影响。

技术升级:更高质量与精准控制

AniSora V3基于Bilibili此前开源的CogVideoX-5B和Wan2.1-14B模型，结合强化学习与人类反馈（RLHF）框架，显著提升了生成视频的视觉质量和动作一致性。其支持一键生成多种风格的动漫视频镜头，包括番剧片段、国创动画、漫画视频改编、VTuber内容）等

核心升级包括:

时空掩码模块（Spatiotemporal Mask Module）优化:V3版本增强了时空控制能力，支持更复杂的动画任务，如精细的角色表情控制、动态镜头移动和局部图像引导生成。例如，提示“五位女孩在镜头放大时起舞，左手上举至头顶再下放至膝盖”能生成流畅的舞蹈动画，镜头与角色动作同步自然。
数据集扩展:V3继续依托超过1000万高质量动漫视频片段（从100万原始视频中提取）进行训练，新增数据清洗流水线，确保生成内容的风格一致性和细节丰富度。
硬件优化:V3新增对华为Ascend910B NPU的原生支持，完全基于国产芯片训练，推理速度提升约20%，生成4秒高清视频仅需2-3分钟。
多任务学习:V3强化了多任务处理能力，支持从单帧图像生成视频、关键帧插值到唇部同步等功能，特别适合漫画改编和VTuber内容创作。

在最新基准测试中，AniSora V3在VBench和双盲主观测试中，角色一致性和动作流畅度均达到业界顶尖水平（SOTA），尤其在复杂动作(如违反物理规律的夸张动漫动作)上表现突出。

开源生态:社区驱动与透明发展

AniSora V3的完整训练和推理代码已于2025年7月2日在GitHub上更新，开发者可通过Hugging Face访问模型权重及948个动画视频的评估数据集。 Bilibili强调，AniSora是“对动漫世界的开源礼物”，鼓励社区协作优化模型。用户需填写申请表并发送至指定邮箱（如yangsiqian@bilibili.com）以获取V2.0权重和完整数据集访问权限。

V3还引入了首个针对动漫视频生成的RLHF框架，通过AnimeReward和GAPO等工具对模型进行微调，确保输出更符合人类审美和动漫风格需求。社区开发者已开始基于V3开发定制化插件，例如增强特定动漫风格（如吉卜力风）的生成效果。

应用场景:从创意到商业

AniSora V3支持多种动漫风格，包括日本动漫、国产原创动画、漫画改编、VTuber内容及恶搞动画（鬼畜动画），覆盖90%的动漫视频应用场景。具体应用包括:

单图转视频:用户上传一张高质量动漫图像，配合文本提示（如“角色在向前行驶的车中挥手，头发随风摆动”），即可生成动态视频，保持角色细节和风格一致。
漫画改编:从漫画帧生成带唇部同步和动作的动画，适合快速制作预告片或短篇动画。
VTuber与游戏:支持实时生成角色动画，助力独立创作者和游戏开发者快速测试角色动作。
高分辨率输出:生成视频支持高达1080p，确保在社交媒体、流媒体平台上的专业呈现。

AIbase测试显示，V3在生成复杂场景（如多角色交互、动态背景）时，相比V2减少了约15%的伪影问题，生成时间缩短至平均2.5分钟(4秒视频)。

AniSora V3的发布进一步降低了动漫创作门槛，使独立创作者和小型团队能以低成本实现高质量动画制作。相比OpenAI的Sora或Kling等通用视频生成模型，AniSora V3专注于动漫领域，填补了市场空白。与字节跳动的EX-4D相比，AniSora V3更专注于2D/2.5D动漫风格，而非4D多视角生成，展现了不同的技术路线。

项目:https://t.co/I3HPKPvsBV

相关推荐

荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

AI日报栏目汇总了近期AI领域的重要进展：1)字节跳动开源EX-4D框架，可将单目视频转换为多视角4D视频；2)B站开源动漫视频生成模型AniSora V3，支持多种风格；3)DeepSWE+开源基于Qwen3-32B的AI Agent系统；4)字节开源3亿参数图像编辑模型VINCIE-3B；5)Stability AI推出移动端音频生成模型Stable Audio Open Small；6)谷歌发布免费教育AI工具套件Gemini for Education；7)Topview推出革命性AI数字人带货技术Avatar

人工智能 AI技术趋势 4D视频生成
某幻君助力索尼原创音浪季，BilibiliWorld 现场解锁音频黑科技

索尼在BilibiliWorld展会上打造沉浸式音乐体验，以"为音乐而生"理念呈现专业音频设备组合。现场设置录音棚体验区，观众可使用C-80麦克风和MDR-M1监听耳机感受专业录音效果。同时展出旗舰降噪耳机WH-1000XM6等产品，展现索尼70年音频技术积淀。活动还推出"索尼原创音浪季"赛事，邀请B站UP主某幻君等音乐人现场表演，通过前沿科技支持音乐创作。索尼中国高管现场

索尼音频沉浸式音乐 BilibiliWorld
闪剪AI：一键生成数字人营销视频，助力商家轻松实现内容获客

闪剪AI是一款专为营销视频制作设计的智能工具，主要解决实体商家和小白用户制作高质量营销视频的痛点。核心功能包括：1）一键生成数字人视频，支持定制专属形象；2）提供1000+数字人模特素材；3）多语种语音克隆，实现本地化内容；4）内置爆款文案素材库；5）智能成片功能简化制作流程；6）照片数字人让静态图片"开口说话"；7）直播切片功能实时引流。该工具

AI内容营销智能生成视频数字人营销
三维天地AI智能体应用落地场景：一键生成的“编译工厂”

文章分析了当前软件开发行业面临的三大痛点：1)软件需求激增与开发人才短缺的矛盾；2)传统开发流程中需求分析、编码等环节效率低下；3)代码质量与维护成本问题。介绍了SunwayLink公司开发的"编码工厂"智能体解决方案，该方案通过自然语言处理技术，将结构化需求文档自动转换为可执行代码，显著提升开发效率。核心能力包括需求解析、架构设计、代码生成、测试验证和文档生成五大模块。价值体现在：开发周期从天级缩短至分钟级；降低60%人力成本；代码风格统一规范；减少人为错误；沉淀可执行知识资产。该技术代表了软件工程自动化的前沿方向。
荐A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉”数字人平台启动封测；京东重磅开源JoyAgent-JDGenie

AI日报栏目精选了人工智能领域最新动态：1)Stability AI推出0.7秒单图3D重建模型SPAR3D；2)GitHub热门开源AI协作框架CrewAI获3.4万星；3)马斯克发布儿童AI聊天机器人Baby Grok引发安全争议；4)ComfyUI-C opilot工具简化AI工作流创建；5)CNNIC报告显示我国346款生成式AI完成备案；6)提示词管理工具AI Gist上线；7)开源语言学习工具WordPecker支持多语言学习；8)斯坦福推出多工具协作AI Agent OctoTools；9)Ope
荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

【AI日报】今日AI领域重要动态：1)阿里开源支持链式推理的音频生成模型ThinkSound，实现高保真空间音频生成；2)谷歌Veo3升级，支持静态图片生成生动视频；3)Hugging Face发布30亿参数小模型SmolLM3，性能优于Llama-3.2-3B；4)阿里开源网络智能体WebSailor，展现强大推理和检索能力；5)Moonvalley发布原生1080P视频生成模型Marey Realism v1.5；6)Vidu Q1支持最多七张参考图像生成一致性视频；7)苹果�

人工智能音频生成链式推理
LiblibAI 重磅发布「星流 Agent」：中文语义 + 图片视频3D全能生成，中国最强设计 Agent

LiblibAI推出Lovart中文版"星流Agent"，这是一款专为中国市场深度优化的AI设计工具。该产品在保留Lovart全球版"生成-编辑-排版-交付"全链路能力基础上，针对中文语义、国风审美和本土使用场景进行了全面重构。星流Agent支持从创意构思到设计交付的全流程自动化，可处理平面设计、视频生成和3D建模等跨模态创作，内置符合中国文化的视觉风格库。该产品的推出标�

Lovart AI设计中文优化
荐视频播客，还值不值得抖快B红争一争

这个夏天，B站又主动高调了一回。 “视频播客出圈计划”推出，B站承诺千万流量扶持、AI剪辑工具和城市录播棚支持，旨在将原本属于耳朵的“播客”内容，也呈现在屏幕之前。这不是B站第一次试图改写内容生态，也不会是最后一次。更耐人寻味的是，它选择的视频播客这一形式，恰恰正处于一种“想被看见”又“尚未被定义”的模糊边界上。视频播客当然不是什么新物

B站视频播客内容生态
高德地图上线AR打卡功能：实现3D立体打卡生成专属打卡视频

阿里巴巴旗下高德地图正式上线创新AR打卡功能，通过深度整合AI技术与地图服务，为用户带来虚实融合的沉浸式打卡体验，无缝连接现实世界。该功能依托前沿AI空间融合技术，突破传统二维地图限制，首创3D立体打卡。用户打开最新版高德地图App，点击右上角 ”号即可轻松开启AR之旅。支持图片、视频、趣味AR道具及虚拟形象等多种打卡形式，完成打卡后系统将自动生成并
荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

本文介绍了AI日报栏目及近期AI领域多项突破性进展：1)智谱推出免费AI Slides工具，基于GLM模型快速生成高质量PPT；2)可灵AI发布可图2.1模型，支持180多种风格图像生成；3)NVIDIA推出DiffusionRenderer技术，实现视频到可编辑3D场景转换；4)墨刀AI新增30秒生成高保真原型功能；5)Higgsfield推出Soul ID工具，10张照片即可生成虚拟形象；6)谷歌DeepMind开源GenAI Processors工具库；7)谷歌Veo新增图像转视频功能；8)Mistral AI发布专为代码建模的Devstral2507系列模型。这些创新展示了AI在内容生成、3D建模、产品设计等领域的快速发展。

今日大家都在搜的词：

热文

3 天
7天

Bilibili开源动漫视频生成模型AniSora V3版，一键生成多种风格动漫视频镜头

技术升级:更高质量与精准控制

开源生态:社区驱动与透明发展

应用场景:从创意到商业

荐A日报：B站升级动漫视频生成模型AniSora V3；字节开源4D视频生成框架EX-4D；DeepSWE开源AI Agent系统强势登顶

某幻君助力索尼原创音浪季，BilibiliWorld 现场解锁音频黑科技

闪剪AI：一键生成数字人营销视频，助力商家轻松实现内容获客

三维天地AI智能体应用落地场景：一键生成的“编译工厂”

荐A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉”数字人平台启动封测；京东重磅开源JoyAgent-JDGenie

荐AI日报：阿里通义开源音频生成模型ThinkSound；谷歌Veo3支态图片生成视频；昆仑万维发布 Skywork-R1V 3.0

LiblibAI 重磅发布「星流 Agent」：中文语义 + 图片视频3D全能生成，中国最强设计 Agent

荐视频播客，还值不值得抖快B红争一争

高德地图上线AR打卡功能：实现3D立体打卡生成专属打卡视频

荐AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

今日大家都在搜的词：

热文

华为 MatePad Pro 12.2 英寸 2025 官宣 7 月 24 日发布

A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉

黄仁勋：总感觉公司快倒闭了任CEO没有趣味每一秒都有压力

苹果iOS 26公测版本周发布：预计7月23日亮相

小米REDMI首部短剧《时空合伙人》收官雷军“声音”亮相成惊喜

华为Pura 80标准版7月23日开启预售

特斯拉Model3全球销量达300万辆夏日福利大放送

京东首家自营外卖门店开业宣布 3 年内建设 1 万家七鲜小厨

雷军称特斯拉保值率非常不错但小米SU7保值率领先特斯拉

小红书支持发布语音评论官方回应：内测中

A日报：Kimi开放平台上线Kimi Playground；OpenAI重磅发布Chat

理想小米同一个地方开发布会：理想i8发布会定于首都国际会议中

华为鸿蒙智行：尊界S800上市50天大定破8000台

华为 MatePad Pro 12.2 英寸 2025 官宣 7 月 24 日发布

贾跃亭旗下FF获1.05亿美元融资将加速FX Super One生产交付

华为MatePad Pro 12.2开启预约预计7月24日正式发布

小米骨传导耳机2发布：699元 7月21日开售

小米深圳大厦开园：卢伟冰现场喝小米粥

A日报：Stability AI发布实时重建模型SPAR3D；火山引擎“奇美拉

理想i8开启预定：7月29日上市预售价35-40万元

站长商机