首页 > 业界 > 关键词  > 文章搜索最新资讯  > 正文

全球图生视频榜单,爱诗科技PixVerse V5如何改变一亿用户的视频创作

2025-09-10 08:56 · 稿源: 机器之心公众号

声明:本文来自于微信公众号 机器之心,作者:冷猫,授权站长之家转载发布。

好玩好用的明星视频生成产品再更新,用户操作基础,模型技术就不基础。

熟悉生成领域的读者们最近都被谷歌的一只纳米香蕉 nano-banana 刷了屏。

在图像生成领域,纳米香蕉在短期内获得了巨量的影响力,凭着「照片变手办」的超高真实感的创意玩法横扫整个社交媒体,尤其触动了毛孩子家长们的心。

图片

在优秀的模型实力基本盘外,真正做到出圈的核心要素还得是「创意」。

把自家宠物变成可爱手办的创意玩法的彻底出圈,让更多普通用户意识到 AI 生成让想象落地的能力,「这个好酷,我也想要」的心理触发了全民 AI 创作的裂变。

不过,说到在 AI 视频中玩创意,老玩家PixVerse(拍我 AI)上周五开始在国内开启免费开放周,两天内有创作者在小红书、短视频平台上玩 Nano banana3D 手办,也有创作者用 Nano banana 生图和拍我 AI 模板结合,玩衣柜变装,获得视频号超5000点赞量。

在两年前,Sora 甚至还没有概念发布的时候,PixVerse 就已经上线了网页端产品,上线30天内就实现了百万访问量。

如此元老级的视频生成玩家,在「创意」上是认真的。过去那些火遍全网的神奇 AI 特效模板,都出自 PixVerse 之手。

在今年6月,国内版本的产品「拍我 AI」正式上线,并搭载了当时最新的 PixVerse V4.5底模,将长期霸榜视频生成应用榜的工具提供给期待已久的国内用户。

当时,我们就做了一手全方位的体验,非常惊艳,一整个六边形战士。

「让普通人感觉好玩,让创作者感觉好用」是拍我 AI 最贴切的标签。

如果你是普通用户,首页中令人眼花缭乱的当下热门 AI 视频模板足够用来整活,越玩越上头;如果你是进阶创作者,文生视频、图生视频、首尾帧、多主体、视频续写等创作工具应有尽有,完美支持天马行空的创作思路。更值得一提的是,PixVerse(拍我 AI)早于 veo3就推出了音频音效和对口型等音频相关的创作功能,实现了视频创作的全流程闭环。

PixVerse(拍我 AI)至9月10日期间生成任意视频不消耗积分,大家可以趁机随意尝试爆款短视频的创作,产生更多火爆的创意,进一步增进国内的AI视频创作热情。

其发布的最新的 Agent 创作助手功能,不再只是提供「模板」,而是像一个随身的 AI 导演:用户只需选择喜欢的模板并上传一张图片,Agent 即可自动识别其特征,生成一段5–30秒的完整短片。智能体功能不仅覆盖了目前网络上爆火的特效和创意视频,而且将用户从繁杂的 Prompt 设计工作中解放,让更多普通人加入到 AI 创作中来。

「照片变手办」也不再是纳米香蕉的标签,我们用这只网红哈基米的图像做了智能体创作:PixVerse(拍我 AI)不仅生成了高质量的手办尾帧图,还生成了一个炫酷的转场动画。

当然,拥有这么多有意思的玩法的平台早已受到海量用户的认可。不久前,PixVerse(拍我 AI)的全球用户数已跃升至破亿的规模。

图片

要想在全球范围内获得上亿用户的认可,能够承接上亿用户的创作灵感,PixVerse(拍我 AI)背后的公司 —— 爱诗科技 —— 一定在技术创新上做对了些什么。

图生视频榜首 PixVerse V5,更全面的六边形战士

8月27日,爱诗科技发布新一代自研视频生成大模型 PixVerse V5。

PixVerse V4.5已经是一个六边形战士了,谁曾想 PixVerse V5又一次把六边形硬生生扩大了一圈。

根据权威独立测评平台 Artificial Analysis 最新测试结果,PixVerse V5在图生视频(Image to Video)项目中排名全球第一,在文生视频(Text to Video)项目中位列同样位居第二,在视频生成赛道的最前列。

图片

图片

PixVerse V5的核心优势在三大方向:

  • 智能理解:一句话生成精准视频,指令响应更准确,生成一致性和稳定性大幅提升,创意表达更自由高效。

  • 极速生成:视频生成速度保持在「分钟级」提升至「秒级」的准实时生成,最快5秒即可生成一段高质量短片,1分钟生成1080P 高清视频。

  • 更逼真自然:通过扩大模型参数规模和高质量训练数据,显著提升审美、复杂动作、运动幅度和光影的还原能力,让 AI 视频生成更接近真实拍摄。

令人惊喜的是 PixVerse V5的更新并没有强调在某一个特定场景的能力提升。准确的说,PixVerse V5版本是对前一代底模的全方位进化。从技术革新的角度,我们来详细探究一下这三大方向上,爱诗科技是怎么走在时代前沿的。

统一特征空间,指令没有沟通障碍

从用户角度而言,一个「好用」的生成模型,首先得听得懂诉求。当用户和模型之间有沟通障碍时,生成质量再高的模型也很难实现用户的目标,更难以称得上好用。

就比如下面这个案例:

某国内头部产品模型生成的:「莱特兄弟的双翼飞机进化到喷气客机」

拍我 AI 生成的:「莱特兄弟的双翼飞机进化到喷气客机」

越是简单模糊的文本指令,越是考验模型对文本、图像、视频多模态数据的理解能力。爱诗科技显然在多模态大模型领域有着深刻的积累。

我们知道,VLM 多模态大模型,能够同时处理和理解图像和文本数据。以前的模型大多是「单模态」的:比如卷积神经网络只能看图,语言模型只能看文字。而 VLM 能同时理解图像和文本,并且把两者关联起来,处理更加复杂的任务。而在视频大模型中,视频相比于图像增添了时间维度,语义信息更丰富,更复杂。

PixVerse(拍我 AI)将不同模态数据映射到同一语义体系,让不同模态的数据能够在同一个语义体系下对齐和交流,在 VLM 的体系下弥合了用户指令和生成视频之间的语义鸿沟。

除了语义理解外,目前在视频生成领域的最大痛点在于视频生成的速度普遍不及预期,并且模型要实现高质量和长序列的视频生成,对训练数据和训练资源的需求是巨大的。

爱诗科技在这两大传统痛点上持续发力,奠定了在视频生成领域坚实的技术优势。

扩散极致蒸馏,几秒完成生成的准即时魔法

用过 Sora 生成过视频的朋友们都应该很有感触,从指令输入到成片出现至少也要以数分钟计算。一个慢速的生成模型非常干扰用户的创作思路,非常影响使用体验,更别提连续创作了。

而生成速度这部分,是 PixVerse(拍我 AI)的传统强项,也是其获得全球海量 AI 创作用户青睐的核心竞争力。

爱诗科技是业界第一个把视频生成做到5秒之内的 AI 初创团队。

在 PixVerse V4.5的时候我们就实测过,即使我们将各项生成指标拉满,平台输出结果的时间也没有超过1分钟。

对于用户来说,如此短暂等待能够成为「准即时」生成,完全不给使用带来负面影响。

为了实现超高速的视频生成,爱诗科技对视频扩散模型进行了大刀阔斧的改进,采用了「分数匹配蒸馏」的方式,将视频扩散生成过程从几十步压缩至极少数步骤,极大的提高了模型的生成速度。

分数匹配蒸馏是一个扩散模型体系下,将扩散模型转换为一步生成,极大地加快了生成速度并保持质量的代表性方法。最初,该方法在图像生成领域使用。在视频生成领域,该方法具有很大的应用潜能。

据爱诗科技技术团队介绍,PixVerse V5不仅采用了分布匹配损失优化模型采样轨迹提速生成,为了保证视频生成的质量,他们还结合了特征自约束损失,让模型实现自我监督,以此稳定画面质量,实现了生成速度和生成质量之间完美的平衡。

自研生成架构,突破创造力上限的驱动力

决定了 PixVerse(拍我 AI)产品能力的核心是底模,决定了底模能力上限的是高质量的模型架构。

爱诗科技全面采用自研的视频生成模型,采用 DiT 架构,在模型结构设计、训练策略等方向上进行了充分的创新工作,能够充分激发 DiT 架构模型的生成潜力。

为了满足读者对领先的模型的技术细节的好奇心,机器之心特意向爱诗科技的技术团队了解了一些他们在自研 DiT 模型的架构创新和技术细节。

简而言之,DiT 模型将 VAE 框架之下扩散去噪中的卷积架构换成了 Transformer 架构,结合了视觉 transformer 和扩散模型的优点,利用全局注意力机制,具备可扩展性强,多模态扩展,生成质量高的优势。

图片

DiT 基本模型架构图,来自论文《Scalable Diffusion Models with Transformers》

DiT 虽然效果好,但是对训练的算力要求很高,需要有好的模型设计以及好的模型训练策略,才能实现高质量的生成。尤其是在视频生成领域,要采用 DiT 模型进行高质量视频生成则更为复杂,需要在模型架构中添加时间维度。正所谓牵一发而动全身,视频生成 DiT 模型在算力需求、数据需求、分辨率兼容等多个问题上都面临着不小的挑战。

爱诗科技的技术团队向我们透露,PixVerse V5在模型结构设计上有两大亮点:

  • Tokenizer 方面:我们正在训练专用于视频与图像生成的 Tokenizer,在保持较高压缩比的同时,依然能够保证出色的重建质量与生成效果。

  • 自适应 Attention 结构(FullAttn + SparseAttn):通过在计算量与注意力精度之间动态平衡,不仅能有效降低整体计算开销,还能在推理速度几乎不受影响的前提下,为模型提供更大的规模扩展(ScaleUp)空间,并显著提升其拟合能力。

众所周知,视频数据相比于文本和图像数据更为复杂和庞大,数据包含的信息量更大且更难以提取,给模型训练提出了巨大的难题。

为了模型能够有效学习数据集中的信息,快速实现模型收敛,实现模型性能提升,爱诗科技在模型训练策略上下了很大功夫,PixVerse V5在多模态训练策略上有四大创新优势:

  • 多模态统一表征:将文本、图像、视频等模态映射至同一语义空间,显著提升模型的理解与生成精度,并加速整体收敛过程。

  • 自适应加噪去噪:在训练过程中动态调整噪声水平,并结合任务难度相关的损失加权机制,在不同信噪比条件下有效加速模型收敛。

  • 渐进式训练策略:采用「由简入繁」的训练路径,先进行图像任务学习,再逐步扩展至图像 + 视频的联合训练;在联合训练中,从低时长到高时长、低分辨率到高分辨率逐步递进,保证稳定收敛与性能提升。

  • 原生动态分辨率支持:模型能够直接处理不同分辨率的图像与视频,无需额外的 resize 或 crop 操作;结合原生动态分辨率与绝对时间编码机制,使其具备处理多尺度图像及长时序视频的能力。

另外,爱诗科技团队透露,他们拥有领先的海量图像和视频数据,和高质量、高精准的精选数据,不仅能够为模型预训练提供了无限可能的数据分布,也在监督训练微调(SFT)阶段更上一层台阶。

这些硬核的技术革新驱动着 PixVerse 模型的不断进化,支撑着用户生成动作自然、光影真实、物理规律准确的创意视频,也是满足广告、电商、影视、教育、游戏等场景的高标准要求的核心基本盘。

过去,在视频生成的研究探索阶段,我们一般都在讨论一些最基本的生成逻辑,包括物理效果,光影效果,动作的合理性等等。

随着技术的不断迭代,视频生成已经进入了投入实际应用的新阶段,而现在我们讨论的更多的是生成视频的创意和美学范畴了。随着 PixVerse V4.5对各种趣味创意、光影艺术的创作、镜头语言的理解方面的功能实现,我们自然希望 PixVerse V5在美学上能够有一些新的理解。

爱诗科技在模型中利用高质量视频数据和人类偏好标注,结合强化学习后训练(RLHF),提升了文本 - 视频对齐精度、动作自然度和美学评分。

超可爱的小猫咪舔爪爪,毛茸茸的小窝和字体设计,PixVerse V5真的很懂可可爱爱的心头好。

将人类的审美喜好加入到大模型训练中,让 AI 更懂人心,更懂审美,为打开模型生成的上限,投入 AI 艺术创作奠定了坚实的基础。

疾速成长,领跑视频生成马拉松

图片

爱诗科技模型发展历程

从2023年7月开始,爱诗科技训练视频生成大模型,到2025年8月底发布 PixVerse V5模型,仅有短短的两年时间。

在这两年期间,每隔数个月就能有一次模型的迭代,成长非常迅速。直到2024年底,爱诗科技发布 PixVerse App 产品,创下了全球最快的高质量视频生成的模型纪录,真正进入应用阶段。

从 V3一直到 V5,生成速度从10秒进化到5秒准实时,视频生成进入了有声时代,镜头语言、多主体、智能体等里程碑式功能接连上线,这一切支撑着 PixVerse(拍我 AI)成为了全球用户量最大的视频生成平台。

AI 视频生成是一场没有终点的马拉松,只有保持高速的技术迭代、不断刷新模型的边界,才能始终引领行业向前。

爱诗科技创始人兼 CEO 王长虎博士在2025北京智源大会上表示:「视频是最贴近用户的内容形态。一旦视频生成技术能够落地,它的产品化和商业化潜力可能不亚于大语言模型。」

「去年2024年10月,我们的 PixVerse V3上线,这是第一次真正让普通用户、普通消费者用 AI 能力创造出过去无法创造出来的视频。在我心中,这一刻才是视频生成的『GPT 时刻』。」

爱诗科技所秉持的愿景与技术理念,正是要在这条漫长而激烈的赛道上,持续释放视频这一最贴近用户的内容形态的潜能,让创造的能力真正走向每个普通人。

举报

  • 相关推荐
  • 基于通义万相 美图多款APP上线全新动漫特效、AI变身等视频生成功能

    今日,美图公司旗下美图秀秀、RoboNeo、Wink和开拍等多款产品,推出全新动漫特效、AI变身等视频生成功能。 据悉,新功能基于通义万相系列模型进行深度开发与训练,为美图的全球用户提供全新的创作体验。 近年来,美图加速布局生产力场景,不仅推出面向企业的AI算法服务和解决方案,旗下消费级产品也在快速集成大模型。 去年6月,美图就开始和阿里展开大模型合作。

  • DeepSeek:已对AI生成合成内容添加标识 用户不得恶意删除

    今天下午,DeepSeek发布了《关于AI生成合成内容标识的公告》。 公告中称,Deepseek始终高度重视AI的安全问题,已在平台内对AI生成合成内容添加标识,并明确提醒用户相关内容由AI生成。 此举为贯彻落实《人工智能生成合成内容标识办法》(2025年9月1日起施行)及《网络安全技术 人工智能生成合成内容标识方法》等国家标准的相关要求,防止AI生成内容可能引发的公众混淆、�

  • 视觉中国「灵感拓展」功能完成生成式AI服务上线登记

    视觉中国旗下中华易美视觉科技公司推出的“灵感拓展”功能已通过江苏省网信办生成式人工智能服务上线登记,正式在VCG.com面向用户开放。该功能基于国产大模型,结合丰富内容资源,通过AI技术为创作者提供灵感和方向,提升创意产出效率与质量。用户可在搜索时获得智能拆解的多维度创作建议,帮助精准定位需求,突破创作瓶颈,优化素材匹配效率。该功能是视觉中国在“AI智能+内容数据+应用场景”战略下的重要成果,目前已面向合作客户开放。

  • 良品铺子就“花生上树”致歉:系错误使用AI生成图片

    良品铺子近日因一张产品宣传海报引发广泛关注。 有网友发现,在其电商平台一款四粒红花生”的商品详情页中,所使用的海报图片出现了科学常识性错误。花生作为地上开花、地下结果”的作物,果实应在土壤中形成和成熟,而该海报却将花生描绘成悬挂于枝头的形象,与实际生长方式不符。

  • 降低创作门槛!爱诗科技新一代生成式大模型加速AI视频大众化

    爱诗科技8月27日发布新一代AI视频生成模型PixVerse V5,实现秒级高质量视频生成,支持360P至1080P分辨率。新模型在真实度、灵活性及生成速度上显著提升,覆盖人物、二次元、商业广告等多场景创作。同步上线Agent创作助手,降低使用门槛,用户无需专业技巧即可一键生成专业级视频。该技术推动AI视频从专业工具走向大众化应用,加速行业落地。

  • 美团将上线AI搜索功能:基于用户行为与需求进行智能匹配

    美团正测试AI本地生活搜索功能,已进入内测阶段。该功能基于用户行为智能匹配服务,优化搜索体验。同时,美团发布并开源LongCat-Flash-Chat模型,采用MoE架构,总参数量560B,激活参数18.6B~31.3B,实现计算效率与性能双重优化。该模型在多项基准测试中表现优异,尤其在智能体任务中具备突出优势。

  • 大厂押注的AI和视频化,能成为播客的好出路吗?

    长期在国内市场不温不火的播客赛道,正在焕发出越来越蓬勃的新机。 8月15日,自带流量和多重话题标签的罗永浩入驻B站,并宣布将开启一档视频播客节目《罗永浩的十字路口》,8月19日,罗永浩发布了第一条视频播客,与理想汽车创始人李想进行了近4小时的深度对话,一度引发热议,在B站内的观看量超230万。 而由罗永浩掀起的这一波流量热潮背后,可以看出B站对于视频

  • 抖音升级AI内容标识功能 上线两项核心功能

    9月1日,抖音发布《抖音关于升级AI内容标识功能的公告》,旨在规范人工智能生成合成内容(AI内容)的标识,以维护用户和创作者的合法权益,并促进AIGC技术的健康发展。抖音于2023年首次发布相关规范和倡议,倡导创作者对AI内容进行显著标识。此次升级是根据国家相关法律法规及平台规则进行的,以更好地服务于社会。 抖音上线了两项核心功能:AI内容标识功能和AI内容元

  • 视觉中国2025半年报:AI创意定制业务同比增长超20%

    视觉中国发布2025年半年度报告,实现营收39.9亿元,归母净利润4.38亿元。公司聚焦AI技术研发与应用,AI创意定制业务同比增长超20%,成为新增长点。推出AI辅助创作功能,上线一站式创意生成平台,服务华为、荣耀等客户。音视频业务销售额占比超32%,签约AI创作者超9000名。持续加强版权保护,当选中国版权协会理事单位。未来将深化AI技术与版权数据融合,共建数字文化新生态。

  • AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

    本文介绍了AI日报栏目,聚焦AI领域最新动态。快手推出Kwali视频助手,简化视频制作流程;字节跳动发布USO模型,解决图像生成中风格与主题的矛盾;微软推出Copilot Audio音频模式,提供个性化语音交互;Stability AI升级Stable Audio 2.5,支持高质量音频生成;阿联酋推出开源大模型K2 Think,拥有320亿参数;微信上线智能回复功能,提升公众号运营效率;OpenAI推出ChatGPT开发者模式,支持AI控制外部工具;字节跳动Seed团队发布AgentGym-RL框架,提升语言模型决策能力;月之暗面开源Checkpoint Engine中间件,优化LLM推理效率;B站开源IndexTTS-2.0文本转语音系统,支持情感与时长控制;Replit推出Agent 3编程助手,自主性提升10倍。

今日大家都在搜的词: