首页 > 传媒 > 关键词  > 视频生成最新资讯  > 正文

昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

2025-07-31 16:48 · 稿源: 站长之家用户

随着以 Sora 为代表的视频生成模型技术的演进,长视频生成领域在维持长时序内容一致性以及平衡生成质量与计算资源效率方面面临挑战。浙江大学 鲲鹏昇腾科教创新卓越中心计算机学院研究员朱霖潮团队基于此课题持续深耕并取得重要进展。依托昇腾AI基础软硬件平台,该团队提出的技术方案有效提升了长视频内容一致性,同时显著优化了视频生成过程中的计算效率。

针对长序列视觉指令生成的核心技术难题,项目团队成功研发首个无需训练的长序列视觉指令生成框架LIGER,实现了历史提示和视觉记忆机制,以及基于DDIM反演的记忆校准技术。依托昇腾的编码加速能力,通过对每个步骤的图像特征进行采样和存储,捕捉前序步骤中的关键视觉信息,并将其注入到自注意力机制中,确保步骤间的视觉连贯性。同时,通过自反思机制纠正图像中的属性错误、逻辑错误、对象冗余和身份不一致等问题,使用多种图像编辑工具进行精确修正。该系统在长序列任务中展现出优异的逻辑连贯性和对象属性准确性,显著提升了视觉指令的理解性和实用性。

在计算效率方面,项目团队提出了基于昇腾平台优化的引导式渐进蒸馏方法,通过在线教师引导、渐进式蒸馏和高频细节保护三项关键技术,成功加速了视频扩散模型的生成过程。该方法让教师模型实时优化学生模型的中间预测以创建自适应训练目标,通过多阶段训练逐步增加步长将复杂轨迹学习分解为可管理的任务,并引入频域损失函数保持视频精细细节。在保持视频高质量输出基础上,该方法实现8倍加速。

该项目创新性地将大语言模型推理能力与视频生成技术相结合,为多模态交互研究开辟了新方向。目前,研究成果已成功入选人工智能顶级会议ICLR2025,获得国际学术界的高度认可。项目构建的包含569个任务的评估数据集,为后续研究提供了重要基准。

未来,浙江大学 鲲鹏昇腾科教创新卓越中心将依托昇腾AI基础软硬件平台,持续深化产学研协同创新,着力突破多模态生成技术的核心瓶颈,构建自主创新、技术领先的多模态生成技术生态体系,并为国家人工智能战略与数字经济发展储备核心创新力量。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 阿里开源通义万相2.2:可生成电影级高清视频

    阿里云宣布旗下通义万相2.2模型正式开源。 通义万相2.2最令人瞩目的,当属其生成电影级高清视频的能力。目前,该模型单次便可生成5秒的高清视频。 这5秒视频绝非普通水准。在光影、色彩、构图以及人物微表情等细节处理上,通义万相2.2达到了专业电影制作的水平。 此次开源,通义万相2.2推出了文生视频(Wan2.2-T2V-A14B)、图生视频(Wan2.2-I2V-A14B)和统一视频生成(Wan2.2-TI2V-

  • 闪剪AI:一键生成数字人营销视频,助力商家轻松实现内容获客

    闪剪AI是一款专为营销视频制作设计的智能工具,主要解决实体商家和小白用户制作高质量营销视频的痛点。核心功能包括:1)一键生成数字人视频,支持定制专属形象;2)提供1000+数字人模特素材;3)多语种语音克隆,实现本地化内容;4)内置爆款文案素材库;5)智能成片功能简化制作流程;6)照片数字人让静态图片"开口说话";7)直播切片功能实时引流。该工具

  • 系统故障2分钱买到故宫门票 故宫回应:将重新生成正确订单

    今日凌晨,不少游客薅”到了故宫博物院的羊毛。 从购票系统进入后,游客发现,故宫博物院的全价门票才0.02元,钟表馆、珍宝馆的票价也都是0.02元,相关展览的票价则是0元。 对此,故宫博物院回应媒体称,因购票小程序升级时出现异常,导致7月22日至7月28日的票额、票种、票价显示错误。 目前,小程序功能已恢复正常。将尽快与在异常时段内购票的观众联系,重新生�

  • 苹果官方闹乌龙 账号误传三星宣传视频

    7月30日,苹果官方微博账号在介绍家长控制功能时,意外配上了竞争对手三星Galaxy Z Flip7的宣传视频,引发网友热议。该微博虽被迅速删除,但已被广泛传播。有猜测认为这可能源于两家公司在中国市场共用同一家广告代理公司,导致工作人员操作失误。当前苹果正聚焦首款折叠屏iPhone研发,分析师预测该机型或于2026年9月发布,届时将与三星等品牌展开激烈竞争。此次乌龙事件为即将到来的折叠屏手机大战增添戏剧性色彩。(140字)

  • 理想邀请乘龙卡车直播对撞 东风柳汽:理想撞卡车视频严重侵权

    7月29日理想i8上市发布会上,理想汽车公布的一段理想i8与8吨重卡车对撞的安全测评视频引发轩然大热议。视频中,重量仅2吨多的理想i8在与卡车正面碰撞后,卡车车头出现明显位移,这一反差结果迅速成为舆论焦点。

  • 三维天地AI智能体应用落地场景:一键生成的“编译工厂”

    文章分析了当前软件开发行业面临的三大痛点:1)软件需求激增与开发人才短缺的矛盾;2)传统开发流程中需求分析、编码等环节效率低下;3)代码质量与维护成本问题。介绍了SunwayLink公司开发的"编码工厂"智能体解决方案,该方案通过自然语言处理技术,将结构化需求文档自动转换为可执行代码,显著提升开发效率。核心能力包括需求解析、架构设计、代码生成、测试验证和文档生成五大模块。价值体现在:开发周期从天级缩短至分钟级;降低60%人力成本;代码风格统一规范;减少人为错误;沉淀可执行知识资产。该技术代表了软件工程自动化的前沿方向。

  • 豆包App视觉推理升级 支持图片思考

    豆包App近期升级视觉推理能力,支持在思维链中运用图像思考。用户上传图片提问时,豆包能主动分析图片内容,智能放大局部细节确保不遗漏关键信息。对于复杂图片,还能智能裁剪并调用搜图功能提供更准确结果。升级后的豆包可智能调用多种工具辅助分析图片,无论是日常识物、商品查询,还是工作学习中分析图表、专业图片,都能给出更精准实用的答案。据悉,豆包是国内首个实现这一能力的产品,用户可免费体验。

  • 李想:很多人让我学习雷军 考虑也开个视频号

    如今不少汽车高管纷纷开通短视频账号,走向台前与用户交流互动,理想汽车创始人李想也要加入了。 今天,随着理想i8媒体动态品鉴内容的陆续释放,李想透露,已收到公司内外诸多建议,希望他能学习雷军走到台前,通过视频账号与用户面对面”交流,目前正在认真考虑这一建议。 据了解,目前蔚来汽车的李斌和小鹏汽车的何小鹏均已开通个人抖音号。

  • 告别反复横跳,我用一张画布给AI视频创作配上了一条“流水线”

    ​今年的世界人工智能大会(WAIC),可能是史上最热闹的一届。 不仅展馆规模创下新高,超过800家企业带来了3000多项展品,线下参观人数也远超去年。而如果你也在现场,穿梭在拥挤的人潮中,你会发现有一个展台前总是被围得水泄不通,其中还夹杂着大量专程赶来的海外观众。 这个展台就是可灵 AI。 这一次,之所以会被这些专业目光团团围住,并非是可灵 AI 的又一次�

  • ppt自动生成工具最好用的3个

    文章介绍了当前AI生成PPT工具的发展现状,重点推荐了"秒出PPT"这一专业平台。该平台具有三大特色功能:1)智能对话式生成,支持中途修改需求;2)提供三种编辑模式(纯文本、纯设计和文本+设计);3)支持导入文档自动排版,提供"保持原文"和"AI智能修改"两种模式。平台还拥有丰富的模板库,支持在线更换颜色、字体等设计元素。虽然需要购买会员,但相比市面上质量参差不齐的同类产品,该工具在交互体验和功能完整性上表现突出。