首页 > 传媒 > 关键词  > 视频生成最新资讯  > 正文

昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

2025-07-31 16:48 · 稿源: 站长之家用户

随着以 Sora 为代表的视频生成模型技术的演进,长视频生成领域在维持长时序内容一致性以及平衡生成质量与计算资源效率方面面临挑战。浙江大学 鲲鹏昇腾科教创新卓越中心计算机学院研究员朱霖潮团队基于此课题持续深耕并取得重要进展。依托昇腾AI基础软硬件平台,该团队提出的技术方案有效提升了长视频内容一致性,同时显著优化了视频生成过程中的计算效率。

针对长序列视觉指令生成的核心技术难题,项目团队成功研发首个无需训练的长序列视觉指令生成框架LIGER,实现了历史提示和视觉记忆机制,以及基于DDIM反演的记忆校准技术。依托昇腾的编码加速能力,通过对每个步骤的图像特征进行采样和存储,捕捉前序步骤中的关键视觉信息,并将其注入到自注意力机制中,确保步骤间的视觉连贯性。同时,通过自反思机制纠正图像中的属性错误、逻辑错误、对象冗余和身份不一致等问题,使用多种图像编辑工具进行精确修正。该系统在长序列任务中展现出优异的逻辑连贯性和对象属性准确性,显著提升了视觉指令的理解性和实用性。

在计算效率方面,项目团队提出了基于昇腾平台优化的引导式渐进蒸馏方法,通过在线教师引导、渐进式蒸馏和高频细节保护三项关键技术,成功加速了视频扩散模型的生成过程。该方法让教师模型实时优化学生模型的中间预测以创建自适应训练目标,通过多阶段训练逐步增加步长将复杂轨迹学习分解为可管理的任务,并引入频域损失函数保持视频精细细节。在保持视频高质量输出基础上,该方法实现8倍加速。

该项目创新性地将大语言模型推理能力与视频生成技术相结合,为多模态交互研究开辟了新方向。目前,研究成果已成功入选人工智能顶级会议ICLR2025,获得国际学术界的高度认可。项目构建的包含569个任务的评估数据集,为后续研究提供了重要基准。

未来,浙江大学 鲲鹏昇腾科教创新卓越中心将依托昇腾AI基础软硬件平台,持续深化产学研协同创新,着力突破多模态生成技术的核心瓶颈,构建自主创新、技术领先的多模态生成技术生态体系,并为国家人工智能战略与数字经济发展储备核心创新力量。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • AI日报:接入MJ!夸克发布造点AI;Wan2.5-Preview发布;可灵推最新视频生成模型可灵2.5Turbo

    近日AI领域迎来多项重要更新:阿里夸克发布AI创作平台“造点”,整合通义万相Wan2.5与Midjourney V7,支持音画同步视频生成;Wan2.5-Preview实现多模态输入与电影级视频同步生成,提升视觉创作能力;可灵AI推出视频生成模型2.5Turbo并降价30%,降低使用门槛;阿里通义推出Qwen3-ASR-Toolkit,实现小时级音视频转录;谷歌相册AI编辑功能扩展至安卓用户,支持语音修图;谷歌Mixboard工具助力创意设计,生成情绪板;Qwen发布Qwen3-Max模型,在代码生成与智能体能力表现突出;Figma推出MCP服务器,实现设计到代码的一键转换,提升开发效率。

  • 基于通义万相 美图多款APP上线全新动漫特效、AI变身等视频生成功能

    今日,美图公司旗下美图秀秀、RoboNeo、Wink和开拍等多款产品,推出全新动漫特效、AI变身等视频生成功能。 据悉,新功能基于通义万相系列模型进行深度开发与训练,为美图的全球用户提供全新的创作体验。 近年来,美图加速布局生产力场景,不仅推出面向企业的AI算法服务和解决方案,旗下消费级产品也在快速集成大模型。 去年6月,美图就开始和阿里展开大模型合作。

  • 免费生成10秒高清视频!通义App接入通义万相2.5

    在2025云栖大会上,阿里发布通义万相Wan2.5 Preview系列模型,覆盖文生视频、图生视频、文生图和图像编辑四大功能。其视频生成模型首次实现音画同步,可生成匹配画面的人声、音效和BGM,时长从5秒提升至10秒,支持24帧/秒的1080P高清输出,降低影视级创作门槛。模型指令遵循能力增强,支持运镜等复杂连续变化控制。用户通过通义App输入指令即可自动生成10秒高清视频,每日免费使用15次,支持导出无水印视频。同时,图像生成能力全面升级,可生成中英文字符和图表,支持图像编辑功能,一句话即可完成P图。

  • AI排名查询工具如何助力GEO优化?生成引擎优化中的关键词竞争力分析

    在AI搜索时代,传统SEO正被生成引擎优化(GEO)重塑。内容能否被AI“理解”并引用成为流量关键,而GEO策略需依赖专门的AI排名查询工具。文章指出,AI助手直接生成摘要而非链接列表,评估维度与SEO完全不同,需关注语义相关性、权威性和结构化程度。AIBase平台的GEO排名查询工具能模拟主流AI提问,检测内容曝光频率与上下文位置,支持竞品对比和中文场景优化。优化建议包�

  • 谁在视频号上,为短剧“买单”?

    ​短剧的风这下是真的吹到了视频号。 “00后帅气多金董事长爱上干保洁40岁离异的我”;“和自己闪婚的黄昏恋老伴,竟然是豪门。”……最近小编一打开手机随便刷一刷视频号,便能邂逅许多爆款“雷人”短剧。 前几天,就连金融反腐题材的《K线成长记》都火了,证券时报发的全集转发就突破1万+。 它们剧情够爽、反转够快,即便有的剧情夸张、逻辑欠缺,依旧赢得网友

  • 视觉中国「灵感拓展」功能完成生成式AI服务上线登记

    视觉中国旗下中华易美视觉科技公司推出的“灵感拓展”功能已通过江苏省网信办生成式人工智能服务上线登记,正式在VCG.com面向用户开放。该功能基于国产大模型,结合丰富内容资源,通过AI技术为创作者提供灵感和方向,提升创意产出效率与质量。用户可在搜索时获得智能拆解的多维度创作建议,帮助精准定位需求,突破创作瓶颈,优化素材匹配效率。该功能是视觉中国在“AI智能+内容数据+应用场景”战略下的重要成果,目前已面向合作客户开放。

  • 让搜索“一步到位”! 快手提出端到端生成式搜索方案OneSearch

    当前电商平台普遍采用“召回、粗排、精排”级联式搜索架构,但存在商品描述混乱、相关性差、冷启动难等痛点。快手提出业界首个工业级端到端生成式搜索框架OneSearch,集成三大创新模块:关键词增强量化编码(KHQE)提升商品特征建模能力,多视角用户行为序列注入策略实现精准偏好捕捉,偏好感知奖励系统(PARS)优化排序多样性。实际部署后,订单量提升3.22%,买家数增长2.4%,在线推理成本降低75.4%,冷启动场景表现尤为突出。该系统标志着生成式模型在大规模工业场景中首次完整替代传统搜索链路,为电商搜索技术发展指明方向。

  • 店长连续工作超8小时 因闭眼2秒视频遭解雇 法院判了

    9月26日,广州市中级人民法院、广州市人力资源和社会保障局、广州市总工会联合发布了新一批劳动争议典型案例。 其中,有一则案例引发广泛关注:一位零售店店长竟因闭眼休息、上厕所等看似平常的行为被公司解雇。 2021年3月,余某入职某零售公司,担任该公司位于某商场门店的店长一职,全面负责门店的日常管理工作。 然而,2024年9月26日,某零售公司却以余某工作�

  • 从撕吧到丝瓜,短视频模仿秀进化史

    “火之前还觉得挺快乐的,老师还有同学都特别和蔼可亲的。但火了之后就感觉,人都突然变了。就同学什么的,都觉得你像个怪物一样。” 在抖音人物故事《生活闪亮时2025》“美错如是”里,18岁的钟美美回到母校,回想2020年的那场爆火,依旧胆战心惊。 互联网与现实就是那么割裂,并行着两个时代的道德体系。硬糖君小学写作文,爱用“光阴似箭,日月如梭”凑字数。

  • 海尔冰箱联合央视频发起囤鲜挑战

    9月21日,海尔冰箱联合央视视频发起“一台冰箱装下中国百味”挑战。活动首站成都,现场展示科学收纳格局与磁控全空间保鲜科技,实现食材分类精准储存,杜绝串味。挑战难点在于食材种类繁多、保鲜要求苛刻,海尔麦浪冰箱凭借576L大容量、M5分储格局及阻氧干湿分储技术,成功保持各类食材新鲜口感。在火锅宴现场,所有食材经涮煮检验,获一致好评。该冰箱搭载获国家科技进步奖的磁控保鲜科技,满足超3500种食材储鲜需求,为9月26日新品发布会预热。

今日大家都在搜的词: