首页 > 业界 > 关键词  > 扩散模型最新资讯  > 正文

汤晓鸥弟子带队:免调优长视频生成,可支持512帧!任何扩散模型都能用|ICLR'24

2024-01-25 15:38 · 稿源: 量子位公众号

想要AI生成更长的视频?现在,有人提出了一个效果很不错的免调优方法,直接就能作用于预训练好的视频扩散模型。它最长可支持512帧(假设帧率按30fps算,理论上那就是能生成约17秒长的作品了)。可应用于任何视频生成模型,比如AnimateDiff、LaVie等等。以及还能支持多文本生成,比

......

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 长视频自己的音乐节:从一个人刷片,到七万人狂欢

    当夕阳余晖洒下,毛不易的歌词「一杯敬月光、一杯敬过往」在巨型竖屏出现,所有台下的合唱观众,感受到了一种强烈的共鸣。 同一刻、在一起,体验同一种情绪,成了用户与腾讯视频之间的「独家记忆」。 这是国内长视频平台首次把音乐节与内容紧密结合,通过一场线下活动,腾讯视频想要回应一个期待:为私密的、个人的线上观影行为,制造一种「共同在场感」。 无�

  • 首超长视频,只是红果的起点

    红果,又一次创造历史。 Questmobile的数据显示,抖音集团旗下免费短剧APP红果2025年6月的月活达到2.1亿,同比增长179%,并超过2亿月活的优酷。 这意味着,短剧APP第一次超越长视频APP。 近年来,“爱优腾”对短剧的态度有了微妙的变化,从“长短之争”的剑拔弩张演化为“取长补短”的协同联动,却依然无法阻拦红果。 毋庸置疑,红果正走在高歌猛进的道路上。

  • 马斯克母亲发帖支持儿子:演示Grok视频生成功能

    近日,马斯克母亲梅耶-马斯克发帖演示支持马斯克的Grok视频生成功能。 她表示,这次我把手指放在了最近在X上发布的这张照片上,提示是用Grok制作视频”,现在自己的狗摇着尾巴了,自己玩得很开心。 她还特别提示,这个视频由@grok Imagine制作。

  • 阿里Wan2.2-S2V正式发布:一张图+一段音频 即可生成人物动态视频

    今晚,阿里云正式发布全新多模态视频生成模型通义万相Wan2.2-S2V,并宣布开源。 Wan2.2-S2V极大地简化了视频制作过程,仅需提供一张静态图片和一段音频,模型便能生成面部表情自然、口型与音频高度一致、肢体动作流畅丝滑的电影级数字人视频。 支持分钟级长视频稳定生成,不止嘴动,手势、表情、姿态都能动。

  • 昆仑万维UniPic 2.0“小钢炮”模型炸场,一个模型搞定理解+生成+编辑

    大模型又迎来新一波的迭代周期。 近日,从Open AI发布GPT-5,到国内的昆仑万维、商汤、百川智能、智谱等都陆续发布了自己的新模型。其中昆仑万维更是一口气开启了技术周,连续5天每天发布一个新模型,而8月13日发布的,正是其本周发布的第三款模型——多模态统一模型UniPic2.0。 UniPic2.0主打的是,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力

  • 如何用3分钟精准计算AI大模型成本?避免生成一篇万字文章就超支?

    AI大模型成本控制指南:实测三步预算法+企业级避坑方案。文章揭露行业痛点:1)价格迷雾:各厂商计费规则差异大,长文本/多模态存在隐藏溢价;2)团队实测GPT-4生成20篇行业分析(50万字)实际账单超预算4倍。解决方案:通过AIbase计算器实现精准预测:①场景化选择自动加载计费规则;②输入需求实时生成动态成本矩阵;③智能规避四大隐性成本(长文本衰减补偿/区域差价预警等)。跨境电商案例显示,使用工具后成本降低60%。核心观点:在AI时代,成本控制能力已成为企业核心竞争力。

  • AI日报:字节视频模型Waver 1.0发布;百度AI搜索APP“梯子AI”发布;谷歌推全新Gemini 2.5 Flash图像编辑模型

    本文汇总了AI领域最新动态:谷歌推出Gemini 2.5 Flash图像编辑模型,字节发布Waver 1.0视频生成工具;百度“梯子AI”提供无广告搜索;文心快码新增终端编码功能;腾讯游戏VISVISE工具集提升动画制作效率;自动驾驶配送机器人RM5进军外卖行业;DeepSeek V3.1出现字符Bug已修复;谷歌翻译升级实时同传和AI陪练;全球首现AI勒索软件PromptLock威胁网络安全;Anthropic推出Chrome浏览器AI助手Claude。

  • 昇腾算力赋能视频生成革命 浙江大学团队攻克长时一致性难题

    浙江大学朱凌霄团队基于昇腾AI平台,研发出首个无需训练的长序列视觉指令生成框架LIGER,解决了视频生成领域长期存在的时序一致性难题。该技术通过历史提示和视觉记忆机制保持内容连贯性,并采用基于DDIM反演的记忆校准技术提升准确性。团队还提出引导式渐进蒸馏方法,在保持视频质量基础上实现8倍加速。研究成果入选ICLR2025,构建了包含569个任务的评估数据集。未来将深化多模态生成技术研究,构建自主创新的技术生态体系。

  • 豆包1.5轻量版 vs Gemini 2.5闪存版:生成5000字深度文章,哪个模型更合适?

    AIbase选型工具通过多维度数据对比,帮助用户精准选择AI模型。文章以豆包和Gemini为例,展示平台如何解决模型选型痛点:自动生成对比报告,评估关键指标如术语准确性、本土案例适配度等。实际案例显示,使用该工具后内容团队效率提升40%,编辑成本下降65%。核心价值在于用数据驱动决策,规避局部优势导致的全局误判,实现场景化精准匹配。

  • 大厂押注的AI和视频化,能成为播客的好出路吗?

    长期在国内市场不温不火的播客赛道,正在焕发出越来越蓬勃的新机。 8月15日,自带流量和多重话题标签的罗永浩入驻B站,并宣布将开启一档视频播客节目《罗永浩的十字路口》,8月19日,罗永浩发布了第一条视频播客,与理想汽车创始人李想进行了近4小时的深度对话,一度引发热议,在B站内的观看量超230万。 而由罗永浩掀起的这一波流量热潮背后,可以看出B站对于视频

今日大家都在搜的词:

热文

  • 3 天
  • 7天