首页 > 业界 > 关键词  > 模型最新资讯  > 正文

阿里推I2VGen-XL模型 双阶方法实现更高清的文本视频生成

2023-11-13 16:21 · 稿源:站长之家

站长之家(ChinaZ.com)11月13日 消息:在视频合成领域,尽管扩散模型的迅速发展带来了显著的进步,但语义准确性、清晰度和时空连续性仍然是关键挑战。这些问题根源于缺乏良好对齐的文本-视频数据以及视频复杂结构的挑战。为解决这些问题,阿里巴巴提出了I2VGen-XL方法,通过创新性的两阶段级联扩散模型,有效分离了语义和质量,同时通过静态图像的引导实现了数据的对齐。

image.png

项目地址:https://i2vgen-xl.github.io/

首先,基础阶段利用两个分层编码器,确保了生成视频的一致语义,并保留了输入图像的内容。这为模型提供了坚实的基础,解决了语义的关键问题。接着,精化阶段引入了简短的附加文本,提高了视频的细节,并将分辨率提高到1280x720,增强了生成视频的质量。这两个阶段的结合,有效地解决了先前挑战的复杂性。

为了优化模型性能,研究团队收集了庞大的数据集,包括约3500万个文本-视频对和60亿个文本-图像对。这种大规模数据的使用增加了模型的多样性和泛化能力,从而提高了生成视频的质量和多样性。

最后,通过广泛的实验证明,研究团队深入剖析了I2VGen-XL的基本原理,并将其与当前领先方法进行了比较,充分证明了其在各种数据上的有效性。为促进学术研究和开发,研究团队承诺公开发布源代码和模型,为学术界和开发者提供了宝贵的资源。

举报

  • 相关推荐
  • 中国电信发布全自研视频生成大模型 完成全模态体系构建

    12月3日,在中国电信“2024数字科技生态大会”期间,首届“TeleAI开发者大会”在广州举办。TeleAI发布视频生成大模型、视觉大模型产用一体化平台、具身智能、智传网等一系列创新技术、产品及科研成果,并发布开发者产业联盟计划。展出了星辰软件工厂、星辰慧记、星辰智能体产品、中国电信家庭小管家、星辰大模型一体机等一系列智能产品,让现场观众真实感受未来以来,AI就在每个人的身边。

  • AI日报:阶跃星辰内测视频大模型Step-Video;即梦AI图片2.1模型支持生成文字;腾讯发布混元视频生成大模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、阶跃星辰视频生成大模型Step-Video开启内测可在跃问视频申请阶跃星辰的Step-Video模型正式开启内测,用户可以通过跃问视频官网申请资格。用户可在最新版本的WPSOffice中轻松找到�

  • Kimi内测AI视频生成功能: 每天可免费生成100秒视频

    据报道,Kimi目前正内测AI视频生成功能Kimi创作空间”,可通过12种预设风格模板和自定义创作功能,为用户制作个性化音乐视频。Kimi创作空间”目前正处于灰度测试阶段,预示着它距离正式亮相已为期不远。无论是专业学术论文的翻译与理解是法律问题的辅助分析,亦或是发票的批量整理以及API开发文档的快速解读,Kimi都展现出了出色的表现,赢得了广大用户的一致好评。

  • 字节视频生成模型PixelDance上线即梦AI:用户可免费体验

    字节跳动视频生成模型PixelDance和Seaweed在即梦AI正式上线,面向公众免费开放使用。用户进入即梦AI的视频生成”界面,在视频模型里选择视频P2.0Pro”或视频S2.0Pro”,即可分别体验这两款模型,目前网页版和手机端APP均已支持。平台提供智能画布、故事创作模式,以及首尾帧、对口型、运镜控制、速度控制等AI编辑能力,并有海量影像灵感及兴趣社区,一站式提供用户创意灵感�

  • OpenAI正式推出AI视频生成模型Sora:ChatGPT订阅用户免费用

    在首次公布10个月之后,OpenAI宣布正式向用户开放人工智能视频生成模型版本Sora,该系统可以根据文本提示生成逼真的视频。OpenAI还推出了Sora的新版本SoraTurbo,称较2月预览的版本速度显著加快,可以生成最长达20秒的视频,并且可以提供这些视频的多种变体。OpenAI表示,正在针对不同类型的用户制定量身定制的价格方案,计划于明年年初推出。

  • 迄今最大视频开源模型!腾讯混元文生视频上线:一句话生成视频

    今日,腾讯混元大模型宣布文生视频功能上线,一句话就能生成视频。此次开源的视频生成大模型,参数量130亿,是当前最大的视频开源模型。通过先进的图像视频混合VAE,让模型在细节表现有明显提升,特别是小人脸、高速镜头等场景。

  • 谷歌发布思维AI Agent:像人类一样思考,重大技术突破!

    今年10月,OpenAI高级研究科学家、德扑AI之父NoamBrown,曾在美国旧金山举办的TEDAI大会上提出了一个惊人的理论——让AI模型思考20秒所带来的性能提升,相当于将模型扩大100,000倍并训练100,000倍的时间。Noam所指的技术便是System1/2thinking,也是OpenAI最新模型o1正在使用的技术。这种分工执行使得AIAgent能够同时处理快速的对话和复杂的规划,极大提高了用户体验。

  • AI Agent再迎一巨头!谷歌重磅发力AI Agent ,商用大爆发!

    上周微软在“Microsoftignite2024”大会上发布10多个商用AIAgent后,科技巨头谷歌也宣布全力推广商用AIAgent,发布一系列激励活动和产品。谷歌云将提供从AIAgent的开发、部署到应用一站式商用生态。微软、谷歌、百度、SAP、Salesforce等巨头都在积极推广,加上OpenAI即将推出的全新AIAgent产品“Operator”,2025年将成为AIAgent商用爆发年。

  • BOE(京东方)携尖端科技亮相超高清视频产业联盟会员大会 “屏之物联”引领未来“视界”

    11月28日至30日,2024UWASUMMIT暨世界超高清视频产业联盟会员大会在深圳举行,来自全球的行业专家和企业代表齐聚一堂,深入交流全球超高清技术方向和行业趋势,共同推动超高清产业高质量发展。BOE携尖端显示技术及创新应用成果精彩亮相,向全球展示了其在超高清显示领域的卓越实力与无限潜力。自创立以来,BOE始终秉持对技术的尊重和对创新的坚持,在“屏之物联”战略下,持续发挥在超高清领域的引领作用,不仅致力于将屏幕的视觉效果推向极致,为用户带来前所未有的沉浸感与临场体验,更是积极拓展超高清应用新场景,助力打造超高清产业新生态,为全球用户带来更加绚烂多彩的超高清视界,携手共建高质量发展的超高清产业生态。

  • AI Agent大爆发!微软刚刚发布大量商用AI Agent,全民智能体!

    微软在芝加哥召开“Microsoftignite2024”全球开发者大会,AIAgent成为本次大会的重点。微软发布的这些AIAgent包括简单易用的开发、维护一站式平台AzureAIFoundry、AzureAIAgent,同时也有集成在Microsoft365、Dynamics365等主打产品。本次大会一共三天,微软若放出更多关于AIAgengt、大模型的内容,「AIGC开放社区」还会继续为大家解读。