首页 > 业界 > 关键词  > 模型最新资讯  > 正文

阿里推I2VGen-XL模型 双阶方法实现更高清的文本视频生成

2023-11-13 16:21 · 稿源:站长之家

站长之家(ChinaZ.com)11月13日 消息:在视频合成领域,尽管扩散模型的迅速发展带来了显著的进步,但语义准确性、清晰度和时空连续性仍然是关键挑战。这些问题根源于缺乏良好对齐的文本-视频数据以及视频复杂结构的挑战。为解决这些问题,阿里巴巴提出了I2VGen-XL方法,通过创新性的两阶段级联扩散模型,有效分离了语义和质量,同时通过静态图像的引导实现了数据的对齐。

image.png

项目地址:https://i2vgen-xl.github.io/

首先,基础阶段利用两个分层编码器,确保了生成视频的一致语义,并保留了输入图像的内容。这为模型提供了坚实的基础,解决了语义的关键问题。接着,精化阶段引入了简短的附加文本,提高了视频的细节,并将分辨率提高到1280x720,增强了生成视频的质量。这两个阶段的结合,有效地解决了先前挑战的复杂性。

为了优化模型性能,研究团队收集了庞大的数据集,包括约3500万个文本-视频对和60亿个文本-图像对。这种大规模数据的使用增加了模型的多样性和泛化能力,从而提高了生成视频的质量和多样性。

最后,通过广泛的实验证明,研究团队深入剖析了I2VGen-XL的基本原理,并将其与当前领先方法进行了比较,充分证明了其在各种数据上的有效性。为促进学术研究和开发,研究团队承诺公开发布源代码和模型,为学术界和开发者提供了宝贵的资源。

举报

  • 相关推荐
  • 强强联手!深度求索、寒武纪同步发布DeepSeek-V3.2模型架构和基于vLLM的模型适配源代码

    2025年9月29日,深度求索公司发布新一代模型架构DeepSeek-V3.2,引发行业关注。寒武纪同步宣布适配该模型并开源vLLM-MLU推理引擎代码。新发布的DeepSeek-V3.2-Exp是实验性版本,在V3.1-Terminus基础上引入稀疏注意力机制,优化长文本训练和推理效率。目前官方应用端已同步更新,API大幅降价。此次模型体积达671GB,下载需8-10小时。业内专家指出,此次快速适配表明双方早有深度技术协�

  • AI日报:蚂蚁开源高性能思考模型Ring-flash-2.0;通义7款模型屠榜Hugging Face;Veo3视觉能力升级

    蚂蚁百灵团队开源高性能思考模型Ring-flash-2.0,在多项基准测试中表现优异;阿里通义7款模型登顶Hugging Face榜单,Qwen3-Omni凭借多模态能力全球第一。谷歌Veo3突破视频生成局限,可自动完成视觉任务;特斯拉推进人形机器人量产,马斯克称其为最重要产品。马斯克第六次起诉OpenAI窃取商业机密,苹果内部测试聊天机器人Veritas优化Siri,YouTube推出AI音乐主播增强互动,LiquidAI发布轻量级模型Liquid Nanos优化边缘计算。

  • 易鑫发布Agentic大模型,破解汽车金融风控与效率痛点

    9月12日,易鑫集团在“IT Value Summit数字价值年会”上入选“2025创新场景年度AI应用TOP榜”,成为汽车金融科技领域唯一上榜企业。首席科技官贾志峰指出,易鑫以AI为核心驱动力,通过自研大模型“智鑫多维”等技术,显著提升风控水平与融资通过率,推动行业智能化转型。平台已连接全国4.2万家经销商及上百家金融机构,服务覆盖牧民、基层员工等多元群体,体现技术普惠价值。未来将持续加大科技创新投入,深化国内普惠金融服务,并探索技术出海,助力全球汽车金融行业迈向更高水平智能化。此次上榜不仅是对其技术实力的认可,更反映出行业正加速拥抱智能化变革。

  • 2025数贸会 | 每日互动:大数据+大模型,重塑营销价值

    9月26日,全球数字生态大会在杭州举行,聚焦AI与大数据如何重塑营销价值。每日互动朱晓鸣提出,企业需转变思维,从数据中洞察价值而非仅追求数据量,并介绍了“大数据联合计算模式”以平衡合规与营销增效。大会还推出AI营销产品AITA助手,结合大数据与行业经验,为品牌提供智能策略,助力降本增效,推动营销新纪元。

  • 00后小伙做老房子微缩模型年入百万:200元成本售1万

    ​近日,一位00后小伙凭借其精湛的手艺和独特的创意,在微缩模型领域大放异彩,年收入突破百万大关,成为众人瞩目的焦点。他专门制作老房子的微缩模型,不仅还原度极高,更融入了深厚的文化底蕴和情感记忆,深受市场欢迎。 据悉,这位小伙从小就对传统建筑和手工艺术充满热爱,大学期间更是深入研究微缩模型制作技艺。毕业后,他毅然决然地投身于这一领域,凭�

  • AI日报:阿里推多模态模型Qwen3-Omni;谷歌推出AP2协议;百度推出Qianfan-VL 模型

    本期AI日报聚焦多领域技术突破:阿里云推出全球首个全模态AI模型Qwen3-Omni,支持文本、图像、音频和视频统一处理;百度发布多尺寸视觉理解模型Qianfan-VL,优化企业级应用。苹果扩展Image Playground平台,引入ChatGPT等第三方模型。谷歌与PayPal合作推出AP2协议,推动AI支付安全创新。钉钉上线AI表格助手,支持自然语言生成表格。DeepSeek开源V3.1-Terminus模型,性能显著提升。Kimi推出Agent会员服务,智元机器人开源全球首个通用具身智能模型GO-1,降低技术门槛促进行业创新。

  • 模型即服务,应用即未来:阿里云助力中小企业AI应用规模化落地

    阿里云针对中小企业AI落地“不会用、用不起、用不好”痛点,提出全链路解决方案。数据显示,77%全球中小企业已定期使用AI工具,中国市场需求增长强劲。阿里云通过通义大模型技术迭代、AIStack一体化底座及4R服务框架,降低使用门槛与成本。典型案例如万小智AI员工实现“分钟级交付”,博登智能提升数据处理效率7倍。方案覆盖制造、医疗等12大行业,助力企业从“有算力”到“能落地”,推动AI应用成为行业常态。

  • 我国首个政务大模型安全国家标准发布 百度深度参与制定

    日前,我国首个针对政务大模型的安全国家标准《政务大模型应用安全规范》(下称《规范》)正式发布。百度作为核心参编单位,凭借其在人工智能安全及政务服务领域的深厚积累,深度参与了该标准的制定工作,为政务大模型的安全选用、部署运行、护栏建设和合规落地提供了专业支持。《规范》由国家工业信息安全发展研究中心牵头,联合百度等国内领先企业共同制定�

  • 破解海外旅游语言困境,时空壶新T1以端侧模型开启全球畅行

    国庆假期临近,海外旅游热度攀升,语言沟通成为游客面临的主要障碍。网络不稳定更使依赖在线翻译工具的旅行者陷入困境。时空壶新T1翻译机通过端侧AI模型,实现无网或弱网环境下的流畅翻译,支持31种语言互译,覆盖全球98%主流旅游地。其离线翻译准确率达90%,响应迅速,并具备拍照翻译和降噪功能,有效解决机场、餐厅等嘈杂场所的沟通难题。新T1助力游客跨越语言壁垒,尽享无忧旅程,真正实现“无网也能畅行全球”。

  • 没想到,音频大模型开源最彻底的,居然是小红书

    不难发现,近几个月,开源频频成为 AI 社区热议的焦点。尤其是对于国内科技公司来说,开源成为主旋律。根据 Hugging Face 中文 AI 模型与资源社区的数据显示,国内厂商在七八月接连开源33款、31款各类型大模型。 这些开源成果大多落在了文本、图像、视频、推理、智能体以及世界模型领域,而音频生成占比很小。

今日大家都在搜的词: