首页 > AI头条  > 正文

字节跳动重磅发布豆包视频生成模型 支持生成10秒视频、多镜头一致性

2024-09-24 15:08 · 来源: AIbase基地

火山引擎科技有限公司在2024年AI创新巡展上宣布推出豆包·视频生成模型,这是其大模型家族的新成员。

火山引擎总裁谭待表示,豆包·视频生成模型在视频生成方面具有多项先进性能,包括精准的语义理解、多动作多主体交互、强大的动态效果和一致性多镜头生成能力。

微信截图_20240924152238.png

该模型能够理解和遵从复杂的指令,实现多个主体间的交互,并能够在视频主体的大动态和镜头间进行炫酷切换。此外,它还能够在多镜头切换中保持一致性,10秒内讲述一个完整的故事,并支持多种风格和比例,如黑白、3D动画、国画等。

同时,模型支持包括黑白、3D动画、2D动画、国画等多种风格,并能适应1:1、3:4、4:3、16:9、9:16、21:9等多种比例,以适配不同终端和画幅。

豆包·视频生成模型不仅能够提升视频画质的高保真度,还能够让视频在主体的大动态与镜头中进行炫酷切换,拥有变焦、环绕、平摇、缩放、目标跟随等丰富的镜头语言能力。

豆包视频生成大模型,主要包含两个版本:Doubao-视频生成PixelDance和Doubao-视频生成-Seaweed 。

进入火山引擎,可以看到上线了PixelDance和Seaweed两个Doubao-视频生成版本。

image.png

一、Doubao-视频生成PixelDance

PixelDance V1.4是ByteDance Research团队开发的 DiT 结构的视频生成大模型,同时支持文生视频和图生视频,能够一次性生成长达10秒的精彩视频片段。

这个模型支持用户输入文本、图片生成视频,模型具备出色的语义理解能力,能快速生成优质的视频片段,可应用于影视创作、广告传媒等多个场景。

以下是PixelDance版本生成案例:

精准的语义理解

PixelDance V1.4可以遵从复杂prompt,解锁时序性多拍动作指令与多个主体间的交互能力

prompt:一个男人走进画面,女人转头看着他,他们互相拥抱,背景周围的人在走动。

强大动态与炫酷运镜

支持超多镜头语言,灵活控制视角,带来真实世界的体验。

一致性多镜头生成

具备一键生成故事性多镜头短片的能力,并且成功攻克了多镜头切换时一致性的技术挑战,可10秒讲述一个起承转合的故事。在一个prompt内实现多个镜头切换,同时保持主体,风格,氛围的一致性。

多风格、多比例兼容

深度优化后的Transformer结构,大大提升了视频生成的泛化能力,支持包括黑白、3d动画、2d动画、国画、水彩、水粉等多种风格,包含1:1、3:4、4:、16:9、9:16、21:9六个比例。

image.png

二、Doubao-视频生成-Seaweed 

这个模型支持两种视频生成方式:文生视频和图生视频。该技术基于Transformer结构,利用时空压缩的潜空间进行训练,模型原生支持多分辨率生成,适配横屏、竖屏,并能够根据用户输入的高清图像分辨率进行适配和保真。默认输出为720p分辨率、24fps、时长5秒,并可动态延长至20-30秒。

以下是Seaweed 版本生成案例:

逼真度极高,细腻丰富的细节层次

prompt:一只大熊猫正在享用热腾腾的火锅。

专业级色彩与光影

动态流畅

豆包·视频生成模型的推出,预计将为电商营销、动画教育、城市文旅、微剧本(音乐MV、微电影、短剧等)等多个领域带来创新和效率提升。火山引擎表示,该模型的发布将全面加速AIGC应用创新。

火山引擎承诺,将继续推进模型能力的升级和迭代,探索模型能力在更多场合的应用,并为企业实现云上智能化提供动力。

数据显示,截至到9月,豆包大模型的日均 tokens 使用量已经超过1.3万亿,4个月的时间里 tokens 整体增长超过了10倍。在多模态方面,豆包·文生图模型日均生成图片5,000万张,此外,豆包目前日均处理语音85万小时。

  • 相关推荐
  • AI日报:谷歌发布Veo 3.1;通义千问推Qwen Chat Memory功能;Sora2免费用户可生成15秒视频

    本期AI日报聚焦多项技术更新:谷歌Veo 3.1视频模型新增音频生成与精细化编辑功能;通义千问推出记忆功能提升对话连贯性;Sora2免费用户可生成15秒视频,Pro版支持25秒;百度文心助手升级8种创作模式;谷歌Flow工具增强视频光影编辑与音频合成能力;Anthropic发布高性价比Claude Haiku 4.5;北京查处首例AI虚假广告案,涉伪造主持人带货;阿里推出响应仅200毫秒的编程工具Qoder CLI。

  • 为什么“GEO”比“SEO”更关键?——解码生成式引擎优化(GEO)的重要性

    随着生成式AI工具普及,传统SEO已不足以应对"零点击搜索"趋势。生成式引擎优化(GEO)应运而生,其核心是让内容被AI模型引用而非仅追求搜索排名。GEO通过优化内容结构(问答式标题、结构化数据)、增强语义权威性、添加技术标记(Schema)等策略,使内容更易被AI抓取引用。数据显示GEO可将内容可见性提升40%,建议企业将GEO思维融入长期内容战略,使用AIBase等工具监控

  • AI日报:微软发布首款自研图像生成模型 MAI-Image-1;百度世界大会时间公布;AI大牛开源nanochat教学工具

    微软发布首款自研图像生成模型MAI-Image-1,跻身LMArena前十,注重实用性与光影效果;百度世界2025大会将聚焦大模型与AI全球化战略;Meta新技术使RAG推理速度提升30倍;开源项目nanochat实现低成本构建聊天AI;谷歌NotebookLM新增动漫视频生成功能;中国农大发布神农大模型3.0助力智慧农业;腾讯启动"青云奖学金"培养AI人才;苹果FS-DFM模型长文本生成效率提升128倍;谷歌Lens整合AI图像编辑功能;港大与美团提出CodePlot-CoT方法,通过代码绘图解决数学难题,性能提升21%。

  • 豆包语音合成模型 2.0 重磅升级,语义理解 + 情感演绎双突破

    10月16日,火山引擎升级豆包语音合成模型2.0与声音复刻模型2.0。新模型基于大语言模型架构,具备深度语义理解能力,实现从文本朗读到情感表达的进化。对话式合成支持多轮交互,声音复刻仅需5秒即可还原音色。针对教育场景优化,复杂公式符号朗读准确率达90%,覆盖数学、化学等全学科。目前模型已在火山引擎语音平台上线,为OPPO、Keep等客户提供多场景语音服务。

  • 什么样的内容最容易被AI引用?GEO(生成引擎优化)时代的核心命题

    随着AI问答时代到来,用户从“搜索”转向直接向AI“提问”,生成引擎优化(GEO)应运而生。文章指出,易被AI引用的内容需具备权威性、准确性、结构清晰且被广泛认可,并介绍了AIBase的GEO排名查询工具。该工具支持多平台检测,通过模拟真实用户提问,提供品牌在AI回答中的曝光度、排名等数据分析及优化建议,帮助品牌提升AI可见度,抢占智能问答时代先机。

  • 美国女子AI生成号码中10万美元彩票

    美国密歇根州45岁女子塔米卡·卡维通过ChatGPT随机生成的号码购买强力球彩票,意外赢得10万美元奖金。她平时极少购彩,此次因奖池超10亿美元突发奇想尝试AI选号,结果精准匹配4个白球和1个强力球号码,更因选择翻倍选项使奖金翻倍。这已是今年第二起AI推荐号码中奖案例,此前弗吉尼亚州一名女子同样通过ChatGPT选中15万美元。彩票机构紧急提醒公众:开奖完全随机,AI无法提高中奖概率。此事引发对技术伦理的讨论,部分专家担忧会催生“AI玄学”市场。

  • 全球首个!OpenAI将推“AI版抖音”:禁止上传实拍内容 视频100%由AI生成

    国庆假期前夕,OpenAI发布了Sora 2,一款旗舰视频和音频生成模型。 据介绍,Sora 2可以完成以前的视频生成模型难以完成的事情,比如运动员的奥林匹克体动作、桨板上的后空翻,准确模拟浮力和刚度的动态等等,并擅长现实主义、电影和动漫风格。 一则来自《连线》杂志的重磅爆料更是指出,OpenAI的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的AI影�

  • Sora 2生成已故名人视频引亲属不满 OpenAI回应:重视反馈 将迅速纠正失误

    OpenAI 近日推出的 Sora 2 模型引发广泛关注,其默认禁止生成在世公众人物视频,用户纷纷尝试生成各类创意内容。然而,创作者与观众很快发现这一限制存在明显漏洞该模型允许生成已故公众人物的影像,从而在伦理层面引发争议。 社交媒体上已涌现大量AI复活”名人的案例,例如李小龙主持DJ现场、迈克尔杰克逊表演单口喜剧等。尽管OpenAI在每段生成视频上添加动态水印,�

  • Sora App的AI视频社交,给了百度们新希望

    Sora2发布两周后,百度的蒸汽机AI视频模型,和谷歌Veo3.1撞了档期。 两家公司选择同期发布并非有多默契,而是Sora2带来的压迫感促使它们不得不加快脚步。 奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”,不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃,还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。 这无疑是扔在AI视�

  • 革命来临:在生成式 AI 时代,SEO该怎么做

    生成式AI正重塑SEO规则:搜索入口从点击列表转向答案直呈,SEO核心从"优化排名"升级为"优化被引用"。需打造能被AI摘录的内容(如FAQ、结构化数据),强化语义结构与权威性,监控"被AI引用"新指标。推荐使用AIBase GEO等工具量化AI可见性,实现从流量获取到答案源头的战略转型。

今日大家都在搜的词: