首页 > 业界 > 关键词  > 抖音最新资讯  > 正文

字节跳动放大招!OmniHuman数字人模型即将上线:一张图+一段音频即可生成视频

2025-02-07 19:34 · 稿源: 快科技

AI视频生成新突破:只需图片和音频,即可轻松制作生动短片!

科技界传来激动人心的消息!近期,抖音旗下图片视频工具即梦AI宣布即将推出令人惊叹的新功能。

这款全新功能采用了先进的多模态视频生成模型 OmniHuman为创作者带来了前所未有的便利。只需提供一张图片和一段音频,该模型就能生成一条栩栩如生的 AI 视频,大幅提升视频制作的效率和质量。

OmniHuman 技术主页透露,该模型由字节跳动自主研发,支持输入各种尺寸的图片,包括肖像、半身和全身。根据输入的音频,OmniHuman 可自动生成人物与其匹配的动作,包括演讲、演唱、演奏乐器和移动。

对于人物视频生成中的常见问题,如手势崩坏,OmniHuman 也做出了显著的改进。此外,该模型还支持输入动漫和 3D 卡通等非真人图片,并能保持原有的风格和动作。

从展示的演示效果来看,OmniHuman 的生成效果令人印象深刻,具有较高的自然度。为了防止该技术被滥用,字节跳动技术团队特别强调,OmniHuman 将不会对外提供下载。

即梦 AI 相关负责人透露,OmniHuman 目前已具备不俗的表现,但生成影视级别视频仍有提升空间。搭载 OmniHuman 的多模态视频生成功能将首先在即梦上进行小范围测试,并逐步开放。

该负责人还表示,即梦将对该功能实施严格的安全审核机制,并在输出视频上标注水印以提醒用户。此举旨在确保 AI 技术发挥积极作用,帮助视频创作者充分发挥想象力。

举报

  • 相关推荐
  • 爱诗科技PixVerse首发上线视频生成模型HappyHorse

    爱诗科技旗下AI视频平台PixVerse于4月28日接入HappyHorse1.0模型,支持文生视频与图生视频,并推出会员使用该模型享50%额外积分的限时活动。平台已形成V、C、R系列多层次模型体系,同时引入外部领先模型构建开放生态。HappyHorse支持1080P视频生成、多种画幅比例,用户输入文本或图片即可快速生成带音频视频,大幅降低制作门槛。PixVerse服务全球超1亿用户,覆盖177个国家,致力于推动AI视频创作普及。

  • 全球南方成为出海热土,AI视频生成技术正为全球视听产业注入新动能

    快手副总裁杜镇在第十三届中国网络视听大会上指出,全球南方市场是中国视听出海的新战略高地,巴西等市场展现巨大潜力。AI技术正成为核心驱动力,快手发布的“可灵”大模型降低创作门槛,使普通人能制作高质量内容。微短剧作为关键突破口,通过本土化创作和双产品矩阵,实现内容生产、分发和变现,推动全球视听新生态形成。

  • 公益广告“杀回来了”?这波AI短片,凭什么让网友哭着点赞

    ​“这才是AI的正确使用法,而不是每天都给我搞一堆阴间视频。” “公益广告逮着一代人宰呀。” “零零后看的那些公益广告,又以这种方式杀回来了吗?” 最近,这样的评论频繁出现在各大平台。 曾经,AI视频下总有人提到“恐怖谷效应”“假”等词汇,我们带着猎奇的心态围观,用“阴间特效”调侃它的粗糙。 但如今,风向变了。 @旧梦留声机 的留守儿童短片,一�

  • 扒了上百条AI爆款视频,我们得出了6点观察

    ​在社交媒体上刷到一条标注着“内容由AI生成”的视频,这件事正变得越来越常见。 无论是AI玩梗视频,还是走影视级路线的AI短片,又或是在原内容中注入各类AI元素的博主账号,可以说,AI正在重塑一部分内容生态。不久前,AI视频领域还出现了《纸手机》这样的现象级出圈之作。

  • 靠AI生成视频拿下2500万用户的团队转做「视频修改Buzzy」,融资2000万美元

    过去⼀年,AI 视频可能是整个 AI 应用领域里最拥挤的赛道之⼀。 从 Sora 到可灵、从 Veo 到 Seedance ,基模公司之间的竞争已经白热化。应用层也不甘示弱,画布分镜、脚本生成、⼀键成片 ……几乎每⼀种“从0到1生成视频”的路径都挤满了选手。在所有人都在抢“生成”份额的节点,一家已经拥有2500万用户、ARR 做到1500万美元的 AI 视频公司,推出了新产品 ΓBuzzy」,却选择做�

  • 长视频的AI竞赛:技术是门票,人才是底牌

    一条由B站UP主“DiDi_OK”创作的7分钟AI短片《牌子》最近引发了不少关注。 火星神秘警示牌降临引发全球性混乱,背后竟隐藏着关于人类文明重启、巴别塔式困境的多重隐喻;从异兽出没到街头枪战,镜头切换快速且流畅,还不乏“炫技”式的一镜到底……无论从主题丰富度还是画面效果来看,《牌子》都达到了“以假乱真”的程度。

  • 低成本制作景区智慧导览系统方案:AI手绘+ebmap Tour

    针对中小景区、乡村文旅及园区制作数字导览小程序成本高、交付慢、技术门槛高的问题,ebmap+Tour推出“卫星影像+AI手绘+SaaS”轻量化方案。该方案利用AI生成技术将手绘地图成本降低90%以上,通过零代码SaaS平台免除开发运维费用,实现7天快速交付完整手绘地图导览小程序,整体项目成本从传统10万元以上降至数千元,为轻量化文旅数字化升级提供高性价比选择。

  • 满血版DeepSeek V4要来了:补上缺失的多模态关键一环

    DeepSeek V4刚发布还不到5天,光是降价就来了三轮,然而他们的后续动作还很多,马上就要推出满血DeepSeek V4,补上多模态支持。 DeepSeek负责多模态开发的研究员陈小康(xiaokang_chen)今天下午在X上预告新版DeepSeek V4,不出意外就是多模态版的DeepSeek V4了。 此前发布的DeepSeek V4不论Flash还是Pro,都还是纯文本大模型,未免有些遗憾,不是说纯文本没有用,而是多模态支持能力是当�

  • AI日报:Kimi K3将于第三季度推出;英伟达发布多模态“全能模型”;Claude深度集成Adobe、Blender

    本期AI日报聚焦八大热点:月之暗面将推2.5万亿参数Kimi K3大模型,长文本处理能力突破;英伟达发布多模态模型Nemotron-3 Nano Omni,推理效率提升9倍;蚂蚁集团开源百灵Ling-2.6-flash模型;商汤推出原生多模态统一模型SenseNova U1;Claude深度集成Adobe等八大软件;字节TRAE SOLO上线语音输入;科大讯飞发布星火X2-Flash模型;ima上线知识Agent copilot,内置记忆系统。

  • 小红书要用长视频“抢”什么?

    全网头部的长视频创作者们,开始悄悄流向小红书了? 旅行、摄影长视频创作者Links,作为B站连续三年百大UP主,一直被称为旅行摄影区的“天花板级”创作者。他视频中出现的画面,往往来自地球上最难以到达的角落。每一次更新,都有网友感叹,“又多了一个此生必去的地方。” 而不久前,全网累计拥有超过千万粉丝的Links,把一个长达36分钟的新视频,首发在了小红书。

今日大家都在搜的词: