首页 > 业界 > 关键词  > 抖音最新资讯  > 正文

字节跳动放大招!OmniHuman数字人模型即将上线:一张图+一段音频即可生成视频

2025-02-07 19:34 · 稿源: 快科技

AI视频生成新突破:只需图片和音频,即可轻松制作生动短片!

科技界传来激动人心的消息!近期,抖音旗下图片视频工具即梦AI宣布即将推出令人惊叹的新功能。

这款全新功能采用了先进的多模态视频生成模型 OmniHuman为创作者带来了前所未有的便利。只需提供一张图片和一段音频,该模型就能生成一条栩栩如生的 AI 视频,大幅提升视频制作的效率和质量。

OmniHuman 技术主页透露,该模型由字节跳动自主研发,支持输入各种尺寸的图片,包括肖像、半身和全身。根据输入的音频,OmniHuman 可自动生成人物与其匹配的动作,包括演讲、演唱、演奏乐器和移动。

对于人物视频生成中的常见问题,如手势崩坏,OmniHuman 也做出了显著的改进。此外,该模型还支持输入动漫和 3D 卡通等非真人图片,并能保持原有的风格和动作。

从展示的演示效果来看,OmniHuman 的生成效果令人印象深刻,具有较高的自然度。为了防止该技术被滥用,字节跳动技术团队特别强调,OmniHuman 将不会对外提供下载。

即梦 AI 相关负责人透露,OmniHuman 目前已具备不俗的表现,但生成影视级别视频仍有提升空间。搭载 OmniHuman 的多模态视频生成功能将首先在即梦上进行小范围测试,并逐步开放。

该负责人还表示,即梦将对该功能实施严格的安全审核机制,并在输出视频上标注水印以提醒用户。此举旨在确保 AI 技术发挥积极作用,帮助视频创作者充分发挥想象力。

举报

  • 相关推荐
  • 荣耀Magic 8系列上新,火山引擎助力“YOYO助理”多模态升级

    10月15日,荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等年度旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力,结合火山引擎与豆包大模型技术,支持联网问答、识图、修图、闲陪伴、口语练习、出行规划等场景,提供图文、语音、视频等多种输入输出形式,实现秒级响应与沉浸式交互体验,成为用户“口袋里的万能管家”。

  • 逗哥配音团队:以硬核技术铺就AI创作未来,重塑短视频创作生态

    逗哥配音平台凭借AI语音技术革新,为短视频创作者提供全方位赋能。平台集成上千款覆盖多年龄风格的真人声音资源,支持多语言合成,具备媲美真人的情感表达能力。其核心功能包括AI角色分配、5秒极速克隆及20项精细调节工具,结合去水印、字幕生成等实用功能,实现一站式创作。已获超百位大V推荐,用户量破千万,累计播放量达十万亿级,显著降低创作门槛,助力各领域内容生产。团队将持续优化技术,拓展功能生态。

  • AI生成式引擎优化选择哪个平台好?GEO优化工具推荐

    在数字化浪潮席卷的当下,品牌如何在AI平台中脱颖而出,成为众多企业关注的焦点。要理解这一点,我们首先需要认识一个新兴的营销策略——GEO。 GEO,全称为生成式引擎优化(Generative Engine Optimization),其核心目标是让品牌内容能够被AI搜尋工具理解、引用和推荐,最终被纳入AI生成的答案中。这与传统的SEO(搜索引擎优化)专注于在搜索结果列表中排名靠前有着本质的不同�

  • 荣耀年度旗舰上新,火山引擎助力“YOYO助理”多模态智慧再升级

    10月15日,荣耀发布搭载全新MagicOS 10系统的Magic8系列手机、MagicPad3 Pro平板及荣耀手表5 Pro等旗舰新品。智能语音助手“YOYO助理”升级多模态交互能力,支持图文、语音、视频输入及多样化内容输出,结合火山引擎的豆包大模型技术,提供联网问答、智能识图、创意修图、出行规划等场景服务,实现“有问必答、答则精准”的智慧体验,成为用户贴身的“万能管家”。

  • 什么是GEO优化?AI生成式引擎优化平台推荐

    在数字化浪潮席卷的当下,搜索引擎的使用方式正在发生根本性变革。越来越多的用户不再只是输入碎片化的关键词,而是通过自然语言与AI对话来获取信息。根据中国信通院发布的《2025年生成式AI商业应用报告》数据显示,超60%的用户已养成借助AI对话获取各类信息的习惯。这一转变催生了全新的营销领域——GEO优化。 什么是GEO优化? GEO,全称为生成式引擎优化,是

  • 革命来临:在生成式 AI 时代,SEO该怎么做

    生成式AI正重塑SEO规则:搜索入口从点击列表转向答案直呈,SEO核心从"优化排名"升级为"优化被引用"。需打造能被AI摘录的内容(如FAQ、结构化数据),强化语义结构与权威性,监控"被AI引用"新指标。推荐使用AIBase GEO等工具量化AI可见性,实现从流量获取到答案源头的战略转型。

  • 短视频加速跑入AI时代

    「现在是西天取经的第996天,刚把师父从妖怪嘴里救出来,师父身上都还是热乎的,我们就马不停蹄开始出发了。」在抖音,都能看到《西游记》里师徒四人的取经vlog了。 采访高考完刚出考场的爱因斯坦、孟德尔、门捷列夫;慈溪逛颐和园Vlog、大禹治水现场直播,各种AI生成的视频成为网友「玩梗搞抽象」的核心生产力。 尽管在专业影视

  • 什么样的内容最容易被AI引用?GEO(生成引擎优化)时代的核心命题

    随着AI问答时代到来,用户从“搜索”转向直接向AI“提问”,生成引擎优化(GEO)应运而生。文章指出,易被AI引用的内容需具备权威性、准确性、结构清晰且被广泛认可,并介绍了AIBase的GEO排名查询工具。该工具支持多平台检测,通过模拟真实用户提问,提供品牌在AI回答中的曝光度、排名等数据分析及优化建议,帮助品牌提升AI可见度,抢占智能问答时代先机。

  • AI日报:谷歌发布Veo 3.1;通义千问推Qwen Chat Memory功能;Sora2免费用户可生成15秒视频

    本期AI日报聚焦多项技术更新:谷歌Veo 3.1视频模型新增音频生成与精细化编辑功能;通义千问推出记忆功能提升对话连贯性;Sora2免费用户可生成15秒视频,Pro版支持25秒;百度文心助手升级8种创作模式;谷歌Flow工具增强视频光影编辑与音频合成能力;Anthropic发布高性价比Claude Haiku 4.5;北京查处首例AI虚假广告案,涉伪造主持人带货;阿里推出响应仅200毫秒的编程工具Qoder CLI。

  • Sora App的AI视频社交,给了百度们新希望

    Sora2发布两周后,百度的蒸汽机AI视频模型,和谷歌Veo3.1撞了档期。 两家公司选择同期发布并非有多默契,而是Sora2带来的压迫感促使它们不得不加快脚步。 奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”,不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃,还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。 这无疑是扔在AI视�

今日大家都在搜的词: