首页 > AI头条  > 正文

​字节跳动推出 OmniHuman:从单张照片生成逼真全身动态视频

2025-02-05 10:56 · 来源: AIbase基地

字节跳动的研究团队近日开发出一款名为 OmniHuman 的人工智能系统,能够将单张照片转化为逼真的视频,展示人物的讲话、歌唱以及自然的动作。这一突破性技术有望彻底改变数字娱乐和通讯领域。

image.png

OmniHuman 能够生成全身视频,展现人物在讲话时的手势和动态,超越了以往仅能动画面部或上半身的 AI 模型。这项技术的核心在于,它结合了文本、音频和人体动作等多种输入,通过一种称为 “全条件” 训练的创新方法,使得 AI 能够从更大、更丰富的数据集中学习。

研究团队指出,OmniHuman 经过超过18700小时的人类视频数据训练,表现出了显著的进步。通过引入多种条件信号(例如文本、音频和姿势),这项技术不仅提升了视频生成的质量,还有效减少了数据的浪费。

研究人员在一篇发表在 arXiv 的论文中提到,尽管近年来人类动画的端到端技术取得了显著进展,现有方法在扩大应用规模方面仍存在局限性。

OmniHuman 的应用潜力广泛,可以用于制作演讲视频、演示乐器演奏等。经过测试,该技术在多个质量基准上均优于现有系统,显示出其卓越的性能。这一发展出现在 AI 视频生成技术日益竞争激烈的背景下,谷歌、Meta 和微软等公司也在积极追逐类似技术。

然而,尽管 OmniHuman 为娱乐制作、教育内容创作及数字通讯带来了变革的可能,但也引发了关于合成媒体潜在误用的担忧。研究团队将在即将召开的计算机视觉会议上展示他们的研究成果,虽然具体的时间和会议尚未公布。

论文:https://arxiv.org/pdf/2502.01061

划重点:

🌟 OmniHuman 是一款新型 AI,能够将单张照片转化为逼真的全身视频。  

📊 该技术经过18700小时的人类视频数据训练,结合多种输入信号以提升生成效果。  

⚖️ 尽管具有广泛应用潜力,但也引发了关于合成媒体可能被滥用的担忧。  

  • 相关推荐
  • 全球首个!OpenAI将推“AI版抖音”:禁止上传实拍内容 视频100%由AI生成

    国庆假期前夕,OpenAI发布了Sora 2,一款旗舰视频和音频生成模型。 据介绍,Sora 2可以完成以前的视频生成模型难以完成的事情,比如运动员的奥林匹克体动作、桨板上的后空翻,准确模拟浮力和刚度的动态等等,并擅长现实主义、电影和动漫风格。 一则来自《连线》杂志的重磅爆料更是指出,OpenAI的下一步棋,并非简单升级一个模型,而是要亲自下场,推出一个独立的AI影�

  • AI日报:快手推出AI视频制作助手Kwali;字节跳动推出USO模型;OpenAI推出ChatGPT开发者模式

    本文介绍了AI日报栏目,聚焦AI领域最新动态。快手推出Kwali视频助手,简化视频制作流程;字节跳动发布USO模型,解决图像生成中风格与主题的矛盾;微软推出Copilot Audio音频模式,提供个性化语音交互;Stability AI升级Stable Audio 2.5,支持高质量音频生成;阿联酋推出开源大模型K2 Think,拥有320亿参数;微信上线智能回复功能,提升公众号运营效率;OpenAI推出ChatGPT开发者模式,支持AI控制外部工具;字节跳动Seed团队发布AgentGym-RL框架,提升语言模型决策能力;月之暗面开源Checkpoint Engine中间件,优化LLM推理效率;B站开源IndexTTS-2.0文本转语音系统,支持情感与时长控制;Replit推出Agent 3编程助手,自主性提升10倍。

  • 免费生成10秒高清视频!通义App接入通义万相2.5

    在2025云栖大会上,阿里发布通义万相Wan2.5 Preview系列模型,覆盖文生视频、图生视频、文生图和图像编辑四大功能。其视频生成模型首次实现音画同步,可生成匹配画面的人声、音效和BGM,时长从5秒提升至10秒,支持24帧/秒的1080P高清输出,降低影视级创作门槛。模型指令遵循能力增强,支持运镜等复杂连续变化控制。用户通过通义App输入指令即可自动生成10秒高清视频,每日免费使用15次,支持导出无水印视频。同时,图像生成能力全面升级,可生成中英文字符和图表,支持图像编辑功能,一句话即可完成P图。

  • 延续字节的红书梦,可颂找到新「钩子」

    最近一段时间,我们在日常刷抖音的过程中经常看到带有可颂链接的内容。这些内容往往会通过几张照片或一段视频向大家推荐某一地点的拍照姿势和拍摄角度,并告诉用户如何在可颂找到不同地点的最佳机位攻略。 以机位攻略这一更细的痛点为切口,可颂先解决了用户拍出更好看照片的需求,然后沿着从「工具到社区」的路径,重新找到了一条围绕本地生活场景构建种草社

  • 腾讯推出「老年打车」服务,已在全国上线

    9月26日,腾讯出行服务上线“亲属打车”小程序,旨在解决老年人线上打车不便的问题。子女可通过微信远程设置常用地址和支付方式,长辈只需一键点击即可叫车,无需手动输入或选择车型,大幅降低使用门槛。该功能支持代付和订单同步通知,子女可实时查看行程进展,既保障安全又避免沟通障碍。产品聚焦家庭协同与跨代互助,通过技术简化操作,推动数字适老化创新,未来还将优化医院接送、夜间提醒等场景,让科技更贴近民生需求。

  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包App可免费体验

    字节跳动Seed团队推出豆包图像创作模型Seedream4.0,支持文生图、图像编辑及多图参考等功能,在专业评测中达到业界领先水平。该模型已上线豆包App、即梦AI等平台供用户免费体验,并通过火山引擎开放给企业客户。Seedream4.0具备多模态创意能力,可生成4K分辨率商用图像,适用于教育、电商、广告设计等场景。团队表示将持续探索实时交互生成体验,深度融合多模态推理与世界知识。

  • 大文件传输必备,QQ闪传支持批量发照片给微信好友

    国庆假期临近,出行人群、摄影爱好者和婚礼参与者对大文件传输需求激增。QQ近期推出“闪传”功能,单文件上限提升至10GB,支持批量传输且不限速,可生成链接或二维码直接分享至微信等平台,接收方无需登录QQ即可下载。该功能省去压缩步骤,支持实时预览,提升个人分享与团队协作效率。用户反馈显示,闪传在摄影交片、班级资料分发等场景中表现高效,体现了QQ持续优化核心功能、强化跨平台文件流转能力的创新方向。

  • 微信这两大新功能你用过没!聊天可发实况照片 还能撤回误删消息

    微信iOS版8.0.61更新推出两项新功能:聊天可发送实况照片(含动态画面与声音),关闭实况开关则以静态形式发送;左滑删除好友或群聊对话后,5秒内可撤销删除。用户需更新至该版本以上方可使用。安卓用户长按删除聊天时,会收到清空记录提示,需确认操作。

  • 苹果全新MacBook Pro本月亮相:全球首发M5芯片

    苹果M4版MacBook Pro定制机型发货推迟至10月23-28日,预示10月将推M5版。据悉,14/16英寸M5 MacBook Pro本月发布,搭载M5芯片;M5 Pro/Max版则延至2026年初。M5芯片基于台积电3nm工艺,单核成绩突破4000分,多核超1.5万分,成M系列最强标准版。除MacBook Pro外,M5还将用于iPad Pro和Vision Pro,苹果或同步更新Apple TV与HomePod mini。新品将通过新闻稿形式发布,不举办发布会。

  • 谁在视频号上,为短剧“买单”?

    ​短剧的风这下是真的吹到了视频号。 “00后帅气多金董事长爱上干保洁40岁离异的我”;“和自己闪婚的黄昏恋老伴,竟然是豪门。”……最近小编一打开手机随便刷一刷视频号,便能邂逅许多爆款“雷人”短剧。 前几天,就连金融反腐题材的《K线成长记》都火了,证券时报发的全集转发就突破1万+。 它们剧情够爽、反转够快,即便有的剧情夸张、逻辑欠缺,依旧赢得网友

今日大家都在搜的词: