首页 > AI头条  > 正文

Character AI 与耶鲁大学携手推出 Ovi,实现音画完美同步视频生成

2025-11-14 09:27 · 来源: AIbase基地

近日,Character AI 与耶鲁大学的研究团队联合推出了一款名为 Ovi 的新型音画同步视频生成技术。这一开源项目标志着音频和视频生成技术的一次重大突破,打破了以往音画生成的传统方式。

Ovi 采用了一种创新的双骨干交叉模态融合架构,将音频和视频视为一个不可分割的整体。在这个系统中,音频和视频的处理过程是并行的,彼此之间进行深度交流,从而实现了音画的完美同步。这一设计理念彻底改变了以往先生成画面再添加声音或反之的做法,解决了音画不同步的问题。

image.png

在 Ovi 的架构中,有两个功能相同的分支,分别负责处理视频和音频。这两个分支采用了相同的扩散变换器架构,使得音频与视频在生成过程中能够直接互动,消除了不必要的参数和计算开销。这种实时的信息交互使得 Ovi 能够精准地学习音频和视频之间的对应关系,例如嘴唇运动与发音之间的精确匹配。

image.png

为了确保音频和视频在时间上的精确对齐,Ovi 引入了一种名为旋转位置嵌入的技术。通过数学缩放,音频和视频的时间步点实现了完美匹配,确保了在生成过程中二者能够同步出现。此外,Ovi 在处理用户输入时,也使用了统一的文本提示策略,以提高生成效果的准确性和丰富性。

在数据集的构建上,Ovi 团队设计了复杂的处理流程,确保了训练数据的多样性和高质量。他们利用音视频对的数据集和纯音频数据集相结合的方式,为模型提供了全面的学习基础。这种严谨的训练方案为 Ovi 的成功奠定了坚实的基础。

github:https://github.com/character-ai/Ovi

划重点:

🌟 Ovi 是 Character AI 与耶鲁大学联合开发的一款开源音画同步视频生成技术。

🎥 采用双骨干交叉模态融合架构,实现音频与视频的实时互动和完美同步。

📊 团队构建了高质量、多样化的数据集,以支持 Ovi 的训练和应用。

  • 相关推荐
  • AI日报:李飞飞Marble 3D世界模型公测;OpenAI首次推出ChatGPT群聊功能;百度发布多模态 AI助手超能小度

    本期AI日报聚焦多项技术突破:World Labs推出Marble 3D模型,实现多模态生成可交互虚拟世界;OpenAI在韩新试点ChatGPT群聊功能,支持多人协作互动;苹果更新隐私政策,要求第三方AI调用需明示授权;百度发布多模态助手“超能小度”,支持空间感知与设备免费升级;LinkedIn推出AI人脉搜索,通过自然语言精准匹配专业人士;Cursor完成23亿美元融资,估值达293亿;Character AI与耶鲁合作实现音画同步技术Ovi;Google NotebookLM上线深度研究工具,支持多格式文件分析与知识库构建。

  • 拆掉沟通的墙:绿岛风携手中山大学,打造行业“AI设计大脑”

    绿岛风与中山大学、国家超算广州中心合作研发AI智能设计系统,旨在解决传统“客户-销售-设计-销售-客户”沟通链条长、效率低的问题。该系统将企业数十年积累的设计方案与规范注入AI,实现销售与客户直接对话,实时生成专业解决方案,将数天流程压缩至几分钟。AI重塑的不是流程,而是沟通的确定性与效率,打造永不流失的企业智慧大脑,确保服务品质持续稳定进化。

  • 品牌AI搜索监控实战手册:你的企业在ChatGPT眼中是什么样子?

    某互联网大厂品牌总监分享:投入200万SEO使"企业级CRM"关键词在Google排名第一,但用户用ChatGPT询问"推荐适合中国企业的CRM系统"时,AI回答中根本没有该品牌。更值得警惕的是,竞品不仅被提及,还被AI用"性价比高""用户体验好"等正面词汇描述。这揭示2025年品牌营销最大盲区:企业不知道AI如何"看待"自身品牌。 数据显示超40%年轻用户开始使用AI搜索作为主要信息渠道,而绝大多数企业对自己在AI平台的"形象"一无所知。文章提出GEO品牌监控概念,通过覆盖度、推荐强度、信息质量三个维度量化品牌在AI搜索中的影响力,并给出五步实施流程:建立监控基线、竞品对标分析、设置持续机制、深度洞察挖掘、数据驱动优化。通过真实案例说明,系统化GEO优化能在3个月内提升品牌提及率33个百分点,证明AI搜索时代的品牌竞争已从"被看见"升级为"被AI信任"。

  • 长视频,要MCN化?

    过去十多年,长视频平台习惯用头部综艺与大剧撬动增长:内容够强,自然破圈,声量带动会员与广告。 这套“内容中心逻辑”曾行之有效。 但短视频重写了注意力分配。用户不再愿意投入整段时间追一个叙事,三十秒的情绪刺激就足以满足娱乐需求。内容生命周期被压缩,哪怕是重金制作,也可能上线当周见顶、难以延展。 在这种环境下,平台不得不寻找新的增长方式。�

  • 华为WATCH ULTIMATE DESIGN非凡大师紫金款明天开启预售

    华为11月14日推出WATCH ULTIMATE DESIGN非凡大师紫金款智能手表。该系列定位超高端,于2023年9月首次发布,由刘德华代言。新款采用18K黄金材质,设计灵感源自航海轮舵,表圈手工镶嵌六颗黄金,搭配黄金表圈、旋转表冠及可伸缩蝴蝶扣等精致设计,尽显奢华质感。功能方面支持双向北斗卫星消息、百米防水及健康管理,智能模式下续航达8天。新品将于11月15日10:08开启预售,面向追求高端独特风格的消费者。

  • 剪辑快人一步!索尼ICE-Cloud助力婚礼视频团队高效高质交付

    北京二十四格文化有限公司(24Frames)成立于2004年,专注极致纪实影像美学,深耕婚礼电影、商业宣传、纪录片、综艺及艺人合作等领域。团队以真实事件与情感为核心,融合高级审美与技艺,打造富有共情力的影片,助力品牌传递深度价值。面对跨地域协作与高清素材传输等挑战,公司通过索尼与分秒帧联合推出的ICE-Cloud云平台优化流程,实现拍摄至交付的高效协同,显著�

  • 2998元起!大疆Osmo Action 6运动相机发布:首次支持可变光圈

    今日,大疆Osmo Action 6全能旗舰级运动相机正式发布,售价2998元起。 据了解,Osmo Action 6是大疆首款可变光圈运动相机,可变光圈范围覆盖f/2.0至f/4.0,在自动模式下,可根据拍摄环境与需求选择不同的光圈挡位,支持星芒模式。 Osmo Action 6搭载全新1/1.1英寸方形传感器,2.4m等效像素,最高支持4K/120fps 4:3超清视频录制,在1080p录制规格下,可智能生成32倍超级慢动作片段。 同时�

  • 百度搜索推出“百度猎户座”AI引擎,涵盖基座模型、搜索AI API、 MCP、垂类优势能力

    2025年11月13日,百度发布“百度猎户座”AI引擎,全面开放25年搜索技术与前沿AI能力。该系统整合底座模型、搜索API、MCP及垂直领域能力,基于多智能体架构统一连接信息、工具、服务与模型,融合搜索技术优势与全网MCP生态资源。即日起对外开放,支持企业快速接入打造专属AI应用。同时,文心助手上线个性化记忆功能,视频生成推出“参考生成”玩法,AI短剧创作平台免费提供超30万部IP资源及全流程工具。

  • 没有Pro Max!一加Ace 6T命名敲定:首发骁龙8 Gen5

    此前有网友在机场拍到一加Ace 6 Pro Max包装盒,不少网友认为这就是一加即将推出的骁龙8 Gen5新机。 博主数码闲聊站表示,一加骁龙8 Gen5新机不叫Ace 6 Pro Max,而是命名为Ace 6T,这里的T不是Turbo,是一加纯正的性能基因,一加的Turbo系列也已在路上了。 对比一加Ace 6,一加Ace 6T处理器由骁龙8 Elite换成了骁龙8 Gen5,电池容量突破8000mAh,还将带来炫酷的联名。 该博主还爆料,高通

  • 韶音集齐马拉松六大满贯,携手纽约马拉松完美收官

    2025年11月2日,Shokz韶音作为纽约马拉松官方合作伙伴,伴随数万跑者穿越纽约五大城区,展现开放聆听理念。此次合作标志韶音完成世界六大满贯赛事布局,已携手其中六项顶级马拉松。通过赛事、产品与社群的深度整合,韶音构建了覆盖路跑、越野、铁三的完整运动生态,旗舰产品OpenRun Pro2以骨传导技术、12小时续航及IP55防护,为跑者提供安全沉浸的运动体验。未来品牌将持续创新,陪伴跑者不断超越极限。

今日大家都在搜的词: