首页 > AI头条  > 正文

字节跳动开源Bernini框架:实现视频生成与精准编辑的完美统一

2026-06-04 09:02 · 来源: AIbase基地

字节跳动商业化技术团队近日正式开源了名为Bernini的全新视频生成与编辑框架。该框架核心主打“先理解、再生成”的协同机制,旨在有效解决传统模型由于无法精准理解复杂指令而导致的画面失控、帧间闪烁等行业痛点。

目前,Bernini在字节自建的测试中已稳居行业第一梯队。其推理代码与第二阶段模型Bernini-R的权限已正式放开,包含完整功能的全版本也将在近期迎来全面开放。

image.png

分离语义与渲染

Bernini在工作流上进行了创新,将整个处理过程拆分为“语义规划”与“视觉渲染”两个独立部分。系统首先通过多模态大模型规划器深度解析输入素材并勾勒出“语义草图”,随后再由渲染器将规划好的目标转化为稳定、连续的视频画面。

得益于这种清晰的分工,该框架在可控编辑上展现出了极高的实用价值。用户不仅能通过简单指令让画面中的天气、季节和视觉风格发生自然变化,还能实现对镜头视角、焦点以及主体动作的精准控制。

丰富视觉参考维度

除了传统的文本操控外,Bernini还支持引入图片和视频作为视觉参考,大幅提升了创作的一致性。在视频编辑场景中,它可以将特定材质或海报精准植入目标区域,并确保边界不破、透视不乱。

在新视频生成场景中,该模型不仅支持单图和多角度参考生成,还能实现关键帧到连续镜头的演变。为了解决多视觉片段串联时模型容易混淆的难题,团队还专门引入了专属的位置编码机制,以确保分清参考素材与输出目标。

项目:https://bernini-ai.github.io/


  • 相关推荐
  • AI日报:千问全面开放第三方Agent与Skill;字节开源统一框架 Bernini;OpenAI 推出 Sites 功能

    AI日报今日要点:1. 阿里千问全面开放第三方Agent与Skill,瑞幸、东航等首批接入,升级为"超级Agent"个人助手;2. 字节跳动开源Bernini框架,通过"先理解、再生成"机制解决视频编辑画面失控问题;3. OpenAI推出Sites功能,可将创意秒变互动网站;4. 微软Win11隐藏AI卸载选项,可释放超2.5GB硬盘空间;5. DeepSeek首轮融资估值或达4000亿元,腾讯、宁德时代拟参投;6. OpenAI发布六行业Codex工作流插件;7. 谷歌推出Android虚假来电检测功能;8. 亚马逊Ring门铃人脸识别功能遭集体诉讼。

  • 跻身全球第一梯队!京东开源JoyAI-Echo框架:解决长视频生成三大难题

    今日,京东宣布推出JoyAI-Echo长音视频生成框架,号称解决行业长期头疼的长视频生成三大难题:角色易崩、声音乱变、生成缓慢。 目前,JoyAI-Echo代码与权重已全部开源,项目页和GitHub代码仓库均已上线,开发者和创作者可进行体验和二次开发。 京东表示,JoyAI-Echo的推出,标志着京东在长视频生成领域实现重大突破,进入全球第一梯队。 据了解,JoyAI-Echo内置跨模态音视频�

  • 5000万用户!腾讯都没搞明白的UGC,被字节跳动超车了?

    在过去,派对游戏一直都被视为UGC的标准答案。现在字节跳动好像正在尝试一种新解法,而且这个答案居然还藏在游戏业务之外。 2024年抖音内上线了名为「小火人」的社交互动功能,次年又基于「小火人」上线了「抖音造世界」(简称为造世界)的UGC玩法。截至今年2月份,小火人的日活用户规模达到1.6亿,抖音内每2个24岁以下的用户就有1人在养小火人,而「造世界」的用户

  • 2026年6月AI电商智能体推荐指南:AI电商卖点提取,AI电商视频生成,直播带货AI,中小商家AI公司优选!

    2026年AI电商工具已从尝鲜进入刚需阶段,覆盖卖点提取、短视频生成、直播辅助等场景,使用AI的商家平均内容产出效率提升47%、营销成本下降38%、转化率提高22%。本文围绕三大核心场景,推荐Lightnuts(国内电商内容生产与落地效果突出)、草妈妈(数据驱动能力强)、万兴播爆(跨境适配性佳)、微盟AI(全链路服务完善)及剪映商业版(抖音生态协同好)五家服务商,为中小商家采购提供参考。

  • 字节跳动AI Agent平台扣子Coze上线3.0版本:支持Openclaw、Claude Code一键接入

    字節跳動旗下AI開發平台扣子(Coze)發布3.0版本,實現手機、電腦及網頁全端更新。新版基於AI團隊協作架構,支援Agent創建、接入與調度,並可將任務放入項目空間拆解分配。用戶能自定義Agent團隊,接入本地工具如Claude Code、Codex CLI等,或使用雲端Agent長期在線協作。扣子3.0還提供行業技能包、職業模板及項目空間功能,支援多Agent分工協作,深化編程與視頻項目處理能力,實現多端協同工作體驗。

  • 快手拆了可灵,字节拆豆包还会远么

    ​2026年5月11日,一则消息在创投圈引爆:快手计划将旗下视频生成业务可灵AI分拆出来,以200亿美元估值进行Pre-IPO融资,并计划于2027年实现上市。 随后官方给出公告表明此事正在推进,但没有明确定论。也有小道消息说可灵估值根本不止200亿美元。 快手分拆可灵,看似个案,实则是今天大厂AI相关资产拆分的一道缩影。无论是百度将芯片业务昆仑芯推上A+H双线轨道,还是阿�

  • sora正式停服,国内版天空AI视频生成模型发布

    Sora宣布停服后,国内“天空AI”视频生成大模型正式发布。该模型由温州专帮信息科技推出,支持文本、图片生成逼真视频,核心亮点是用户无需GPU服务器,用家庭或办公电脑即可完成算力,成本几乎为零。目前发布三个版本:手机版、单机版和多用户商用版,并支持OEM贴牌、私有化部署等技术服务,实现低成本、高效率的视频创作。

  • NPC席卷景区,无名角色成了短视频里的新顶流

    ​高考刚结束,暑假还没到,各地的景区已经开始热闹了。 但今年最先出圈的,不是哪个“网红”打卡点,也不是某个新开的主题乐园,而是景区里那些穿着古装、随时准备跟你喊麦、壁咚、公主抱的NPC们。 万岁山的二娘一条视频点赞、转发量都10万+;雪饼猴从线下火到线上,最近更是入驻了红果短剧;郑州方特的桑又一木给景区带来3200万次播放量……

  • AI日报:豆包上线任务模式;元宝正式打通ima公开知识库;智谱GLM-5. 2 全量开源

    本日AI日报摘要:1. 豆包上线“任务模式”,支持多轮搜索与PPT自动生成,向AI Agent演进;2. 元宝打通ima知识库,提升专业搜索能力;3. OpenAI斥资1.5亿美元启动合作伙伴网络,加速企业AI转型;4. 智谱GLM-5.2全量开源,推动AI技术全民化;5. 蚂蚁集团秘密测试“AI+支付宝”,引入原生智能体界面;6. 科大讯飞AI眼镜开启预售,搭载多语种翻译与全能AI助理;7. 百度DuMate完成核心引擎升级,Token消耗降低75%;8. 郝景芳新书因AI写作占比50%引发争议,探讨科技与创作关系。

  • 想选适合看网课记笔记的学习平板?多品对比帮你精准定位

    本文对比了四款适合学生的学习平板:荣耀平板20(高性价比,全生态适配,AI辅助学习)、华为MatePad 11.5S(柔光护眼屏,专业手写体验)、联想小新Pad Pro GT(旗舰性能,兼顾娱乐)、iPad Air6(M2芯片,长期耐用,专业创作)。核心需求为网课流畅、笔记顺手、高性价比,建议按预算和生态需求选择。

今日大家都在搜的词: