首页 > AI头条  > 正文

先理解再动手!字节开源统一框架 Bernini,让 AI 视频编辑告别“碰运气”

2026-06-03 13:41 · 来源: AIbase基地

AI 视频生成与编辑领域迎来底层逻辑的重构。字节跳动商业化技术团队近日正式开源了面向视频生成与视频编辑的统一框架——Bernini。该框架核心主打“先理解、再生成”的协同机制,旨在解决传统模型因无法精准理解复杂文本指令而导致画面失控、帧间闪烁等行业痛点。

传统的视频编辑往往面临主体变形、背景漂移或动作断裂等技术瓶颈。为了打破这一僵局,Bernini巧妙地将工作流拆分为“语义规划”与“视觉渲染”两部分。系统首先通过多模态大模型规划器(MLLM-based planner)深度解析文本、视频及参考图像等输入素材,在特征空间中预测出目标语义表示,即勾勒出一张不限定像素的“语义草图”;随后,再由基于 Diffusion Transformer 的渲染器(DiT-based renderer)进行高质量视觉渲染,将规划好的语义目标转化为稳定、连续的视频画面。

image.png

得益于这一分工,Bernini在可控编辑上展现出了极高的实用价值。用户不仅能通过一条指令让画面中的天气、季节、材质和视觉风格发生逼真自然的变化,还能实现对镜头视角、焦点以及主体动作的精准语义控制。例如,在保持环境与镜头高度稳定的前提下,系统可让视频中的动物动作发生自然改变,让 AI 视频编辑更接近传统后期软件的精准度。

除了文本操控,Bernini还支持图片和视频作为视觉参考,大幅提升了创作的一致性。在视频编辑场景中,它可以将特定材质、指定主体甚至广告海报与视频素材精准植入目标区域,确保边界不破、透视不乱;而在新视频生成场景中,该模型支持单图参考生成、多角度参考生成、关键帧到连续镜头的演变,甚至能将几个八竿子打不着的单品图像完美组合到同一个视频角色身上。

为了解决多视觉片段串联时模型容易认混的难题,团队还引入了 SA-3D RoPE 位置编码机制,赋予不同视觉片段专属标记,从而在保留时空位置关系的同时分清参考素材与输出目标。目前,在字节自建的测试中,该框架已稳居行业第一梯队。据悉,Bernini的推理代码与第二阶段模型 Bernini-R 权限已正式放开,包含完整 MLLM 规划器的全版本也将在近期迎来全面开放。

  • 相关推荐
  • AI日报:千问全面开放第三方Agent与Skill;字节开源统一框架 Bernini;OpenAI 推出 Sites 功能

    AI日报今日要点:1. 阿里千问全面开放第三方Agent与Skill,瑞幸、东航等首批接入,升级为"超级Agent"个人助手;2. 字节跳动开源Bernini框架,通过"先理解、再生成"机制解决视频编辑画面失控问题;3. OpenAI推出Sites功能,可将创意秒变互动网站;4. 微软Win11隐藏AI卸载选项,可释放超2.5GB硬盘空间;5. DeepSeek首轮融资估值或达4000亿元,腾讯、宁德时代拟参投;6. OpenAI发布六行业Codex工作流插件;7. 谷歌推出Android虚假来电检测功能;8. 亚马逊Ring门铃人脸识别功能遭集体诉讼。

  • 跻身全球第一梯队!京东开源JoyAI-Echo框架:解决长视频生成三大难题

    今日,京东宣布推出JoyAI-Echo长音视频生成框架,号称解决行业长期头疼的长视频生成三大难题:角色易崩、声音乱变、生成缓慢。 目前,JoyAI-Echo代码与权重已全部开源,项目页和GitHub代码仓库均已上线,开发者和创作者可进行体验和二次开发。 京东表示,JoyAI-Echo的推出,标志着京东在长视频生成领域实现重大突破,进入全球第一梯队。 据了解,JoyAI-Echo内置跨模态音视频�

  • 如何理解「小红书精选」

    小红书又有新动作。 如果你最近在刷小红书,可能会发现部分视频左下方多了一个“RED精选视频”标识,点击旁边的“去看看”选项,就能跳转到一个聚合页,看到更多带有RED精选标签的视频内容。不过,这个页面里的推荐视频有一定的随机性,且并非每条视频的左下方都会出现“RED精选”标识。 与此同时,也有不少用户最上方的“发现”菜单栏的二级选项,也直接出现了�

  • 盘点2025-2026值得购买的运动手表,总有一款适合你

    文章对比了五款热门运动手表(荣耀手表6Plus、Garmin Forerunner265、高驰Pace3、华为Watch GT5 Runner、Apple Watch S10),从核心参数、健康监测、运动功能与日常体验等维度进行星级评分。荣耀手表6Plus在千元档中续航(35天)和健康功能(含血压风险评估)表现突出;Garmin和高驰专业运动数据更优;华为适合鸿蒙用户;Apple Watch生态成熟但续航短。综合性价比推荐荣耀手表6Plus,专业运动爱好者可选Garmin或高驰。

  • 快手拆了可灵,字节拆豆包还会远么

    ​2026年5月11日,一则消息在创投圈引爆:快手计划将旗下视频生成业务可灵AI分拆出来,以200亿美元估值进行Pre-IPO融资,并计划于2027年实现上市。 随后官方给出公告表明此事正在推进,但没有明确定论。也有小道消息说可灵估值根本不止200亿美元。 快手分拆可灵,看似个案,实则是今天大厂AI相关资产拆分的一道缩影。无论是百度将芯片业务昆仑芯推上A+H双线轨道,还是阿�

  • 2026年6月AI电商智能体推荐指南:AI电商卖点提取,AI电商视频生成,直播带货AI,中小商家AI公司优选!

    2026年AI电商工具已从尝鲜进入刚需阶段,覆盖卖点提取、短视频生成、直播辅助等场景,使用AI的商家平均内容产出效率提升47%、营销成本下降38%、转化率提高22%。本文围绕三大核心场景,推荐Lightnuts(国内电商内容生产与落地效果突出)、草妈妈(数据驱动能力强)、万兴播爆(跨境适配性佳)、微盟AI(全链路服务完善)及剪映商业版(抖音生态协同好)五家服务商,为中小商家采购提供参考。

  • AI日报:Kimi Code开源编码代理升级;苹果正面回应 iOS 27 AI 争议;蚂蚁打通全球智能体支付新链路

    苹果回应iOS 27 AI争议,强调Apple Foundation Models纯自研;Kimi Code开源编码代理升级,支持CLI一键安装和视频上下文;蚂蚁集团发布AMP协议,打造全球智能体支付新链路;谷歌AI Plus降价并提升存储空间;微软开源项目遭黑客入侵,多款AI工具被植入密码窃取软件;滴滴首批接入微信AI生态;阿里成立Token Foundry事业部加速AI战略;美团重组AI一级部门,加速大模型渗透本地生活。

  • 开发者、AIGC工作室的AI生产力神器?智微AI Mini工作站W638深度解析

    随着AI Agent和Agentic AI发展,大模型推理向端侧迁移,但云端部署面临算力成本高、实时性差、数据隐私安全等挑战。智微智能推出AI Mini工作站W638,搭载NVIDIA Jetson AGX Thor模组,提供高达2070 TFLOPS算力、128GB统一内存和2TB NVMe SSD存储,支持本地大模型部署。W638面向AI开发者、AIGC创意工作者和企业智能体用户,实现低延迟、零Token成本、高隐私的AI应用,具备工业级散热和低噪音设计。

  • 告别经验驱动:RestoSuite用AI重新定义连锁餐饮供应链管理

    全球餐饮SaaS服务商RestoSuite推出AI原生的供应链管理系统,从底层架构重构,将经验驱动的“人治”模式转变为算法驱动的“数智自治”。新系统针对5%-10%的食材损耗和5%-15%的补货误差,提供包含订货Agent、经营分析、快捷提问和经营助手四大AI功能,实现从感知到执行的全链路智能化。AI全托管下补货误差率大幅降低,新店长开业首日即可获得资深水平补货精度,标志着餐饮供应链管理正式迈入智能决策新阶段。

  • 中小企业告别外包扯皮:墨见AI虚拟团队,降低软件开发试错成本

    中小企业数字化转型常遇困境:业务部门发现市场机会,却因缺乏技术团队而被迫外包,导致需求沟通成本高、报价超预算、交付结果偏差大。AI技术正改变这一局面,墨刀孵化应用"墨见"上线,通过多智能体协同技术,为中小企业提供"AI虚拟产研团队"。它通过群聊模式验证需求、一键生成原型、辅助代码生成,将MVP验证周期从数月缩短至几天,降低了早期试错门槛,让"轻量级创业"成为可能。

今日大家都在搜的词: