首页 > 传媒 > 关键词  > 正文

全球首个大一统多模态视频模型可灵O1发布 让P视频像P图一样简单

2025-12-02 17:49 · 稿源: 站长之家用户

近日,全球首个大一统的多模态视频、图片创作工具"可灵O1"正式上线。可灵O1基于全新的视频和图像模型,以自然语言作为语义骨架,配合视频、图片、主体等多模态描述,将所有生成和编辑任务融合于一个全能引擎之中,为用户搭建全新的多模态创作流,实现从灵感到成品的一站式闭环。

大一统模型,解决视频创作的所有难题

作为首个大一统多模态视频模型,可灵O1基于MVL(Multi-modal Visual Language,多模态视觉语言)理念,打破了传统单一视频生成任务的模型边界,将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修改变换、风格重绘、镜头延展等多种任务,融合于同一个全能引擎之中,使得用户无需在多个模型及工具间跳转,即可一站式完成从生成到修改的全部创作流程。

依托可灵视频O1模型的深层语义理解力,用户上传的图片、视频、主体、文字——在可灵O1眼中,皆是指令。模型打破了模态限制,能够综合理解一张照片、一段视频或一个主体,甚至一个角色的不同视角,精准生成各种细节。

可灵O1的多模态指令输入区,让繁琐的剪辑后期变成了简单的对话。用户无需手动遮罩或关键帧,只需输入「移除路人」、「将白天改为黄昏」或「替换主角服装」,模型即可读懂影像逻辑,从局部的主体替换,到整体的视频风格重绘,自动完成像素级的语义重构。此外,如图片/主体参考;指令变换(视频增加、删除内容、切换景别/视角、视频修改任务等)、视频参考、首尾帧、文生视频等能力也一并支持。

针对AI视频难以落地的痛点——角色与场景的一致性,可灵O1底层强化了对输入图像及视频的理解。 它能像人类导演一样,“记住”主角、道具和场景。无论镜头如何流转,主体特征始终稳定如一。 此外,该模型展现了强大的多主体融合能力。用户可以自由组合多个不同主体,或将主体与参考图混搭。即便是在复杂的群像戏或互动场景中,模型也能独立锁定并保持每一位角色或道具的特征,确保“主角”在不同镜头中实现工业级的特征统一。

不再局限于单点任务,而是支持“技能组合”。 用户可以要求可灵O1“在视频中增加主体的同时修改背景”,或者“在图片参考生成时,同步修改风格”。这种一次生成多种创意变化的能力,极大地拓展了创作的自由度,让创意的化学反应成为可能。

叙事时长自由定义,让每一段故事都有其独特的呼吸感。可灵O1将定义时间的权力交还给创作者,支持3-10秒自由生成。无论是短促的视觉冲击,还是悠长的故事铺陈,都由用户自由掌控。 值得注意的是,作为统一模型的一部分,可灵O1的首尾帧能力也将支持3-10秒的生成时长选择(即将发布),这将进一步增强叙事的张弛度。

一同登场的还有可灵图像O1模型,可实现从基础图像生成到高阶细节编辑全链路无缝衔接,用户既可通过纯文本生成图像,也可上传最多10张参考图进行融合再创作。 该模型具备四大核心优势:特征高度保持,让主体元素稳定不偏差;细节修改精准响应,让每一处调整都符合预期;风格调性准确把控,让画面氛围始终统一;超丰富想象力,让创意呈现更具张力,真正实现“所想即所得”。

一个模型,搞定影视、自媒体、广告电商等多视频创作场景

全新的可灵O1集生成与编辑于一体,可广泛适用于影视、自媒体、广告电商等多种场景。无论是从零构建的叙事生成,还是对既有素材的深度重塑,可灵O1都能根据不同需求,灵活调用其参考、编辑的能力,轻松完成创作。

在影视创作领域,凭借可灵O1的超强一致性的图片(主体)参考,配合主体库功能,可以精准锁定每个分镜的角色及服化道,轻松创作生成多个连贯的影视镜头;而对于视频后期、自媒体创作者来说,可通过简单对话式的提示词,如输入“删除背景中的路人”、“让天空变蓝”,就能让可灵O1自动完成像素级的智能修补与重构。

针对传统线下广告实拍成本高,制作周期长的问题。如今用户只需上传商品图、模特图和场景图,配合简单指令描述,即可快速生成多个酷炫的商品展示广告,大幅降低实拍成本。针对模特约拍麻烦、更换背景/服装需要重复拍摄等问题,使用可灵O1,能搭建你的永不落幕的虚拟T台:上传模特 + 服装实拍图,输入指令,完美还原服饰的质感和细节,批量生产高质量的 Lookbook 视频。

据悉,可灵O1能实现上述强大而全面的功能,源于在技术底座上的深层创新。全新的可灵视频O1模型打破视频模型在生成、编辑与理解上的功能割裂,构建了全新的生成式底座。融合多模态理解的Multimodal Transformer和多模态长上下文,实现了多任务的深度融合与统一。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 全球首个通用实时世界模型PixVerse R1发布 视听媒体进入交互时代

    爱诗科技发布全球首个支持1080P实时生成视频模型PixVerse R1,实现“所想即所见、所说即所现”的实时交互体验。该模型基于Omni原生多模态基础模型、自回归流式生成机制和瞬时响应引擎三大核心技术,将视频生成延迟降至“即时”响应,标志着AIGC视频生成从“静态输出”迈入“实时交互”新阶段。

  • AI日报:阿里云推多模态交互开发套件;智谱AI港股首日上市;混元发布 HY-Motion1.0开源3D 角色动画生成模型

    阿里云发布多模态交互开发套件,集成通义千问、万相、百聆三大模型,赋能智能硬件。腾讯混元推出开源3D角色动画生成模型HY-Motion 1.0,助力游戏与动画制作。智谱AI在港上市,募资43亿港元,加速商业化落地。抖音在深圳南山设立第二总部,聚焦AI与泛视频研发。OpenAI推出ChatGPT Health,强化健康数据管理与隐私保护。法拉第未来宣布进军具身智能机器人领域,推动汽车与机器人业务协同。蚂蚁阿福月活超3000万,AI健康赛道进入中美竞速新阶段。MiroThinker 1.5以300亿参数实现媲美万亿模型的性能,显著降低推理成本。

  • AI日报:字节推StoryMem系统;月之暗面再推多模态新模型;AI眼镜Pickle 1发布

    本期AI日报聚焦多项AI领域进展:字节跳动推出StoryMem系统,提升AI生成视频角色一致性28.7%;月之暗面计划2026年推出多模态模型K2.1/K2.5;智能眼镜Pickle 1实现“无限记忆”与主动交互;清华与OpenBMB开源音频模型评测框架UltraEval-Audio;OpenAI押注语音交互,整合团队重构音频系统;开源工具Antigravity支持多账号切换,突破AI使用限制;元象开源面向泛娱乐场景的大模型XVERSE-Ent;苹果回应“国行版AI功能阉割”传闻,提醒用户勿通过第三方强行激活。

  • 3999元!闪极loomos AI显示眼镜S1发布:整机29克全球最轻

    在昨晚的闪极与中国航母联名发布会中,闪极loomos AI显示眼镜S1正式发布,定价为3999元,将于2026年第三季度开售。 这款眼镜将轻量化”做到极致:官方称该产品可能是全球最轻的AI眼镜”,整体重量29g,体感重量仅15克。 发声系统采用0.02cc超小体积硅基芯片扬声器,实现眼镜专用的轻量化音频方案。结合柔性弧形前框的0-15可调面弯,兼顾佩

  • 普渡D5在全球首个机器人登高挑战赛中斩获轮式四足机器人组冠军

    全球首个“机器人登高挑战赛”在广州塔450米户外平台开赛。深圳普渡科技的轮式四足机器人PUDU D5以13秒01的成绩夺冠,大幅领先第二名,并获最佳技术创新奖。比赛在非结构化弧形旋转阶梯上进行,垂直攀升高度达10米,极大考验了机器人的环境适应与运动控制能力。PUDU D5专为复杂户外场景设计,具备强负载与全地形通过能力,可应用于巡检、运输等多场景。此次夺冠验证了其卓越的运动性能与技术实力。

  • 短视频刷多了会脑雾:记不住事

    你是否遇到过这种情况,正准备说话,突然忘了刚才想要说什么?明明是一个比较熟悉的人,却怎么也想不起对方的名字?这就好比人的大脑被蒙上了一层雾”,不够清醒、敏锐,被称之为脑雾”。 医学专家指出,脑雾”并非医学诊断,而是患者对自身注意力涣散、精神难以集中、伴随疲惫感的生动客观描述,就像大脑中笼罩着一团雾气,清晰的思维通路被堵塞。 这种状态�

  • 罗永浩押注的视频播客,赚不到钱?

    视频播客,似乎正成为资本们新做的“局”:先是B站在乌镇戏剧节推出《乌镇十日谈视频播客特辑》,徐志胜、赖声川和陈妍希纷纷亮相;接着央视新闻就官宣称,将与B站就总台主持人大赛新闻主播季进行视频播客主题环节的深度共创;同时,小红书发起“随时随地视频播客”活动,抖音精选也上线了自有视频播客栏目。 很快,微博和腾讯视频也盯上了视频播客这条赛道,分别�

  • 关于长视频忠粉养成记,优酷SVIP亮出一套「多很多」秘籍

    12月底,一波剧粉涌进了上海豫园。 有人兴致勃勃与所追剧集的剧集场景、角色立牌合照;有人一袭古风造型,主打一个沉浸式游园;有人在社交平台再次安利一下自己的心头好;也有人遗憾未能到场,只好在评论区询问是否有人能帮忙购买周边…… 当一批批如《藏海传》《凡人修仙传》《暗河传》等年度爆款剧集近距离走进用户,优酷SVIP超酷会员日(以下简称超酷会员日)举�

  • 带80岁爷爷搞抽象,“隔辈整活”成短视频新赛道?

    ​穿着夸张战袍的八旬姥爷变身“大力水手”,喊着“风鹰铠甲”合体成铠甲勇士,戴着假发cos拳皇八神庵……临近春节,社交平台上出现大批“隔代整活”视频。 年轻人返乡后,拉着家中老人拍摄各种抽象、搞怪内容,播放量动辄百万,甚至火到海外。

  • 2025 长视频:「内容为王」不变,「体验为王」上位

    2025年的长视频行业,似乎正在发生一种微妙但直观的变化。 过去两三年里,“爆款率”几乎成为了衡量平台成败的唯一指标,其核心逻辑仍是传统意义上的“内容为王”。 然而,爆款供给的天然不确定性让这一逻辑遭遇瓶颈:当S+级大剧播完,如何填补“空窗期”以抵御用户流失?如何引导用户从“追IP”转向“追平台”,构建对品牌本身的深度粘性? 这成为了所有长视频平台

今日大家都在搜的词: