首页 > 热点 > 关键词  > 可灵AI最新资讯  > 正文

可灵AI O1正式上线:号称全球首个统一多模态视频大模型

2025-12-02 08:34 · 稿源:站长之家

站长之家(ChinaZ.com)12月2日 消息:可灵AI正式宣布其全新O1视频大模型全量上线,这款被业界誉为“全球首个统一多模态视频大模型”的创新产品,凭借其突破性的技术架构和功能设计,直击传统视频生成工具功能割裂、操作复杂的行业痛点,为视频创作领域带来革命性变革。目前,用户已可在可灵App及官网率先体验这一前沿科技。

全球首个统一多模态视频大模型!可灵AI O1 正式上线:一句话生成视频

与传统视频生成工具需分步处理文生视频、图生视频、局部编辑等任务不同,可灵O1基于创新的MVL(多模态视觉语言)交互架构,在单一输入框内即可无缝融合文字、图像、视频等多种指令,实现跨模态内容的无缝衔接与高效创作。这一设计极大地简化了操作流程,提升了创作效率。

结合先进的Chain-of-thought技术,可灵O1不仅能够精准理解用户意图,还能进行常识推理与事件推演,确保生成的视频内容更加符合逻辑、贴近现实。例如,用户上传一段真人视频后,仅需通过简单对话指令,即可实现局部元素的增加或删除、前后镜头的智能延展以及动作捕捉生成新画面等高级功能,让视频创作变得更加灵活多样。

全球首个统一多模态视频大模型!可灵AI O1 正式上线:一句话生成视频

尤为值得一提的是,可灵O1通过多视角主体构建技术,成功攻克了视频中人物或物体在镜头切换时特征漂移的行业难题。这一技术确保了多主体场景下画面的精准连贯性,为视频创作提供了更加稳定可靠的技术支持。

此外,可灵O1还支持长达310秒的自由生成时长,将叙事节奏的控制权完全交还给创作者。无论是短视频博主、广告团队还是个人用户,都能借助这一平台快速产出高质量、高一致性的创意视频,满足多样化的创作需求。

举报

  • 相关推荐
  • 全球首个大一统多模态视频模型可灵O1发布 让P视频像P图一样简单

    全球首个大一统多模态视频创作工具“可灵O1”正式上线。它基于全新视频图像模型,以自然语言为语义骨架,融合视频、图片、主体等多模态描述,将生成和编辑任务整合于一个全能引擎中,为用户提供从灵感到成品的闭环创作体验。该模型打破传统单一视频生成任务边界,支持参考生视频、文生视频、首尾帧生视频、视频内容增删、风格重绘等多种任务,用户无需在多个工具间跳转即可一站式完成全流程创作。

  • AI日报:可灵AI全量上线O1视频大模型;千问APP接入万相Wan2.5

    本文汇总了AI领域的最新动态:可灵AI发布O1视频大模型,支持多模态输入一键生成视频;千问APP接入万相Wan2.5,提升视频创作能力;PixVerse V5.5实现音画同步,简化视频制作;深度求索推出DeepSeek-V3.2,引入稀疏注意力机制降低成本;Runway发布Gen-4.5模型,增强视觉质量;谷歌优化AI搜索体验,Gemini 3 Pro扩展国际市场;Lovart推出Touch Edit功能,实现零门槛图像编辑;蚂蚁数科Agentar入选中国智能体开发赛道第一梯队,展现技术实力。

  • 可灵2.6模型上线!语音、音效与画面一键直出 重构AI视频创作工作流

    可灵视频生成2.6模型推出“音画同出”功能,彻底改变了传统AI视频“先无声画面、后人工配音”的工作流程。它能在单次生成中,输出包含自然语言、动作音效及环境氛围的完整视频,重构了AI视频创作工作流,极大提升创作效率。该模型在中文语音生成效果上保持全球领先,支持生成最长10秒的视频,可广泛应用于广告营销、自媒体、电商等内容创作场景。

  • 谷歌AI眼镜官宣明年问世:搭载Gemini多模态模型

    谷歌宣布,正与三星、Gentle Monster及Warby Parker等合作伙伴共同研发两种类型的AI智能眼镜,预计新产品将于2026年面市。 谷歌硬件负责人Payne表示,公司已从过往经历中吸取教训。新款眼镜将深度集成其先进的Gemini大模型,在无需双手操作的情况下,用户可实现拍照、导航、接听电话及识别眼前物体等功能,其定位与Meta和雷朋合作推出的智能眼镜相似。 此次发布的产品线将分�

  • AI日报:Medeo AI新版视频Agent上线:OpenAI正式发布GPT-5.2;钉钉AI功能大升级

    本期AI日报聚焦多款AI产品更新:Medeo AI新版视频Agent支持自然语言一键改剧本,降低创作门槛;钉钉8.1.10将AI融入职场沟通,提升效率;OpenAI低调上线GPT-5.2,延迟显著降低,逻辑一致性提升,并推出支持私有化部署的成人模式;迪士尼投资100亿美元与OpenAI合作,推动IP在生成式AI中的创新应用;谷歌Gemini Deep Research开放API,供开发者构建研究应用;Cohere推出Rerank 4,上下文窗口扩展至32K,提升企业搜索精度;拓竹科技推出3D手办生成器“印你”,依托腾讯混元3D模型,简化3D建模流程;谷歌NotebookLM升级,为Ultra会员提供更高权限,优化智能笔记体验。

  • AI不再健忘!红熊AI发布“记忆熊”,给大模型装上“海马体”

    当前大模型虽能力惊人,却普遍存在“记忆缺失”问题,制约了AI应用的深度与用户体验。红熊AI推出的开源记忆系统“记忆熊”,旨在突破这一瓶颈。它基于认知科学原理,构建了包含存储层、编排层和应用层的三层架构,模拟人类记忆的感知、提炼、关联与遗忘全周期,为智能体提供长期记忆框架。该系统不仅显著提升了任务性能与效率,降低了幻觉生成,更标志着AI设计从“即时响应”向“持续认知”的关键转变。记忆系统的完善,将驱动AI在医疗、教育、企业服务等领域实现更深度的智能化升级,开启人机协作的新时代。

  • 拒绝做“套金属壳”的伪AI:看“大模型国家队”如何啃下硬骨头

    人工智能成为资本市场热点,随之而来的是鱼龙混杂的乱象。简单包装、打着AI旗号卖高价的“套壳”现象层出不穷。科大讯飞董事长刘庆峰强调,发展人工智能要有长期主义精神,告别“虚火”,把根扎在国产算力的土壤里。下半场比拼的不再是概念堆砌,而是全栈自主可控的硬实力与赋能千行百业的真本事。可靠与安全才是基石,算力是最大瓶颈。企业需构建安全底座并解决真实痛点,才能穿越周期。科大讯飞坚持“顶天立地”战略,既要在源头技术上领先,又要在产业应用上解决民生刚需,展示了AI技术“落地”的正确姿态。

  • 京东自研AI毛绒玩具上架:支持情绪感知 搭载JoyAI大模型

    京东近日推出首款自研AI毛绒玩具,主打无屏幕实体交互,旨在减少儿童对电子屏幕的依赖。该玩具基于京东JoyAI大模型技术,具备讲故事、知识问答和互动沟通功能,内置280本有声书资源,并能识别儿童情绪变化。此次共推出13款AI产品,覆盖多个品类,其中AI毛绒玩具系列凭借个性化设计受到市场欢迎,部分款式迅速售罄。

  • 爱诗科技下注的AI视频,正在比它预期的更「快」落地

    「我们决定全力投入视频生成领域,因为我们坚信视频生成一旦能够落地,其产品化和商业化的潜力可能不亚于大语言模型。」爱诗科技创始人兼CEO王长虎在2025年6月的一场演讲中,这样解释为什么要在2023年就坚定地选择AI视频生成这个非共识赛道作为自己的创业方向。 短短两年后,视频大模型的产品化和商业化潜力已经如王长虎判断的那样,在快速落地,形成自己的创作生�

  • 智能硬件走进即构,共同提升实时音视频体验

    12月5日,即构科技与深圳市高科技企业协同创新促进会在深圳共同举办“走进即构+AI+智能硬件专场”活动。活动汇聚智能硬件领域创业者、从业者与技术探索者,通过技术探访、主题分享与深度对话,共同探讨AI硬件创新可能。即构科技展示了实时音视频核心技术及AI算法优化能力,并针对行业痛点提出针对性解决方案,包括超低延迟、复杂场景识别、广泛硬件适配及多模态与Agent生态支持。与会嘉宾围绕AI硬件落地中的技术瓶颈、场景拓展与成本控制等核心议题展开讨论,即构技术团队与行业同仁积极互动,为后续技术迭代与方案优化收集宝贵反馈。

今日大家都在搜的词: