首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报:可灵AI全量上线O1视频大模型;千问APP接入万相Wan2.5

2025-12-02 15:35 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、可灵AI今日全量上线O1 视频大模型:统一多模态架构 支持一句话生成视频

可灵AI公司宣布其自主研发的O1视频大模型已全量开放,该模型采用MVL统一交互架构,支持文字、图像、视频三种指令输入,并能一次性完成文生视频、图生视频、局部编辑及镜头延展任务。此外,模型通过多视角主体构建技术解决镜头切换时的“特征漂移”问题,确保画面连贯。目前,O1模型已在可灵App及官网同步开放体验,后续将开放API接口供第三方平台集成。

image.png

【AiBase提要:】

🧠 O1视频大模型采用MVL统一交互架构,支持文字、图像、视频三种指令输入

🎬 一次性完成文生视频、图生视频、局部编辑及镜头延展任务

📊 可灵AI计划开放API接口,供第三方平台集成

2、千问APP接入万相Wan2.5,视频能力全新升级

千问APP接入万相Wan2.5模型,显著提升了视频创作能力,支持音视频同步输出,并允许用户通过自定义图片和文字生成高质量的动态视频内容,进一步降低了创作门槛,激发了用户的创意热情。

image.png

【AiBase提要:】

🎥 千问APP接入万相Wan2.5模型,视频创作能力全面升级。

🎙️ 支持音视频同时输出,实现音画同步的高质量视频生成。

🔄 用户可自定义上传照片和文字,生成动态唱跳视频,降低创作门槛。

3、PixVerse V5.5 发布:支持「导演级」音画同步

PixVerse V5.5版本的发布,为视频制作带来了重大变革。用户只需输入一句话即可生成带声音和口型同步的高清视频,并支持多镜头自动切换,显著提升了视频创作的便捷性。

image.png

【AiBase提要:】

🎥 支持一句话生成高清视频,实现音画同步。

🔄 多镜头自动切换,提升视频叙事逻辑。

🚀 自研架构提升视频生成速度与质量,一站式服务。

详情链接:https://pai.video

4、DeepSeek-V3.2 正式发布:引入创新稀疏注意力架构,API 成本腰斩,性能比肩顶尖闭源模型

中国人工智能初创公司深度求索(DeepSeek AI)发布了DeepSeek-V3.2系列模型,包括DeepSeek-V3.2及其高计算增强版DeepSeek-V3.2-Speciale。新模型引入了创新的稀疏注意力机制(DSA),提升了长文本任务的效率,并降低了API成本。DeepSeek-V3.2-Speciale版本在高难度推理任务中表现出色,甚至超越了GPT-5。此外,该模型还提供了开源内核和演示代码,支持研究人员和企业进行商业部署。

【AiBase提要:】

🧠 引入创新的稀疏注意力机制(DSA),提升长文本任务效率。

🚀 DeepSeek-V3.2-Speciale版本在高难度推理任务中表现优异,超越GPT-5。

📊 API成本降低50%,支持研究人员和企业进行商业部署。

详情链接:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

5、Runway 发布全新 Gen-4.5视频生成模型,提升创作与视觉质量

Runway 发布了其最新的视频生成模型 Gen-4.5,显著提升了视觉准确性和创意控制,适用于社交媒体短视频创作。尽管面临竞争,Gen-4.5在物体和角色的一致性质量上表现突出,但也存在因果推理和时间连贯性的问题。同时,AI生成内容的真实性问题引发行业讨论,建议添加免责声明。

image.png

【AiBase提要:】

🎥 Runway 的 Gen-4.5模型使视频生成更具创意和视觉一致性。

📱 该模型主要针对社交媒体短视频,与其他竞争对手针对长视频的战略有所不同。

⚖️ AI 生成内容的真实性问题引发了行业内部的讨论,建议添加免责声明以区分真实与虚假。

6、谷歌 AI 搜索体验“提速”:新设计实现无缝对话,Gemini3Pro 杀入120国市场!

谷歌公司正在采取一系列举措,旨在让其人工智能(AI)模式和功能更加普及和易用。一方面,谷歌正在测试新的设计,以优化用户从 AI 概览到 AI 模式的过渡体验;另一方面,Gemini3Pro 模型正在进行大规模国际扩张。

image.png

【AiBase提要:】

💡优化AI体验,实现无缝对话

🌍Gemini3Pro/Nano Banana Pro拓展至120个国家和地区

🚀提升用户在Google搜索中的AI功能

7、Lovart Touch Edit 上线:轻点即改,AI 图像编辑进入“零蒙版”时代

Lovart 推出的 Touch Edit 功能通过自然语言指令和智能识别技术,实现了图像编辑的高效与便捷。用户无需手动操作即可完成复杂的图像修改任务,显著提升了设计效率。

image.png

【AiBase提要:】

✨ Touch Edit 核心功能:通过自然语言指令实现图像元素的自动识别与编辑。

🧩 Select & Remix 支持多图混搭,用户可拖拽重组不同图片元素。

⚙️ 技术集成:融合 GPT-4o、Flux Pro 和 Sora 等模型,提供高效的 AI 工作流。

8、蚂蚁数科Agentar入选中国智能体开发赛道“第一梯队”

蚂蚁数科的Agentar平台凭借技术架构的完整性、产品迭代的成熟度以及在金融领域的多年沉淀,成功跻身中国智能体开发赛道的‘第一梯队’,展现了其在AI智能体开发领域的领先地位。

【AiBase提要:】

🧠 蚂蚁数科的Agentar平台在智能体开发领域展现出领先实力。

💼 该平台在金融领域有丰富的技术经验与规模化落地成果。

📈 Agentar-Fin-R1推理大模型在三项金融基准测试中位列第一

举报

  • 相关推荐
  • 可灵AI O1正式上线:号称全球首个统一多模态视频大模型

    可灵AI正式发布全新O1视频大模型,被誉为全球首个统一多模态视频大模型。该模型基于创新的多模态视觉语言交互架构,用户可在单一输入框内无缝融合文字、图像、视频等多种指令,实现跨模态内容的高效创作。其技术突破解决了传统视频生成工具功能割裂、操作复杂的痛点,并攻克了视频中主体特征漂移的行业难题,支持长达310秒的自由生成时长。目前用户可通过可灵App及官网体验。

  • 全球首个大一统多模态视频模型可灵O1发布 让P视频像P图一样简单

    全球首个大一统多模态视频创作工具“可灵O1”正式上线。它基于全新视频图像模型,以自然语言为语义骨架,融合视频、图片、主体等多模态描述,将生成和编辑任务整合于一个全能引擎中,为用户提供从灵感到成品的闭环创作体验。该模型打破传统单一视频生成任务边界,支持参考生视频、文生视频、首尾帧生视频、视频内容增删、风格重绘等多种任务,用户无需在多个工具间跳转即可一站式完成全流程创作。

  • 可灵2.6模型上线!语音、音效与画面一键直出 重构AI视频创作工作流

    可灵视频生成2.6模型推出“音画同出”功能,彻底改变了传统AI视频“先无声画面、后人工配音”的工作流程。它能在单次生成中,输出包含自然语言、动作音效及环境氛围的完整视频,重构了AI视频创作工作流,极大提升创作效率。该模型在中文语音生成效果上保持全球领先,支持生成最长10秒的视频,可广泛应用于广告营销、自媒体、电商等内容创作场景。

  • 谷歌AI眼镜官宣明年问世:搭载Gemini多模态模型

    谷歌宣布,正与三星、Gentle Monster及Warby Parker等合作伙伴共同研发两种类型的AI智能眼镜,预计新产品将于2026年面市。 谷歌硬件负责人Payne表示,公司已从过往经历中吸取教训。新款眼镜将深度集成其先进的Gemini大模型,在无需双手操作的情况下,用户可实现拍照、导航、接听电话及识别眼前物体等功能,其定位与Meta和雷朋合作推出的智能眼镜相似。 此次发布的产品线将分�

  • AI日报:快手可灵 2.6 全量上线;字节Seedream 4.5发布;DeepSeek连发两款新模型

    本文汇总了AI领域最新动态:快手可灵2.6上线,实现“音画同出”生成视频;字节跳动发布Seedream4.5,提升多图一致性生成;豆包助手回应权限争议并下线微信操作功能;智源研究院推出多模态世界模型Emu3.5,可预测真实世界状态;研究揭示AI模型能发现并利用智能合约漏洞;小米公布AI战略,押注“AI+物理世界”融合;谷歌发布Workspace Studio,助力企业构建AI代理;DeepSeek同步上线V3.2与Speciale两款新模型,展示开源实力。

  • AI日报:阿里Qwen3-TTS上线;可灵 AI上线主体库

    本期AI日报汇总了多项AI领域新进展:可灵AI推出“主体库”解决视频角色变脸问题;阿里Qwen3-TTS支持多语言多音色;腾讯混元2.0大模型开启内测;美团开源图像生成模型LongCat-Image;京东云支持千卡训练推动具身智能;英伟达小模型NVARC成本优势显著;微博CEO回应AI手机自主发博功能;微软推出轻量级实时TTS模型VibeVoice。

  • AI不再健忘!红熊AI发布“记忆熊”,给大模型装上“海马体”

    当前大模型虽能力惊人,却普遍存在“记忆缺失”问题,制约了AI应用的深度与用户体验。红熊AI推出的开源记忆系统“记忆熊”,旨在突破这一瓶颈。它基于认知科学原理,构建了包含存储层、编排层和应用层的三层架构,模拟人类记忆的感知、提炼、关联与遗忘全周期,为智能体提供长期记忆框架。该系统不仅显著提升了任务性能与效率,降低了幻觉生成,更标志着AI设计从“即时响应”向“持续认知”的关键转变。记忆系统的完善,将驱动AI在医疗、教育、企业服务等领域实现更深度的智能化升级,开启人机协作的新时代。

  • 想让AI成为新引擎,快手不能只靠可灵

    从12月1日开始,快手开启了「可灵全能灵感周」,要连续5天,每天都发布一项新产品。目前,快手已经发布了统一多模态视频大模型可灵视频O1和全能图像模型可灵图片O1,展现了要一站式满足AI视频、图像创作需求的野心。 这种密集的发布,也是快手在向外界进一步展示自身的AI技术积累。而保持AI技术的领先是快手新故事的重要组成部分。从财报来看,快手已经把AI视作为�

  • 拒绝做“套金属壳”的伪AI:看“大模型国家队”如何啃下硬骨头

    人工智能成为资本市场热点,随之而来的是鱼龙混杂的乱象。简单包装、打着AI旗号卖高价的“套壳”现象层出不穷。科大讯飞董事长刘庆峰强调,发展人工智能要有长期主义精神,告别“虚火”,把根扎在国产算力的土壤里。下半场比拼的不再是概念堆砌,而是全栈自主可控的硬实力与赋能千行百业的真本事。可靠与安全才是基石,算力是最大瓶颈。企业需构建安全底座并解决真实痛点,才能穿越周期。科大讯飞坚持“顶天立地”战略,既要在源头技术上领先,又要在产业应用上解决民生刚需,展示了AI技术“落地”的正确姿态。

  • 京东自研AI毛绒玩具上架:支持情绪感知 搭载JoyAI大模型

    京东近日推出首款自研AI毛绒玩具,主打无屏幕实体交互,旨在减少儿童对电子屏幕的依赖。该玩具基于京东JoyAI大模型技术,具备讲故事、知识问答和互动沟通功能,内置280本有声书资源,并能识别儿童情绪变化。此次共推出13款AI产品,覆盖多个品类,其中AI毛绒玩具系列凭借个性化设计受到市场欢迎,部分款式迅速售罄。

今日大家都在搜的词: