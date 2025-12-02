首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报：可灵AI全量上线O1视频大模型；千问APP接入万相Wan2.5

2025-12-02

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

1、可灵AI今日全量上线O1 视频大模型：统一多模态架构 支持一句话生成视频

可灵AI公司宣布其自主研发的O1视频大模型已全量开放，该模型采用MVL统一交互架构，支持文字、图像、视频三种指令输入，并能一次性完成文生视频、图生视频、局部编辑及镜头延展任务。此外，模型通过多视角主体构建技术解决镜头切换时的“特征漂移”问题，确保画面连贯。目前，O1模型已在可灵App及官网同步开放体验，后续将开放API接口供第三方平台集成。

image.png

【AiBase提要:】

🧠 O1视频大模型采用MVL统一交互架构，支持文字、图像、视频三种指令输入

🎬 一次性完成文生视频、图生视频、局部编辑及镜头延展任务

📊 可灵AI计划开放API接口，供第三方平台集成

2、千问APP接入万相Wan2.5，视频能力全新升级

千问APP接入万相Wan2.5模型，显著提升了视频创作能力，支持音视频同步输出，并允许用户通过自定义图片和文字生成高质量的动态视频内容，进一步降低了创作门槛，激发了用户的创意热情。

image.png

【AiBase提要:】

🎥 千问APP接入万相Wan2.5模型，视频创作能力全面升级。

🎙️ 支持音视频同时输出，实现音画同步的高质量视频生成。

🔄 用户可自定义上传照片和文字，生成动态唱跳视频，降低创作门槛。

3、PixVerse V5.5 发布：支持「导演级」音画同步

PixVerse V5.5版本的发布，为视频制作带来了重大变革。用户只需输入一句话即可生成带声音和口型同步的高清视频，并支持多镜头自动切换，显著提升了视频创作的便捷性。

image.png

【AiBase提要:】

🎥 支持一句话生成高清视频，实现音画同步。

🔄 多镜头自动切换，提升视频叙事逻辑。

🚀 自研架构提升视频生成速度与质量，一站式服务。

详情链接:https://pai.video

4、DeepSeek-V3.2 正式发布：引入创新稀疏注意力架构，API 成本腰斩，性能比肩顶尖闭源模型

中国人工智能初创公司深度求索（DeepSeek AI）发布了DeepSeek-V3.2系列模型，包括DeepSeek-V3.2及其高计算增强版DeepSeek-V3.2-Speciale。新模型引入了创新的稀疏注意力机制(DSA)，提升了长文本任务的效率，并降低了API成本。DeepSeek-V3.2-Speciale版本在高难度推理任务中表现出色，甚至超越了GPT-5。此外，该模型还提供了开源内核和演示代码，支持研究人员和企业进行商业部署。

【AiBase提要:】

🧠 引入创新的稀疏注意力机制(DSA)，提升长文本任务效率。

🚀 DeepSeek-V3.2-Speciale版本在高难度推理任务中表现优异，超越GPT-5。

📊 API成本降低50%，支持研究人员和企业进行商业部署。

详情链接:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

5、Runway 发布全新 Gen-4.5视频生成模型，提升创作与视觉质量

Runway 发布了其最新的视频生成模型 Gen-4.5，显著提升了视觉准确性和创意控制，适用于社交媒体短视频创作。尽管面临竞争，Gen-4.5在物体和角色的一致性质量上表现突出，但也存在因果推理和时间连贯性的问题。同时，AI生成内容的真实性问题引发行业讨论，建议添加免责声明。

image.png

【AiBase提要:】

🎥 Runway 的 Gen-4.5模型使视频生成更具创意和视觉一致性。

📱 该模型主要针对社交媒体短视频，与其他竞争对手针对长视频的战略有所不同。

⚖️ AI 生成内容的真实性问题引发了行业内部的讨论，建议添加免责声明以区分真实与虚假。

6、谷歌 AI 搜索体验“提速”:新设计实现无缝对话，Gemini3Pro 杀入120国市场!

谷歌公司正在采取一系列举措，旨在让其人工智能（AI）模式和功能更加普及和易用。一方面，谷歌正在测试新的设计，以优化用户从 AI 概览到 AI 模式的过渡体验;另一方面，Gemini3Pro 模型正在进行大规模国际扩张。

image.png

【AiBase提要:】

💡优化AI体验，实现无缝对话

🌍Gemini3Pro/Nano Banana Pro拓展至120个国家和地区

🚀提升用户在Google搜索中的AI功能

7、Lovart Touch Edit 上线：轻点即改，AI 图像编辑进入“零蒙版”时代

Lovart 推出的 Touch Edit 功能通过自然语言指令和智能识别技术，实现了图像编辑的高效与便捷。用户无需手动操作即可完成复杂的图像修改任务，显著提升了设计效率。

image.png

【AiBase提要:】

✨ Touch Edit 核心功能：通过自然语言指令实现图像元素的自动识别与编辑。

🧩 Select & Remix 支持多图混搭，用户可拖拽重组不同图片元素。

⚙️ 技术集成：融合 GPT-4o、Flux Pro 和 Sora 等模型，提供高效的 AI 工作流。

8、蚂蚁数科Agentar入选中国智能体开发赛道“第一梯队”

蚂蚁数科的Agentar平台凭借技术架构的完整性、产品迭代的成熟度以及在金融领域的多年沉淀，成功跻身中国智能体开发赛道的‘第一梯队’，展现了其在AI智能体开发领域的领先地位。

【AiBase提要:】

🧠 蚂蚁数科的Agentar平台在智能体开发领域展现出领先实力。

💼 该平台在金融领域有丰富的技术经验与规模化落地成果。

📈 Agentar-Fin-R1推理大模型在三项金融基准测试中位列第一

  • 可灵AI O1正式上线：号称全球首个统一多模态视频大模型

    可灵AI正式发布全新O1视频大模型，被誉为全球首个统一多模态视频大模型。该模型基于创新的多模态视觉语言交互架构，用户可在单一输入框内无缝融合文字、图像、视频等多种指令，实现跨模态内容的高效创作。其技术突破解决了传统视频生成工具功能割裂、操作复杂的痛点，并攻克了视频中主体特征漂移的行业难题，支持长达310秒的自由生成时长。目前用户可通过可灵App及官网体验。

    ​可灵AI ​O1视频大模型 ​多模态视频

  • 全球首个大一统多模态视频模型可灵O1发布 让P视频像P图一样简单

    全球首个大一统多模态视频创作工具“可灵O1”正式上线。它基于全新视频图像模型，以自然语言为语义骨架，融合视频、图片、主体等多模态描述，将生成和编辑任务整合于一个全能引擎中，为用户提供从灵感到成品的闭环创作体验。该模型打破传统单一视频生成任务边界，支持参考生视频、文生视频、首尾帧生视频、视频内容增删、风格重绘等多种任务，用户无需在多个工具间跳转即可一站式完成全流程创作。

  • AI日报：快手可灵 2.6 全量上线；字节Seedream 4.5发布；DeepSeek连发两款新模型

    本文汇总了AI领域最新动态：快手可灵2.6上线，实现“音画同出”生成视频；字节跳动发布Seedream4.5，提升多图一致性生成；豆包助手回应权限争议并下线微信操作功能；智源研究院推出多模态世界模型Emu3.5，可预测真实世界状态；研究揭示AI模型能发现并利用智能合约漏洞；小米公布AI战略，押注“AI+物理世界”融合；谷歌发布Workspace Studio，助力企业构建AI代理；DeepSeek同步上线V3.2与Speciale两款新模型，展示开源实力。

    ​AI ​快手可灵 ​音画同出

  • AI不再健忘！红熊AI发布“记忆熊”，给大模型装上“海马体”

    当前大模型虽能力惊人，却普遍存在“记忆缺失”问题，制约了AI应用的深度与用户体验。红熊AI推出的开源记忆系统“记忆熊”，旨在突破这一瓶颈。它基于认知科学原理，构建了包含存储层、编排层和应用层的三层架构，模拟人类记忆的感知、提炼、关联与遗忘全周期，为智能体提供长期记忆框架。该系统不仅显著提升了任务性能与效率，降低了幻觉生成，更标志着AI设计从“即时响应”向“持续认知”的关键转变。记忆系统的完善，将驱动AI在医疗、教育、企业服务等领域实现更深度的智能化升级，开启人机协作的新时代。

    ​人工智能 ​大模型 ​记忆系统

  • 想让AI成为新引擎，快手不能只靠可灵

    从12月1日开始，快手开启了「可灵全能灵感周」，要连续5天，每天都发布一项新产品。目前，快手已经发布了统一多模态视频大模型可灵视频O1和全能图像模型可灵图片O1，展现了要一站式满足AI视频、图像创作需求的野心。 这种密集的发布，也是快手在向外界进一步展示自身的AI技术积累。而保持AI技术的领先是快手新故事的重要组成部分。从财报来看，快手已经把AI视作为�

    ​快手AI ​可灵全能灵感周 ​多模态视频大模型

  • 易鑫开源汽车金融业首个Agentic大模型,加速AI生态共建

    易鑫集团（02858.HK）宣布开源其自主研发的Agentic大模型YiXin-Agentic-Qwen3-14B，成为汽车金融行业首个开源此类模型的企业。该模型基于通义千问Qwen3-14B深度优化，具备卓越推理、复杂任务处理及多方协作的智能体能力，在多项性能测试中位列榜首，推理成本较行业平均水平降低三分之一。模型搭载金融领域专属知识体系与工具集，覆盖语音交互、车辆评估、风控、欺诈识别等功能，形成全链路智能支撑体系。易鑫提出“底座开放-社区共建-能力迭代-企业部署-生态繁荣”的开源共建模式，通过提供低代码私有化模板，帮助企业快速落地AI应用。此次开源与之前发布的行业首个开源推理大模型YiXin-Distill-Qwen-72B形成“垂直底座+Agentic大脑”双轮技术矩阵，填补了汽车金融领域专业开源AI工具链的空白。

    ​易鑫开源大模型 ​汽车金融AI ​YiXin-Agentic-Qwen3-14B

  • 为AI Agent时代筑基，火山引擎多模态数据湖方案重塑数据处理范式

    人工智能时代全球数据量激增，预计2028年将达393ZB，其中80%为非结构化数据。火山引擎推出多模态数据湖方案，以Lance存储+Daft计算为核心，解决数据处理痛点：存储层实现高压缩比与灵活Schema，计算层通过延迟计算提升70%效率。该方案在智能驾驶等场景显著优化性能，端到端处理时间缩短70%，资源利用率提升至95%以上。平台还推出"算子广场"降低开发门槛，并推出Data Agent实现自然语言交互的数据分析，推动企业构建以数据消费为导向的治理体系。

    ​人工智能 ​数据湖 ​非结构化数据

  • 逗哥配音ai软件|创新升级：自研大模型引领声音创作新浪潮

    在短视频蓬勃发展的当下，AI配音软件“逗哥配音”凭借自主研发的大模型技术引发关注。该软件拥有近千种风格的发声人资源，覆盖多语言及方言，通过精准的节奏控制和情感表达优化，显著降低高质量音频制作门槛。其创新的声音克隆技术仅需少量数据即可生成高度相似的人工语音，结合人声分离、文案提取等实用工具，为创作者提供跨领域音频解决方案，推动数字内容生态向多元化、个性化发展。

    ​短视频创作 ​AI配音 ​声音表现力

  • Billus AI高交会全球首发多模态大模型 以AI Agent重构创意产业文明进化路径

    2025年11月15日，Billus AI在高交会首发多模态大模型Billus0.57EDIT及“超级员工智能体”初阶版，依托自研生存式大模型与AI Agent技术，打破创意领域垂直局限，构建覆盖文创、时尚、艺术等全场景智能创作生态。该模型通过自然语言指令直达创意成果，实现从平面图到施工图的全流程高效生成。同时，Billus AI同步打造“创意设计超级员工+产业链智能体”体系，探索生成式创意与供应链智能推荐的新商业路径，助力行业从“经验驱动”向“数据智能”跃迁。

    ​高交会 ​Billus毕鲁斯 ​多模态大模型

  • AI日报：腾讯元宝推视频模型HunyuanVideo1.5；谷歌Nano Banana Pro上线；夸克AI眼镜与高德合作加码

    腾讯元宝推出视频生成新功能，支持一句话或图片生成5-10秒高清视频；谷歌发布Nano Banana Pro模型，具备4K分辨率及联网搜索能力；夸克AI眼镜新增导航投屏等出行功能；豆包输入法上线小米商店主打语音交互；月之暗面计划明年IPO，估值或达40亿美元；复旦团队开源语音对话模型MOSS-Speech；ChatGPT群聊功能上线，支持20人同时讨论；谷歌NotebookLM升级，可一键生成专业PPT。

    ​AI ​腾讯元宝 ​视频生成

