首页 > 原创 > 关键词  > AI最新资讯  > 正文

AI日报:可灵AI全量上线O1视频大模型;千问APP接入万相Wan2.5

2025-12-02 15:35 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://app.aibase.com/zh

1、可灵AI今日全量上线O1 视频大模型:统一多模态架构 支持一句话生成视频

可灵AI公司宣布其自主研发的O1视频大模型已全量开放,该模型采用MVL统一交互架构,支持文字、图像、视频三种指令输入,并能一次性完成文生视频、图生视频、局部编辑及镜头延展任务。此外,模型通过多视角主体构建技术解决镜头切换时的“特征漂移”问题,确保画面连贯。目前,O1模型已在可灵App及官网同步开放体验,后续将开放API接口供第三方平台集成。

image.png

【AiBase提要:】

🧠 O1视频大模型采用MVL统一交互架构,支持文字、图像、视频三种指令输入

🎬 一次性完成文生视频、图生视频、局部编辑及镜头延展任务

📊 可灵AI计划开放API接口,供第三方平台集成

2、千问APP接入万相Wan2.5,视频能力全新升级

千问APP接入万相Wan2.5模型,显著提升了视频创作能力,支持音视频同步输出,并允许用户通过自定义图片和文字生成高质量的动态视频内容,进一步降低了创作门槛,激发了用户的创意热情。

image.png

【AiBase提要:】

🎥 千问APP接入万相Wan2.5模型,视频创作能力全面升级。

🎙️ 支持音视频同时输出,实现音画同步的高质量视频生成。

🔄 用户可自定义上传照片和文字,生成动态唱跳视频,降低创作门槛。

3、PixVerse V5.5 发布:支持「导演级」音画同步

PixVerse V5.5版本的发布,为视频制作带来了重大变革。用户只需输入一句话即可生成带声音和口型同步的高清视频,并支持多镜头自动切换,显著提升了视频创作的便捷性。

image.png

【AiBase提要:】

🎥 支持一句话生成高清视频,实现音画同步。

🔄 多镜头自动切换,提升视频叙事逻辑。

🚀 自研架构提升视频生成速度与质量,一站式服务。

详情链接:https://pai.video

4、DeepSeek-V3.2 正式发布:引入创新稀疏注意力架构,API 成本腰斩,性能比肩顶尖闭源模型

中国人工智能初创公司深度求索(DeepSeek AI)发布了DeepSeek-V3.2系列模型,包括DeepSeek-V3.2及其高计算增强版DeepSeek-V3.2-Speciale。新模型引入了创新的稀疏注意力机制(DSA),提升了长文本任务的效率,并降低了API成本。DeepSeek-V3.2-Speciale版本在高难度推理任务中表现出色,甚至超越了GPT-5。此外,该模型还提供了开源内核和演示代码,支持研究人员和企业进行商业部署。

【AiBase提要:】

🧠 引入创新的稀疏注意力机制(DSA),提升长文本任务效率。

🚀 DeepSeek-V3.2-Speciale版本在高难度推理任务中表现优异,超越GPT-5。

📊 API成本降低50%,支持研究人员和企业进行商业部署。

详情链接:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

5、Runway 发布全新 Gen-4.5视频生成模型,提升创作与视觉质量

Runway 发布了其最新的视频生成模型 Gen-4.5,显著提升了视觉准确性和创意控制,适用于社交媒体短视频创作。尽管面临竞争,Gen-4.5在物体和角色的一致性质量上表现突出,但也存在因果推理和时间连贯性的问题。同时,AI生成内容的真实性问题引发行业讨论,建议添加免责声明。

image.png

【AiBase提要:】

🎥 Runway 的 Gen-4.5模型使视频生成更具创意和视觉一致性。

📱 该模型主要针对社交媒体短视频,与其他竞争对手针对长视频的战略有所不同。

⚖️ AI 生成内容的真实性问题引发了行业内部的讨论,建议添加免责声明以区分真实与虚假。

6、谷歌 AI 搜索体验“提速”:新设计实现无缝对话,Gemini3Pro 杀入120国市场!

谷歌公司正在采取一系列举措,旨在让其人工智能(AI)模式和功能更加普及和易用。一方面,谷歌正在测试新的设计,以优化用户从 AI 概览到 AI 模式的过渡体验;另一方面,Gemini3Pro 模型正在进行大规模国际扩张。

image.png

【AiBase提要:】

💡优化AI体验,实现无缝对话

🌍Gemini3Pro/Nano Banana Pro拓展至120个国家和地区

🚀提升用户在Google搜索中的AI功能

7、Lovart Touch Edit 上线:轻点即改,AI 图像编辑进入“零蒙版”时代

Lovart 推出的 Touch Edit 功能通过自然语言指令和智能识别技术,实现了图像编辑的高效与便捷。用户无需手动操作即可完成复杂的图像修改任务,显著提升了设计效率。

image.png

【AiBase提要:】

✨ Touch Edit 核心功能:通过自然语言指令实现图像元素的自动识别与编辑。

🧩 Select & Remix 支持多图混搭,用户可拖拽重组不同图片元素。

⚙️ 技术集成:融合 GPT-4o、Flux Pro 和 Sora 等模型,提供高效的 AI 工作流。

8、蚂蚁数科Agentar入选中国智能体开发赛道“第一梯队”

蚂蚁数科的Agentar平台凭借技术架构的完整性、产品迭代的成熟度以及在金融领域的多年沉淀,成功跻身中国智能体开发赛道的‘第一梯队’,展现了其在AI智能体开发领域的领先地位。

【AiBase提要:】

🧠 蚂蚁数科的Agentar平台在智能体开发领域展现出领先实力。

💼 该平台在金融领域有丰富的技术经验与规模化落地成果。

📈 Agentar-Fin-R1推理大模型在三项金融基准测试中位列第一

举报

  • 相关推荐
  • 可灵AI O1正式上线:号称全球首个统一多模态视频大模型

    可灵AI正式发布全新O1视频大模型,被誉为全球首个统一多模态视频大模型。该模型基于创新的多模态视觉语言交互架构,用户可在单一输入框内无缝融合文字、图像、视频等多种指令,实现跨模态内容的高效创作。其技术突破解决了传统视频生成工具功能割裂、操作复杂的痛点,并攻克了视频中主体特征漂移的行业难题,支持长达310秒的自由生成时长。目前用户可通过可灵App及官网体验。

  • 千问APP悄悄上线,阿里的AI超级入口也终于来了。

    阿里“千问”APP昨日在应用商店悄然上线,界面从通义APP的双色渐变变为简洁单色设计,功能大幅增强,支持Qwen全系列最新模型。此次品牌整合将阿里分散的AI触点统一为“千问”品牌,实现模型与产品名称对齐,让普通用户首次能在官方APP使用最强Qwen3-Max模型。APP默认开启联网搜索,集成图像编辑、视频通话等场景功能,通过智能意图识别实现一站式服务。这标志着阿里开�

  • Qwen用开源逆袭GPT的故事,千问APP要再干一遍

    Qwen模型逆袭GPT的策略,阿里准备再用一次。 2018年,OpenAI发布了自己的第一个模型GPT1,占据了技术先机,随后变得越来越封闭。在大洋彼岸,阿里几乎同一时间着手大模型研究,到2023年推出“通义千问”时,则选择了一条完全不同的路径:直接开源模型,允许开发者免费使用、改进和集成。 这个策略让Qwen逐步积累起规模,做到了如今全球开发者基于它发布了17万个衍生模型�

  • 千问App上线实时翻译功能:覆盖全球超98%人口常用语种

    阿里千问App推出实时翻译功能,支持119种语言,覆盖全球98%以上人口的常用语言,成为国内首个具备此能力的AI助手。功能涵盖文字、图片、同声传译及面对面互译四大场景,其中同声传译不限时长与次数,完全免费。基于Qwen-MT模型,在多项翻译测试中表现优于GPT-4.1-mini等同类模型,与顶级大模型相当。目前已在部分中亚地区酒店初步应用,助力国际化落地。

  • AI日报:阿里千问APP公测;Veo 3.1上线多图参考;超级小爱AI大模型“随心修图”上线

    本期AI日报聚焦多项技术突破:阿里千问APP公测,基于Qwen3模型对标ChatGPT;谷歌Veo 3.1支持三图融合生成8秒视频;小米推出"随心修图"功能与7B多模态模型Miloco;谷歌Flow集成Nano Banana模型实现智能抠图;多模态AI工具DeepEyesV2可执行代码与网络搜索;NotebookLM升级支持图像导入检索;JetBrains推出DPAI Arena测试编码AI性能。全球AI竞争持续升温,产品迭代加速。

  • 阿里千问APP宣布开启公测 号称打造最佳个人AI助手

    阿里巴巴11月17日启动“千问”项目,全面进军AI to C市场,标志着其在人工智能领域的新战略布局。APP公测版已上线各大应用商店,网页和PC版同步推出,国际版即将上线。基于Qwen模型在海外的影响力,“千问”将与ChatGPT等国际产品竞争,展现中国AI实力。Qwen系列模型全球下载量突破6亿次,性能超越Llama等,成为全球最强开源大模型。“千问”致力于打造“会聊天能办事”的个人AI助手,已具备生成报告、制作PPT等能力,未来计划接入地图、外卖、办公等生活场景,成为用户得力助手。

  • 千问,阿里的未竟之梦

    在一个大阿里和一个吴妈的统一指挥下,千问诞生了。 11月17日,阿里正式宣布推出“千问”项目,面向公众上线其App公测版。该项目前身为智能信息事业群旗下的“通义App”,改名后的千问号称“阿里最强大模型官方助手”,定位为“会聊天、能办事”的个人AI助手。 官方称,千问后期计划与阿里生态内的各类生活场景深度结合。其目标是与ChatGPT展开全面竞争,标志着阿里

  • AI日报:OpenAI将停止GPT-4o API访问;小米开源跨域具身大模型MiMo-Embodied;灵光上线6天突破200万下载

    OpenAI将停止GPT-4o模型API访问,开发者需尽快迁移至GPT-5.1系列。小米开源跨域具身大模型MiMo-Embodied,在29项基准测试中全面领先。清华提出“能力密度”评估体系,强调模型应注重高密度、轻规模。月之暗面即将融资40亿美元,计划明年启动IPO。灵光AI助手上线6天突破200万下载,展现强大市场潜力。谷歌在安卓版Chrome浏览器增加AI图像生成功能。Udio取消用户下载AI音乐作品权利,引发创作者不满。育碧推出首款可玩生成式AI项目“Teammates”,通过实时语音指令提升游戏体验。

  • AI日报:腾讯元宝推视频模型HunyuanVideo1.5;谷歌Nano Banana Pro上线;夸克AI眼镜与高德合作加码

    腾讯元宝推出视频生成新功能,支持一句话或图片生成5-10秒高清视频;谷歌发布Nano Banana Pro模型,具备4K分辨率及联网搜索能力;夸克AI眼镜新增导航投屏等出行功能;豆包输入法上线小米商店主打语音交互;月之暗面计划明年IPO,估值或达40亿美元;复旦团队开源语音对话模型MOSS-Speech;ChatGPT群聊功能上线,支持20人同时讨论;谷歌NotebookLM升级,可一键生成专业PPT。

  • 最晚出发的千问,为什么还有机会?

    阿里在打开新的AI叙事结构之后,也在寻找新的支点和沸点。 刚刚公布的截至2025年9月30日季度报告,增幅最大的是云智能集团,营收为398.24亿元,同比增长34%。这是阿里AI相关产品收入连续9个季度保持三位数同比增幅。 报告期的季度营收为2477.95亿元,同比增长5%,经营利润同比下降85%,归属母公司净利润209.9亿元,同比下降52%。 阿里解释,下降的主要原因是对即时零售、用

今日大家都在搜的词: