AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

2025-09-22 16:33 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://app.aibase.com/zh

1、美团全新推理大模型 LongCat-Flash-Thinking发布

美团推出的LongCat-Flash-Thinking模型凭借其强大的性能和灵活的架构，在多个领域表现出色，为AI应用开发提供了新的可能性。

【AiBase提要:】
🧠 LongCat-Flash-Thinking 是一款基于混合专家架构的大型推理模型，参数量高达5600亿，能动态激活186亿至313亿个参数。
📊 在数学推理、通用推理和代码生成等任务中表现优异，甚至在某些测试中达到顶级准确率。
🔧 模型权重已开源，并提供详细聊天模板和专属聊天网站，便于开发者使用和研究。
详情链接:https://longcat.chat/

2、一图生动画，人物无缝替换！Wan-Animate开源引爆AI视频革命，阿里黑科技免费玩转？

Wan-Animate模型的开源发布标志着AI视频生成技术的重大突破，其双任务处理能力和多模态融合技术为视频创作带来了革命性的变化。

【AiBase提要:】
🎭 双任务一键搞定：Wan-Animate可同时解决角色动画生成和角色替换问题，用户只需提供一张图片和一段参考视频即可生成高精度动画视频。
💡 多模态融合驱动：模型集成骨骼信号控制体动、面部隐式特征提取以及Relighting LoRA模块优化环境照明，提升唇同步精度和全身动作复刻效果。
🚀 应用前景广阔：Wan-Animate在娱乐和商业场景中具有巨大潜力，如音乐视频创作、电商广告或企业培训，未来有望扩展到多人物视频支持。
详情链接:https://github.com/Wan-Video/Wan2.2

3、字节跳动推出豆包翻译大模型：28种语言互译，比肩GPT-4o

字节跳动旗下火山引擎推出了全新的通用翻译大模型——豆包翻译模型，该模型支持28种语言的互译，并且性能已达到或超越市场领先的GPT-4o和Gemini-2.5-Pro等模型。此外，豆包翻译模型在价格方面也表现出色，每百万字符输入仅需1.20元，输出为3.60元。

【AiBase提要:】
🤖 豆包翻译模型支持28种语言互译，性能媲美GPT-4o和Gemini-2.5-Pro。
💰 翻译价格极具竞争力，输入每百万字符仅需1.20元，输出为3.60元。
🔗 定价信息可查阅火山引擎官方文档以获取详细信息。
详情链接:https://www.volcengine.com/docs/82379/1820188

4、华为与浙大携手发布 DeepSeek-R1-Safe 大模型：AI安全与性能完美平衡

华为与浙江大学联合推出了国内首个基于昇腾千卡算力平台的基础大模型 DeepSeek-R1-Safe，该模型在 AI 安全和性能方面取得了显著突破，为未来 AI 产业生态协同发展提供了新的方向。

【AiBase提要:】
🧠 DeepSeek-R1-Safe 是基于昇腾千卡算力平台构建的，专注于解决 AI 领域的安全与性能问题。
🛡️ 该模型在多个有害信息防御维度中表现出色，整体防御成功率接近 100%。
🚀 在通用能力基准测试中，DeepSeek-R1-Safe 的性能损耗控制在 1% 以内，实现了安全与性能的平衡。

5、Qwen3-Omni 即将登场:端侧跨模态模型再升级

Qwen3-Omni 是阿里巴巴云 Qwen 团队推出的最新跨模态模型，预计即将正式发布。该模型已向 Hugging Face 的 Transformers 库提交了支持 PR，标志着其开源集成的实现。Qwen3-Omni 采用 Thinker-Talker 双轨设计，提升资源受限设备上的部署效率，并适用于实时交互场景。

【AiBase提要:】
🔥 Qwen3-Omni 是阿里巴巴云 Qwen 团队的最新跨模态模型，旨在提升多模态处理能力。
💡 该模型采用 Thinker-Talker 双轨设计，确保高效流式处理，适用于实时交互场景。
🚀 Qwen3-Omni 已向 Hugging Face 的 Transformers 库提交支持 PR，标志着开源集成的实现。

6、xAI发布Grok4Fast：计算量降低40%，单任务成本竟然降至98%！

xAI公司推出的Grok4Fast模型在计算量和运行成本上实现了重大突破，同时在性能测试中表现出色，为用户提供高效且经济的解决方案。

【AiBase提要:】
🧠 Grok4Fast的计算量减少了40%，提升了处理复杂任务的效率。
💰 单任务运行成本降低了98%，为企业节省开支提供了机会。
📊 在GPQA Diamond和AIME2025基准测试中表现优异，展现了强大的性能。

7、YouTube 推出全新工具与功能，助力创作者更上一层楼

YouTube 在年度活动上发布了多项新功能和工具，涵盖直播、货币化方式以及AI辅助创作等。这些更新旨在提升创作者的内容管理效率和观众互动体验。

【AiBase提要:】
🎥 新工作室功能：引入灵感标签、标题 A/B 测试和肖像识别等工具，助力创作者管理内容。
🎮 直播升级：支持小游戏、横竖屏直播、AI 自动高亮功能，提升直播体验。
💰 新货币化方式：通过品牌合作和购物计划，创作者可获取更多收益机会。

8、IBM 推出 Granite-Docling-258M 模型，助力文件转换技术新突破

IBM 发布了轻量级视觉语言 AI 模型 Granite-Docling-258M，专为文档处理设计。该模型在识别准确度、多语言支持和文档元素处理方面表现突出，能够保留原始文档的版面结构，并支持多种输出格式。

【AiBase提要:】
📄 轻量级模型：Granite-Docling-258M 专为文件转换设计，参数量为 2.58 亿。
🔍 高准确度：相比传统 OCR 软件，该模型在识别准确度上有显著提升。
🌍 多语言支持：目前支持中文、阿拉伯语和日语，未来将扩展更多语言。
详情链接:https://huggingface.co/ibm-granite/granite-docling-258M

9、中科院推出类脑大模型 SpikingBrain:以2% 数据实现百倍速度突破

中科院推出的类脑大模型 SpikingBrain 在处理长文本时展现出惊人的速度和效率，其创新的架构和算法为人工智能领域带来了重大突破。

【AiBase提要:】
🧠 SpikingBrain 模型采用混合线性注意力架构，计算复杂度从二次方降至线性
💡 自适应阈值脉冲神经元机制显著降低能耗，实现高计算稀疏度
🚀 该模型在处理长文本时速度比主流模型快100倍，仅需2% 训练数据
详情链接:https://github.com/BICLab/SpikingBrain-7B

10、OpenAI CEO透露将推计算密集型新功能，部分仅限Pro用户

OpenAI首席执行官Sam Altman宣布，公司将在未来几周内推出一系列需要更多计算资源的新服务，初期将仅对Pro订阅用户开放，并可能收取额外费用。尽管如此，Altman表示OpenAI的目标是降低智能服务的成本，使其更广泛可用。

【AiBase提要:】
🚀 OpenAI将推出计算密集型新服务，初期仅限Pro用户使用。
💰 新功能可能涉及额外费用，以应对高昂的计算成本。
💡 Altman强调降低智能服务成本，提升可及性是长期目标。

（举报）

相关推荐

关键词：

荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

今日AI领域动态：上海首例AI提示词著作权案宣判，法院认定提示词不具独创性；月之暗面发布Kimi K2思考模型，实现自主多轮工具调用；UniWorld-V2图像编辑模型支持中文框选即改，性能超越GPT-Image；谷歌推出AI文件检测工具Magika 1.0，支持超200种格式；Sora安卓版首日下载量达47万次；我国发布全球首个AI海洋大模型“瞰海”，可精准预测10天内海洋变化；宇树科技“Embodied Avatar”系统实现低延迟远程机器人操控；谷歌Gemini API推出文件搜索工具，简化私有RAG系统集成。

AI 著作权提示词
荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

本期AI日报聚焦多领域技术突破：美团发布全模态交互模型LongCat-Flash-Omni；阿里通义千问Qwen3-Max上线深度思考功能；百度文心5.0升级多模态生成能力；谷歌确认Gemini3年内发布并整合至苹果Siri；OpenAI向多国开放Sora2视频工具；云存储与AI开发工具持续优化，展现行业加速迭代态势。

AI 多模态实时交互
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

本期AI日报聚焦多项技术突破：火山引擎发布豆包视频生成模型1.0pro+fast，速度提升3倍且价格下降72%；百度与上海体育大学推出“上体体育大模型2.0”，拓展AI在运动员训练等场景应用；谷歌Gemini新增一键生成PPT功能；美团发布LongCat-Video模型，支持5分钟连贯视频生成；xAI推出虚拟女友Mika引发热议；MiniMax开源高性能M2编码模型；OpenAI上线企业知识管理功能；另报道20岁辍学生开发的AI笔记工具Turbo AI半年用户破500万，展现年轻创业者的技术影响力。

AI 视频生成火山引擎
荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

本期AI日报聚焦多领域创新：昆仑万维推出SkyReels V3模型，整合顶尖视频生成能力；月之暗面Kimi Linear模型处理长文本速度提升2.9倍；MiniMax Music 2.0实现专业级音乐创作；字节跳动启动豆包股权激励计划吸引AI人才；苹果iOS 27将迎AI重大升级，Siri更个性化；Dia浏览器融合Arc设计理念与AI技术；文心魔法漫画工具实现一键生成连载作品；谷歌Gemini Canvas新增PPT自动生成功能，由Gemini 2.5 Pro驱动，提升职场效率。

AI视频生成 SkyReels V3
如何检查你的网站是否被大模型引用？AI排名查询工具推荐

本文探讨AI搜索时代网站流量获取新逻辑：传统SEO因Google搜索"零点击"现象失效，而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口，并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议：建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代，内容被LLM引用已成为新的流量生命线。
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
荐AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏览器推出AI+小窗

本期AI日报聚焦多项技术突破：HeyGen推出精准唇形同步的视频翻译引擎；科大讯飞发布星火X1.5大模型，提升多语言处理能力；QQ浏览器新增AI助手浮窗；科大讯飞推出软硬一体方案，实现高噪声环境精准识别；谷歌Gemini 3 Pro预览版支持百万级上下文窗口；Comfy Cloud让Stable Diffusion实现零门槛创作；谷歌Gemini新增深度研究功能，可整合邮件生成智能报告；上海AgiBot机器人10分钟完成复杂制造任务，重塑生产效率。

AI视频翻译唇形同步跨语言本地化
【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

阿里云启动双十一“AI智慧季”大型优惠活动，聚焦企业多元AI场景落地需求，推出7000万tokens大模型免费体验、GPU新客特惠等政策，助力企业降低开发成本。同时提供标准化AI产品与解决方案，覆盖内容创作、智能客服等高频应用场景，并举办系列技术分享活动，携手企业拥抱AI新时代。

AI技术阿里云双十一优惠
“大模型应用”新风口：“无人测试”趋势，CIO/CTO如何应对

当前CIO面临的核心挑战是如何在有限IT预算下加速企业数字化转型。传统软件测试环节因人力密集、周期冗长成为效率瓶颈，而AI技术正推动测试模式从"辅助"向"无人化"演进。通过AI Agent实现全流程自主测试，可提升测试效率300%、降低成本30%，并将产品发布周期从"月"压缩至"周"。这不仅是技术升级，更是重构IT成本结构、实现降本增效的战略支点，助力IT部门从成本中心转型为价值创造中心。

IT预算规划数字化战略 AI大模型

今日大家都在搜的词：

热文

3 天
7天

AI日报：美团发布推理大模型LongCat-Flash-Thinking；阿里Wan-Animate开源；字节推豆包翻译大模型

荐AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发布；中文图像编辑新王UniWorld-V2发布

荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

荐AI日报：豆包视频1.0pro fast发布；谷歌Gemini新功能上线；百度推上体体育大模型 2.0

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

如何检查你的网站是否被大模型引用？AI排名查询工具推荐

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

荐AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏览器推出AI+小窗

【AI 智惠季】全模态大模型齐发优惠，GPU新客包月2.8折起

“大模型应用”新风口：“无人测试”趋势，CIO/CTO如何应对

今日大家都在搜的词：

热文

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

特斯拉股东批准马斯克万亿美元薪酬包

曝折叠屏iPhone配2400万屏下摄像头预计2026年秋亮相

华为鸿蒙智行新款享界S9开启预订：预售价31.8万起

OPPO Find X9 Pro卫星通信版开启预售：6999元

何小鹏再回应机器人里藏真人质疑：现场展示内部结构

小鹏机器人会走猫步太像人了！小鹏发布新一代人形机器人IRON

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

阿里回应饿了么更名：正处于灰度测试阶段

马斯克称若发现外星人证据就公开

AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear

小米YU7全网首拆上热搜雷军回应：欢迎同行和专家指点

AI日报：Sora正式登陆Android；网易云音乐推AI调音大师；谷歌将

华为Mate70 Air官宣今日开启预售

vivo Y500 Pro官宣11月10日发布：同档首发2亿HP5主摄

站长商机