AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

2025-08-07 15:53 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解：https://top.aibase.com/

1、阿里新发布Qwen3-4B模型：小巧强劲，手机也能跑 AI！

阿里通义千问团队推出的Qwen3-4B系列模型，在小型语言模型领域取得了重要突破，为移动端AI应用提供了新的技术路径。该模型不仅在性能上表现出色，还具备高效的资源利用能力，能够满足实际应用场景的需求。

微信截图_20250807090216.png

【AiBase提要:】
🧠 Qwen3-4B系列模型在性能与体积之间实现了平衡优化，适合移动设备运行。
📊 Qwen3-4B-Instruct-2507超越了闭源小型模型GPT-4.1-nano的表现，接近大规模模型Qwen3-30B-A3B的能力。
🧮 Qwen3-4B-Thinking-2507在数学推理评测中获得高分，展现了强大的逻辑推理能力。

2、小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

小红书 Hi Lab 发布开源多模态大模型 dots.vlm1，其基于 NaViT 视觉编码器和 DeepSeek V3 大语言模型，展现出卓越的性能，尤其在图表推理、STEM 数学推理等方面表现突出，标志着开源多模态模型达到新高度。

【AiBase提要:】
🧠 原生自研的 NaViT 视觉编码器，支持动态分辨率，提升泛化能力。
📊 构建了大规模清洗精细的训练集，提升图文对齐质量。
🚀 在多模态评测中表现优异，接近闭源模型 Gemini2.5Pro 和 Seed-VL1.5。

3、MiniMax Speech 2.5语音生成模型上线：多语种表现力更强

MiniMax推出了新一代语音生成模型Speech2.5，其在多语种表现力、音色复刻和语种覆盖范围等方面实现了显著提升。该模型不仅在中文方面保持全球最强水平，同时英文及其他多语种的表现也得到全面提升，为多个行业带来了便利和创新机会。

【AiBase提要:】
🧠 Speech2.5在多语种表现力上取得飞跃性进步，支持40种语言切换。
🎙️ 音色复刻达到行业天花板级精度，可保留不同地区的口音特色。
🌐 多语种覆盖范围扩展至40个语种，包括多种新增语言，助力全球化内容创作。

4、Midjourney 推出 HD 视频模式，专为专业人士打造高品质影像

Midjourney 推出全新的 HD 视频模式，为专业用户提供更高清、更高质量的视频生成工具。该模式在分辨率和清晰度上显著提升，但成本也相应增加。此功能进一步巩固了 Midjourney 在 AI 视频生成领域的竞争力。

【AiBase提要:】
🎥 HD 视频模式提供更高的像素分辨率，满足专业用户对高质量影像的需求。
💰 HD 模式成本约为 SD 模式的 3.2 倍，但能带来更优质的视觉效果。
🚀 Midjourney 通过不断优化技术，与 OpenAI 的 Sora 和 Runway 的 Gen-4 等竞争者展开激烈角逐。

5、Cursor1.4正式发布:聚焦异步长程任务，加速大型代码库自动化进程

Cursor1.4版本的发布标志着其在AI驱动开发工具领域的进一步领先。该版本增强了异步和长程任务处理能力，优化了大型代码库的索引与搜索功能，并推动了AI编码工具向全自动化的转型。

【AiBase提要:】
🚀 异步任务处理能力显著提升，支持后台Agent运行并实现任务队列管理。
🔍 针对大型代码库进行了精准优化，提升了代码补全和查询效率。
🔄 推动AI编码工具向全自动化的转型，增强Agent自主性及协作功能。
详情链接:https://cursor.com/en/changelog

6、谷歌否认AI搜索功能影响网站流量，但数据显示零点击搜索激增

谷歌反驳了关于AI搜索功能对网站流量造成冲击的指控，声称自然点击量保持稳定且点击质量有所提升。然而，数据表明零点击搜索比例显著增加，显示用户行为正在发生转变。

【AiBase提要:】
🟢 谷歌声称AI搜索功能未显著影响网站流量，但零点击搜索比例上升。
🟡 谷歌强调点击质量提高，但未提供具体数据支持其结论。
🔴 用户趋势转向其他平台，如Reddit和TikTok，导致谷歌流量变化。

7、MiniCPM-V4.0开源发布，堪称“手机上的 GPT-4V”

MiniCPM-V4.0作为一款轻量级多模态大模型，凭借卓越的性能和优化设计，在图像、视频理解和多轮对话等任务中表现出色。其在移动设备上的高效运行能力，为AI应用提供了新的可能性。

【AiBase提要:】
🔥 MiniCPM-V4.0基于SigLIP2-400M和MiniCPM4-3B构建，参数量仅为4.1B，却展现出强大的图像、视频理解能力。
🚀 在iPhone16Pro Max上实测，首次响应延迟不到2秒，解码速度超过17token/秒，具备高并发处理能力。
🌐 提供丰富的生态支持，兼容主流框架，并提供iOS应用及详细教程，降低开发者使用门槛。
详情链接:https://github.com/OpenBMB/MiniCPM-o

8、AMD、高通宣布旗下硬件支持 gpt-oss 系列开放模型

AMD与高通联合宣布支持OpenAI的gpt-oss系列模型，标志着边缘计算和AI结合的重要进展。锐龙AI Max+395处理器成为首款运行gpt-oss-120b的消费级AI PC处理器，而高通骁龙平台展示了gpt-oss-20b的出色推理能力。

【AiBase提要:】
🧠 AMD与高通宣布支持OpenAI的gpt-oss系列模型，推动边缘计算与AI结合。
🚀 锐龙AI Max+395处理器成为全球首款运行gpt-oss-120b的消费级AI PC处理器。
📱 高通骁龙平台展示gpt-oss-20b的优秀推理能力，开发者可轻松访问模型。

9、腾讯重磅开源WeKnora！解锁复杂文档智能解析，知识管理进入AI新时代

腾讯开源的WeKnora是一款基于大语言模型的文档理解与检索工具，能够处理多模态文档并提供高效的结构化内容提取和智能交互功能。其模块化设计和强大的语义处理能力为多个行业带来了技术革新。

【AiBase提要:】
🧠 WeKnora支持多模态文档解析，可从PDF、Word、图片等格式中提取结构化内容。
💬 基于大语言模型的智能交互功能，支持多轮对话和自然语言查询。
📦 模块化架构设计，便于灵活配置和扩展，适配不同行业需求。
详情链接:https://github.com/Tencent/WeKnora

11、重磅!OpenAI 旗舰模型 GPT-5详细信息疑似在 GitHub 上提前泄露

在全球科技界对 OpenAI 即将发布的 GPT- 5 翘首以盼之际，一份疑似该模型的详细说明信息在GitHub Models平台上意外曝光。

【AiBase提要:】
🚀 GPT-5被描述为OpenAI最先进的大语言模型，具有强大的推理能力和代码质量。
🧩 GPT-5将推出多个版本，以满足不同用户和场景的需求。
🌐 泄露信息的真实性引发广泛关注，开发者期待官方确认GPT-5的技术细节。

12、FlowSpeech：全球首个书面语转口语的 TTS

FlowSpeech是一款创新的AI文本转语音工具，能够将书面文字转化为自然流畅的口语表达。它通过上下文感知和多模态支持技术，解决了传统TTS工具在语调变化和情感表达上的不足，为用户提供更贴近真实对话的语音体验。

【AiBase提要:】
🌍 FlowSpeech专注于书面语向口语的转换，提升语音合成的自然性。
💡 智能内容筛选功能可自动识别并剪裁不适合朗读的内容，提高语音质量。
🚀 开发团队计划推出个性化声音定制服务，拓展应用边界。
详情链接:https://listenhub.ai/zh?tab=flowspeech

（举报）

相关推荐

关键词：

国内大模型GEO优化全攻略:免费工具教你监测品牌在文心一言、通义千问等AI平台的可见度

AI搜索时代，品牌若未出现在AI回答中就等于"不存在"。GEO（生成引擎优化）成为新战场，核心是让AI在回答用户问题时优先引用企业内容。文章详解国内主流AI模型特点：文心一言整合百度生态、通义千问依托阿里电商数据、小众模型在垂直领域更易被引用。提出三大优化策略：内容结构化呈现、建立行业权威背书、布局高权重平台。推荐使用AIBase免费工具实时监测品牌在各大AI平台的曝光情况，通过数据驱动优化策略。
AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

本文汇总AI领域最新动态：OpenAI推出集成ChatGPT的Atlas浏览器，实现多任务自主处理；阿里通义千问新增2B/32B视觉语言模型，手机可流畅运行；谷歌AI Studio升级Vibe Coding功能，简化应用开发流程；百川发布医疗大模型M2Plus，通过循证推理降低误诊率；奇瑞墨甲机器人实现L3级技术突破，计划多行业应用；YouTube推出AI肖像识别工具，打击虚假内容；三星宣布2026年推出AI眼镜，融合AR与语音助手；Claude客户端更新，支持截图分析和语音交互功能。

AI OpenAI ChatGPT
GEO排名查询工具怎么用？手把手教你监测品牌在通义千问、Kimi等AI平台的推荐情况

AI时代催生GEO（生成引擎优化）新范式，正逐步取代传统SEO。GEO关注品牌在AI问答中的提及率、推荐频次与排名，通过优化内容结构提升AI引擎推荐权重。AIBase平台推出专业GEO监测工具，支持五大主流AI平台实时检测，提供竞品对比与优化建议，帮助企业量化品牌在AI生态中的可见度，已成为数字资产评估新标准。

GEO 生成引擎优化 AI搜索优化
荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

国家广电总局宣布自2026年3月起全面整治AI生成内容，要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》，提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro，集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX，实现文本化语音编辑。Grok新增纯文本生成视频功能，17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠，并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型，优化开发者体验。

AI动画广电总局 AIGC审核
荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

本期AI日报聚焦多领域技术突破：美团发布全模态交互模型LongCat-Flash-Omni；阿里通义千问Qwen3-Max上线深度思考功能；百度文心5.0升级多模态生成能力；谷歌确认Gemini3年内发布并整合至苹果Siri；OpenAI向多国开放Sora2视频工具；云存储与AI开发工具持续优化，展现行业加速迭代态势。

AI 多模态实时交互
颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

Utopai Studios推出专为影视制作设计的AI模型与工作流，区别于主流视频生成模型，其核心能力在于理解剧本、规划镜头及生成场景，通过自回归模型负责叙事规划与一致性约束，扩散模型专注高质量画面渲染。该系统能解决跨镜头元素漂移难题，提升制作效率与作品品质。目前工作流仅用于公司自有项目，强调AI作为创作者协作者的角色，并遵循行业道德与版权规范。

AI影视制作 Utopai Studios
荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

本期AI日报聚焦多领域创新：昆仑万维推出SkyReels V3模型，整合顶尖视频生成能力；月之暗面Kimi Linear模型处理长文本速度提升2.9倍；MiniMax Music 2.0实现专业级音乐创作；字节跳动启动豆包股权激励计划吸引AI人才；苹果iOS 27将迎AI重大升级，Siri更个性化；Dia浏览器融合Arc设计理念与AI技术；文心魔法漫画工具实现一键生成连载作品；谷歌Gemini Canvas新增PPT自动生成功能，由Gemini 2.5 Pro驱动，提升职场效率。

AI视频生成 SkyReels V3
如何检查你的网站是否被大模型引用？AI排名查询工具推荐

本文探讨AI搜索时代网站流量获取新逻辑：传统SEO因Google搜索"零点击"现象失效，而71%用户通过AI工具研究购买决策。文章指出被大语言模型引用成为新流量入口，并推荐使用AIBase等GEO工具监测网站在豆包、DeepSeek等国内主流AI平台的曝光情况。提出三步操作法和三个优化建议：建立监控基线、定期检查变化、聚焦高转化场景。强调在AI搜索时代，内容被LLM引用已成为新的流量生命线。
何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

小鹏汽车在2025科技日发布第二代VLA大模型，颠覆传统“视觉-语言-动作”架构，实现端到端直接输出动作指令，开创物理模型新范式。该模型具备动作生成与物理世界理解能力，参数规模达数十亿级，训练数据近1亿clips。基于2250TOPS算力的Ultra车型成功搭载，推动智驾技术显著进化，同步发布“小径NGP”功能，复杂小路接管里程提升13倍。行业首发的无导航辅助驾驶Super+LCC实现全球覆盖。何小鹏表示，大模型将成为物理AI世界的操作系统，并宣布与大众汽车达成战略合作，共同推进智能出行发展。

小鹏汽车 VLA大模型智能出行
荐双11“换芯” 阿里妈妈AI按下加速键

今年双11的不同，在平台对外披露的商家案例中得以一窥究竟。 AI智能选品、AI智能出价、AI智能调控投放节奏..... 这些营销策略的表述来自音箱品牌Marshall，双11第一波段10天活动期内，Marshall在影音电器行业品牌和店铺排名均位居第一;成交转化率提升67%，爆款成交同比增长30%。这波爆发式增长的背后，反复被CUE到的AI可以说是深藏功与名。绝非只是平台意志的表达，

AI智能选品 AI智能出价 AI智能调控

今日大家都在搜的词：

热文

3 天
7天

AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

国内大模型GEO优化全攻略:免费工具教你监测品牌在文心一言、通义千问等AI平台的可见度

AI日报：OpenAI发布浏览器Atlas；通义Qwen3-VL新增2B、32B两个模型尺寸；百川发布循环证据增强大模型

GEO排名查询工具怎么用？手把手教你监测品牌在通义千问、Kimi等AI平台的推荐情况

荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

荐AI日报：美团LongCat-Flash-Omni发布；Qwen3-Max上线深度思考功能；百度“文心”5.0重磅回归

颠覆Diffusion局限！Utopai双模型耦合架构，攻克AI影视长叙事核心难题

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

如何检查你的网站是否被大模型引用？AI排名查询工具推荐

何小鹏首次披露物理AI巨大进展发布第二代VLA大模型

荐双11“换芯” 阿里妈妈AI按下加速键

今日大家都在搜的词：

热文

焕新享界S9开卖72小时预订突破8000台

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

OPPO Reno15系列定档11月17日发布

华为Mate 70 Air维修备件价格公布：换主板2499元

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

小米手表S4 eSIM/Sport宣布支持开通中国移动一号双终端

鸿蒙智行：智界R7累计交付量破10万台

真我GT8 Pro阿斯顿马丁F1限量版正式开售售价5499元

特斯拉Model Y L上线外放电功能最高可输出2200瓦功率

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

女性人形机器人里藏真人？何小鹏回应：并亲自证清白

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：HeyGen发布AI视频翻译引擎；科大讯飞推星火 X1.5；QQ浏

华为Mate70 Air官宣今日开启预售

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

华为路由X3 Pro今日开启预售：售价1299元起

何小鹏回应机器人IRON里是真人质疑：感谢认可

iPhone Air 2或新增1颗镜头：继续沿用6.5英寸高刷中屏

俞敏洪发文确认孙东旭离职：保持着良好的沟通

站长商机