首页 > 原创 > 关键词  > 正文

AI日报:阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1;MiniMax Speech 2.5语音生成模型上线

2025-08-07 15:53 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解https://top.aibase.com/

1、阿里新发布Qwen3-4B模型:小巧强劲,手机也能跑 AI!

阿里通义千问团队推出的Qwen3-4B系列模型,在小型语言模型领域取得了重要突破,为移动端AI应用提供了新的技术路径。该模型不仅在性能上表现出色,还具备高效的资源利用能力,能够满足实际应用场景的需求。

微信截图_20250807090216.png

【AiBase提要:】

🧠 Qwen3-4B系列模型在性能与体积之间实现了平衡优化,适合移动设备运行。

📊 Qwen3-4B-Instruct-2507超越了闭源小型模型GPT-4.1-nano的表现,接近大规模模型Qwen3-30B-A3B的能力。

🧮 Qwen3-4B-Thinking-2507在数学推理评测中获得高分,展现了强大的逻辑推理能力。

2、小红书发布开源多模态大模型 dots.vlm1,以 NaViT 视觉编码器领跑行业

小红书 Hi Lab 发布开源多模态大模型 dots.vlm1,其基于 NaViT 视觉编码器和 DeepSeek V3 大语言模型,展现出卓越的性能,尤其在图表推理、STEM 数学推理等方面表现突出,标志着开源多模态模型达到新高度。

QQ20250807-142938.png

【AiBase提要:】

🧠 原生自研的 NaViT 视觉编码器,支持动态分辨率,提升泛化能力。

📊 构建了大规模清洗精细的训练集,提升图文对齐质量。

🚀 在多模态评测中表现优异,接近闭源模型 Gemini2.5Pro 和 Seed-VL1.5。

3、MiniMax Speech 2.5语音生成模型上线:多语种表现力更强

MiniMax推出了新一代语音生成模型Speech2.5,其在多语种表现力、音色复刻和语种覆盖范围等方面实现了显著提升。该模型不仅在中文方面保持全球最强水平,同时英文及其他多语种的表现也得到全面提升,为多个行业带来了便利和创新机会。

image.png

【AiBase提要:】

🧠 Speech2.5在多语种表现力上取得飞跃性进步,支持40种语言切换。

🎙️ 音色复刻达到行业天花板级精度,可保留不同地区的口音特色。

🌐 多语种覆盖范围扩展至40个语种,包括多种新增语言,助力全球化内容创作。

4、Midjourney 推出 HD 视频模式,专为专业人士打造高品质影像

Midjourney 推出全新的 HD 视频模式,为专业用户提供更高清、更高质量的视频生成工具。该模式在分辨率和清晰度上显著提升,但成本也相应增加。此功能进一步巩固了 Midjourney 在 AI 视频生成领域的竞争力。

【AiBase提要:】

🎥 HD 视频模式提供更高的像素分辨率,满足专业用户对高质量影像的需求。

💰 HD 模式成本约为 SD 模式的 3.2 倍,但能带来更优质的视觉效果。

🚀 Midjourney 通过不断优化技术,与 OpenAI 的 Sora 和 Runway 的 Gen-4 等竞争者展开激烈角逐。

5、Cursor1.4正式发布:聚焦异步长程任务,加速大型代码库自动化进程

Cursor1.4版本的发布标志着其在AI驱动开发工具领域的进一步领先。该版本增强了异步和长程任务处理能力,优化了大型代码库的索引与搜索功能,并推动了AI编码工具向全自动化的转型。

image.png

【AiBase提要:】

🚀 异步任务处理能力显著提升,支持后台Agent运行并实现任务队列管理。

🔍 针对大型代码库进行了精准优化,提升了代码补全和查询效率。

🔄 推动AI编码工具向全自动化的转型,增强Agent自主性及协作功能。

详情链接:https://cursor.com/en/changelog

6、谷歌否认AI搜索功能影响网站流量,但数据显示零点击搜索激增

谷歌反驳了关于AI搜索功能对网站流量造成冲击的指控,声称自然点击量保持稳定且点击质量有所提升。然而,数据表明零点击搜索比例显著增加,显示用户行为正在发生转变。

image.png

【AiBase提要:】

🟢 谷歌声称AI搜索功能未显著影响网站流量,但零点击搜索比例上升。

🟡 谷歌强调点击质量提高,但未提供具体数据支持其结论。

🔴 用户趋势转向其他平台,如Reddit和TikTok,导致谷歌流量变化。

7、MiniCPM-V4.0开源发布,堪称“手机上的 GPT-4V”

MiniCPM-V4.0作为一款轻量级多模态大模型,凭借卓越的性能和优化设计,在图像、视频理解和多轮对话等任务中表现出色。其在移动设备上的高效运行能力,为AI应用提供了新的可能性。

【AiBase提要:】

🔥 MiniCPM-V4.0基于SigLIP2-400M和MiniCPM4-3B构建,参数量仅为4.1B,却展现出强大的图像、视频理解能力。

🚀 在iPhone16Pro Max上实测,首次响应延迟不到2秒,解码速度超过17token/秒,具备高并发处理能力。

🌐 提供丰富的生态支持,兼容主流框架,并提供iOS应用及详细教程,降低开发者使用门槛。

详情链接:https://github.com/OpenBMB/MiniCPM-o

8、AMD、高通宣布旗下硬件支持 gpt-oss 系列开放模型

AMD与高通联合宣布支持OpenAI的gpt-oss系列模型,标志着边缘计算和AI结合的重要进展。锐龙AI Max+395处理器成为首款运行gpt-oss-120b的消费级AI PC处理器,而高通骁龙平台展示了gpt-oss-20b的出色推理能力。

【AiBase提要:】

🧠 AMD与高通宣布支持OpenAI的gpt-oss系列模型,推动边缘计算与AI结合。

🚀 锐龙AI Max+395处理器成为全球首款运行gpt-oss-120b的消费级AI PC处理器。

📱 高通骁龙平台展示gpt-oss-20b的优秀推理能力,开发者可轻松访问模型。

9、腾讯重磅开源WeKnora!解锁复杂文档智能解析,知识管理进入AI新时代

腾讯开源的WeKnora是一款基于大语言模型的文档理解与检索工具,能够处理多模态文档并提供高效的结构化内容提取和智能交互功能。其模块化设计和强大的语义处理能力为多个行业带来了技术革新。

image.png

【AiBase提要:】

🧠 WeKnora支持多模态文档解析,可从PDF、Word、图片等格式中提取结构化内容。

💬 基于大语言模型的智能交互功能,支持多轮对话和自然语言查询。

📦 模块化架构设计,便于灵活配置和扩展,适配不同行业需求。

详情链接:https://github.com/Tencent/WeKnora

11、重磅!OpenAI 旗舰模型 GPT-5详细信息疑似在 GitHub 上提前泄露

在全球科技界对 OpenAI 即将发布的 GPT- 5 翘首以盼之际,一份疑似该模型的详细说明信息在GitHub Models平台上意外曝光。

QQ20250807-135831.png

【AiBase提要:】

🚀 GPT-5被描述为OpenAI最先进的大语言模型,具有强大的推理能力和代码质量。

🧩 GPT-5将推出多个版本,以满足不同用户和场景的需求。

🌐 泄露信息的真实性引发广泛关注,开发者期待官方确认GPT-5的技术细节。

12、FlowSpeech:全球首个书面语转口语的 TTS

FlowSpeech是一款创新的AI文本转语音工具,能够将书面文字转化为自然流畅的口语表达。它通过上下文感知和多模态支持技术,解决了传统TTS工具在语调变化和情感表达上的不足,为用户提供更贴近真实对话的语音体验。

image.png

【AiBase提要:】

🌍 FlowSpeech专注于书面语向口语的转换,提升语音合成的自然性。

💡 智能内容筛选功能可自动识别并剪裁不适合朗读的内容,提高语音质量。

🚀 开发团队计划推出个性化声音定制服务,拓展应用边界。

详情链接:https://listenhub.ai/zh?tab=flowspeech

举报

  • 相关推荐
  • AI日报:阿里推全新图片模型Qwen-Image;小米全量开源MiDashengLM-7B;智谱Zread.ai搭载 GLM-4.5

    本文汇总了AI领域最新动态:1)阿里开源文生图模型Qwen-Image,中文文本渲染领先;2)ChatGPT周活用户达7亿,OpenAI年收入120亿美元;3)Anthropic测试Claude Opus 4.1,推理能力升级;4)智谱推出开发工具Zread.ai提升代码理解效率;5)xAI发布Grok Imagine4支持文生视频及NSFW内容;6)Character.AI推出首个AI原生社交功能;7)阿里与南开合作视频压缩技术LLaVA-Scissor;8)北京团队突破人形机器人3D视觉系统�

  • AI日报:火山引擎发布豆包3.0;通义开源Qwen3非思考模型;谷歌偷偷升级Imagen 4

    【AI日报】栏目聚焦人工智能领域最新动态:1)火山引擎发布豆包系列AI模型升级,包括图像编辑3.0、同声传译2.0等;2)通义千问开源Qwen3-30B模型,支持多语言处理;3)OpenAI推出ChatGPT Study学习助手;4)中国发布HYPIR图像复原大模型;5)谷歌NotebookLM新增视频概览功能;6)谷歌Imagen4图像生成模型升级,性能媲美GPT-4o;7)昆仑万维开源多模态模型Skywork UniPic;8)理想汽车发布首搭VLA大模型的i8纯电SUV;9)谷歌在英国推出AI搜索模式;10)OWL团队开源多智能体协作工具;11)2025年用户增速最快APP榜单显示DeepSeek等AIGC应用表现突出。

  • OpenAI发布2款开源模型:gpt-oss系列 能力接近o3和o4-mini

    OpenAI发布开源模型系列GPT-OSS,包含120B和20B两个版本。120B旗舰模型适配单H100 GPU架构,20B轻量版适合边缘计算。两款模型均开放完整推理链监控接口,支持动态参数调节和任务微调优化,性能接近闭源的GPT-O3和O4-mini。该系列突破性地支持代理功能,包括网页交互和Python代码执行,在标准化测试中表现优异。开源策略为开发者提供高性能替代方案,重新定义了AI模型的应用边界。

  • AI日报:混元推四款小尺寸开源模型;昆仑万维发布新推理大模型MindLink;谷歌Gemini 2.5 Deep Think发布

    【AI日报】汇总了最新AI领域动态:1)腾讯开源混元系列小尺寸模型,适用于消费级显卡;2)昆仑万维发布推理大模型MindLink,提升回答透明度;3)B站推出AI原声翻译功能,保留UP主音色;4)谷歌Gemini 2.5在数学奥赛夺金,展现强大推理能力;5)OpenAI展示GPT-5网络信息整合特性;6)苹果组建AI团队挑战ChatGPT;7)高德地图推出全球首个AI原生地图应用;8)Adobe推出AI图像合成工具Harmonize;9)NVIDIA发布革命性视频渲染技术;10)谷歌推出Android Studio免费AI编程助手;11)开源结构化信息提取工具LangExtract;12)Figma开发者模式升级提升设计转代码效率。

  • 大模型对比评测:Qwen2.5 VS Gemini 2.0谁更能打?

    本文对比分析了四款AI大模型:Gemini2.0Flash-Lite(Preview)、Gemini2.0Flash(Experimental)、Gemini2.0Pro Experimental(Feb25)和Qwen2.5Coder Instruct32B。Gemini2.0Flash-Lite适合高并发低延迟应用,Gemini2.0Flash擅长实时多模态推理,Gemini2.0Pro适合复杂编程任务,Qwen2.5Coder在代码任务上性价比突出。建议使用AIbase模型广场进行高效筛选,该平台覆盖上万款AI模型,提供性能、价格等多维度直观对比,支持按任务类型、语言等精准筛选,并持续更新最新模型。

  • AI 大模型选型指导:一文实测 Kimi‑K2‑Turbo‑Preview 与 Qwen3‑Coder‑Flash

    本文对比分析了Kimi-K2-Turbo-Preview和Qwen3-Coder-Flash两款AI大模型在开发者选型中的表现。K2-Turbo采用MoE架构,激活参数32B,支持128K上下文,在代码调试和自动化流程方面表现突出;Qwen3-Coder为480B参数的MoE模型,原生支持256K上下文,擅长大规模代码库理解和API集成。二者在中级任务表现接近,但K2在复杂可视化任务更优,Qwen3在多轮Agent调用更稳定。建议根据需求选择:注重调试自动化选K2,需要长上下文支持选Qwen3。推荐使用AIbase模型广场进行高效选型对比。

  • AI日报:智谱AI重磅发布GLM-4.5;阿里开源Wan2.2;阶跃星辰推全新模型Step3

    【AI日报】本期重点内容:1.智谱AI发布开源大模型GLM-4.5,在推理、编码和智能体能力方面达到SOTA水平;2.阿里开源视频生成模型Wan2.2,采用MoE架构提升计算效率;3.阶跃星辰推出AI研究助手"阶跃深研",支持金融医疗等专业领域研究;4.微软Edge浏览器新增Copilot模式,提供智能搜索体验;5.Anthropic对Claude用户实施使用限制引发争议;6.阶跃星辰发布321B参数大模型Step3;7.蚂�

  • AI日报:百度推全球首批AI数字员工;Claude Opus4.1出世;谷歌DeepMind发布世界模型Genie 3

    AI日报栏目聚焦人工智能领域最新动态:1)Claude Opus4.1发布,编程能力提升74.5%;2)OpenAI开源GPT-OSS-120B和20B模型;3)谷歌DeepMind推出革命性3D世界模型Genie3;4)谷歌Gemini新增AI故事书生成功能;5)ElevenLabs推出商用AI音乐生成器;6)百度智能云发布首批AI数字员工;7)OpenAI估值或达5000亿美元;8)00后创业者推出云端AI协作开发工具Vinsoo;9)腾讯启动2026校园招聘,重点培养AI人才;10)马斯克宣�

  • 正式上线升级版Qwen3模型!霍涛带领白山云持续赋能AI体验

    白山云在CEO霍涛带领下上线阿里千问Qwen3-235B大模型,该模型在指令遵循、逻辑推理、编程等能力显著提升,在多项评测中超越主流开源和闭源模型。基于全球边缘云架构优势,白山云提供低延迟、稳定的API服务,支持多语言长文本处理。平台已集成DeepSeek、通义千问等多款大模型,部分免费开放。霍涛表示,边缘计算正从"流量节点"向"智能计算单元"进化,白山云依托覆盖60多国的边缘网络,构建日均万亿Token级推理平台,通过"本地推理+云端协同"架构,已渗透工业质检、智能驾驶等20多个垂直场景。

  • AI日报:Kimi K2 高速版发布;美图WHEE上线视频超清功能;字节发布新模型Seed Diffusion Preview

    【AI日报】今日AI领域重要动态:1)美图WHEE推出"视频超清"功能,通过AI技术提升视频画质;2)Kimi K2高速版发布,输出速度提升至每秒40 Tokens;3)通义千问开源编程模型Qwen3-Coder-Flash,支持大规模上下文理解;4)Anthropic企业AI市场份额升至32%,超越OpenAI;5)字节跳动发布实验性扩散语言模型Seed Diffusion;6)马斯克将为Grok用户推出视频生成器Imagine和AI虚拟男友;7)Quora的Poe平台推出开发者API;8)Black Forest Labs开源图像生成模型FLUX.1-Krea;9)Augment推出CLI工具Auggie优化开发流程;10)清华开源AI语音模型MOSS-TTSD;11)Claude升级支持多格式文件上传。

今日大家都在搜的词:

热文

  • 3 天
  • 7天