AI日报：阿里通义千问登顶全球开源模型榜首；MiniMax推Speech-02语音模型；ChatGPT付费用户激增至2000万

2025-04-02 15:27 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

Hugging Face发布了最新的大模型榜单，阿里巴巴的Qwen2.5-Omni凭借其卓越的性能和多模态能力，成功登顶，成为全球开源模型的领军者。此成就不仅展示了阿里在技术研发上的实力，也为AI技术的普及和应用创造了条件。

【AiBase提要:】
🏆 Qwen2.5-Omni成为全球开源模型榜单第一，展现强大性能和多模态能力。
🔍 DeepSeek-V3-0324和SpatialLM-Llama-1B紧随其后，为开发者提供更多选择。
🌐 阿里通义千问已开源200款模型，推动AI技术的普及和应用。

2、MiniMax Audio推Speech-02语音模型，一次性可以输入20万字符

MiniMax Audio最近推出了全新的Speech-02系列语音模型，支持超过30种语言，且一次性可输入多达20万字符。新模型不仅在语音合成的自然度上达到了99%的人声相似度，还解决了音频播放中的节奏故障问题，确保了流畅的听感。此外，新的“Read Anything”功能和“Long-Text Mode”使得用户可以更方便地获取和处理长文本内容，极大地提升了用户体验。

【AiBase提要:】
🎤 Speech-02系列支持30多种语言，语音相似度高达99%，提供自然流畅的音频体验。
📄 新增的“Read Anything”功能允许用户上传文件或粘贴URL，随时收听各类内容。
📝 “Long-Text Mode”支持一次性输入20万字符，便捷处理长文本，适合音频书籍和播客制作。
详情链接:https://www.minimax.io/audio

3、赚麻了!ChatGPT付费用户激增至2000万，年化营收增长30%

OpenAI的ChatGPT在短短三个月内付费用户数量突破2000万，年化营收增长近30%，显示出用户对这一人工智能工具的强烈需求。尽管付费用户比例略有下降，但每周活跃用户已达到5亿。为了支持日益增长的用户群体，OpenAI计划融资400亿美元，尽管公司仍处于亏损状态，预计距离盈利还有五年。【AiBase提要:】

🌟 ChatGPT的付费用户已突破2000万，年化营收增长30%。
💰 OpenAI计划融资400亿美元，仍在追求盈利之路。
🚀 竞争对手Gemini、Claude和Grok正在迅速增长，市场竞争日益加剧。

4、ElevenLabs发布全球首款犬类AI文本转语音模型“Text To Bark”

ElevenLabs推出了全球首款专为犬类设计的AI文本转语音模型“Text To Bark”，该技术能够将人类输入的文字转化为高度逼真的狗吠声，声称95%的狗无法分辨声音的来源。这一创新为人类与宠物之间的沟通提供了新的可能性，尽管狗可能仍无法理解具体意图。

【AiBase提要:】
🐕‍🦺“Text To Bark”模型可将文字转化为狗吠声，声称95%的狗无法分辨其真实性。
🎤 用户可选择犬种并调整吠声的语气和节奏，适应不同场景需求。
🌐 ElevenLabs计划将该技术扩展至其他动物，探索多模态交互系统。
详情链接:https://top.aibase.com/tool/text-to-bark

5、还在为处理多图发愁?腾讯元宝更新，多图上传+智能处理一键搞定

腾讯元宝最近进行了重大的功能升级，特别是在图像识别方面的能力得到了显著增强。用户现在可以一次性上传多达10张图片，无论是使用混元还是DeepSeek模型，均可实现连贯的识图与理解。这一功能在实际应用中展现出极高的实用性，能够帮助用户快速提炼信息、生成文案，甚至将草图转化为网页demo。

【AiBase提要:】
📸 支持一次性上传10张图片，提升图像识别效率。
📝 结合混元多模态理解能力，提供连贯的内容分析与文案生成。
💻 多平台全面支持，包括手机版、电脑版和网页版，操作便捷。

6、EasyControl_Ghibli模型上线:免费解锁吉卜力风格图像生成

EasyControl_Ghibli模型的上线为用户提供了一个免费的工具，可以轻松生成吉卜力风格的图像。它突破了传统AI图像生成的限制，让普通用户也能参与到艺术创作中，体验到科技带来的乐趣与温暖。尽管模型仍有成长空间，但其开源特性和易用性为教育、娱乐和个人表达开辟了新的可能性，展现了AI技术的潜力与魅力。

【AiBase提要:】
🌟 EasyControl_Ghibli模型在Hugging Face平台上线，用户可免费生成吉卜力风格图像。
🖼️ 该模型基于100张真实亚洲面孔的照片训练，能够捕捉吉卜力作品的光影与情感。
🚀 模型的开源特性和易用性使得普通用户能够轻松参与艺术创作，拉近人与人之间的距离。
详情链接:https://top.aibase.com/tool/easycontrol-ghibli

7、飞桨3.0正式发布，支持文心4.5等大模型，跨芯片适配成本降80

百度旗下的深度学习平台飞桨最近推出了其新一代框架3.0，标志着深度学习领域的一次重要技术革新。该框架通过引入五大核心技术创新，如动静统一自动并行，显著降低了大模型的开发和训练成本，并提升了性能和适配性。飞桨3.0支持多款主流大模型，并实现了跨芯片的无缝迁移，硬件适配成本降低了80%。

【AiBase提要:】
⚙️ 飞桨框架3.0引入五大核心技术创新，降低大模型开发和训练成本。
📈 通过优化的DeepSeek-R1单机部署，吞吐量提升高达一倍。
💻 支持60余款主流芯片，实现跨芯片无缝迁移，适配成本降80%。

8、Krea整合Gemini文字生图与图像编辑功能:Chat界面迎来实用性飞跃

Krea最近与Google Gemini的深度整合，成功引入文字生成图像和图像编辑功能，极大提升了平台的生成能力和用户体验。这一更新使Krea Chat界面从简单的对话工具转变为一个综合创作平台，能够快速生成和编辑视觉内容，降低了创作门槛。

【AiBase提要:】
🖼️ Krea与Google Gemini整合，推出文字生成图像及图像编辑功能，提升用户体验。
💡 用户可通过自然语言描述快速生成和编辑图像，降低创作门槛。
🚀 此次更新有望缩短创意产业从概念到成品的周期，推动团队创作效率。

9、腾讯发布GeometryCrafter:用AI解锁开放世界视频的几何一致性之美

腾讯近期推出的GeometryCrafter模型在开放世界视频的几何估计方面取得了重大突破，利用扩散先验技术，成功实现了动态视频内容的深度理解和处理。该模型能够在无需额外信息的情况下，提取并生成一致的几何信息，填补了该领域的空白。

【AiBase提要:】
🌐 GeometryCrafter通过扩散先验技术实现开放世界视频的一致性几何估计，提升了视频内容的深度理解能力。
🔍 该模型能够在无需相机位姿或光流数据的情况下，生成细腻且连贯的深度序列和几何结构，填补了行业空白。
💡 腾讯选择在Hugging Face上开源模型代码，推动AI技术的普惠化，让更多创作者参与到技术探索中。
详情链接:https://huggingface.co/papers/2504.01016

10、Meta推AI系统MoCha:文字秒变生动动画角色，口型动作自然流畅

Meta与滑铁卢大学的研究团队联合推出的MoCha AI系统，通过文本描述生成全身动画角色，具有同步语音和自然动作的能力。这一技术的推出标志着内容创作的效率和表现力将得到显著提升，尤其是在数字助理、虚拟化身等领域展现出广泛的应用潜力。

【AiBase提要:】
🎭 MoCha系统能够根据文本生成全身动画角色，具备自然动作和同步语音的能力。
🗣️ 通过创新的“语音-视频窗口注意力”机制，MoCha实现了更精确的唇部同步，解决了音频与视频生成中的挑战。
👥 多角色管理系统简洁高效，用户只需定义一次角色信息，即可在不同场景中引用，提升了创作便捷性。
详情链接:https://top.aibase.com/tool/mocha

11、GPT-4.5首度以“人格扮演”通过图灵测试:AI对话能力迈向新高度

加州大学圣地亚哥分校的研究显示，OpenAI的GPT-4.5在图灵测试中首次以“人格扮演”方式超越人类表现，成为最具类人对话能力的AI系统。该模型在语言自然度和情感表达上表现出色，能够灵活应对裁判的情感变化，展现出类人社交智能。这一突破不仅推动了AI技术的发展，也引发了对AI智能标准的深刻讨论。

【AiBase提要:】
🤖 GPT-4.5在标准图灵测试中以73%的通过率超越人类表现，成为首个真正“通过”的AI模型。
💬 该模型展现出惊人的语言自然度和情感丰富性，能够根据裁判的语气灵活调整回答。
🧠 GPT-4.5的成功源于其复杂的人格扮演机制和对话策略，推动了AI技术的应用潜力。
详情链接:https://arxiv.org/pdf/2503.23674

12、OpenAI 悄悄上线 OpenAI 学院，免费提供 AI 教育资源

OpenAI 最近推出了全新的教育平台——OpenAI 学院，旨在为全球用户提供免费且高质量的人工智能学习资源。该平台涵盖从基础知识到高级技能的多种课程，适合自学者、教育工作者和开发人员。尽管没有进行大规模宣传，这一举措被认为是OpenAI在推动AI教育普及方面的重要一步，受到业内人士的广泛欢迎。

【AiBase提要:】
📚 OpenAI 学院提供数十小时的免费学习材料，涵盖人工智能的基础知识与高级技能。
💻 该平台面向自学者、教育工作者和开发人员开放，课程形式灵活多样，包括线上和线下活动。
🌍 OpenAI 学院的推出标志着公司在教育和知识传播领域的积极角色，旨在降低AI学习的门槛。
详情链接:https://academy.openai.com/?continueFlag=bc9fbeae4c35e24ba47bde4cf390e735

（举报）

相关推荐

关键词：

海尔冰箱唯一获批“制冷家电人工智能技术山东省工程研究中心”

海尔冰箱在人工智能领域取得新突破，主导建设的"制冷家电人工智能技术山东省工程研究中心"成为2025年山东省工程研究中心认定名单中唯一入选的冰箱品牌。该中心聚焦人工智能、物联网、大数据等技术方向，开发了全空间智慧保鲜舱冰箱等140多项行业首创产品，近三年获授权发明专利803件。海尔冰箱还推出行业首款接入DeepSeek的AI全空间保鲜冰箱，具备方言识别、降噪技术等功能，显著提升用户体验。市场数据显示，2023年1-7月海尔冰箱以47%市场份额稳居行业第一。通过AI技术赋能，海尔冰箱正引领行业向精准、智能保鲜时代跨越。

人工智能海尔冰箱科技创新
下一个爆款在哪儿？2025英特尔人工智能创新应用大赛获奖名单揭晓

8月16日，2025英特尔人工智能创新应用大赛总决赛在深圳落幕。40支优秀团队从2817支队伍中脱颖而出，围绕工业、教育、心理健康、游戏等领域展开对决。大赛展示了AI从云端走向边缘的趋势，依托酷睿Ultra处理器和低代码开发工具，推动AI应用本地化落地。获奖作品包括动力电池机器人协作拆卸系统和AI生成PPT服务，体现AI与产业需求的深度融合。英特尔与联想、惠普等合作伙伴共同为开发者提供全栈支持，加速AI技术普及和商业化进程。

人工智能创新应用大赛
ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

ISC.AI2025人工智能安全论坛在北京召开，聚焦AI安全治理与创新实践。论坛汇集顶尖专家，探讨大模型安全评估与防护、智能体安全、AI治理等前沿议题。360集团张向征指出，随着Agent技术爆发式应用，AI安全已成为产业核心焦点。专家们强调需构建AI安全防护体系，应对大模型直接访问核心系统带来的全新挑战。中国电子院彭健提出企业合规建设需关注九大要素，清华大学苏航揭示智能体安全风险远超传统AI。华为云范建军倡导端到端大模型安全防护，中国信通院杨哲超呼吁构建协同治理框架。论坛为构建安全、普惠、负责任的人工智能未来贡献智慧。

人工智能安全大模型安全 AI治理
OpenAI的开源模型现已在IBM watsonx.ai上提供

OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B，允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台，采用专家混合架构，支持本地或云端部署，不受商业用途限制。模型具备高透明度，输出完整推理链，在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态，IBM强调其开放战略，为企业提供灵活、安全的AI开发选择。

OpenAI模型 IBM watsonx.ai
荐AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测试；小红书发布DynamicFace人脸生成技术

本期AI日报聚焦多项AI领域创新：1）阿里开源Qwen-Image-Edit图像编辑模型，支持中文渲染与精准文本编辑；2）淘宝测试"AI万能搜"功能，重构电商搜索体验；3）小红书发布DynamicFace人脸生成技术，实现高质量图像视频换脸；4）Gemini API新增URL Context功能，简化网页内容获取流程；5）Nvidia推出小型开放模型Nemotron-Nano-9B-v2，支持智能推理开关；6）马斯克发布Grok Imagine 0.1测试版，进军AI图像生成领域；7）Vercel推出iOS版AI开发工具v0；8）理想汽车发布MindGPT 3.1模型，处理速度提升5倍；9）ToonComposer工具简化动画制作流程；10）ElevenLabs推出视频到音乐生成流程。

AI 开源图像编辑
Razer（雷蛇）在新加坡设立AI CENTER OF EXCELLENCE，加速人工智能投资布局

雷蛇宣布在新加坡设立全球AI卓越中心，并计划在欧洲和美国建立类似机构，推动游戏与开发者工具领域的创新。新加坡中心将招聘150名AI工程师，专注于下一代AI游戏技术研发。雷蛇还推出AI工具套件，包括Game Co-AI和QA Co-AI，帮助开发者提升游戏质量和开发效率。该战略布局正值全球游戏市场快速增长期，预计2033年AI游戏市场规模将达280亿美元。新加坡数字产业发展局表示，此举将巩固该国作为区域AI创新中心的地位。

雷蛇人工智能游戏创新
2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架，强调需超越单一指标崇拜，基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析，展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程，采用专业工具进行多维度评估，通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型，而非盲目追求流行模型。
荐AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

AI日报栏目聚焦人工智能领域最新动态：1)阿里发布Qwen3-4B轻量级模型，手机端可运行；2)小红书开源多模态大模型dots.vlm1，在图表推理方面表现突出；3)MiniMax推出语音生成模型Speech2.5，多语种表现提升；4)Midjourney推出HD视频模式，提升专业影像质量；5)Cursor1.4版本增强异步任务处理能力；6)谷歌否认AI搜索影响网站流量，但数据显示用户行为改变；7)MiniCPM-V4.0开源发布，号称"手机上的GPT-4V"；8)AMD与高通宣布支持OpenAI的gpt-oss系列模型；9)腾讯开源WeKnora文档智能解析工具；11)疑似GPT-5信息在GitHub泄露；12)FlowSpeech实现书面语转口语的TTS技术突破。

AI模型移动端AI 阿里通义千问
荐AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术；360智脑推出Light-IF系列模型

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V，这是该公司在通向通用人工智能（AGI）道路上的又一重要探
荐AI日报：阿里推全新图片模型Qwen-Image；小米全量开源MiDashengLM-7B；智谱Zread.ai搭载 GLM-4.5

本文汇总了AI领域最新动态：1)阿里开源文生图模型Qwen-Image，中文文本渲染领先；2)ChatGPT周活用户达7亿，OpenAI年收入120亿美元；3)Anthropic测试Claude Opus 4.1，推理能力升级；4)智谱推出开发工具Zread.ai提升代码理解效率；5)xAI发布Grok Imagine4支持文生视频及NSFW内容；6)Character.AI推出首个AI原生社交功能；7)阿里与南开合作视频压缩技术LLaVA-Scissor；8)北京团队突破人形机器人3D视觉系统�

人工智能文生图模型阿里通义千问

今日大家都在搜的词：

热文

3 天
7天

AI日报：阿里通义千问登顶全球开源模型榜首；MiniMax推Speech-02语音模型；ChatGPT付费用户激增至2000万

海尔冰箱唯一获批“制冷家电人工智能技术山东省工程研究中心”

下一个爆款在哪儿？2025英特尔人工智能创新应用大赛获奖名单揭晓

ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

OpenAI的开源模型现已在IBM watsonx.ai上提供

荐AI日报：阿里开源Qwen-Image-Edit；淘宝“AI万能搜”功能灰度测试；小红书发布DynamicFace人脸生成技术

Razer（雷蛇）在新加坡设立AI CENTER OF EXCELLENCE，加速人工智能投资布局

2025年大模型选型核心指南：Beyond GPT-4，如何理性评估Qwen、DeepSeek等强者？

荐AI日报：阿里新发布Qwen3-4B模型；小红书发布开源模型dots.vlm1；MiniMax Speech 2.5语音生成模型上线

荐AI日报：智谱视觉推理模型GLM-4.5V开源；达摩院开源三项具身智能核心技术；360智脑推出Light-IF系列模型

荐AI日报：阿里推全新图片模型Qwen-Image；小米全量开源MiDashengLM-7B；智谱Zread.ai搭载 GLM-4.5

今日大家都在搜的词：

热文

华为首款鸿蒙MateTV发布支持灵犀触控交互等功能

罗永浩官宣明日将公布TBT项目号称九年磨一面

《黑神话:钟馗》先导预告公布游戏科学宣布《黑神话:钟馗》官网

REDMI Note 15 Pro+首搭自研澎湃T1S芯片

AI日报：DeepSeek V3.1正式发布；企业微信5.0推出全新AI能力；

罗永浩泡面1小时销售额超280万 2小时售罄：一桶近10元

黑神话官号更名系列游戏将开启宏大篇章

AI日报：智谱AI发布AutoGLM 2.0；腾讯元宝接入腾讯视频；字节发

华为nova 14系列宣布限时降价至高优惠500元

AI日报：即梦上线智能多帧功能；可灵2.1首尾帧升级；钉钉推语音

站长商机

AI日报：阿里通义千问登顶全球开源模型榜首；MiniMax推Speech-02语音模型；​ChatGPT付费用户激增至2000万

今日大家都在搜的词：

热文

站长商机

AI日报：阿里通义千问登顶全球开源模型榜首；MiniMax推Speech-02语音模型；ChatGPT付费用户激增至2000万