首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:阿里通义千问登顶全球开源模型榜首;MiniMax推Speech-02语音模型;​ChatGPT付费用户激增至2000万

2025-04-02 15:27 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用

新鲜AI产品点击了解:https://top.aibase.com/

1、阿里通义千问 Qwen2.5-Omni 登顶全球开源模型榜单

Hugging Face发布了最新的大模型榜单,阿里巴巴的Qwen2.5-Omni凭借其卓越的性能和多模态能力,成功登顶,成为全球开源模型的领军者。此成就不仅展示了阿里在技术研发上的实力,也为AI技术的普及和应用创造了条件。

image.png

【AiBase提要:】

🏆 Qwen2.5-Omni成为全球开源模型榜单第一,展现强大性能和多模态能力。

🔍 DeepSeek-V3-0324和SpatialLM-Llama-1B紧随其后,为开发者提供更多选择。

🌐 阿里通义千问已开源200款模型,推动AI技术的普及和应用。

2、MiniMax Audio推Speech-02语音模型,一次性可以输入20万字符

MiniMax Audio最近推出了全新的Speech-02系列语音模型,支持超过30种语言,且一次性可输入多达20万字符。新模型不仅在语音合成的自然度上达到了99%的人声相似度,还解决了音频播放中的节奏故障问题,确保了流畅的听感。此外,新的“Read Anything”功能和“Long-Text Mode”使得用户可以更方便地获取和处理长文本内容,极大地提升了用户体验。

image.png

【AiBase提要:】

🎤 Speech-02系列支持30多种语言,语音相似度高达99%,提供自然流畅的音频体验。

📄 新增的“Read Anything”功能允许用户上传文件或粘贴URL,随时收听各类内容。

📝 “Long-Text Mode”支持一次性输入20万字符,便捷处理长文本,适合音频书籍和播客制作。

详情链接:https://www.minimax.io/audio

3、赚麻了!ChatGPT付费用户激增至2000万,年化营收增长30%

OpenAI的ChatGPT在短短三个月内付费用户数量突破2000万,年化营收增长近30%,显示出用户对这一人工智能工具的强烈需求。尽管付费用户比例略有下降,但每周活跃用户已达到5亿。为了支持日益增长的用户群体,OpenAI计划融资400亿美元,尽管公司仍处于亏损状态,预计距离盈利还有五年。【AiBase提要:】

🌟 ChatGPT的付费用户已突破2000万,年化营收增长30%。

💰 OpenAI计划融资400亿美元,仍在追求盈利之路。

🚀 竞争对手Gemini、Claude和Grok正在迅速增长,市场竞争日益加剧。

4、ElevenLabs发布全球首款犬类AI文本转语音模型“Text To Bark”

ElevenLabs推出了全球首款专为犬类设计的AI文本转语音模型“Text To Bark”,该技术能够将人类输入的文字转化为高度逼真的狗吠声,声称95%的狗无法分辨声音的来源。这一创新为人类与宠物之间的沟通提供了新的可能性,尽管狗可能仍无法理解具体意图。

【AiBase提要:】

🐕‍🦺“Text To Bark”模型可将文字转化为狗吠声,声称95%的狗无法分辨其真实性。

🎤 用户可选择犬种并调整吠声的语气和节奏,适应不同场景需求。

🌐 ElevenLabs计划将该技术扩展至其他动物,探索多模态交互系统。

详情链接:https://top.aibase.com/tool/text-to-bark

5、还在为处理多图发愁?腾讯元宝更新,多图上传+智能处理一键搞定

腾讯元宝最近进行了重大的功能升级,特别是在图像识别方面的能力得到了显著增强。用户现在可以一次性上传多达10张图片,无论是使用混元还是DeepSeek模型,均可实现连贯的识图与理解。这一功能在实际应用中展现出极高的实用性,能够帮助用户快速提炼信息、生成文案,甚至将草图转化为网页demo。

image.png

【AiBase提要:】

📸 支持一次性上传10张图片,提升图像识别效率。

📝 结合混元多模态理解能力,提供连贯的内容分析与文案生成。

💻 多平台全面支持,包括手机版、电脑版和网页版,操作便捷。

6、EasyControl_Ghibli模型上线:免费解锁吉卜力风格图像生成

EasyControl_Ghibli模型的上线为用户提供了一个免费的工具,可以轻松生成吉卜力风格的图像。它突破了传统AI图像生成的限制,让普通用户也能参与到艺术创作中,体验到科技带来的乐趣与温暖。尽管模型仍有成长空间,但其开源特性和易用性为教育、娱乐和个人表达开辟了新的可能性,展现了AI技术的潜力与魅力。

【AiBase提要:】

🌟 EasyControl_Ghibli模型在Hugging Face平台上线,用户可免费生成吉卜力风格图像。

🖼️ 该模型基于100张真实亚洲面孔的照片训练,能够捕捉吉卜力作品的光影与情感。

🚀 模型的开源特性和易用性使得普通用户能够轻松参与艺术创作,拉近人与人之间的距离。

详情链接:https://top.aibase.com/tool/easycontrol-ghibli

7、飞桨3.0正式发布,支持文心4.5等大模型,跨芯片适配成本降80

百度旗下的深度学习平台飞桨最近推出了其新一代框架3.0,标志着深度学习领域的一次重要技术革新。该框架通过引入五大核心技术创新,如动静统一自动并行,显著降低了大模型的开发和训练成本,并提升了性能和适配性。飞桨3.0支持多款主流大模型,并实现了跨芯片的无缝迁移,硬件适配成本降低了80%。

【AiBase提要:】

⚙️ 飞桨框架3.0引入五大核心技术创新,降低大模型开发和训练成本。

📈 通过优化的DeepSeek-R1单机部署,吞吐量提升高达一倍。

💻 支持60余款主流芯片,实现跨芯片无缝迁移,适配成本降80%。

8、Krea整合Gemini文字生图与图像编辑功能:Chat界面迎来实用性飞跃

Krea最近与Google Gemini的深度整合,成功引入文字生成图像和图像编辑功能,极大提升了平台的生成能力和用户体验。这一更新使Krea Chat界面从简单的对话工具转变为一个综合创作平台,能够快速生成和编辑视觉内容,降低了创作门槛。

【AiBase提要:】

🖼️ Krea与Google Gemini整合,推出文字生成图像及图像编辑功能,提升用户体验。

💡 用户可通过自然语言描述快速生成和编辑图像,降低创作门槛。

🚀 此次更新有望缩短创意产业从概念到成品的周期,推动团队创作效率。

9、腾讯发布GeometryCrafter:用AI解锁开放世界视频的几何一致性之美

腾讯近期推出的GeometryCrafter模型在开放世界视频的几何估计方面取得了重大突破,利用扩散先验技术,成功实现了动态视频内容的深度理解和处理。该模型能够在无需额外信息的情况下,提取并生成一致的几何信息,填补了该领域的空白。

image.png

【AiBase提要:】

🌐 GeometryCrafter通过扩散先验技术实现开放世界视频的一致性几何估计,提升了视频内容的深度理解能力。

🔍 该模型能够在无需相机位姿或光流数据的情况下,生成细腻且连贯的深度序列和几何结构,填补了行业空白。

💡 腾讯选择在Hugging Face上开源模型代码,推动AI技术的普惠化,让更多创作者参与到技术探索中。

详情链接:https://huggingface.co/papers/2504.01016

10、Meta推AI系统MoCha:文字秒变生动动画角色,口型动作自然流畅

Meta与滑铁卢大学的研究团队联合推出的MoCha AI系统,通过文本描述生成全身动画角色,具有同步语音和自然动作的能力。这一技术的推出标志着内容创作的效率和表现力将得到显著提升,尤其是在数字助理、虚拟化身等领域展现出广泛的应用潜力。

【AiBase提要:】

🎭 MoCha系统能够根据文本生成全身动画角色,具备自然动作和同步语音的能力。

🗣️ 通过创新的“语音-视频窗口注意力”机制,MoCha实现了更精确的唇部同步,解决了音频与视频生成中的挑战。

👥 多角色管理系统简洁高效,用户只需定义一次角色信息,即可在不同场景中引用,提升了创作便捷性。

详情链接:https://top.aibase.com/tool/mocha

11、GPT-4.5首度以“人格扮演”通过图灵测试:AI对话能力迈向新高度

加州大学圣地亚哥分校的研究显示,OpenAI的GPT-4.5在图灵测试中首次以“人格扮演”方式超越人类表现,成为最具类人对话能力的AI系统。该模型在语言自然度和情感表达上表现出色,能够灵活应对裁判的情感变化,展现出类人社交智能。这一突破不仅推动了AI技术的发展,也引发了对AI智能标准的深刻讨论。

【AiBase提要:】

🤖 GPT-4.5在标准图灵测试中以73%的通过率超越人类表现,成为首个真正“通过”的AI模型。

💬 该模型展现出惊人的语言自然度和情感丰富性,能够根据裁判的语气灵活调整回答。

🧠 GPT-4.5的成功源于其复杂的人格扮演机制和对话策略,推动了AI技术的应用潜力。

详情链接:https://arxiv.org/pdf/2503.23674

12、OpenAI 悄悄上线 OpenAI 学院,免费提供 AI 教育资源

OpenAI 最近推出了全新的教育平台——OpenAI 学院,旨在为全球用户提供免费且高质量的人工智能学习资源。该平台涵盖从基础知识到高级技能的多种课程,适合自学者、教育工作者和开发人员。尽管没有进行大规模宣传,这一举措被认为是OpenAI在推动AI教育普及方面的重要一步,受到业内人士的广泛欢迎。

image.png

【AiBase提要:】

📚 OpenAI 学院提供数十小时的免费学习材料,涵盖人工智能的基础知识与高级技能。

💻 该平台面向自学者、教育工作者和开发人员开放,课程形式灵活多样,包括线上和线下活动。

🌍 OpenAI 学院的推出标志着公司在教育和知识传播领域的积极角色,旨在降低AI学习的门槛。

详情链接:https://academy.openai.com/?continueFlag=bc9fbeae4c35e24ba47bde4cf390e735

举报

  • 相关推荐
  • 海尔冰箱唯一获批“制冷家电人工智能技术山东省工程研究中心”

    海尔冰箱在人工智能领域取得新突破,主导建设的"制冷家电人工智能技术山东省工程研究中心"成为2025年山东省工程研究中心认定名单中唯一入选的冰箱品牌。该中心聚焦人工智能、物联网、大数据等技术方向,开发了全空间智慧保鲜舱冰箱等140多项行业首创产品,近三年获授权发明专利803件。海尔冰箱还推出行业首款接入DeepSeek的AI全空间保鲜冰箱,具备方言识别、降噪技术等功能,显著提升用户体验。市场数据显示,2023年1-7月海尔冰箱以47%市场份额稳居行业第一。通过AI技术赋能,海尔冰箱正引领行业向精准、智能保鲜时代跨越。

  • 下一个爆款在哪儿?2025英特尔人工智能创新应用大赛获奖名单揭晓

    8月16日,2025英特尔人工智能创新应用大赛总决赛在深圳落幕。40支优秀团队从2817支队伍中脱颖而出,围绕工业、教育、心理健康、游戏等领域展开对决。大赛展示了AI从云端走向边缘的趋势,依托酷睿Ultra处理器和低代码开发工具,推动AI应用本地化落地。获奖作品包括动力电池机器人协作拆卸系统和AI生成PPT服务,体现AI与产业需求的深度融合。英特尔与联想、惠普等合作伙伴共同为开发者提供全栈支持,加速AI技术普及和商业化进程。

  • ISC.AI 2025 人工智能安全治理与创新实践论坛圆满召开

    ISC.AI2025人工智能安全论坛在北京召开,聚焦AI安全治理与创新实践。论坛汇集顶尖专家,探讨大模型安全评估与防护、智能体安全、AI治理等前沿议题。360集团张向征指出,随着Agent技术爆发式应用,AI安全已成为产业核心焦点。专家们强调需构建AI安全防护体系,应对大模型直接访问核心系统带来的全新挑战。中国电子院彭健提出企业合规建设需关注九大要素,清华大学苏航揭示智能体安全风险远超传统AI。华为云范建军倡导端到端大模型安全防护,中国信通院杨哲超呼吁构建协同治理框架。论坛为构建安全、普惠、负责任的人工智能未来贡献智慧。

  • OpenAI的开源模型现已在IBM watsonx.ai上提供

    OpenAI发布两款开源AI模型GPT-OSS-120B和GPT-OSS-20B,允许开发者自由下载、运行和定制。其中120B模型已部署在IBM Watsonx.ai平台,采用专家混合架构,支持本地或云端部署,不受商业用途限制。模型具备高透明度,输出完整推理链,在多项基准测试中表现优异。此次发布标志着OpenAI首次加入开源生态,IBM强调其开放战略,为企业提供灵活、安全的AI开发选择。

  • AI日报:阿里开源Qwen-Image-Edit;淘宝“AI万能搜”功能灰度测试;小红书发布DynamicFace人脸生成技术

    本期AI日报聚焦多项AI领域创新:1)阿里开源Qwen-Image-Edit图像编辑模型,支持中文渲染与精准文本编辑;2)淘宝测试"AI万能搜"功能,重构电商搜索体验;3)小红书发布DynamicFace人脸生成技术,实现高质量图像视频换脸;4)Gemini API新增URL Context功能,简化网页内容获取流程;5)Nvidia推出小型开放模型Nemotron-Nano-9B-v2,支持智能推理开关;6)马斯克发布Grok Imagine 0.1测试版,进军AI图像生成领域;7)Vercel推出iOS版AI开发工具v0;8)理想汽车发布MindGPT 3.1模型,处理速度提升5倍;9)ToonComposer工具简化动画制作流程;10)ElevenLabs推出视频到音乐生成流程。

  • Razer(雷蛇)在新加坡设立AI CENTER OF EXCELLENCE,加速人工智能投资布局

    雷蛇宣布在新加坡设立全球AI卓越中心,并计划在欧洲和美国建立类似机构,推动游戏与开发者工具领域的创新。新加坡中心将招聘150名AI工程师,专注于下一代AI游戏技术研发。雷蛇还推出AI工具套件,包括Game Co-AI和QA Co-AI,帮助开发者提升游戏质量和开发效率。该战略布局正值全球游戏市场快速增长期,预计2033年AI游戏市场规模将达280亿美元。新加坡数字产业发展局表示,此举将巩固该国作为区域AI创新中心的地位。

  • 2025年大模型选型核心指南:Beyond GPT-4,如何理性评估Qwen、DeepSeek等强者?

    大模型选择能力已成为AI时代企业核心竞争力。文章提出“能力-成本-场景”三维评估框架,强调需超越单一指标崇拜,基于客观数据和实际需求进行理性选择。通过Qwen2-Plus与DeepSeek-V3的对比分析,展示不同模型在特定场景下的差异化优势。建议企业建立科学选型流程,采用专业工具进行多维度评估,通过三阶段验证策略确保决策既数据驱动又经实践检验。最终目标是选择最适合业务场景的模型,而非盲目追求流行模型。

  • AI日报:阿里新发布Qwen3-4B模型;小红书发布开源模型dots.vlm1;MiniMax Speech 2.5语音生成模型上线

    AI日报栏目聚焦人工智能领域最新动态:1)阿里发布Qwen3-4B轻量级模型,手机端可运行;2)小红书开源多模态大模型dots.vlm1,在图表推理方面表现突出;3)MiniMax推出语音生成模型Speech2.5,多语种表现提升;4)Midjourney推出HD视频模式,提升专业影像质量;5)Cursor1.4版本增强异步任务处理能力;6)谷歌否认AI搜索影响网站流量,但数据显示用户行为改变;7)MiniCPM-V4.0开源发布,号称"手机上的GPT-4V";8)AMD与高通宣布支持OpenAI的gpt-oss系列模型;9)腾讯开源WeKnora文档智能解析工具;11)疑似GPT-5信息在GitHub泄露;12)FlowSpeech实现书面语转口语的TTS技术突破。

  • AI日报:智谱视觉推理模型GLM-4.5V开源;达摩院开源三项具身智能核心技术;360智脑推出Light-IF系列模型

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、智谱GLM-4.5V开源发布:全球100B级最佳视觉推理模型智谱宣布推出并开源了全球100B级效果最佳的开源视觉推理模型GLM-4.5V,这是该公司在通向通用人工智能(AGI)道路上的又一重要探

  • AI日报:阿里推全新图片模型Qwen-Image;小米全量开源MiDashengLM-7B;智谱Zread.ai搭载 GLM-4.5

    本文汇总了AI领域最新动态:1)阿里开源文生图模型Qwen-Image,中文文本渲染领先;2)ChatGPT周活用户达7亿,OpenAI年收入120亿美元;3)Anthropic测试Claude Opus 4.1,推理能力升级;4)智谱推出开发工具Zread.ai提升代码理解效率;5)xAI发布Grok Imagine4支持文生视频及NSFW内容;6)Character.AI推出首个AI原生社交功能;7)阿里与南开合作视频压缩技术LLaVA-Scissor;8)北京团队突破人形机器人3D视觉系统�

今日大家都在搜的词: