AI日报：苹果AI国行版或随iOS 18.6月底上线；Suno v4.5正式上线；Runway发布图像一致性参考功能

2025-05-06 15:33 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2，语音转录能力再提升

英伟达推出的Parakeet-TDT-0.6B-V2模型在自动语音识别领域取得了显著进展。该模型结合开源理念与商业应用，提升了转录效率，能够在一秒内完成60分钟音频的转录，且其词错误率接近市场领先水平。通过支持多种开发环境及优化多款GPU硬件，该模型为开发者提供了强大的工具，助力多样化的语音应用场景。

【AiBase提要:】
⚡ 超强转录能力:该模型能在一秒内完成60分钟音频的转录，显著提高语音处理速度。
📊 技术参数:拥有6亿个参数，结合FastConformer编码器和TDT解码器，词错误率仅为6.05%。
🌍 广泛应用场景:支持多种应用，包括转录服务、语音助手等，兼容Python和PyTorch等开发环境。
详情链接:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

2、Suno v4.5正式上线，仅限付费用户使用，生成歌曲延长至8分钟

Suno音乐生成平台推出了其最新模型v4.5，专为Pro和Premier付费用户设计，显著提升了音质、风格多样性和用户体验。新版本支持更广泛的音乐风格，增强了声线表现和音效层次，同时延长了歌曲生成时长至8分钟。尽管部分用户对付费限制表示遗憾，但也有人认为这一创新值得订阅。

【AiBase提要:】
🎵 v4.5支持更广泛的音乐风格，具备智能混搭能力，提升创作自由度。
🎤 声线表现更为饱满，情感表达精准，音域和情感深度显著提升。
⏳ 歌曲生成时长从4分钟扩展至8分钟，用户可创作更长的音乐作品。

3、Runway发布图像一致性参考功能 Gen-4References 支持提取人物、场景或风格特征及多图混合

Runway最近推出的Gen-4References功能为其AI视频生成模型增添了图像一致性参考能力，使创作者能够通过上传参考图像来提取人物、场景或风格特征，从而在生成内容中保持高度一致性。这一功能支持多张图像的混合生成，为视频创作提供了更大的控制力与创意自由，极大地简化了设计流程，推动了AI在影视制作领域的应用。

【AiBase提要:】
🖼️ Gen-4References允许用户上传多张参考图像，确保生成内容在不同场景中的一致性。
🎨 该功能支持从电影制作到广告设计等多种创作场景，提升了视觉连贯性。
🚀 Runway计划进一步增强该功能，推动AI视频生成技术的成熟与应用。

4、Midjourney V7推出全新功能 “Omni-Reference”，让图像生成更灵活

Midjourney最近推出的“Omni-Reference”功能为图像生成带来了革命性的变化。它允许用户对图像元素进行精确控制，支持多种对象生成和灵活的权重调整，从而提升创作的自由度和一致性。此功能不仅适用于艺术创作，还能在游戏开发、广告设计等多个领域发挥重要作用，展示出广泛的应用潜力。

【AiBase提要:】
🎨 Omni-Reference功能提供精准的图像元素控制，用户可上传参考图像以生成高度匹配的结果。
🧩 支持多种对象生成，用户可以在单张图像中包含多个对象，适合复杂场景的创作。
⚙️ 通过动态权重调整，用户可控制参考图像的影响强度，确保细节的一致性与风格的灵活性。

5、Claude AI将升级:网页版酝酿支持MCP定制链接

近日，科技媒体TestingCatalog报道，Anthropic旗下的Claude网页应用将通过引入Model Context Protocol（MCP）进行重大升级。这一新协议旨在打破Claude在谷歌服务方面的限制，预计将为用户提供更灵活的使用体验。MCP作为一种开放标准，将简化大型语言模型与外部数据源和工具之间的通信，提升AI助手的集成能力。

【AiBase提要:】
🌟 预计Claude AI将通过MCP标准实现更灵活的第三方服务集成。
🔗 MCP标准如同“USB-C接口”，将简化AI与外部工具的连接方式。
🚀 用户可通过网页直接访问第三方工具，提升工作效率，降低本地部署需求。

6、iOS18.6或为中国用户启用AI功能国行苹果AI或由阿里百度技术支持

苹果AI将在iOS18.6系统中首次启用部分功能，背后有阿里巴巴和百度的技术支持。由于政策限制，海外大模型无法在中国提供服务，百度的文心一言大模型将成为国行版苹果AI的核心引擎。同时，为确保内容合规，苹果引入阿里巴巴的审查机制。

【AiBase提要:】
🛠️ 苹果AI将在iOS18.6中首次启用，背后有阿里和百度的技术支持。
📜 百度的文心一言大模型将作为国行版苹果AI的核心智能引擎。
🔍 阿里巴巴将提供审查机制，确保AI生成内容符合国内法规要求。

7、OpenAI 重返非营利模式，终止营利性实体控制机制

OpenAI 宣布重返非营利模式，结束营利性实体的控制，重组为公益公司。这一变动回应了外界对其商业化的担忧，尤其是来自埃隆·马斯克的批评。新的治理结构将确保社会效益透明，同时允许继续吸引风险投资。OpenAI 计划利用这一模式成为全球最大的慈善实体之一，预计2024年营收将突破20亿美元。

【AiBase提要:】
🌟 OpenAI 宣布重返非营利模式，终止营利性实体控制机制。
🤝 新设公益公司仍在非营利组织监督下，目标成为全球最大慈善实体之一。
💡 调整后的架构将确保社会效益指标的透明度，同时保持商业运作空间。

8、Freepik 发布“F Lite”:一个为版权安全而构建的开放 AI 图像模型

Freepik最近推出了其文本到图像生成模型“F Lite”，旨在为因版权问题而备受争议的生成器提供合法且安全的替代方案。F Lite基于Freepik自有的商业授权图像库进行训练，拥有约100亿个参数。尽管在生成插图和矢量风格作品方面表现出色，但在生成照片级逼真图像时仍存在不足。

【AiBase提要:】
🛡️ F Lite是Freepik推出的文本到图像生成模型，旨在提供版权安全的替代方案。
💻 该模型基于Freepik自有图像库训练，拥有约100亿个参数，强调合法审查数据的重要性。
📊 尽管在插图生成方面表现优异，但F Lite在生成照片级图像时仍面临细节缺失等挑战。

9、OpenAI同意以30亿美元收购AI编码助Windsurf

OpenAI近期宣布以约30亿美元收购人工智能编码助手Windsurf，此交易是其迄今为止最大的一笔收购，显示出其在AI领域的雄心和实力。Windsurf的技术在开发者社区中备受推崇，此次收购可能会引发行业内的广泛讨论，尤其是在OpenAI与其他AI编码助手之间的竞争关系上。

【AiBase提要:】
🌟 OpenAI以约30亿美元收购人工智能编码助手Windsurf，标志着其最大收购案。
🔍 收购引发对OpenAI与其他AI编码助手竞争关系的担忧。
⚖️ OpenAI缩减转型计划，面临法律挑战和外界批评。

10、谷歌Gemini聊天机器人全新升级:支持多图上传和图像编辑功能

谷歌的Gemini聊天机器人最近进行了重要的更新，新增了多图上传和AI图像编辑功能。该更新目前已向部分用户开放，允许在网页端同时上传多张图片，并对AI生成的图像进行编辑。尽管这些功能尚未在所有账户中完全开放，但它们为用户提供了更大的创作灵活性，提升了整体用户体验。

【AiBase提要:】
🖼️ 新增多图上传功能，部分用户已可同时上传多张图片。
✏️ 引入AI图像编辑功能，用户可更改背景和替换物体。
🔒 用户需遵循谷歌使用条款，确保合规性。

11、ChatGPT 访问量激增，4月总计达47.86亿次、首次超越 X

根据Similarweb发布的2025年4月网站流量报告，ChatGPT的访问量达到了47.86亿次，首次超过社交媒体平台X的40.28亿次，显示出生成式AI工具的快速普及。ChatGPT在工作日的访问量接近2亿次，反映出其作为生产力工具的广泛应用。

【AiBase提要:】
📈 ChatGPT在2025年4月的访问量达47.86亿次，首次超过社交媒体平台X的40.28亿次。
💼 工作日访问量接近2亿次，表明ChatGPT作为生产力工具的广泛应用。
🌍 ChatGPT的用户基础在全球范围内持续扩大，尤其是在移动端的强劲增长。

12、Excel MCP Server上线可通过Claude等客户端直接操作Excel文件

Excel MCP Server是一款开源工具，基于模型上下文协议（MCP）开发，允许用户通过AI助手直接操作Excel文件，无需安装微软Excel软件。该工具功能强大，支持创建、读取、修改Excel数据，生成图表和透视表，极大地方便了用户的表格处理工作。

Excel MCP Server 这款 MCP 服务器颇为实用，通过 AI 助手直接操作 Excel.jpg

【AiBase提要:】
🛠️ Excel MCP Server允许用户通过AI助手直接操作Excel，无需安装微软Excel软件。
📈 该工具支持创建、读取、修改Excel数据，生成图表和透视表，功能全面。
🌐 作为开源项目，Excel MCP Server促进了社区开发，支持多种AI客户端的无缝集成。
详情链接:https://top.aibase.com/tool/excel-mcp-server

13、Claude 移动应用即将推出语音模式，支持多种声音选项

Claude 移动应用即将进行重要升级，推出备受期待的语音模式功能。该模式采用推按式对话，支持多种声音选项，并具备网页搜索能力，搜索结果以要点形式呈现，便于用户理解和跟进。此外，用户可以上传文件作为上下文参考，提升了交互体验。

【AiBase提要:】
📢 Claude 移动应用即将上线语音模式，采用推按式对话并支持多种声音选项。
🔍 语音模式支持网页搜索，输出结果以要点形式呈现，用户可方便浏览。
📁 该功能还支持文件上传，让用户可以在对话中使用图片或文档作为上下文参考。

14、新一代唇形同步工具KeySync发布:突破表情泄漏与遮挡难题

KeySync是一款创新的唇形同步工具，成功解决了AI唇形同步中的表情泄漏和嘴部遮挡问题。其独特的两阶段框架设计使得唇部动作更加自然和精准，适用于影视制作、动画、虚拟主播等多个领域。KeySync不仅支持高分辨率视频处理，还能自动生成与音频匹配的唇部动画，大幅提升工作效率。

【AiBase提要:】
🎥 KeySync通过创新算法解决了表情泄漏和嘴部遮挡问题，提升了唇形同步的精准性和自然度。
💻 该工具支持高分辨率视频处理，优化了时间连贯性，确保唇部动作流畅自然，避免了传统工具的常见问题。
🌍 KeySync的广泛应用前景为影视、动画、虚拟主播等行业带来了新的机遇，提升了多语言视频的质量和制作效率。
详情链接:https://github.com/antonibigata/keysync

（举报）

相关推荐

关键词：

马斯克：Grok 5模型有望实现通用人工智能的突破

马斯克旗下xAI公司正研发Grok 5模型，有望实现通用人工智能（AGI）重大突破。该模型采用全新架构设计，预计未来几周启动训练。若成功将代表AI从专用领域向通用认知能力的质的飞跃，被视为人工智能发展的终极目标。科技界密切关注xAI能否在激烈竞争的大模型赛道实现突破。

Grok 5 AGI
即构发布云端实时语音识别服务

ZEGO云端实时语音识别服务针对直播、语聊、在线课堂和会议等场景，提供低延迟（端到端600ms）、高准确率（提升40%）、低成本（节省50%以上）的解决方案。支持30多种语言及方言，适配多厂商接入，具备降噪和回声消除能力。核心应用包括实时字幕和AI观众互动，显著提升用户体验和业务效率，助力企业全球化布局。

实时语音识别语音识别服务音视频场景
每日互动参与发起《人工智能安全行业自律倡议》守护人工智能产业可持续发展

9月17日，2025年国家网络安全宣传周人工智能安全治理分论坛在昆明召开，会上正式发布《人工智能安全行业自律倡议》。该倡议由中国网络空间安全协会联合多家科研院所、互联网头部企业、网络安全厂商及人工智能企业共同发起，提出筑牢安全根基、强化技管结合、深化协同共治等七方面共识，旨在推动构建可控、可信、可靠的人工智能产业生态，为全球人工智能治理贡献中国智慧。

人工智能安全行业自律倡议网络安全
十方融海：以开源生态为基，绘就“人工智能 +”产业融合新蓝图

国务院印发《关于深入实施“人工智能+”行动的意见》，推动AI技术与产业深度融合。深圳企业十方融海凭借AI大模型研发、产品创新及开源生态构建等领域的卓越实践，成为行业先锋。其开源模型如OpenBuddy、小智AI等突破传统技术局限，实现多模态交互与跨领域知识融合，覆盖教育、办公、养老、文体等多元场景。通过开放共享模式，十方融海有效降低AI应用门槛，激发行业创新活力，助力我国人工智能产业迈向新征程。

人工智能政策引领 AI大模型
市值一日暴增近3000亿港元，阿里迈向超级人工智能之路

9月24日，阿里巴巴股价创下四年新高，单日涨超9%，市值达到约3.32万亿港元，一日增加近3000亿港元。引爆股价的，是阿里集团每年一度的云栖大会。在会上，阿里释放多条重磅消息，尤其是在阿里集团CEO、阿里云智能集团董事长兼CEO吴泳铭的演讲结束后，阿里的股价表现就出现了明显的拉升。

阿里巴巴云栖大会股价
荐AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

AI日报今日聚焦多项技术突破：小米开源首个端到端语音大模型Xiaomi-MiMo-Audio；通义万相推出全新动作生成模型Wan2.2-Animate；Suno即将发布革命性音乐模型v5；生数科技获数亿融资，视频生成技术商业化加速。同时关注OpenAI修复ChatGPT安全漏洞，谷歌将Gemini集成至Chrome浏览器，Luma AI发布支持16位色的Ray3视频生成模型，法国Mistral推出开源推理模型Magistral Small 1.2，Notion发布AI智能体，腾讯混元3D Studio提升3D创作效率。

AI 语音大模型小米开源
普适性覆盖人工智能典型场景寒武纪产品技术优势凸显

中科寒武纪科技预计2025年全年实现营业收入50亿至70亿元。公司已全面掌握智能芯片及基础系统软件研发核心技术，截至2025年6月30日，累计获授权专利1599项。2025年上半年，公司实现营业收入28.81亿元，同比增长4347.82%，净利润扭亏为盈。寒武纪持续优化智能处理器微架构及指令集，新一代产品将提升编程灵活性、易用性、性能及能效。高盛维持对公司的积极看法，上调12个月目标价至2104元，并调高2030年预期EBITDA及企业价值倍数。

寒武纪智能芯片专利授权
小米开源首个原生端到端语音大模型支持音频重建任务和音频转文本任务

小米发布首款开源端到端语音大模型Xiaomi-MiMo-Audio，拥有12亿参数，在智能性、情感表达和交互适配方面接近人类水平。该模型最大技术突破在于少样本学习能力，通过创新预训练架构和超一亿小时训练数据，成功突破传统语音模型依赖大规模标注数据的技术瓶颈。基于Transformer架构，支持音频重建和音频转文本等多任务处理。小米已在Huggingface平台发布预训练和指令微调版本，并在Github开源Tokenizer模型，为研究者和开发者提供完整工具链。

AI语音开源模型少样本学习
华为全联接大会2025首发《算力珠玑》十大实战案例助力开发者攻克鲲鹏、昇腾开发难关

《算力珠玑：鲲鹏昇腾应用开发案例详解》由上海交通大学林新华教授等主编，聚焦鲲鹏与昇腾两大自主计算生态的应用迁移与优化难题。全书通过十个真实场景案例，系统解析从传统平台迁移至自主算力平台的代码移植、性能调优及算子开发等关键技术，涵盖高能计算、AI训练、工业诊断等领域。书中结合理论与实践，提供具体代码与优化策略，旨在帮助开发者降低迁移成本、提升效率，推动自主算力技术在实际场景中“用好用活”，为我国在全球算力竞争中夯实基础。

算力珠玑鲲鹏昇腾应用开发
HC2025丨高校创新力量“花开”开发者日，鲲鹏昇腾使能科研创新

2025年9月18日至20日，华为全联接大会在上海成功举办。开发者日集中展示了一批基于鲲鹏、昇腾基础软硬件平台的前瞻性创新成果，覆盖AI编程语言、大模型训练加速、多模态模型及科学计算仿真等领域。重点成果包括：北京大学团队研发的DeepFlame燃烧流体仿真工具实现火箭发动机超临界燃烧模拟千倍加速；清华大学团队开源AI量子编程语言TileLang显著提升开发效率；东南大学提出多模态大模型优化方法；魔芯科技构建首个基于昇腾的3D空间智能大模型；趋境科技KTransformers引擎通过异

华为全联接大会鲲鹏昇腾科研创新成果

今日大家都在搜的词：

热文

3 天
7天

AI日报：苹果AI国行版或随iOS 18.6月底上线；Suno v4.5正式上线；Runway发布图像一致性参考功能

马斯克：Grok 5模型有望实现通用人工智能的突破

即构发布云端实时语音识别服务

每日互动参与发起《人工智能安全行业自律倡议》守护人工智能产业可持续发展

十方融海：以开源生态为基，绘就“人工智能 +”产业融合新蓝图

市值一日暴增近3000亿港元，阿里迈向超级人工智能之路

荐AI日报：小米开源首个原生端到端语音大模型；通义万相Wan2.2-Animate正式开源；Suno v5即将上线

普适性覆盖人工智能典型场景寒武纪产品技术优势凸显

小米开源首个原生端到端语音大模型支持音频重建任务和音频转文本任务

华为全联接大会2025首发《算力珠玑》十大实战案例助力开发者攻克鲲鹏、昇腾开发难关

HC2025丨高校创新力量“花开”开发者日，鲲鹏昇腾使能科研创新

今日大家都在搜的词：

热文

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

苹果将推出iPhone 17e：搭载A19 芯片支持灵动岛

AI日报：腾讯重磅发布混元图像3.0；快手发布KAT系列Agentic Co

雷军：小米17 Pro Max很多门店已经缺货

iPhone调休闹钟上热搜苹果客服回应：需手动设置

雷军晒第100次健身打卡提前3个月完成健身目标

京东双11购物节官宣：10月9日晚8点开启

AI日报：蚂蚁开源高性能思考模型Ring-flash-2.0；通义7款模型屠

卢伟冰称小米17首销结果很不错并回应小米17为何最初无1TB

小米澎湃OS 3穿戴设备适配升级计划公布：10月开启推送

微信新功能上线：长按图片“搜一搜” 检索购物转表一键达

小米17破今年国产手机首销纪录卢伟冰：需求远超预期

AI日报：京东物流推出超脑大模型2.0；DeepSeek V3.1终结版发布

理想i6正式上市：首销直减1万限时售价23.98万元

AI日报：生数科技推出Vidu Q2；火山引擎推出炉米Lumi；通义千问

小米17系列开售5分钟破25年国产手机首销纪录

雷军大方推荐友商产品：不买YU7 可以考虑Model Y和理想i6

雷军称没什么好犹豫的：50岁正是闯的年纪

小米非常非常缺人上热搜雷军谈小米成功秘诀

李想感谢雷军夸理想： “67Y”一起加电

站长商机