AI日报：苹果AI国行版或随iOS 18.6月底上线；Suno v4.5正式上线；Runway发布图像一致性参考功能

2025-05-06 15:29 · 来源： AIbase基地

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2，语音转录能力再提升

英伟达推出的Parakeet-TDT-0.6B-V2模型在自动语音识别领域取得了显著进展。该模型结合开源理念与商业应用，提升了转录效率，能够在一秒内完成60分钟音频的转录，且其词错误率接近市场领先水平。通过支持多种开发环境及优化多款GPU硬件，该模型为开发者提供了强大的工具，助力多样化的语音应用场景。

【AiBase提要:】
⚡ 超强转录能力:该模型能在一秒内完成60分钟音频的转录，显著提高语音处理速度。
📊 技术参数:拥有6亿个参数，结合FastConformer编码器和TDT解码器，词错误率仅为6.05%。
🌍 广泛应用场景:支持多种应用，包括转录服务、语音助手等，兼容Python和PyTorch等开发环境。
详情链接:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

2、Suno v4.5正式上线，仅限付费用户使用，生成歌曲延长至8分钟

Suno音乐生成平台推出了其最新模型v4.5，专为Pro和Premier付费用户设计，显著提升了音质、风格多样性和用户体验。新版本支持更广泛的音乐风格，增强了声线表现和音效层次，同时延长了歌曲生成时长至8分钟。尽管部分用户对付费限制表示遗憾，但也有人认为这一创新值得订阅。

【AiBase提要:】
🎵 v4.5支持更广泛的音乐风格，具备智能混搭能力，提升创作自由度。
🎤 声线表现更为饱满，情感表达精准，音域和情感深度显著提升。
⏳ 歌曲生成时长从4分钟扩展至8分钟，用户可创作更长的音乐作品。

3、Runway发布图像一致性参考功能 Gen-4References 支持提取人物、场景或风格特征及多图混合

Runway最近推出的Gen-4References功能为其AI视频生成模型增添了图像一致性参考能力，使创作者能够通过上传参考图像来提取人物、场景或风格特征，从而在生成内容中保持高度一致性。这一功能支持多张图像的混合生成，为视频创作提供了更大的控制力与创意自由，极大地简化了设计流程，推动了AI在影视制作领域的应用。

【AiBase提要:】
🖼️ Gen-4References允许用户上传多张参考图像，确保生成内容在不同场景中的一致性。
🎨 该功能支持从电影制作到广告设计等多种创作场景，提升了视觉连贯性。
🚀 Runway计划进一步增强该功能，推动AI视频生成技术的成熟与应用。

4、Midjourney V7推出全新功能 “Omni-Reference”，让图像生成更灵活

Midjourney最近推出的“Omni-Reference”功能为图像生成带来了革命性的变化。它允许用户对图像元素进行精确控制，支持多种对象生成和灵活的权重调整，从而提升创作的自由度和一致性。此功能不仅适用于艺术创作，还能在游戏开发、广告设计等多个领域发挥重要作用，展示出广泛的应用潜力。

【AiBase提要:】
🎨 Omni-Reference功能提供精准的图像元素控制，用户可上传参考图像以生成高度匹配的结果。
🧩 支持多种对象生成，用户可以在单张图像中包含多个对象，适合复杂场景的创作。
⚙️ 通过动态权重调整，用户可控制参考图像的影响强度，确保细节的一致性与风格的灵活性。

5、Claude AI将升级:网页版酝酿支持MCP定制链接

近日，科技媒体TestingCatalog报道，Anthropic旗下的Claude网页应用将通过引入Model Context Protocol（MCP）进行重大升级。这一新协议旨在打破Claude在谷歌服务方面的限制，预计将为用户提供更灵活的使用体验。MCP作为一种开放标准，将简化大型语言模型与外部数据源和工具之间的通信，提升AI助手的集成能力。

【AiBase提要:】
🌟 预计Claude AI将通过MCP标准实现更灵活的第三方服务集成。
🔗 MCP标准如同“USB-C接口”，将简化AI与外部工具的连接方式。
🚀 用户可通过网页直接访问第三方工具，提升工作效率，降低本地部署需求。

6、iOS18.6或为中国用户启用AI功能国行苹果AI或由阿里百度技术支持

苹果AI将在iOS18.6系统中首次启用部分功能，背后有阿里巴巴和百度的技术支持。由于政策限制，海外大模型无法在中国提供服务，百度的文心一言大模型将成为国行版苹果AI的核心引擎。同时，为确保内容合规，苹果引入阿里巴巴的审查机制。

【AiBase提要:】
🛠️ 苹果AI将在iOS18.6中首次启用，背后有阿里和百度的技术支持。
📜 百度的文心一言大模型将作为国行版苹果AI的核心智能引擎。
🔍 阿里巴巴将提供审查机制，确保AI生成内容符合国内法规要求。

7、OpenAI 重返非营利模式，终止营利性实体控制机制

OpenAI 宣布重返非营利模式，结束营利性实体的控制，重组为公益公司。这一变动回应了外界对其商业化的担忧，尤其是来自埃隆·马斯克的批评。新的治理结构将确保社会效益透明，同时允许继续吸引风险投资。OpenAI 计划利用这一模式成为全球最大的慈善实体之一，预计2024年营收将突破20亿美元。

【AiBase提要:】
🌟 OpenAI 宣布重返非营利模式，终止营利性实体控制机制。
🤝 新设公益公司仍在非营利组织监督下，目标成为全球最大慈善实体之一。
💡 调整后的架构将确保社会效益指标的透明度，同时保持商业运作空间。

8、Freepik 发布“F Lite”:一个为版权安全而构建的开放 AI 图像模型

Freepik最近推出了其文本到图像生成模型“F Lite”，旨在为因版权问题而备受争议的生成器提供合法且安全的替代方案。F Lite基于Freepik自有的商业授权图像库进行训练，拥有约100亿个参数。尽管在生成插图和矢量风格作品方面表现出色，但在生成照片级逼真图像时仍存在不足。

【AiBase提要:】
🛡️ F Lite是Freepik推出的文本到图像生成模型，旨在提供版权安全的替代方案。
💻 该模型基于Freepik自有图像库训练，拥有约100亿个参数，强调合法审查数据的重要性。
📊 尽管在插图生成方面表现优异，但F Lite在生成照片级图像时仍面临细节缺失等挑战。

9、OpenAI同意以30亿美元收购AI编码助Windsurf

OpenAI近期宣布以约30亿美元收购人工智能编码助手Windsurf，此交易是其迄今为止最大的一笔收购，显示出其在AI领域的雄心和实力。Windsurf的技术在开发者社区中备受推崇，此次收购可能会引发行业内的广泛讨论，尤其是在OpenAI与其他AI编码助手之间的竞争关系上。

【AiBase提要:】
🌟 OpenAI以约30亿美元收购人工智能编码助手Windsurf，标志着其最大收购案。
🔍 收购引发对OpenAI与其他AI编码助手竞争关系的担忧。
⚖️ OpenAI缩减转型计划，面临法律挑战和外界批评。

10、谷歌Gemini聊天机器人全新升级:支持多图上传和图像编辑功能

谷歌的Gemini聊天机器人最近进行了重要的更新，新增了多图上传和AI图像编辑功能。该更新目前已向部分用户开放，允许在网页端同时上传多张图片，并对AI生成的图像进行编辑。尽管这些功能尚未在所有账户中完全开放，但它们为用户提供了更大的创作灵活性，提升了整体用户体验。

【AiBase提要:】
🖼️ 新增多图上传功能，部分用户已可同时上传多张图片。
✏️ 引入AI图像编辑功能，用户可更改背景和替换物体。
🔒 用户需遵循谷歌使用条款，确保合规性。

11、ChatGPT 访问量激增，4月总计达47.86亿次、首次超越 X

根据Similarweb发布的2025年4月网站流量报告，ChatGPT的访问量达到了47.86亿次，首次超过社交媒体平台X的40.28亿次，显示出生成式AI工具的快速普及。ChatGPT在工作日的访问量接近2亿次，反映出其作为生产力工具的广泛应用。

【AiBase提要:】
📈 ChatGPT在2025年4月的访问量达47.86亿次，首次超过社交媒体平台X的40.28亿次。
💼 工作日访问量接近2亿次，表明ChatGPT作为生产力工具的广泛应用。
🌍 ChatGPT的用户基础在全球范围内持续扩大，尤其是在移动端的强劲增长。

12、Excel MCP Server上线可通过Claude等客户端直接操作Excel文件

Excel MCP Server是一款开源工具，基于模型上下文协议（MCP）开发，允许用户通过AI助手直接操作Excel文件，无需安装微软Excel软件。该工具功能强大，支持创建、读取、修改Excel数据，生成图表和透视表，极大地方便了用户的表格处理工作。

Excel MCP Server 这款 MCP 服务器颇为实用，通过 AI 助手直接操作 Excel.jpg

【AiBase提要:】
🛠️ Excel MCP Server允许用户通过AI助手直接操作Excel，无需安装微软Excel软件。
📈 该工具支持创建、读取、修改Excel数据，生成图表和透视表，功能全面。
🌐 作为开源项目，Excel MCP Server促进了社区开发，支持多种AI客户端的无缝集成。
详情链接:https://top.aibase.com/tool/excel-mcp-server

13、Claude 移动应用即将推出语音模式，支持多种声音选项

Claude 移动应用即将进行重要升级，推出备受期待的语音模式功能。该模式采用推按式对话，支持多种声音选项，并具备网页搜索能力，搜索结果以要点形式呈现，便于用户理解和跟进。此外，用户可以上传文件作为上下文参考，提升了交互体验。

【AiBase提要:】
📢 Claude 移动应用即将上线语音模式，采用推按式对话并支持多种声音选项。
🔍 语音模式支持网页搜索，输出结果以要点形式呈现，用户可方便浏览。
📁 该功能还支持文件上传，让用户可以在对话中使用图片或文档作为上下文参考。

14、新一代唇形同步工具KeySync发布:突破表情泄漏与遮挡难题

KeySync是一款创新的唇形同步工具，成功解决了AI唇形同步中的表情泄漏和嘴部遮挡问题。其独特的两阶段框架设计使得唇部动作更加自然和精准，适用于影视制作、动画、虚拟主播等多个领域。KeySync不仅支持高分辨率视频处理，还能自动生成与音频匹配的唇部动画，大幅提升工作效率。

【AiBase提要:】
🎥 KeySync通过创新算法解决了表情泄漏和嘴部遮挡问题，提升了唇形同步的精准性和自然度。
💻 该工具支持高分辨率视频处理，优化了时间连贯性，确保唇部动作流畅自然，避免了传统工具的常见问题。
🌍 KeySync的广泛应用前景为影视、动画、虚拟主播等行业带来了新的机遇，提升了多语言视频的质量和制作效率。
详情链接:https://github.com/antonibigata/keysync

相关推荐

荐AI日报：苹果AI国行版或随iOS 18.6月底上线；Suno v4.5正式上线；Runway发布图像一致性参考功能

本文汇总了AI领域最新动态：1)英伟达开源语音识别模型Parakeet-TDT-0.6B-V2，提升转写效率；2)Suno音乐平台v4.5版本支持8分钟歌曲生成；3)Runway推出图像一致性参考功能Gen-4 References；4)Midjourney V7新增"Omni-Reference"图像控制功能；5)Claude将引入MCP协议提升集成能力；6)iOS18.6或为中国用户启用AI功能；7)OpenAI宣布回归非营利模式；8)Freepik发布版权安全的F-Lite图像模型；9)OpenAI以30亿美

人工智能语音识别开源软件
苹果AI国行版终于来了：百度与苹果联姻

国行版AI对苹果来说意义重大，因为过去的一段时间，iPhone出货量显著下滑，根据IDC公布的报告，2025年第一季度苹果在中国市场的智能手机出货量同比下滑了9%，市场份额从上一季度的17.4%降至13.7%。

苹果 iOS 18.6
荐AI日报：DeepSeek开源新版R1-0528；字节发布图像Agent小云雀AI；可灵2.1重磅上线

本期AI日报聚焦多项AI领域突破：1)DeepSeek发布R1-0528模型，支持128K上下文且性能媲美GPT-4；2)字节推出"小云雀AI"图像创作工具；3)可画2.1版本价格降65%性能提升；4)Opera发布全球首款AI浏览器Neon；5)Meta推出多模态空间理解模型；6)北大团队研发ZeroSearch框架降低大模型训练成本88%；7)字节推出AI视频剪辑应用"剪小映"；8)MotionPro实现40ms/帧精准视频控制；9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人；10)OpenAI重组架构为IPO铺路；11)像素蛋糕"方糖大模型"获国内首个影像行业备案；12)Paper2Poster实现论文自动转海报；13)Resemble AI开源TTS模型性能比肩ElevenLabs；14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

人工智能 AI产品技术趋势
荐AI日报：美团AI编程工具NoCode将上线；火山引擎发布MCP Servers；腾讯混元上线游戏视觉生成平台

本文汇总了近期AI领域的重要动态：1)美团将推出对话式编程工具"NoCode"；2)火山引擎发布大模型生态平台MCP Servers；3)B站开源动画视频生成模型Index-AniSora；4)字节跳动升级AI耳机Ola Friend的英语学习功能；5)GitHub推出AI编程助手自动修复代码漏洞；6)腾讯混元上线游戏视觉生成平台；7)微软将VS Code转型为开源AI编辑器；8)Windows 11原生支持MCP协议；9)Anthropic发布AI代理开发指南；10)谷歌推出编程AI代理Jules；11)NotebookLM推出iOS版；12)Genspark创3600万美元ARR纪录；13)Bright Data发布开源MCP服务器；14)马斯克宣布Grok模型将登陆Azure平台。这些进展展示了AI技术在编程、内容生成、操作系统等领域的快速发展和应用创新。

人工智能 AI产品编程工具
荐AI日报：GPT-4.1正式上线ChatGPT；阿里通义万相Wan2.1-VACE开源；可灵大模型视频生成量约占30%份额

本文报道了AI领域最新动态：1)阿里通义万相开源视频编辑统一模型VACE；2)OpenAI发布GPT-4.1增强编码能力；3)Stability AI推出超轻量341M文字转语音模型；4)快手可灵视频生成模型占据30%市场份额；5)微软WizardLM团队整体加入腾讯混元大模型研发体系；6)腾讯宣布混元图像2.0将于5月16日发布；7)上海成立人工智能标识生态联盟；8)Lightricks发布13B参数视频生成模型LTX-Video；9)谷歌DeepMind推出AlphaEvolve优化AI训练速度；10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

人工智能视频编辑开源项目
荐AI日报：阿里开源长文本深度思考模型QwenLong-L1；GPT-4o语音模式上线唱歌功能；秘塔AI搜索推出全新“极速”模型

本文汇总了AI领域最新动态：1)中国信通院发布智能体开发标准，推动AI商业化进程；2)阿里推出QwenLong-L1-32B长文本推理模型，性能媲美Claude-3；3)GPT-4o语音模式升级，新增唱歌功能；4)秘塔AI搜索推出极速模型，响应速度达400tokens/秒；5)谷歌发布LMEval评估框架，统一大模型评测标准；6)Chrome浏览器集成Gemini AI助手；7)阿联酋全民免费使用ChatGPT Plus；8)苏州成立60亿元AI产业基金；9)法国Kyutai实验室推出10秒定制语音的Unmute系统；10)UAV-Flow项目实现无人机语音精准控制；11)Claude将升级支持百万字上下文和记忆功能；12)百度心响iOS版上线；13)夸克推出高考深度搜索功能；14)Chrome v137开发者工具升级；15)美团AI业务接近GPT-4o水平；16)Direct3D-S2实现3D生成速度提升10倍；17)OpenAI计划2026年推出首款AI硬件。

人工智能软件开发 AI标准
荐AI日报：小米首个推理大模型开源Xiaomi MiMo；快手上线AI笔记工具“喵记多”；腾讯拆分AI团队

本文汇总了AI领域最新动态：1)小米开源70亿参数大模型Xiaomi MiMo，在数学推理和代码竞赛中超越OpenAI和阿里模型；2)快手推出AI笔记工具"喵记多"，简化笔记管理；3)Luma AI发布电影级镜头控制API，降低视频生成门槛；4)腾讯重组AI团队，加大语言模型研发投入；5)Anthropic为Claude引入新语音"Glassy"；6)谷歌NotebookLM新增50+语言音频概述功能；7)xAI将发布Grok3.5模型；8)Meta推出独立AI助手应用挑战ChatGPT；9)OpenAI紧急修复GPT-4o"谄媚"问题；10)Mac本地AI助手Simular升级隐私保护；11)CameraBench项目帮助AI理解镜头运动；12)谷歌推出个性化语言学习AI工具。

人工智能 Xiaomi MiMo
荐AI日报：Anthropic推最强编码AI模型Claude4；苹果计划推AI智能眼镜；QQ浏览器上线首个高考Agent

【AI日报】今日AI领域重要动态：1)Anthropic发布Claude4系列AI模型，编程能力超越竞争对手；2)苹果计划2026年推出集成AI技术的智能眼镜；3)字节跳动与清华合作推出时序多模态大模型ChatTS；4)3DTown框架实现单张照片生成逼真3D场景；5)OpenAI秘密开发无屏幕AI设备；6)商汤科技推出儿童AI下棋机器人；7)微软记事本新增AI写作功能；8)深圳设立70亿元基金支持AI硬件初创企业；9)谷歌发布3D视频通信平台Beam；10)阿联酋推出"星际之门"计划，免费提供ChatGPT服务；11)法国Mistral推出开源模型Devstral；12)Anthropic API新增四大功能；13)美国众议院通过法案限制各州监管AI；14)QQ浏览器推出高考AI助手。

Claude4 人工智能 AI模型
苹果发布iOS 18.5正式版修复5G基带C1漏洞

今日，苹果公司正式推出了iOS18.5系统更新，此次更新的一大亮点是针对苹果首款自研5G基带C1进行了首个漏洞的修复工作。该漏洞被编号为CVE-2025-31214，存在被处于特权网络地位的攻击者利用的风险，可能使网络流量遭到拦截，进而实施监控或中间人攻击。

苹果 iOS18.5 5G基带C1
AI日报：腾讯混元图像2.0毫秒级生图；Windsurf重磅发布SWE-1系列；MiniMax Speech-02登顶全球TTS榜首

本期AI日报重点报道了多项AI领域最新进展：1)腾讯发布混元图像2.0模型，实现毫秒级图像生成；2)Windsurf推出全流程软件工程AI模型SWE-1系列；3)DeepSeek发布V3模型论文，揭示低成本训练大模型方法；4)Manus推出图像生成Agent，支持多工具协同完成任务；5)ElevenLabs发布可定制音效控制面板工具；6)MiniMax语音模型Speech-02超越OpenAI和ElevenLabs；7)DeepL升级翻译服务并推出写作助手；8)OpenAI占据AI工具市场80%份额；9)Llamafile 0.9.3支持Qwen3模型；10)Hugging Face推出WebGPU驱动的实时摄像头AI SmolVLM；11)Hugging Face上线免费MCP教程；12)复旦与腾讯联合推出视频生成工具DICE-Talk。

人工智能 AI技术趋势产品应用

今日大家都在搜的词：

热文

3 天
7天

AI日报：苹果AI国行版或随iOS 18.6月底上线；Suno v4.5正式上线；Runway发布图像一致性参考功能

荐AI日报：苹果AI国行版或随iOS 18.6月底上线；Suno v4.5正式上线；Runway发布图像一致性参考功能

苹果AI国行版终于来了：百度与苹果联姻

荐AI日报：DeepSeek开源新版R1-0528；字节发布图像Agent小云雀AI；可灵2.1重磅上线

荐AI日报：美团AI编程工具NoCode将上线；火山引擎发布MCP Servers；腾讯混元上线游戏视觉生成平台

荐AI日报：GPT-4.1正式上线ChatGPT；阿里通义万相Wan2.1-VACE开源；可灵大模型视频生成量约占30%份额

荐AI日报：阿里开源长文本深度思考模型QwenLong-L1；GPT-4o语音模式上线唱歌功能；秘塔AI搜索推出全新“极速”模型

荐AI日报：小米首个推理大模型开源Xiaomi MiMo；快手上线AI笔记工具“喵记多”；腾讯拆分AI团队

荐AI日报：Anthropic推最强编码AI模型Claude4；苹果计划推AI智能眼镜；QQ浏览器上线首个高考Agent

苹果发布iOS 18.5正式版修复5G基带C1漏洞

AI日报：腾讯混元图像2.0毫秒级生图；Windsurf重磅发布SWE-1系列；MiniMax Speech-02登顶全球TTS榜首

今日大家都在搜的词：

热文

DeepSeek更新R1推理AI模型，已发布Hugging Face

Opera发布“无所不能”的Neon AI代理浏览器，离线也能写代码

扎克伯格：“Meta AI 月活用户突破 10 亿……但仍远远不够”

再生狗皮肤初创公司说：生物打印器官还有“ 10 到 15 年”

三星Galaxy VS 苹果iPhone：谁家用户谁赚得更多？

多邻国ceo打脸，放弃“AI员工”战略，称：仍需人类员工！

苹果的下一步计划：利用开发者社区，打造AI应用！

DeepSeek更新R1推理AI模型，已发布Hugging Face

OpenAI成立韩国法人，并计划在首尔设立办公室

在“杀死”iPhone之前，奥特曼和艾维将先革了AI设备的命？

Opera发布“无所不能”的Neon AI代理浏览器，离线也能写代码

扎克伯格：“Meta AI 月活用户突破 10 亿……但仍远远不够”

谷歌研究表明：量子计算机可比预期更快破解 RSA 加密

特朗普对苹果的施压，可能会导致三星手机在美大幅涨价

特朗普威胁苹果：不在美国生产iPhone，就征收25%关税

站长商机