首页 > AI头条  > 正文

AI日报:苹果AI国行版或随iOS 18.6月底上线;Suno v4.5正式上线;Runway发布图像一致性参考功能

2025-05-06 15:29 · 来源: AIbase基地

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2,语音转录能力再提升

英伟达推出的Parakeet-TDT-0.6B-V2模型在自动语音识别领域取得了显著进展。该模型结合开源理念与商业应用,提升了转录效率,能够在一秒内完成60分钟音频的转录,且其词错误率接近市场领先水平。通过支持多种开发环境及优化多款GPU硬件,该模型为开发者提供了强大的工具,助力多样化的语音应用场景。

QQ_1746516639837.png

【AiBase提要:】

⚡ 超强转录能力:该模型能在一秒内完成60分钟音频的转录,显著提高语音处理速度。

📊 技术参数:拥有6亿个参数,结合FastConformer编码器和TDT解码器,词错误率仅为6.05%。

🌍 广泛应用场景:支持多种应用,包括转录服务、语音助手等,兼容Python和PyTorch等开发环境。

详情链接:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

2、Suno v4.5正式上线,仅限付费用户使用,生成歌曲延长至8分钟

Suno音乐生成平台推出了其最新模型v4.5,专为Pro和Premier付费用户设计,显著提升了音质、风格多样性和用户体验。新版本支持更广泛的音乐风格,增强了声线表现和音效层次,同时延长了歌曲生成时长至8分钟。尽管部分用户对付费限制表示遗憾,但也有人认为这一创新值得订阅。

【AiBase提要:】

🎵 v4.5支持更广泛的音乐风格,具备智能混搭能力,提升创作自由度。

🎤 声线表现更为饱满,情感表达精准,音域和情感深度显著提升。

⏳ 歌曲生成时长从4分钟扩展至8分钟,用户可创作更长的音乐作品。

3、Runway发布图像一致性参考功能 Gen-4References 支持提取人物、场景或风格特征及多图混合

Runway最近推出的Gen-4References功能为其AI视频生成模型增添了图像一致性参考能力,使创作者能够通过上传参考图像来提取人物、场景或风格特征,从而在生成内容中保持高度一致性。这一功能支持多张图像的混合生成,为视频创作提供了更大的控制力与创意自由,极大地简化了设计流程,推动了AI在影视制作领域的应用。

【AiBase提要:】

🖼️ Gen-4References允许用户上传多张参考图像,确保生成内容在不同场景中的一致性。

🎨 该功能支持从电影制作到广告设计等多种创作场景,提升了视觉连贯性。

🚀 Runway计划进一步增强该功能,推动AI视频生成技术的成熟与应用。

4、Midjourney V7推出全新功能 “Omni-Reference”,让图像生成更灵活

Midjourney最近推出的“Omni-Reference”功能为图像生成带来了革命性的变化。它允许用户对图像元素进行精确控制,支持多种对象生成和灵活的权重调整,从而提升创作的自由度和一致性。此功能不仅适用于艺术创作,还能在游戏开发、广告设计等多个领域发挥重要作用,展示出广泛的应用潜力。

image.png

【AiBase提要:】

🎨 Omni-Reference功能提供精准的图像元素控制,用户可上传参考图像以生成高度匹配的结果。

🧩 支持多种对象生成,用户可以在单张图像中包含多个对象,适合复杂场景的创作。

⚙️ 通过动态权重调整,用户可控制参考图像的影响强度,确保细节的一致性与风格的灵活性。

5、Claude AI将升级:网页版酝酿支持MCP定制链接

近日,科技媒体TestingCatalog报道,Anthropic旗下的Claude网页应用将通过引入Model Context Protocol(MCP)进行重大升级。这一新协议旨在打破Claude在谷歌服务方面的限制,预计将为用户提供更灵活的使用体验。MCP作为一种开放标准,将简化大型语言模型与外部数据源和工具之间的通信,提升AI助手的集成能力。

image.png

【AiBase提要:】

🌟 预计Claude AI将通过MCP标准实现更灵活的第三方服务集成。

🔗 MCP标准如同“USB-C接口”,将简化AI与外部工具的连接方式。

🚀 用户可通过网页直接访问第三方工具,提升工作效率,降低本地部署需求。

6、iOS18.6或为中国用户启用AI功能 国行苹果AI或由阿里百度技术支持

苹果AI将在iOS18.6系统中首次启用部分功能,背后有阿里巴巴和百度的技术支持。由于政策限制,海外大模型无法在中国提供服务,百度的文心一言大模型将成为国行版苹果AI的核心引擎。同时,为确保内容合规,苹果引入阿里巴巴的审查机制。

image.png

【AiBase提要:】

🛠️ 苹果AI将在iOS18.6中首次启用,背后有阿里和百度的技术支持。

📜 百度的文心一言大模型将作为国行版苹果AI的核心智能引擎。

🔍 阿里巴巴将提供审查机制,确保AI生成内容符合国内法规要求。

7、OpenAI 重返非营利模式,终止营利性实体控制机制

OpenAI 宣布重返非营利模式,结束营利性实体的控制,重组为公益公司。这一变动回应了外界对其商业化的担忧,尤其是来自埃隆·马斯克的批评。新的治理结构将确保社会效益透明,同时允许继续吸引风险投资。OpenAI 计划利用这一模式成为全球最大的慈善实体之一,预计2024年营收将突破20亿美元。

【AiBase提要:】

🌟 OpenAI 宣布重返非营利模式,终止营利性实体控制机制。

🤝 新设公益公司仍在非营利组织监督下,目标成为全球最大慈善实体之一。

💡 调整后的架构将确保社会效益指标的透明度,同时保持商业运作空间。

8、Freepik 发布“F Lite”:一个为版权安全而构建的开放 AI 图像模型

Freepik最近推出了其文本到图像生成模型“F Lite”,旨在为因版权问题而备受争议的生成器提供合法且安全的替代方案。F Lite基于Freepik自有的商业授权图像库进行训练,拥有约100亿个参数。尽管在生成插图和矢量风格作品方面表现出色,但在生成照片级逼真图像时仍存在不足。

free_pik_lite-770x828.png

【AiBase提要:】

🛡️ F Lite是Freepik推出的文本到图像生成模型,旨在提供版权安全的替代方案。

💻 该模型基于Freepik自有图像库训练,拥有约100亿个参数,强调合法审查数据的重要性。

📊 尽管在插图生成方面表现优异,但F Lite在生成照片级图像时仍面临细节缺失等挑战。

9、OpenAI同意以30亿美元收购AI编码助Windsurf

OpenAI近期宣布以约30亿美元收购人工智能编码助手Windsurf,此交易是其迄今为止最大的一笔收购,显示出其在AI领域的雄心和实力。Windsurf的技术在开发者社区中备受推崇,此次收购可能会引发行业内的广泛讨论,尤其是在OpenAI与其他AI编码助手之间的竞争关系上。

image.png

【AiBase提要:】

🌟 OpenAI以约30亿美元收购人工智能编码助手Windsurf,标志着其最大收购案。

🔍 收购引发对OpenAI与其他AI编码助手竞争关系的担忧。

⚖️ OpenAI缩减转型计划,面临法律挑战和外界批评。

10、谷歌Gemini聊天机器人全新升级:支持多图上传和图像编辑功能

谷歌的Gemini聊天机器人最近进行了重要的更新,新增了多图上传和AI图像编辑功能。该更新目前已向部分用户开放,允许在网页端同时上传多张图片,并对AI生成的图像进行编辑。尽管这些功能尚未在所有账户中完全开放,但它们为用户提供了更大的创作灵活性,提升了整体用户体验。

image.png

【AiBase提要:】

🖼️ 新增多图上传功能,部分用户已可同时上传多张图片。

✏️ 引入AI图像编辑功能,用户可更改背景和替换物体。

🔒 用户需遵循谷歌使用条款,确保合规性。

11、ChatGPT 访问量激增,4月总计达47.86亿次、首次超越 X

根据Similarweb发布的2025年4月网站流量报告,ChatGPT的访问量达到了47.86亿次,首次超过社交媒体平台X的40.28亿次,显示出生成式AI工具的快速普及。ChatGPT在工作日的访问量接近2亿次,反映出其作为生产力工具的广泛应用。

【AiBase提要:】

📈 ChatGPT在2025年4月的访问量达47.86亿次,首次超过社交媒体平台X的40.28亿次。

💼 工作日访问量接近2亿次,表明ChatGPT作为生产力工具的广泛应用。

🌍 ChatGPT的用户基础在全球范围内持续扩大,尤其是在移动端的强劲增长。

12、Excel MCP Server上线 可通过Claude等客户端直接操作Excel文件

Excel MCP Server是一款开源工具,基于模型上下文协议(MCP)开发,允许用户通过AI助手直接操作Excel文件,无需安装微软Excel软件。该工具功能强大,支持创建、读取、修改Excel数据,生成图表和透视表,极大地方便了用户的表格处理工作。

Excel MCP Server 这款 MCP 服务器颇为实用,通过 AI 助手直接操作 Excel.jpg

【AiBase提要:】

🛠️ Excel MCP Server允许用户通过AI助手直接操作Excel,无需安装微软Excel软件。

📈 该工具支持创建、读取、修改Excel数据,生成图表和透视表,功能全面。

🌐 作为开源项目,Excel MCP Server促进了社区开发,支持多种AI客户端的无缝集成。

详情链接:https://top.aibase.com/tool/excel-mcp-server

13、Claude 移动应用即将推出语音模式,支持多种声音选项

Claude 移动应用即将进行重要升级,推出备受期待的语音模式功能。该模式采用推按式对话,支持多种声音选项,并具备网页搜索能力,搜索结果以要点形式呈现,便于用户理解和跟进。此外,用户可以上传文件作为上下文参考,提升了交互体验。

image.png

【AiBase提要:】

📢 Claude 移动应用即将上线语音模式,采用推按式对话并支持多种声音选项。

🔍 语音模式支持网页搜索,输出结果以要点形式呈现,用户可方便浏览。

📁 该功能还支持文件上传,让用户可以在对话中使用图片或文档作为上下文参考。

14、新一代唇形同步工具KeySync发布:突破表情泄漏与遮挡难题

KeySync是一款创新的唇形同步工具,成功解决了AI唇形同步中的表情泄漏和嘴部遮挡问题。其独特的两阶段框架设计使得唇部动作更加自然和精准,适用于影视制作、动画、虚拟主播等多个领域。KeySync不仅支持高分辨率视频处理,还能自动生成与音频匹配的唇部动画,大幅提升工作效率。

image.png

【AiBase提要:】

🎥 KeySync通过创新算法解决了表情泄漏和嘴部遮挡问题,提升了唇形同步的精准性和自然度。

💻 该工具支持高分辨率视频处理,优化了时间连贯性,确保唇部动作流畅自然,避免了传统工具的常见问题。

🌍 KeySync的广泛应用前景为影视、动画、虚拟主播等行业带来了新的机遇,提升了多语言视频的质量和制作效率。

详情链接:https://github.com/antonibigata/keysync

  • 相关推荐
  • AI日报苹果AI国行版或随iOS 18.6月底上线Suno v4.5正式上线Runway发布图像一致性参考功能

    本文汇总了AI领域最新动态:1)英伟达开源语音识别模型Parakeet-TDT-0.6B-V2,提升转写效率;2)Suno音乐平台v4.5版本支持8分钟歌曲生成;3)Runway推出图像一致性参考功能Gen-4 References;4)Midjourney V7新增"Omni-Reference"图像控制功能;5)Claude将引入MCP协议提升集成能力;6)iOS18.6或为中国用户启用AI功能;7)OpenAI宣布回归非营利模式;8)Freepik发布版权安全的F-Lite图像模型;9)OpenAI以30亿美

  • 苹果AI国行版终于来了:百度与苹果联姻

    国行版AI对苹果来说意义重大,因为过去的一段时间,iPhone出货量显著下滑,根据IDC公布的报告,2025年第一季度苹果在中国市场的智能手机出货量同比下滑了9%,市场份额从上一季度的17.4%降至13.7%。

  • AI日报:DeepSeek开源新R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • AI日报:美团AI编程工具NoCode将上线;火山引擎发布MCP Servers;腾讯混元上线游戏视觉生成平台

    本文汇总了近期AI领域的重要动态:1)美团将推出对话式编程工具"NoCode";2)火山引擎发布大模型生态平台MCP Servers;3)B站开源动画视频生成模型Index-AniSora;4)字节跳动升级AI耳机Ola Friend的英语学习功能;5)GitHub推出AI编程助手自动修复代码漏洞;6)腾讯混元上线游戏视觉生成平台;7)微软将VS Code转型为开源AI编辑器;8)Windows 11原生支持MCP协议;9)Anthropic发布AI代理开发指南;10)谷歌推出编程AI代理Jules;11)NotebookLM推出iOS版;12)Genspark创3600万美元ARR纪录;13)Bright Data发布开源MCP服务器;14)马斯克宣布Grok模型将登陆Azure平台。这些进展展示了AI技术在编程、内容生成、操作系统等领域的快速发展和应用创新。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • AI日报:小米首个推理大模型开源Xiaomi MiMo;快手上线AI笔记工具“喵记多”;腾讯拆分AI团队

    本文汇总了AI领域最新动态:1)小米开源70亿参数大模型Xiaomi MiMo,在数学推理和代码竞赛中超越OpenAI和阿里模型;2)快手推出AI笔记工具"喵记多",简化笔记管理;3)Luma AI发布电影级镜头控制API,降低视频生成门槛;4)腾讯重组AI团队,加大语言模型研发投入;5)Anthropic为Claude引入新语音"Glassy";6)谷歌NotebookLM新增50+语言音频概述功能;7)xAI将发布Grok3.5模型;8)Meta推出独立AI助手应用挑战ChatGPT;9)OpenAI紧急修复GPT-4o"谄媚"问题;10)Mac本地AI助手Simular升级隐私保护;11)CameraBench项目帮助AI理解镜头运动;12)谷歌推出个性化语言学习AI工具。

  • AI日报:Anthropic推最强编码AI模型Claude4苹果计划推AI智能眼镜;QQ浏览器上线首个高考Agent

    【AI日报】今日AI领域重要动态:1)Anthropic发布Claude4系列AI模型,编程能力超越竞争对手;2)苹果计划2026年推出集成AI技术的智能眼镜;3)字节跳动与清华合作推出时序多模态大模型ChatTS;4)3DTown框架实现单张照片生成逼真3D场景;5)OpenAI秘密开发无屏幕AI设备;6)商汤科技推出儿童AI下棋机器人;7)微软记事本新增AI写作功能;8)深圳设立70亿元基金支持AI硬件初创企业;9)谷歌发布3D视频通信平台Beam;10)阿联酋推出"星际之门"计划,免费提供ChatGPT服务;11)法国Mistral推出开源模型Devstral;12)Anthropic API新增四大功能;13)美国众议院通过法案限制各州监管AI;14)QQ浏览器推出高考AI助手。

  • 苹果发布iOS 18.5正式版 修复5G基带C1漏洞

    今日,苹果公司正式推出了iOS18.5系统更新,此次更新的一大亮点是针对苹果首款自研5G基带C1进行了首个漏洞的修复工作。该漏洞被编号为CVE-2025-31214,存在被处于特权网络地位的攻击者利用的风险,可能使网络流量遭到拦截,进而实施监控或中间人攻击。

  • AI日报:腾讯混元图像2.0毫秒级生;Windsurf重磅发布SWE-1系列;MiniMax Speech-02登顶全球TTS榜首

    本期AI日报重点报道了多项AI领域最新进展:1)腾讯发布混元图像2.0模型,实现毫秒级图像生成;2)Windsurf推出全流程软件工程AI模型SWE-1系列;3)DeepSeek发布V3模型论文,揭示低成本训练大模型方法;4)Manus推出图像生成Agent,支持多工具协同完成任务;5)ElevenLabs发布可定制音效控制面板工具;6)MiniMax语音模型Speech-02超越OpenAI和ElevenLabs;7)DeepL升级翻译服务并推出写作助手;8)OpenAI占据AI工具市场80%份额;9)Llamafile 0.9.3支持Qwen3模型;10)Hugging Face推出WebGPU驱动的实时摄像头AI SmolVLM;11)Hugging Face上线免费MCP教程;12)复旦与腾讯联合推出视频生成工具DICE-Talk。

今日大家都在搜的词: