首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:苹果AI国行版或随iOS 18.6月底上线;Suno v4.5正式上线;Runway发布图像一致性参考功能

2025-05-06 15:33 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2,语音转录能力再提升

英伟达推出的Parakeet-TDT-0.6B-V2模型在自动语音识别领域取得了显著进展。该模型结合开源理念与商业应用,提升了转录效率,能够在一秒内完成60分钟音频的转录,且其词错误率接近市场领先水平。通过支持多种开发环境及优化多款GPU硬件,该模型为开发者提供了强大的工具,助力多样化的语音应用场景。

QQ_1746516639837.png

【AiBase提要:】

⚡ 超强转录能力:该模型能在一秒内完成60分钟音频的转录,显著提高语音处理速度。

📊 技术参数:拥有6亿个参数,结合FastConformer编码器和TDT解码器,词错误率仅为6.05%。

🌍 广泛应用场景:支持多种应用,包括转录服务、语音助手等,兼容Python和PyTorch等开发环境。

详情链接:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

2、Suno v4.5正式上线,仅限付费用户使用,生成歌曲延长至8分钟

Suno音乐生成平台推出了其最新模型v4.5,专为Pro和Premier付费用户设计,显著提升了音质、风格多样性和用户体验。新版本支持更广泛的音乐风格,增强了声线表现和音效层次,同时延长了歌曲生成时长至8分钟。尽管部分用户对付费限制表示遗憾,但也有人认为这一创新值得订阅。

【AiBase提要:】

🎵 v4.5支持更广泛的音乐风格,具备智能混搭能力,提升创作自由度。

🎤 声线表现更为饱满,情感表达精准,音域和情感深度显著提升。

⏳ 歌曲生成时长从4分钟扩展至8分钟,用户可创作更长的音乐作品。

3、Runway发布图像一致性参考功能 Gen-4References 支持提取人物、场景或风格特征及多图混合

Runway最近推出的Gen-4References功能为其AI视频生成模型增添了图像一致性参考能力,使创作者能够通过上传参考图像来提取人物、场景或风格特征,从而在生成内容中保持高度一致性。这一功能支持多张图像的混合生成,为视频创作提供了更大的控制力与创意自由,极大地简化了设计流程,推动了AI在影视制作领域的应用。

【AiBase提要:】

🖼️ Gen-4References允许用户上传多张参考图像,确保生成内容在不同场景中的一致性。

🎨 该功能支持从电影制作到广告设计等多种创作场景,提升了视觉连贯性。

🚀 Runway计划进一步增强该功能,推动AI视频生成技术的成熟与应用。

4、Midjourney V7推出全新功能 “Omni-Reference”,让图像生成更灵活

Midjourney最近推出的“Omni-Reference”功能为图像生成带来了革命性的变化。它允许用户对图像元素进行精确控制,支持多种对象生成和灵活的权重调整,从而提升创作的自由度和一致性。此功能不仅适用于艺术创作,还能在游戏开发、广告设计等多个领域发挥重要作用,展示出广泛的应用潜力。

image.png

【AiBase提要:】

🎨 Omni-Reference功能提供精准的图像元素控制,用户可上传参考图像以生成高度匹配的结果。

🧩 支持多种对象生成,用户可以在单张图像中包含多个对象,适合复杂场景的创作。

⚙️ 通过动态权重调整,用户可控制参考图像的影响强度,确保细节的一致性与风格的灵活性。

5、Claude AI将升级:网页版酝酿支持MCP定制链接

近日,科技媒体TestingCatalog报道,Anthropic旗下的Claude网页应用将通过引入Model Context Protocol(MCP)进行重大升级。这一新协议旨在打破Claude在谷歌服务方面的限制,预计将为用户提供更灵活的使用体验。MCP作为一种开放标准,将简化大型语言模型与外部数据源和工具之间的通信,提升AI助手的集成能力。

image.png

【AiBase提要:】

🌟 预计Claude AI将通过MCP标准实现更灵活的第三方服务集成。

🔗 MCP标准如同“USB-C接口”,将简化AI与外部工具的连接方式。

🚀 用户可通过网页直接访问第三方工具,提升工作效率,降低本地部署需求。

6、iOS18.6或为中国用户启用AI功能 国行苹果AI或由阿里百度技术支持

苹果AI将在iOS18.6系统中首次启用部分功能,背后有阿里巴巴和百度的技术支持。由于政策限制,海外大模型无法在中国提供服务,百度的文心一言大模型将成为国行版苹果AI的核心引擎。同时,为确保内容合规,苹果引入阿里巴巴的审查机制。

image.png

【AiBase提要:】

🛠️ 苹果AI将在iOS18.6中首次启用,背后有阿里和百度的技术支持。

📜 百度的文心一言大模型将作为国行版苹果AI的核心智能引擎。

🔍 阿里巴巴将提供审查机制,确保AI生成内容符合国内法规要求。

7、OpenAI 重返非营利模式,终止营利性实体控制机制

OpenAI 宣布重返非营利模式,结束营利性实体的控制,重组为公益公司。这一变动回应了外界对其商业化的担忧,尤其是来自埃隆·马斯克的批评。新的治理结构将确保社会效益透明,同时允许继续吸引风险投资。OpenAI 计划利用这一模式成为全球最大的慈善实体之一,预计2024年营收将突破20亿美元。

【AiBase提要:】

🌟 OpenAI 宣布重返非营利模式,终止营利性实体控制机制。

🤝 新设公益公司仍在非营利组织监督下,目标成为全球最大慈善实体之一。

💡 调整后的架构将确保社会效益指标的透明度,同时保持商业运作空间。

8、Freepik 发布“F Lite”:一个为版权安全而构建的开放 AI 图像模型

Freepik最近推出了其文本到图像生成模型“F Lite”,旨在为因版权问题而备受争议的生成器提供合法且安全的替代方案。F Lite基于Freepik自有的商业授权图像库进行训练,拥有约100亿个参数。尽管在生成插图和矢量风格作品方面表现出色,但在生成照片级逼真图像时仍存在不足。

free_pik_lite-770x828.png

【AiBase提要:】

🛡️ F Lite是Freepik推出的文本到图像生成模型,旨在提供版权安全的替代方案。

💻 该模型基于Freepik自有图像库训练,拥有约100亿个参数,强调合法审查数据的重要性。

📊 尽管在插图生成方面表现优异,但F Lite在生成照片级图像时仍面临细节缺失等挑战。

9、OpenAI同意以30亿美元收购AI编码助Windsurf

OpenAI近期宣布以约30亿美元收购人工智能编码助手Windsurf,此交易是其迄今为止最大的一笔收购,显示出其在AI领域的雄心和实力。Windsurf的技术在开发者社区中备受推崇,此次收购可能会引发行业内的广泛讨论,尤其是在OpenAI与其他AI编码助手之间的竞争关系上。

image.png

【AiBase提要:】

🌟 OpenAI以约30亿美元收购人工智能编码助手Windsurf,标志着其最大收购案。

🔍 收购引发对OpenAI与其他AI编码助手竞争关系的担忧。

⚖️ OpenAI缩减转型计划,面临法律挑战和外界批评。

10、谷歌Gemini聊天机器人全新升级:支持多图上传和图像编辑功能

谷歌的Gemini聊天机器人最近进行了重要的更新,新增了多图上传和AI图像编辑功能。该更新目前已向部分用户开放,允许在网页端同时上传多张图片,并对AI生成的图像进行编辑。尽管这些功能尚未在所有账户中完全开放,但它们为用户提供了更大的创作灵活性,提升了整体用户体验。

image.png

【AiBase提要:】

🖼️ 新增多图上传功能,部分用户已可同时上传多张图片。

✏️ 引入AI图像编辑功能,用户可更改背景和替换物体。

🔒 用户需遵循谷歌使用条款,确保合规性。

11、ChatGPT 访问量激增,4月总计达47.86亿次、首次超越 X

根据Similarweb发布的2025年4月网站流量报告,ChatGPT的访问量达到了47.86亿次,首次超过社交媒体平台X的40.28亿次,显示出生成式AI工具的快速普及。ChatGPT在工作日的访问量接近2亿次,反映出其作为生产力工具的广泛应用。

【AiBase提要:】

📈 ChatGPT在2025年4月的访问量达47.86亿次,首次超过社交媒体平台X的40.28亿次。

💼 工作日访问量接近2亿次,表明ChatGPT作为生产力工具的广泛应用。

🌍 ChatGPT的用户基础在全球范围内持续扩大,尤其是在移动端的强劲增长。

12、Excel MCP Server上线 可通过Claude等客户端直接操作Excel文件

Excel MCP Server是一款开源工具,基于模型上下文协议(MCP)开发,允许用户通过AI助手直接操作Excel文件,无需安装微软Excel软件。该工具功能强大,支持创建、读取、修改Excel数据,生成图表和透视表,极大地方便了用户的表格处理工作。

Excel MCP Server 这款 MCP 服务器颇为实用,通过 AI 助手直接操作 Excel.jpg

【AiBase提要:】

🛠️ Excel MCP Server允许用户通过AI助手直接操作Excel,无需安装微软Excel软件。

📈 该工具支持创建、读取、修改Excel数据,生成图表和透视表,功能全面。

🌐 作为开源项目,Excel MCP Server促进了社区开发,支持多种AI客户端的无缝集成。

详情链接:https://top.aibase.com/tool/excel-mcp-server

13、Claude 移动应用即将推出语音模式,支持多种声音选项

Claude 移动应用即将进行重要升级,推出备受期待的语音模式功能。该模式采用推按式对话,支持多种声音选项,并具备网页搜索能力,搜索结果以要点形式呈现,便于用户理解和跟进。此外,用户可以上传文件作为上下文参考,提升了交互体验。

image.png

【AiBase提要:】

📢 Claude 移动应用即将上线语音模式,采用推按式对话并支持多种声音选项。

🔍 语音模式支持网页搜索,输出结果以要点形式呈现,用户可方便浏览。

📁 该功能还支持文件上传,让用户可以在对话中使用图片或文档作为上下文参考。

14、新一代唇形同步工具KeySync发布:突破表情泄漏与遮挡难题

KeySync是一款创新的唇形同步工具,成功解决了AI唇形同步中的表情泄漏和嘴部遮挡问题。其独特的两阶段框架设计使得唇部动作更加自然和精准,适用于影视制作、动画、虚拟主播等多个领域。KeySync不仅支持高分辨率视频处理,还能自动生成与音频匹配的唇部动画,大幅提升工作效率。

image.png

【AiBase提要:】

🎥 KeySync通过创新算法解决了表情泄漏和嘴部遮挡问题,提升了唇形同步的精准性和自然度。

💻 该工具支持高分辨率视频处理,优化了时间连贯性,确保唇部动作流畅自然,避免了传统工具的常见问题。

🌍 KeySync的广泛应用前景为影视、动画、虚拟主播等行业带来了新的机遇,提升了多语言视频的质量和制作效率。

详情链接:https://github.com/antonibigata/keysync

举报

  • 相关推荐
  • AI日报:通义千问Qwen3重磅发布;抖音AI搜索能力开放;ChatGPT 搜索新增网购功能Suno V4.5本将发布

    本期AI日报重点内容: 1. 通义千问发布Qwen3大模型,在代码、数学和通用能力方面表现突出,支持两种思考模式并开源多个模型权重 2. 抖音开放AI搜索能力接口,为第三方应用提供丰富内容资源 3. ChatGPT新增网购功能,通过对话获取个性化商品推荐 4. Suno AI即将推出V4.5版本,提升音乐生成真实度 5. Simular AI登陆macOS,打造本地化智能助手 6. 暗月之面开源Kimi-VL模型,可处理文本、图像和视频 7. UCLA与Meta推出d1框架,提升大语言模型推理速度 8. 通义灵码上线Qwen3编程智能体 9. Gen-4References图像生成技术惊艳亮相 10. Hugging Face推出可编程机械臂SO-101 11. Windsurf推出全新品牌标志 12. Ollama全面支持Qwen3模型本地部署

  • AI日报:阿里新模型Qwen3即将来袭;GitHub开源MCP服务器;Runway发布Gen-4 Turbo

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、Qwen3即将来袭:阿里云新模型相关支持已正式合并至vLLM代码库阿里云的Qwen3模型即将发布,标志着其在AI领域的又一重要进展。新推出的AI听歌报告能够精准识别用户音乐偏好,场景

  • 国行版iPhone即将变身AI手机:iOS 18.5正式版已在路上

    苹果将于5月推送iOS 18.5正式版,为国行版iPhone带来Apple智能功能。该AI系统提供照片编辑、通知摘要、自然语言搜索等智能化服务,目前仅支持iPhone 15 Pro系列及iPhone 16全系机型。升级需预留7GB存储空间。苹果在AI领域起步较晚,面临销量增长放缓压力,需向投资者证明其技术实力。此次更新被视为苹果在AI领域的重要布局,但老机型用户无法体验新功能。

  • AI日报:腾讯混元3D生成模型2.5版本发布;海螺推出图像人物参考功能;百度上线移动端超级智能体心响App

    本文介绍了多款AI领域的新产品和技术进展:1)Kortix-AI推出开源通用AI智能体平台Suna;2)腾讯混元3D生成模型升级至2.5版本;3)海螺AI推出基于单张图像生成多角度角色图像功能;4)百度发布"心响"App整合多智能体协作;5)Nari Labs开源媲美真人的对话语音模型Dia;6)Grok新增视觉处理和多语言支持;7)Genspark推出AI幻灯片工具;8)Character.AI发布让静态图片"说话"的AvatarFX模型;9)pad.ws结合白板和代码编辑器;10)OpenBMB开源社区推出长文本生成模型"卷姬";11)腾讯推出AI阅读助手"企鹅读伴";12)OpenAI有意收购Chrome浏览器;13)字节跳动调整AI产品线布局。这些创新展现了AI技术在自动化、3D生成、语音交互、内容创作等领域的快速发展。

  • AI日报:字节发布豆包1.5深度思考模型;微信首个AI助手 “元宝” 上线;OpenAI发布o4-mini、满血o3

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、OpenAI发布两款多模态推理模型o4-mini、满血版o3OpenAI在技术直播中推出了其最新的多模态模型o4-mini和满血版o3,这两款模型具备同时处理文本、图像和音频的能力,并能调用外部工�

  • AI日报:ChatGPT重磅上线图像功能;白嫖!Veo2登陆谷歌AI Studio;蚂蚁百宝箱推“MCP专区”

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、报道称字节跳动整合 AI 研发团队,AI Lab 即将并入 Seed字节跳动正在进行AI研发团队的整合,将独立的字节AI Lab并入Seed团队。这一举措体现了字节在AI领域战略布局的调整,旨在进�

  • AI日报:Vidu Q1正式上线;MCP SDK 正式支持流式 HTTP;抖音一季度封禁AI黑产账号260万个

    本文介绍了AI领域多项重要进展:1)MCP SDK支持流式HTTP协议,提升开发效率;2)Vidu Q1视频生成模型上线,提供专业级视觉体验;3)马斯克计划筹资250亿美元开发Colossus 2超级计算机;4)Sand AI开源MAGI-1视频生成模型;5)电商AI助手Add To Cart AI优化购物体验;6)Anthropic发布Claude Code编程指南;7)真我推出支持32种语言的AI翻译耳机;8)2025年AI视频企业TOP20榜单发布;9)清华GLM大模型免费开放;10)AI面试作弊工具引争议;11)抖音AI治理封禁260万违规账号;12)全球首款具备嗅觉的机器人问世。这些创新展示了AI技术在视频生成、编程辅助、电商、翻译等领域的快速发展与应用潜力。

  • AI日报:OpenAI下周或发布GPT-4.1系列;Pika全新AI视频功能Twists;商汤科技日日新V6震撼发布

    欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、报道称OpenAI下周重磅发布GPT-4.1系列,包含Mini版和Nano版OpenAI即将发布GPT-4.1系列及o3系列,标志着其在多模态和推理能力上的重大进展。新加坡在AI技能学习上投入的时间显著高于其他亚太国家,显示出其在AI人才培养方面的竞争力。

  • 苹果联手阿里百度 国行版iPhone AI来了!年中前上市

    苹果正积极推进在国行版iPhone上引入AI功能的计划,预计这一目标将在2025年中期之前实现。苹果最快计划在iOS18.5版本中推出专为中国市场打造的AppleIntelligence功能。中国版AppleIntelligence还会安装由阿里巴巴支持的审查引擎,确保AI生成的内容符合中国的本地法规要求。

  • AI日报: OpenAI推出gpt-image-1图像生成API;纳米AI发布MCP万能工具箱;中国占全球AI专利60%

    【AI日报】栏目聚焦人工智能领域最新动态:1) OpenAI推出ChatGPT图像生成API,开发者可轻松集成AI绘图功能,已生成超7亿张图片;2) 谷歌Gemini月活用户突破3.5亿,但仍落后于ChatGPT的6亿用户;3) OpenAI预测2029年收入将达1250亿美元,AI代理业务成主要增长点;4) Ostris发布8B参数扩散模型Flex.2-preview,优化ComfyUI工作流;5) 英伟达推出多模态LLM模型Describe Anything,支持指定区域生成详细描�