首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:苹果AI国行版或随iOS 18.6月底上线;Suno v4.5正式上线;Runway发布图像一致性参考功能

2025-05-06 15:33 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2,语音转录能力再提升

英伟达推出的Parakeet-TDT-0.6B-V2模型在自动语音识别领域取得了显著进展。该模型结合开源理念与商业应用,提升了转录效率,能够在一秒内完成60分钟音频的转录,且其词错误率接近市场领先水平。通过支持多种开发环境及优化多款GPU硬件,该模型为开发者提供了强大的工具,助力多样化的语音应用场景。

QQ_1746516639837.png

【AiBase提要:】

⚡ 超强转录能力:该模型能在一秒内完成60分钟音频的转录,显著提高语音处理速度。

📊 技术参数:拥有6亿个参数,结合FastConformer编码器和TDT解码器,词错误率仅为6.05%。

🌍 广泛应用场景:支持多种应用,包括转录服务、语音助手等,兼容Python和PyTorch等开发环境。

详情链接:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

2、Suno v4.5正式上线,仅限付费用户使用,生成歌曲延长至8分钟

Suno音乐生成平台推出了其最新模型v4.5,专为Pro和Premier付费用户设计,显著提升了音质、风格多样性和用户体验。新版本支持更广泛的音乐风格,增强了声线表现和音效层次,同时延长了歌曲生成时长至8分钟。尽管部分用户对付费限制表示遗憾,但也有人认为这一创新值得订阅。

【AiBase提要:】

🎵 v4.5支持更广泛的音乐风格,具备智能混搭能力,提升创作自由度。

🎤 声线表现更为饱满,情感表达精准,音域和情感深度显著提升。

⏳ 歌曲生成时长从4分钟扩展至8分钟,用户可创作更长的音乐作品。

3、Runway发布图像一致性参考功能 Gen-4References 支持提取人物、场景或风格特征及多图混合

Runway最近推出的Gen-4References功能为其AI视频生成模型增添了图像一致性参考能力,使创作者能够通过上传参考图像来提取人物、场景或风格特征,从而在生成内容中保持高度一致性。这一功能支持多张图像的混合生成,为视频创作提供了更大的控制力与创意自由,极大地简化了设计流程,推动了AI在影视制作领域的应用。

【AiBase提要:】

🖼️ Gen-4References允许用户上传多张参考图像,确保生成内容在不同场景中的一致性。

🎨 该功能支持从电影制作到广告设计等多种创作场景,提升了视觉连贯性。

🚀 Runway计划进一步增强该功能,推动AI视频生成技术的成熟与应用。

4、Midjourney V7推出全新功能 “Omni-Reference”,让图像生成更灵活

Midjourney最近推出的“Omni-Reference”功能为图像生成带来了革命性的变化。它允许用户对图像元素进行精确控制,支持多种对象生成和灵活的权重调整,从而提升创作的自由度和一致性。此功能不仅适用于艺术创作,还能在游戏开发、广告设计等多个领域发挥重要作用,展示出广泛的应用潜力。

image.png

【AiBase提要:】

🎨 Omni-Reference功能提供精准的图像元素控制,用户可上传参考图像以生成高度匹配的结果。

🧩 支持多种对象生成,用户可以在单张图像中包含多个对象,适合复杂场景的创作。

⚙️ 通过动态权重调整,用户可控制参考图像的影响强度,确保细节的一致性与风格的灵活性。

5、Claude AI将升级:网页版酝酿支持MCP定制链接

近日,科技媒体TestingCatalog报道,Anthropic旗下的Claude网页应用将通过引入Model Context Protocol(MCP)进行重大升级。这一新协议旨在打破Claude在谷歌服务方面的限制,预计将为用户提供更灵活的使用体验。MCP作为一种开放标准,将简化大型语言模型与外部数据源和工具之间的通信,提升AI助手的集成能力。

image.png

【AiBase提要:】

🌟 预计Claude AI将通过MCP标准实现更灵活的第三方服务集成。

🔗 MCP标准如同“USB-C接口”,将简化AI与外部工具的连接方式。

🚀 用户可通过网页直接访问第三方工具,提升工作效率,降低本地部署需求。

6、iOS18.6或为中国用户启用AI功能 国行苹果AI或由阿里百度技术支持

苹果AI将在iOS18.6系统中首次启用部分功能,背后有阿里巴巴和百度的技术支持。由于政策限制,海外大模型无法在中国提供服务,百度的文心一言大模型将成为国行版苹果AI的核心引擎。同时,为确保内容合规,苹果引入阿里巴巴的审查机制。

image.png

【AiBase提要:】

🛠️ 苹果AI将在iOS18.6中首次启用,背后有阿里和百度的技术支持。

📜 百度的文心一言大模型将作为国行版苹果AI的核心智能引擎。

🔍 阿里巴巴将提供审查机制,确保AI生成内容符合国内法规要求。

7、OpenAI 重返非营利模式,终止营利性实体控制机制

OpenAI 宣布重返非营利模式,结束营利性实体的控制,重组为公益公司。这一变动回应了外界对其商业化的担忧,尤其是来自埃隆·马斯克的批评。新的治理结构将确保社会效益透明,同时允许继续吸引风险投资。OpenAI 计划利用这一模式成为全球最大的慈善实体之一,预计2024年营收将突破20亿美元。

【AiBase提要:】

🌟 OpenAI 宣布重返非营利模式,终止营利性实体控制机制。

🤝 新设公益公司仍在非营利组织监督下,目标成为全球最大慈善实体之一。

💡 调整后的架构将确保社会效益指标的透明度,同时保持商业运作空间。

8、Freepik 发布“F Lite”:一个为版权安全而构建的开放 AI 图像模型

Freepik最近推出了其文本到图像生成模型“F Lite”,旨在为因版权问题而备受争议的生成器提供合法且安全的替代方案。F Lite基于Freepik自有的商业授权图像库进行训练,拥有约100亿个参数。尽管在生成插图和矢量风格作品方面表现出色,但在生成照片级逼真图像时仍存在不足。

free_pik_lite-770x828.png

【AiBase提要:】

🛡️ F Lite是Freepik推出的文本到图像生成模型,旨在提供版权安全的替代方案。

💻 该模型基于Freepik自有图像库训练,拥有约100亿个参数,强调合法审查数据的重要性。

📊 尽管在插图生成方面表现优异,但F Lite在生成照片级图像时仍面临细节缺失等挑战。

9、OpenAI同意以30亿美元收购AI编码助Windsurf

OpenAI近期宣布以约30亿美元收购人工智能编码助手Windsurf,此交易是其迄今为止最大的一笔收购,显示出其在AI领域的雄心和实力。Windsurf的技术在开发者社区中备受推崇,此次收购可能会引发行业内的广泛讨论,尤其是在OpenAI与其他AI编码助手之间的竞争关系上。

image.png

【AiBase提要:】

🌟 OpenAI以约30亿美元收购人工智能编码助手Windsurf,标志着其最大收购案。

🔍 收购引发对OpenAI与其他AI编码助手竞争关系的担忧。

⚖️ OpenAI缩减转型计划,面临法律挑战和外界批评。

10、谷歌Gemini聊天机器人全新升级:支持多图上传和图像编辑功能

谷歌的Gemini聊天机器人最近进行了重要的更新,新增了多图上传和AI图像编辑功能。该更新目前已向部分用户开放,允许在网页端同时上传多张图片,并对AI生成的图像进行编辑。尽管这些功能尚未在所有账户中完全开放,但它们为用户提供了更大的创作灵活性,提升了整体用户体验。

image.png

【AiBase提要:】

🖼️ 新增多图上传功能,部分用户已可同时上传多张图片。

✏️ 引入AI图像编辑功能,用户可更改背景和替换物体。

🔒 用户需遵循谷歌使用条款,确保合规性。

11、ChatGPT 访问量激增,4月总计达47.86亿次、首次超越 X

根据Similarweb发布的2025年4月网站流量报告,ChatGPT的访问量达到了47.86亿次,首次超过社交媒体平台X的40.28亿次,显示出生成式AI工具的快速普及。ChatGPT在工作日的访问量接近2亿次,反映出其作为生产力工具的广泛应用。

【AiBase提要:】

📈 ChatGPT在2025年4月的访问量达47.86亿次,首次超过社交媒体平台X的40.28亿次。

💼 工作日访问量接近2亿次,表明ChatGPT作为生产力工具的广泛应用。

🌍 ChatGPT的用户基础在全球范围内持续扩大,尤其是在移动端的强劲增长。

12、Excel MCP Server上线 可通过Claude等客户端直接操作Excel文件

Excel MCP Server是一款开源工具,基于模型上下文协议(MCP)开发,允许用户通过AI助手直接操作Excel文件,无需安装微软Excel软件。该工具功能强大,支持创建、读取、修改Excel数据,生成图表和透视表,极大地方便了用户的表格处理工作。

Excel MCP Server 这款 MCP 服务器颇为实用,通过 AI 助手直接操作 Excel.jpg

【AiBase提要:】

🛠️ Excel MCP Server允许用户通过AI助手直接操作Excel,无需安装微软Excel软件。

📈 该工具支持创建、读取、修改Excel数据,生成图表和透视表,功能全面。

🌐 作为开源项目,Excel MCP Server促进了社区开发,支持多种AI客户端的无缝集成。

详情链接:https://top.aibase.com/tool/excel-mcp-server

13、Claude 移动应用即将推出语音模式,支持多种声音选项

Claude 移动应用即将进行重要升级,推出备受期待的语音模式功能。该模式采用推按式对话,支持多种声音选项,并具备网页搜索能力,搜索结果以要点形式呈现,便于用户理解和跟进。此外,用户可以上传文件作为上下文参考,提升了交互体验。

image.png

【AiBase提要:】

📢 Claude 移动应用即将上线语音模式,采用推按式对话并支持多种声音选项。

🔍 语音模式支持网页搜索,输出结果以要点形式呈现,用户可方便浏览。

📁 该功能还支持文件上传,让用户可以在对话中使用图片或文档作为上下文参考。

14、新一代唇形同步工具KeySync发布:突破表情泄漏与遮挡难题

KeySync是一款创新的唇形同步工具,成功解决了AI唇形同步中的表情泄漏和嘴部遮挡问题。其独特的两阶段框架设计使得唇部动作更加自然和精准,适用于影视制作、动画、虚拟主播等多个领域。KeySync不仅支持高分辨率视频处理,还能自动生成与音频匹配的唇部动画,大幅提升工作效率。

image.png

【AiBase提要:】

🎥 KeySync通过创新算法解决了表情泄漏和嘴部遮挡问题,提升了唇形同步的精准性和自然度。

💻 该工具支持高分辨率视频处理,优化了时间连贯性,确保唇部动作流畅自然,避免了传统工具的常见问题。

🌍 KeySync的广泛应用前景为影视、动画、虚拟主播等行业带来了新的机遇,提升了多语言视频的质量和制作效率。

详情链接:https://github.com/antonibigata/keysync

举报

  • 相关推荐
  • 马斯克:Grok 5模型有望实现通用人工智能的突破

    马斯克旗下xAI公司正研发Grok 5模型,有望实现通用人工智能(AGI)重大突破。该模型采用全新架构设计,预计未来几周启动训练。若成功将代表AI从专用领域向通用认知能力的质的飞跃,被视为人工智能发展的终极目标。科技界密切关注xAI能否在激烈竞争的大模型赛道实现突破。

  • 即构发布云端实时语音识别服务

    ZEGO云端实时语音识别服务针对直播、语聊、在线课堂和会议等场景,提供低延迟(端到端600ms)、高准确率(提升40%)、低成本(节省50%以上)的解决方案。支持30多种语言及方言,适配多厂商接入,具备降噪和回声消除能力。核心应用包括实时字幕和AI观众互动,显著提升用户体验和业务效率,助力企业全球化布局。

  • 每日互动参与发起《人工智能安全行业自律倡议》 守护人工智能产业可持续发展

    9月17日,2025年国家网络安全宣传周人工智能安全治理分论坛在昆明召开,会上正式发布《人工智能安全行业自律倡议》。该倡议由中国网络空间安全协会联合多家科研院所、互联网头部企业、网络安全厂商及人工智能企业共同发起,提出筑牢安全根基、强化技管结合、深化协同共治等七方面共识,旨在推动构建可控、可信、可靠的人工智能产业生态,为全球人工智能治理贡献中国智慧。

  • 十方融海:以开源生态为基,绘就“人工智能 +”产业融合新蓝图

    国务院印发《关于深入实施“人工智能+”行动的意见》,推动AI技术与产业深度融合。深圳企业十方融海凭借AI大模型研发、产品创新及开源生态构建等领域的卓越实践,成为行业先锋。其开源模型如OpenBuddy、小智AI等突破传统技术局限,实现多模态交互与跨领域知识融合,覆盖教育、办公、养老、文体等多元场景。通过开放共享模式,十方融海有效降低AI应用门槛,激发行业创新活力,助力我国人工智能产业迈向新征程。

  • 市值一日暴增近3000亿港元,阿里迈向超级人工智能之路

    9月24日,阿里巴巴股价创下四年新高,单日涨超9%,市值达到约3.32万亿港元,一日增加近3000亿港元。 引爆股价的,是阿里集团每年一度的云栖大会。在会上,阿里释放多条重磅消息,尤其是在阿里集团CEO、阿里云智能集团董事长兼CEO吴泳铭的演讲结束后,阿里的股价表现就出现了明显的拉升。

  • AI日报:小米开源首个原生端到端语音大模型;通义万相Wan2.2-Animate正式开源;Suno v5即将上线

    AI日报今日聚焦多项技术突破:小米开源首个端到端语音大模型Xiaomi-MiMo-Audio;通义万相推出全新动作生成模型Wan2.2-Animate;Suno即将发布革命性音乐模型v5;生数科技获数亿融资,视频生成技术商业化加速。同时关注OpenAI修复ChatGPT安全漏洞,谷歌将Gemini集成至Chrome浏览器,Luma AI发布支持16位色的Ray3视频生成模型,法国Mistral推出开源推理模型Magistral Small 1.2,Notion发布AI智能体,腾讯混元3D Studio提升3D创作效率。

  • 普适性覆盖人工智能典型场景 寒武纪产品技术优势凸显

    中科寒武纪科技预计2025年全年实现营业收入50亿至70亿元。公司已全面掌握智能芯片及基础系统软件研发核心技术,截至2025年6月30日,累计获授权专利1599项。2025年上半年,公司实现营业收入28.81亿元,同比增长4347.82%,净利润扭亏为盈。寒武纪持续优化智能处理器微架构及指令集,新一代产品将提升编程灵活性、易用性、性能及能效。高盛维持对公司的积极看法,上调12个月目标价至2104元,并调高2030年预期EBITDA及企业价值倍数。

  • 小米开源首个原生端到端语音大模型 支持音频重建任务和音频转文本任务

    小米发布首款开源端到端语音大模型Xiaomi-MiMo-Audio,拥有12亿参数,在智能性、情感表达和交互适配方面接近人类水平。该模型最大技术突破在于少样本学习能力,通过创新预训练架构和超一亿小时训练数据,成功突破传统语音模型依赖大规模标注数据的技术瓶颈。基于Transformer架构,支持音频重建和音频转文本等多任务处理。小米已在Huggingface平台发布预训练和指令微调版本,并在Github开源Tokenizer模型,为研究者和开发者提供完整工具链。

  • 华为全联接大会2025首发《算力珠玑》十大实战案例助力开发者攻克鲲鹏、昇腾开发难关

    《算力珠玑:鲲鹏昇腾应用开发案例详解》由上海交通大学林新华教授等主编,聚焦鲲鹏与昇腾两大自主计算生态的应用迁移与优化难题。全书通过十个真实场景案例,系统解析从传统平台迁移至自主算力平台的代码移植、性能调优及算子开发等关键技术,涵盖高能计算、AI训练、工业诊断等领域。书中结合理论与实践,提供具体代码与优化策略,旨在帮助开发者降低迁移成本、提升效率,推动自主算力技术在实际场景中“用好用活”,为我国在全球算力竞争中夯实基础。

  • HC2025丨高校创新力量“花开”开发者日,鲲鹏昇腾使能科研创新

    2025年9月18日至20日,华为全联接大会在上海成功举办。开发者日集中展示了一批基于鲲鹏、昇腾基础软硬件平台的前瞻性创新成果,覆盖AI编程语言、大模型训练加速、多模态模型及科学计算仿真等领域。重点成果包括:北京大学团队研发的DeepFlame燃烧流体仿真工具实现火箭发动机超临界燃烧模拟千倍加速;清华大学团队开源AI量子编程语言TileLang显著提升开发效率;东南大学提出多模态大模型优化方法;魔芯科技构建首个基于昇腾的3D空间智能大模型;趋境科技KTransformers引擎通过异

今日大家都在搜的词: