首页 > 原创 > 关键词  > 人工智能最新资讯  > 正文

AI日报:苹果AI国行版或随iOS 18.6月底上线;Suno v4.5正式上线;Runway发布图像一致性参考功能

2025-05-06 15:33 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、英伟达全新开源自动语音识别模型 Parakeet-TDT-0.6B-V2,语音转录能力再提升

英伟达推出的Parakeet-TDT-0.6B-V2模型在自动语音识别领域取得了显著进展。该模型结合开源理念与商业应用,提升了转录效率,能够在一秒内完成60分钟音频的转录,且其词错误率接近市场领先水平。通过支持多种开发环境及优化多款GPU硬件,该模型为开发者提供了强大的工具,助力多样化的语音应用场景。

QQ_1746516639837.png

【AiBase提要:】

⚡ 超强转录能力:该模型能在一秒内完成60分钟音频的转录,显著提高语音处理速度。

📊 技术参数:拥有6亿个参数,结合FastConformer编码器和TDT解码器,词错误率仅为6.05%。

🌍 广泛应用场景:支持多种应用,包括转录服务、语音助手等,兼容Python和PyTorch等开发环境。

详情链接:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

2、Suno v4.5正式上线,仅限付费用户使用,生成歌曲延长至8分钟

Suno音乐生成平台推出了其最新模型v4.5,专为Pro和Premier付费用户设计,显著提升了音质、风格多样性和用户体验。新版本支持更广泛的音乐风格,增强了声线表现和音效层次,同时延长了歌曲生成时长至8分钟。尽管部分用户对付费限制表示遗憾,但也有人认为这一创新值得订阅。

【AiBase提要:】

🎵 v4.5支持更广泛的音乐风格,具备智能混搭能力,提升创作自由度。

🎤 声线表现更为饱满,情感表达精准,音域和情感深度显著提升。

⏳ 歌曲生成时长从4分钟扩展至8分钟,用户可创作更长的音乐作品。

3、Runway发布图像一致性参考功能 Gen-4References 支持提取人物、场景或风格特征及多图混合

Runway最近推出的Gen-4References功能为其AI视频生成模型增添了图像一致性参考能力,使创作者能够通过上传参考图像来提取人物、场景或风格特征,从而在生成内容中保持高度一致性。这一功能支持多张图像的混合生成,为视频创作提供了更大的控制力与创意自由,极大地简化了设计流程,推动了AI在影视制作领域的应用。

【AiBase提要:】

🖼️ Gen-4References允许用户上传多张参考图像,确保生成内容在不同场景中的一致性。

🎨 该功能支持从电影制作到广告设计等多种创作场景,提升了视觉连贯性。

🚀 Runway计划进一步增强该功能,推动AI视频生成技术的成熟与应用。

4、Midjourney V7推出全新功能 “Omni-Reference”,让图像生成更灵活

Midjourney最近推出的“Omni-Reference”功能为图像生成带来了革命性的变化。它允许用户对图像元素进行精确控制,支持多种对象生成和灵活的权重调整,从而提升创作的自由度和一致性。此功能不仅适用于艺术创作,还能在游戏开发、广告设计等多个领域发挥重要作用,展示出广泛的应用潜力。

image.png

【AiBase提要:】

🎨 Omni-Reference功能提供精准的图像元素控制,用户可上传参考图像以生成高度匹配的结果。

🧩 支持多种对象生成,用户可以在单张图像中包含多个对象,适合复杂场景的创作。

⚙️ 通过动态权重调整,用户可控制参考图像的影响强度,确保细节的一致性与风格的灵活性。

5、Claude AI将升级:网页版酝酿支持MCP定制链接

近日,科技媒体TestingCatalog报道,Anthropic旗下的Claude网页应用将通过引入Model Context Protocol(MCP)进行重大升级。这一新协议旨在打破Claude在谷歌服务方面的限制,预计将为用户提供更灵活的使用体验。MCP作为一种开放标准,将简化大型语言模型与外部数据源和工具之间的通信,提升AI助手的集成能力。

image.png

【AiBase提要:】

🌟 预计Claude AI将通过MCP标准实现更灵活的第三方服务集成。

🔗 MCP标准如同“USB-C接口”,将简化AI与外部工具的连接方式。

🚀 用户可通过网页直接访问第三方工具,提升工作效率,降低本地部署需求。

6、iOS18.6或为中国用户启用AI功能 国行苹果AI或由阿里百度技术支持

苹果AI将在iOS18.6系统中首次启用部分功能,背后有阿里巴巴和百度的技术支持。由于政策限制,海外大模型无法在中国提供服务,百度的文心一言大模型将成为国行版苹果AI的核心引擎。同时,为确保内容合规,苹果引入阿里巴巴的审查机制。

image.png

【AiBase提要:】

🛠️ 苹果AI将在iOS18.6中首次启用,背后有阿里和百度的技术支持。

📜 百度的文心一言大模型将作为国行版苹果AI的核心智能引擎。

🔍 阿里巴巴将提供审查机制,确保AI生成内容符合国内法规要求。

7、OpenAI 重返非营利模式,终止营利性实体控制机制

OpenAI 宣布重返非营利模式,结束营利性实体的控制,重组为公益公司。这一变动回应了外界对其商业化的担忧,尤其是来自埃隆·马斯克的批评。新的治理结构将确保社会效益透明,同时允许继续吸引风险投资。OpenAI 计划利用这一模式成为全球最大的慈善实体之一,预计2024年营收将突破20亿美元。

【AiBase提要:】

🌟 OpenAI 宣布重返非营利模式,终止营利性实体控制机制。

🤝 新设公益公司仍在非营利组织监督下,目标成为全球最大慈善实体之一。

💡 调整后的架构将确保社会效益指标的透明度,同时保持商业运作空间。

8、Freepik 发布“F Lite”:一个为版权安全而构建的开放 AI 图像模型

Freepik最近推出了其文本到图像生成模型“F Lite”,旨在为因版权问题而备受争议的生成器提供合法且安全的替代方案。F Lite基于Freepik自有的商业授权图像库进行训练,拥有约100亿个参数。尽管在生成插图和矢量风格作品方面表现出色,但在生成照片级逼真图像时仍存在不足。

free_pik_lite-770x828.png

【AiBase提要:】

🛡️ F Lite是Freepik推出的文本到图像生成模型,旨在提供版权安全的替代方案。

💻 该模型基于Freepik自有图像库训练,拥有约100亿个参数,强调合法审查数据的重要性。

📊 尽管在插图生成方面表现优异,但F Lite在生成照片级图像时仍面临细节缺失等挑战。

9、OpenAI同意以30亿美元收购AI编码助Windsurf

OpenAI近期宣布以约30亿美元收购人工智能编码助手Windsurf,此交易是其迄今为止最大的一笔收购,显示出其在AI领域的雄心和实力。Windsurf的技术在开发者社区中备受推崇,此次收购可能会引发行业内的广泛讨论,尤其是在OpenAI与其他AI编码助手之间的竞争关系上。

image.png

【AiBase提要:】

🌟 OpenAI以约30亿美元收购人工智能编码助手Windsurf,标志着其最大收购案。

🔍 收购引发对OpenAI与其他AI编码助手竞争关系的担忧。

⚖️ OpenAI缩减转型计划,面临法律挑战和外界批评。

10、谷歌Gemini聊天机器人全新升级:支持多图上传和图像编辑功能

谷歌的Gemini聊天机器人最近进行了重要的更新,新增了多图上传和AI图像编辑功能。该更新目前已向部分用户开放,允许在网页端同时上传多张图片,并对AI生成的图像进行编辑。尽管这些功能尚未在所有账户中完全开放,但它们为用户提供了更大的创作灵活性,提升了整体用户体验。

image.png

【AiBase提要:】

🖼️ 新增多图上传功能,部分用户已可同时上传多张图片。

✏️ 引入AI图像编辑功能,用户可更改背景和替换物体。

🔒 用户需遵循谷歌使用条款,确保合规性。

11、ChatGPT 访问量激增,4月总计达47.86亿次、首次超越 X

根据Similarweb发布的2025年4月网站流量报告,ChatGPT的访问量达到了47.86亿次,首次超过社交媒体平台X的40.28亿次,显示出生成式AI工具的快速普及。ChatGPT在工作日的访问量接近2亿次,反映出其作为生产力工具的广泛应用。

【AiBase提要:】

📈 ChatGPT在2025年4月的访问量达47.86亿次,首次超过社交媒体平台X的40.28亿次。

💼 工作日访问量接近2亿次,表明ChatGPT作为生产力工具的广泛应用。

🌍 ChatGPT的用户基础在全球范围内持续扩大,尤其是在移动端的强劲增长。

12、Excel MCP Server上线 可通过Claude等客户端直接操作Excel文件

Excel MCP Server是一款开源工具,基于模型上下文协议(MCP)开发,允许用户通过AI助手直接操作Excel文件,无需安装微软Excel软件。该工具功能强大,支持创建、读取、修改Excel数据,生成图表和透视表,极大地方便了用户的表格处理工作。

Excel MCP Server 这款 MCP 服务器颇为实用,通过 AI 助手直接操作 Excel.jpg

【AiBase提要:】

🛠️ Excel MCP Server允许用户通过AI助手直接操作Excel,无需安装微软Excel软件。

📈 该工具支持创建、读取、修改Excel数据,生成图表和透视表,功能全面。

🌐 作为开源项目,Excel MCP Server促进了社区开发,支持多种AI客户端的无缝集成。

详情链接:https://top.aibase.com/tool/excel-mcp-server

13、Claude 移动应用即将推出语音模式,支持多种声音选项

Claude 移动应用即将进行重要升级,推出备受期待的语音模式功能。该模式采用推按式对话,支持多种声音选项,并具备网页搜索能力,搜索结果以要点形式呈现,便于用户理解和跟进。此外,用户可以上传文件作为上下文参考,提升了交互体验。

image.png

【AiBase提要:】

📢 Claude 移动应用即将上线语音模式,采用推按式对话并支持多种声音选项。

🔍 语音模式支持网页搜索,输出结果以要点形式呈现,用户可方便浏览。

📁 该功能还支持文件上传,让用户可以在对话中使用图片或文档作为上下文参考。

14、新一代唇形同步工具KeySync发布:突破表情泄漏与遮挡难题

KeySync是一款创新的唇形同步工具,成功解决了AI唇形同步中的表情泄漏和嘴部遮挡问题。其独特的两阶段框架设计使得唇部动作更加自然和精准,适用于影视制作、动画、虚拟主播等多个领域。KeySync不仅支持高分辨率视频处理,还能自动生成与音频匹配的唇部动画,大幅提升工作效率。

image.png

【AiBase提要:】

🎥 KeySync通过创新算法解决了表情泄漏和嘴部遮挡问题,提升了唇形同步的精准性和自然度。

💻 该工具支持高分辨率视频处理,优化了时间连贯性,确保唇部动作流畅自然,避免了传统工具的常见问题。

🌍 KeySync的广泛应用前景为影视、动画、虚拟主播等行业带来了新的机遇,提升了多语言视频的质量和制作效率。

详情链接:https://github.com/antonibigata/keysync

举报

  • 相关推荐
  • “硅碳”携手赋能新质生产力——拥抱人工智能体开启企业智能化改造新征程

    迈入2026年,AI(人工智能)的发展已逐步在全球掀起热潮。当下,以“硅基员工”(代指人工智能体)为核心的人工智能体正在企业中加速部署,AI驱动的技术革命浪潮正以磅礴之势向我们奔涌而来。AI领域实践者们,每日都在焦虑与振奋中前行。 焦虑源于AI技术的极速迭代,若不奔跑,连留在原地都是一种奢望;振奋则因躬逢其盛,以自研AI模型推动效率革命,以打造专攻术业的�

  • 中国人工智能学会擘画智创新篇,吴文俊双会圆满落幕

    2026吴文俊人工智能创新大会暨第十五届吴文俊人工智能科学技术奖颁奖典礼在常州举行。大会聚焦国家人工智能发展战略,汇聚国内外专家、企业领袖与青年才俊,通过表彰优秀成果、学术交流与产业融合,全方位展示人工智能领域最新创新成果,探讨技术发展趋势与产业应用。大会揭晓了2025年度CAAI激励计划,并启动“智塑未来·吴奖成果江苏落地行”等活动,推动产学研深度融合,为人工智能与产业经济多领域深度合作搭建高端平台。

  • 字节跳动发布全双工语音大模型Seeduplex!豆包率先接入:打电话可边听边讲

    字节跳动正式推出原生全双工语音大模型Seeduplex,基于边听边说”的全新架构,彻底打破传统AI语音交互一问一答”的局限,实现自然实时对话。 目前Seeduplex已在豆包App全量落地,成为行业内首个规模化应用的全双工语音大模型。 Seeduplex的核心突破的是改变了传统半双工听完再说”的交互模式,真正实现了听与说的同步处理,其中两大核心能力得到重点突破: 精准抗干扰:

  • 智星璀璨,荣耀华章——2026吴文俊人工智能创新大会、第十五届吴文俊人工智能科学技术奖颁奖典礼即将启幕

    2026年全国两会后,人工智能发展迎来新浪潮。3月28日至29日,由中国人工智能学会主办的“2026吴文俊人工智能创新大会暨第十五届吴文俊人工智能科学技术奖颁奖典礼”将在常州举行。大会旨在表彰AI领域卓越贡献者,通过“学术领奖台”与“产业对接台”双平台联动,推动前沿技术从实验室走向产业链,破解成果转化“最后一公里”难题。会议将设12个专题论坛,聚焦算力光互联、具身智能、脑机接口等前沿突破,以及AI在医疗、电力、政务等场景的深度融合,同时搭建人才交流平台,为产业高质量发展储备力量。

  • 良策金宝AI荣获GAIC“年度工程AI创新领军奖”,以垂直大模型推动“人工智能+工程设计”深度融合

    杭州金口良策公司的“良策金宝AI”在2026全球人工智能大会上荣获“年度工程AI创新领军奖”。该产品在工程图纸智能处理领域实现双重突破:推出首个专用CAD理解与生成模型,以及通过多智能体协同实现图纸识别、生成与审核的端到端闭环。这标志着工程AI从“能问答”迈向“能执行”的关键跨越,为落实国家“人工智能+”行动提供了可落地的行业范本。

  • Sigmob受邀出席超级汇川联盟开发者大会,获“年度战略伙伴”荣誉

    近日,2026超级汇川联盟首届开发者大会在长沙举行,聚焦开发者生态与商业化能力升级。大会发布全新“BST战略”与“千帆计划”,旨在推动开发者生态价值持续释放。Sigmob凭借在移动广告领域的长期深耕,受邀出席并荣获“汇川声量奖·年度战略伙伴”。这一荣誉体现了Sigmob在移动广告变现领域的平台能力。随着移动互联网进入存量发展阶段,开发者更加关注平台的稳定性、效率及长期变现能力。Sigmob持续通过算法与数据体系升级底层技术,使广告策略更精准适应不同产品形态与用户场景,同时拓展生态合作,为开发者提供更稳定的变现环境。平台能力与生态资源的结合,使广告变现逐步从单一流量交易升级为更系统化的商业能力体系。

  • 教室、门厅、会议空间智慧升级!itc保伦股份助力上海某人工智能院校打通人才培养“最后一公里”

    近日发布的政府工作报告提出要培育壮大新兴产业和未来产业,布局未来能源、量子科技、具身智能、脑机接口、6G等前沿领域。AI作为推动时代变革的核心驱动力,正重塑生产力与生产关系,推动物理世界、数字世界乃至生物世界深度融合。上海某人工智能学院携手itc保伦股份对报告厅、会议室、教室、门厅等空间进行升级改造,通过融合LED显示屏、云会议、舞台灯光、扩声、一体机、广播、录播、会讨系统等音视频系统,全面适配多元化教学应用场景,为学院打造现代化、高效率、高品质的智慧教学环境提供坚实支撑。

  • AI日报:企业微信正式开源 CLI;豆包跻身全球第一梯队;微软开源前沿语音AI家族VibeVoice

    本期AI日报聚焦AI领域最新动态。企业微信开源CLI项目,整合Claude、Codex等AI助手,实现办公自动化。微软开源语音AI模型VibeVoice,支持长音频处理与多人对话生成。DeepSeek突发大规模服务中断,暴露大模型厂商在算力调度与架构稳定性方面的挑战。上海发布超150款备案大模型,集聚30万AI人才,加速具身智能发展。国产模型如豆包、小米MiMo在多个领域展现竞争力,进入“实战爆发期”。万象有声平台利用AI技术解决音频制作高成本问题,推动行业升级。智元机器人实现第10000台远征A3量产下线,15个月内产能增长十倍。Runway推出Multi-Shot App,简化视频制作流程,实现AI视频“一键成片”。

  • 拍打MacBook就娇喘!开发者48小时做出恶搞应用:三天怒赚3万多

    开发者Tonino Catapano推出了一款名为Slap Mac的macOS应用,利用MacBook内置的加速度传感器,在检测到外部冲击时发出各种音效。 该应用上架后迅速走红,三天内收入超过5000美元(约34534元人民币)。 Slap Mac的原理是读取MacBook内部的加速度传感器数据,当检测到瞬间冲击时触发音效,就是声音有点不正经。 目前应用内置8种情绪类别、超过130种声音可供选择,包括呻吟声、拳击音�

  • 淘宝闪购上线商家端AI语音助手:可查询订单、开具发票

    近日淘宝闪购面向餐饮商家的AI Agent入口AI店铺助手”正式上线语音搜索功能,成为行业内首个支持语音指令直接调起执行窗口、完成复杂操作闭环的商家端AI服务。 该功能深度融合阿里巴巴百炼大模型的流式语音识别能力、千问大模型的语义理解能力,以及端侧唤醒与意图解析的全链路技术,实现了从信息检索”到一说即办”的跨越。 商家通过语音即可完成订单查询、商品�

今日大家都在搜的词: