AI日报：Kimi全新音频基础模型Kimi-Audio；阶跃星辰开源图像编辑模型Step1X-Edit；夸克AI框上线 “拍照问夸克”

2025-04-27 15:45 · 稿源：站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、Moonshot AI发布Kimi-Audio:开源音频基础模型树立新标杆

Moonshot AI最近推出的Kimi-Audio是一款开源音频基础模型，旨在推动音频理解、生成和交互技术的发展。该模型基于Qwen2.5-7B架构，结合Whisper技术，支持多种音频任务，如语音识别和音频问答。凭借超过13亿小时的多样化音频数据训练，Kimi-Audio在多项基准测试中表现出色，超越了现有模型。

【AiBase提要:】
🎤 Kimi-Audio具备强大的多功能音频处理能力，支持语音识别、音频问答等多项任务。
📊 该模型在超过13亿小时的多样化音频数据上进行训练，展现了卓越的性能表现。
🌍 Kimi-Audio的开源策略降低了音频AI技术的使用门槛，促进了全球AI技术的民主化进程。
详情链接:https://github.com/MoonshotAI/Kimi-Audio

2、阶跃星辰开源图像生成模型Step1X-Edit:开源图像编辑新标杆

Step1X-Edit是由Stepfun AI团队推出的开源图像编辑模型，结合了多模态大语言模型与扩散变换器，展现出强大的图像生成能力。其开源特性和高性能表现吸引了业界的广泛关注，尤其是在GEdit-Bench基准测试中表现优异。该模型为内容创作者和开发者提供了强大的工具，推动了图像编辑技术的发展。

【AiBase提要:】
🚀: Step1X-Edit结合多模态大语言模型与扩散变换器，能高效生成高质量图像。
📊: GEdit-Bench基准测试显示其性能超越现有开源模型，接近闭源模型水平。
💡: 开源特性为研究和开发提供了基础，推动了图像编辑技术的创新与普及。
详情链接:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit

3、夸克AI超级框升级上线“拍照问夸克”功能:啥都能答

阿里巴巴旗下的夸克AI超级框于4月25日推出了“拍照问夸克”功能，这一创新利用视觉理解和推理模型，能够快速识别和理解用户在现实生活中遇到的各种问题。用户通过拍照可以获取准确的信息和答案，涵盖多个领域，包括文物讲解、商品识别、健康分析等。

【AiBase提要:】
📸 新功能“拍照问夸克”基于视觉理解，能快速识别图片中的内容并提供相关信息。
🛒 用户可以通过上传商品图片直接跳转到淘宝同款链接，提升购物体验。
🌍 该功能支持多种语言提问和翻译，适用于旅行、健康、工作等多个场景。

4、国行版苹果AI智能要来了?iOS18.5正式版预计5月份推送

苹果公司即将在5月向中国用户推送iOS18.5正式版更新，带来备受关注的Apple智能功能。这一功能已在其他地区上线，中国用户等待了近一个月。Apple智能是一套基于个人场景的AI系统，提供多样化服务，包括照片消除和智能回复等。然而，只有iPhone15Pro系列及即将发布的iPhone16全系机型支持该功能，且用户需确保设备有足够的存储空间。

【AiBase提要:】
🆕 Apple智能功能将于5月正式推送给中国用户，标志着苹果进入生成式AI时代。
📸 该功能包括照片消除、通知摘要和智能回复等多样化服务，但仅支持iPhone15Pro及以上机型。
💾 用户需确保设备至少有7GB可用存储空间，这对部分用户的存储管理可能带来挑战。

5、谷歌AI发布601个真实世界的生成式AI应用案例，涵盖各行业

谷歌云最近发布了一份报告，展示了601个来自全球顶尖企业的生成式AI应用案例，显示出这一技术的快速发展和广泛应用。相比去年仅有的101个案例，增长了六倍，涵盖了汽车、金融、医疗等多个行业。这些案例不仅突显了生成式AI在运营和战略中的重要性，还展示了其作为组织结构一部分的潜力。

【AiBase提要:】
🔍601个生成式AI应用案例展示了技术在各行业的广泛应用，较去年增长六倍。
💼 AI代理分类清晰，展示了AI在客户服务、内部生产力和安全等方面的多重角色。
🚀 各行业的实际应用案例凸显了生成式AI从实验走向生产的重要趋势。
详情链接:https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders

6、微软发布全新Agent操作系统UFO² ，深度整合Windows与智能自动化

微软近期推出的UFO²版本在自动化领域带来了显著进步，特别是在与Windows系统的深度集成方面。新版本能够直接调用Windows的原生API，极大提升了自动化任务的执行效率。与OpenAI的Operator相比，UFO²在多个测试场景中的成功率明显更高，尤其在处理复杂任务和跨应用操作时表现出色。

【AiBase提要:】
🚀 UFO²与Windows系统深度集成，能直接调用原生API，提升自动化效率。
📊 UFO²的自动化任务成功率显著高于OpenAI的Operator，表现出色。
🖥️ 新增的画中画模式实现自动化任务与用户操作的隔离，提升用户体验。
详情链接:https://github.com/microsoft/UFO?tab=readme-ov-file

7、OpenAI 推出 ChatGPT 新版本:更智能、更直观的 GPT-4o

OpenAI 最近对其 ChatGPT 的 GPT-4o 版本进行了重要更新，重点在于如何更好地保存记忆以及提升在科学、技术、工程和数学（STEM）领域的技能。新版本旨在引导对话更有效地朝着富有成效的结果发展，同时提升模型的智能水平和人格特质。尽管存在某些“光滑”过度的问题，OpenAI 承诺未来将进行改进。此外，开发者可以选择新的 GPT-4.1系列，以获得更稳定的 API 体验。

【AiBase提要:】
🌟 更新的 GPT-4o 版本在记忆保存和 STEM 技能方面进行了优化。
🤖 OpenAI 承认模型在某些情况下存在 “光滑” 过度的问题，未来将改进。
🔧 开发者可选择新推出的 GPT-4.1系列，以获得更稳定的 API 体验。

8、Ema推新型语言模型EmaFusion:成本和准确性方面击败了 O3、Gemini

Ema公司推出了新型语言模型EmaFusion，声称在成本和准确性上超越了多款知名AI模型。EmaFusion采用“级联”判断系统，能够动态平衡成本与准确性，并允许用户根据任务需求进行微调。其准确率达到94.3%，运行成本显著降低，成为企业AI发展的新选择。

【AiBase提要:】
🌟 EmaFusion 的准确率达到94.3%，成本是市场平均水平的四分之一。
💡 EmaFusion 能够智能拆解复杂任务，并将其分配给最适合的 AI 模型。
🚀 Ema 正与 KPMG、Hitachi 等全球领军企业合作，推动企业 AI 的发展。
详情链接:https://www.ema.co/emafusion

9、Liquid AI推出Hyena Edge，开创智能手机边缘设备的新时代

Liquid AI近期推出了新型卷积模型Hyena Edge，旨在为智能手机及边缘设备提供更高效的人工智能解决方案。该模型在计算效率和内存使用上超越了传统的Transformer++模型，尤其适合资源受限的环境。Hyena Edge在多个标准语言模型基准测试中表现出色，展示了自动化架构设计的潜力，并计划在未来开源，推动技术普及。

【AiBase提要:】
🌟 Hyena Edge 是Liquid AI公司推出的新型卷积模型，专为智能手机等边缘设备设计。
🚀 该模型在计算效率和内存使用上优于传统的 Transformer++ 模型，适合资源受限的环境。
📈 Hyena Edge 在多个标准语言模型基准测试中表现卓越，并计划在未来开源以促进技术普及。
详情链接:https://www.liquid.ai/research/convolutional-multi-hybrids-for-edge-devices

10、LemonAI 推出实时音视频 AI 数字人模型 Slice Live

LemonAI 最近推出了其创新产品 Slice Live，这是一款全球首创的实时音视频 AI 模型。用户只需上传一张照片，即可与虚拟角色进行实时视频通话。Slice Live 采用先进的 Transformer 模型，以每秒25帧的速度渲染每个像素，确保画面流畅且真实。该产品在娱乐和教育领域都展示了巨大的潜力，未来还将扩展到 AR、VR 和元宇宙应用，同时重视用户隐私和数据安全。

【AiBase提要:】
📸 用户只需上传一张照片，即可与虚拟角色进行实时视频通话。
🎭 Slice Live 在娱乐和教育领域提供沉浸式互动体验，带来生动的学习内容。
🔒 LemonAI 承诺持续探索隐私保护，确保用户数据安全。

11、智谱与生数科技达成战略合作专注大模型联合创新

4月27日，清华大学旗下的智谱与生数科技宣布达成重大战略合作，旨在通过双方在大语言模型和多模态生成模型的技术积累，共同推进国产大模型的技术创新与产业落地。此次合作涵盖联合研发、产品联动、解决方案整合等多个方面，双方将聚焦多个行业，推动AI技术的应用与发展，展示了国产大模型在技术创新和产业应用方面的巨大潜力。

【AiBase提要:】
🤖 智谱与生数科技将联合研发大语言模型和多模态生成模型，推动技术创新。
📈 双方的合作将整合各自的技术特长，打造更具竞争力的行业解决方案。
🌐 合作将聚焦政企服务、文化旅游等领域，共同推动AI技术的规模化应用。

12、宝马中国宣布新车型接入DeepSeek 含5系、全新X3

宝马中国在第三季度将推出搭载DeepSeek技术的新车型，标志着其在智能车载系统方面的重要进步。此技术将应用于第九代操作系统的多款新车，增强车主与车辆的互动体验。用户可通过BMW智能个人助理以自然语言进行交流，系统能够理解并响应口语化指令，提供便捷的驾驶体验。

【AiBase提要:】
🚗 宝马将在第三季度推出搭载DeepSeek技术的新车型，提升车载智能交互体验。
🗣️ 用户可通过BMW智能个人助理以自然语言进行交流，系统能理解口语化指令。
🌟 DeepSeek技术旨在增强用户与车辆的互动，提供更便捷的驾驶体验。

（举报）

相关推荐

关键词：

荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

本期AI日报聚焦多项技术突破：月之暗面开源AI代理框架Kosong，支持异步编排与插件化设计；Replit推出AI集成功能，可一键调用300+模型；商汤发布空间智能模型SenseNova-SI，性能超越GPT-5；百度推出多模态模型ERNIE-4.5-VL，新增图像思考能力；谷歌地图全面AI化，集成Gemini实现智能交互；ChatTutor上线可视化教学系统，覆盖多学科实时推演；新版Google Finance引入AI深度搜索与财报追踪；OpenAI低调上线Polaris Alpha模型，支持256K上下文并更新知识库至2024年10月。

AI代理开源框架异步编排
HUAWEI SOUND及音频新品技术沟通会：深度解码「华为悦彰」技术，聆听家庭影院新标杆

2025年11月6日，华为在HUAWEI SOUND音频新技术沟通会上全面展示了悦享声学品牌的技术积累与成果。会议系统解读了技术理念，并通过产品体验展现声学技术如何赋能多场景应用。华为悦享家庭影院作为首款应用该技术的产品亮相，其7.1.4星穹声场、鲸鲨超重低音及3D空间音频算法三大核心技术，结合水平与垂直方向的精准声场定位，为用户提供沉浸式家庭娱乐体验。产品设计极简，四台音箱采用鎏金星光网布包裹，兼具美观与声学优化。该产品已深度融入华为全场景智慧生态，支持与智慧屏、家庭存储等设备联动，实现影音、K歌、游戏等多功能一体，推动家庭影音行业创新发展。

华为悦彰声学音频技术家庭影院
Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发，专为多轮对话场景设计，支持中英川粤等多语言/方言与副语言风格，能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点，在播客、语音合成等场景表现突出，获开发者广泛关注。Hugging Face CEO也转发相关内容，团队未来将持续优化语音对话、拟人化表达等核心交互能力，深化开源生态建设。

SoulX-Podcast TTS 语音生成模型
荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

本期AI日报涵盖八大热点：Lovart AI推出"元素拆分"功能，实现海报智能分层编辑；苹果Xcode 26.1.1优化AI编码性能；阿里云通义模型双11单日翻译调用量突破14亿次；Gemini 3在历史手稿破译中展现专家级能力；德国法院裁定OpenAI使用歌词训练构成侵权；开源语音模型Maya1实现富有表现力的实时文本转语音；Meta首席AI科学家LeCun计划离职创办世界模型公司；AI专家罗福莉加入小米，将致力于构建物理世界智能。

AI设计元素拆分海报编辑
Hugging Face创始人x小红书技术副总裁对谈：开源、AI与技术人的成长

小红书科技与Red++ Academy在1024程序员节举办直播，技术副总裁凯奇、语音模型负责人风龙与Hugging Face联合创始人Thomas Wolf围绕三大核心观点展开AMA对话：AI编程正成为基础能力；开源是技术发展的核心引擎；实现有"人味"的AGI路径清晰但仍需攻克创造力、复杂环境感知等难题。讨论覆盖开源价值、AGI发展瓶颈、AI人味化实践，强调技术人需提升问题定义与框架性解决能力，并分享了AI编码提效、学习新技术的方法。直播展现小红书从文本模型到语音模型的开源布局，旨在降低技术使用门槛，推动社区共进。

1024程序员节小红书Red Academy
荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

国家广电总局宣布自2026年3月起全面整治AI生成内容，要求AIGC作品纳入分类分层审核体系。360发布《大模型安全白皮书》，提出全链路AI安全防线应对新型威胁。百度推出2299元小度AI眼镜Pro，集成智能翻译等多项功能。StepFun开源音频编辑模型Step-Audio-EditX，实现文本化语音编辑。Grok新增纯文本生成视频功能，17秒可生成带特效视频片段。研究发现谷歌Veo-3模型能生成逼真手术视频但缺乏医学逻辑。阿里Qwen3-Max-Thinking在全球数学竞赛夺冠，并在加密货币交易中取得显著回报。OpenAI推出轻量化GPT-5 Codex Mini模型，优化开发者体验。

AI动画广电总局 AIGC审核
豆包-应用生成·「一点都不技术」创作挑战赛开赛！

英特尔联合豆包-应用生成发起“一点都不技术”创作挑战赛，旨在通过零代码AI工具降低创意门槛。用户只需输入一句话或一张图，即可在5分钟内生成网页、工具或小游戏等多样化作品。赛事设置总价值20万元奖励，包含现金及火箭发射观礼等特色福利，并构建“创作-交流-成长”的完整生态，推动AI技术普惠。活动将持续至2025年12月8日，让每个平凡创意都有机会落地生花。

AI技术创意革命零代码
荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

本期AI日报聚焦多领域创新：昆仑万维推出SkyReels V3模型，整合顶尖视频生成能力；月之暗面Kimi Linear模型处理长文本速度提升2.9倍；MiniMax Music 2.0实现专业级音乐创作；字节跳动启动豆包股权激励计划吸引AI人才；苹果iOS 27将迎AI重大升级，Siri更个性化；Dia浏览器融合Arc设计理念与AI技术；文心魔法漫画工具实现一键生成连载作品；谷歌Gemini Canvas新增PPT自动生成功能，由Gemini 2.5 Pro驱动，提升职场效率。

AI视频生成 SkyReels V3
新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

苹果因自研大模型项目遇瓶颈，决定引入谷歌Gemini大模型升级Siri，计划每年支付约10亿美元获取定制化Gemini 2.5 Pro使用权。该模型拥有1.2万亿参数，将全面负责Siri的信息摘要、任务规划及复杂指令执行等核心功能，支持多模态交互和超长文本处理。升级版Siri预计2026年春季随iOS 26.4推送，后续将在WWDC大会展示进一步整合。苹果选择谷歌主要因成本优势、长期合作基础及Gemini领先性能。

苹果谷歌Gemini Siri升级
全球开源技术峰会GOTC 2025 圆满落幕

11月2日，为期两天的全球开源技术峰会GOT C2025在北京圆满落幕。本届峰会聚焦开源与人工智能深度融合，汇聚全球顶尖专家、行业领袖与数千开发者，共同探讨开源驱动的AI未来蓝图。现场吸引超3000人次参与，线上直播观看量突破500万，全网曝光超6亿次。大会设立十二大专题论坛，覆盖大模型应用、AI编程、云原生AI等前沿领域，并发布Open AgentKit等关键项目。通过“论坛+市集�

开源技术人工智能全球峰会

今日大家都在搜的词：

热文

3 天
7天

AI日报：Kimi全新音频基础模型Kimi-Audio；阶跃星辰开源图像编辑模型Step1X-Edit；夸克AI框上线 “拍照问夸克”

荐AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.5-VL；GPT-5.1“隐身”登场

HUAWEI SOUND及音频新品技术沟通会：深度解码「华为悦彰」技术，聆听家庭影院新标杆

Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

荐AI日报：Lovart AI上线“元素拆分”功能；Xcode 26.1.1发布；阿里云通义模型首次大规模赋能双11

Hugging Face创始人x小红书技术副总裁对谈：开源、AI与技术人的成长

荐AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推出小度AI眼镜Pro

豆包-应用生成·「一点都不技术」创作挑战赛开赛！

荐AI日报：昆仑万维SkyReels V3模型上线；月之暗面推Kimi Linear模型；MiniMax Music 2.0 发布

新Siri或明年春季发布苹果公司或引入谷歌Gemini大模型 AI技术

全球开源技术峰会GOTC 2025 圆满落幕

今日大家都在搜的词：

热文

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

雷军回应小米双11战绩：谢谢大家支持

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

卢伟冰：小米手机双11连续三年国产销量第一

华为Mate 70 Air维修备件价格公布：换主板2499元

特斯拉磁悬浮Cybertruck车模上架中国官网售价999元

腾讯回应QQ群最早是为了员工约饭：是一个朴实无华的需求

AI日报：月之暗面开源AI新框架Kosong；百度发布新模型ERNIE-4.

iPhone Pocket被吐槽像保温水瓶套网友：韭菜太好割

雷军回应小米双11战绩：谢谢大家支持

iPhone 18 Pro或缩小灵动岛苹果正测试特殊挖孔方案

OPPO Reno15系列官宣11月10日发布

AI日报：上海首例涉AI提示词著作权案宣判；Kimi K2 Thinking发

AI日报：广电整治AI动画乱象；360发布大模型安全白皮书；百度推

焕新享界S9开卖72小时预订突破8000台

OPPO Reno15系列定档11月17日发布

卢伟冰：小米手机双11连续三年国产销量第一

华为Mate 70 Air维修备件价格公布：换主板2499元

站长商机

AI日报：Kimi全新音频基础模型Kimi-Audio；阶跃星辰开源图像编辑模型Step1X-Edit；​夸克AI框上线 “拍照问夸克”

今日大家都在搜的词：

热文

站长商机

AI日报：Kimi全新音频基础模型Kimi-Audio；阶跃星辰开源图像编辑模型Step1X-Edit；夸克AI框上线 “拍照问夸克”