首页 > 原创 > 关键词  > AI日报最新资讯  > 正文

AI日报:Kimi全新音频基础模型Kimi-Audio;阶跃星辰开源图像编辑模型Step1X-Edit;​夸克AI框上线 “拍照问夸克”

2025-04-27 15:45 · 稿源:站长之家

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、Moonshot AI发布Kimi-Audio:开源音频基础模型树立新标杆

Moonshot AI最近推出的Kimi-Audio是一款开源音频基础模型,旨在推动音频理解、生成和交互技术的发展。该模型基于Qwen2.5-7B架构,结合Whisper技术,支持多种音频任务,如语音识别和音频问答。凭借超过13亿小时的多样化音频数据训练,Kimi-Audio在多项基准测试中表现出色,超越了现有模型。

QQ20250427-090033.png

【AiBase提要:】

🎤 Kimi-Audio具备强大的多功能音频处理能力,支持语音识别、音频问答等多项任务。

📊 该模型在超过13亿小时的多样化音频数据上进行训练,展现了卓越的性能表现。

🌍 Kimi-Audio的开源策略降低了音频AI技术的使用门槛,促进了全球AI技术的民主化进程。

详情链接:https://github.com/MoonshotAI/Kimi-Audio

2、阶跃星辰开源图像生成模型Step1X-Edit:开源图像编辑新标杆

Step1X-Edit是由Stepfun AI团队推出的开源图像编辑模型,结合了多模态大语言模型与扩散变换器,展现出强大的图像生成能力。其开源特性和高性能表现吸引了业界的广泛关注,尤其是在GEdit-Bench基准测试中表现优异。该模型为内容创作者和开发者提供了强大的工具,推动了图像编辑技术的发展。

QQ_1745715180413.png

【AiBase提要:】

🚀: Step1X-Edit结合多模态大语言模型与扩散变换器,能高效生成高质量图像。

📊: GEdit-Bench基准测试显示其性能超越现有开源模型,接近闭源模型水平。

💡: 开源特性为研究和开发提供了基础,推动了图像编辑技术的创新与普及。

详情链接:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit

3、夸克AI超级框升级 上线“拍照问夸克”功能:啥都能答

阿里巴巴旗下的夸克AI超级框于4月25日推出了“拍照问夸克”功能,这一创新利用视觉理解和推理模型,能够快速识别和理解用户在现实生活中遇到的各种问题。用户通过拍照可以获取准确的信息和答案,涵盖多个领域,包括文物讲解、商品识别、健康分析等。

image.png

【AiBase提要:】

📸 新功能“拍照问夸克”基于视觉理解,能快速识别图片中的内容并提供相关信息。

🛒 用户可以通过上传商品图片直接跳转到淘宝同款链接,提升购物体验。

🌍 该功能支持多种语言提问和翻译,适用于旅行、健康、工作等多个场景。

4、国行版苹果AI智能要来了?iOS18.5正式版预计5月份推送

苹果公司即将在5月向中国用户推送iOS18.5正式版更新,带来备受关注的Apple智能功能。这一功能已在其他地区上线,中国用户等待了近一个月。Apple智能是一套基于个人场景的AI系统,提供多样化服务,包括照片消除和智能回复等。然而,只有iPhone15Pro系列及即将发布的iPhone16全系机型支持该功能,且用户需确保设备有足够的存储空间。

image.png

【AiBase提要:】

🆕 Apple智能功能将于5月正式推送给中国用户,标志着苹果进入生成式AI时代。

📸 该功能包括照片消除、通知摘要和智能回复等多样化服务,但仅支持iPhone15Pro及以上机型。

💾 用户需确保设备至少有7GB可用存储空间,这对部分用户的存储管理可能带来挑战。

5、谷歌AI发布601个真实世界的生成式AI应用案例,涵盖各行业

谷歌云最近发布了一份报告,展示了601个来自全球顶尖企业的生成式AI应用案例,显示出这一技术的快速发展和广泛应用。相比去年仅有的101个案例,增长了六倍,涵盖了汽车、金融、医疗等多个行业。这些案例不仅突显了生成式AI在运营和战略中的重要性,还展示了其作为组织结构一部分的潜力。

image.png

【AiBase提要:】

🔍601个生成式AI应用案例展示了技术在各行业的广泛应用,较去年增长六倍。

💼 AI代理分类清晰,展示了AI在客户服务、内部生产力和安全等方面的多重角色。

🚀 各行业的实际应用案例凸显了生成式AI从实验走向生产的重要趋势。

详情链接:https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders

6、微软发布全新Agent操作系统UFO² ,深度整合Windows与智能自动化

微软近期推出的UFO²版本在自动化领域带来了显著进步,特别是在与Windows系统的深度集成方面。新版本能够直接调用Windows的原生API,极大提升了自动化任务的执行效率。与OpenAI的Operator相比,UFO²在多个测试场景中的成功率明显更高,尤其在处理复杂任务和跨应用操作时表现出色。

image.png

【AiBase提要:】

🚀 UFO²与Windows系统深度集成,能直接调用原生API,提升自动化效率。

📊 UFO²的自动化任务成功率显著高于OpenAI的Operator,表现出色。

🖥️ 新增的画中画模式实现自动化任务与用户操作的隔离,提升用户体验。

详情链接:https://github.com/microsoft/UFO?tab=readme-ov-file

7、OpenAI 推出 ChatGPT 新版本:更智能、更直观的 GPT-4o

OpenAI 最近对其 ChatGPT 的 GPT-4o 版本进行了重要更新,重点在于如何更好地保存记忆以及提升在科学、技术、工程和数学(STEM)领域的技能。新版本旨在引导对话更有效地朝着富有成效的结果发展,同时提升模型的智能水平和人格特质。尽管存在某些“光滑”过度的问题,OpenAI 承诺未来将进行改进。此外,开发者可以选择新的 GPT-4.1系列,以获得更稳定的 API 体验。

【AiBase提要:】

🌟 更新的 GPT-4o 版本在记忆保存和 STEM 技能方面进行了优化。

🤖 OpenAI 承认模型在某些情况下存在 “光滑” 过度的问题,未来将改进。

🔧 开发者可选择新推出的 GPT-4.1系列,以获得更稳定的 API 体验。

8、Ema推新型语言模型EmaFusion:成本和准确性方面击败了 O3、Gemini

Ema公司推出了新型语言模型EmaFusion,声称在成本和准确性上超越了多款知名AI模型。EmaFusion采用“级联”判断系统,能够动态平衡成本与准确性,并允许用户根据任务需求进行微调。其准确率达到94.3%,运行成本显著降低,成为企业AI发展的新选择。

image.png

【AiBase提要:】

🌟 EmaFusion 的准确率达到94.3%,成本是市场平均水平的四分之一。

💡 EmaFusion 能够智能拆解复杂任务,并将其分配给最适合的 AI 模型。

🚀 Ema 正与 KPMG、Hitachi 等全球领军企业合作,推动企业 AI 的发展。

详情链接:https://www.ema.co/emafusion

9、Liquid AI推出Hyena Edge,开创智能手机边缘设备的新时代

Liquid AI近期推出了新型卷积模型Hyena Edge,旨在为智能手机及边缘设备提供更高效的人工智能解决方案。该模型在计算效率和内存使用上超越了传统的Transformer++模型,尤其适合资源受限的环境。Hyena Edge在多个标准语言模型基准测试中表现出色,展示了自动化架构设计的潜力,并计划在未来开源,推动技术普及。

image.png

【AiBase提要:】

🌟 Hyena Edge 是Liquid AI公司推出的新型卷积模型,专为智能手机等边缘设备设计。

🚀 该模型在计算效率和内存使用上优于传统的 Transformer++ 模型,适合资源受限的环境。

📈 Hyena Edge 在多个标准语言模型基准测试中表现卓越,并计划在未来开源以促进技术普及。

详情链接:https://www.liquid.ai/research/convolutional-multi-hybrids-for-edge-devices

10、LemonAI 推出实时音视频 AI 数字人模型 Slice Live

LemonAI 最近推出了其创新产品 Slice Live,这是一款全球首创的实时音视频 AI 模型。用户只需上传一张照片,即可与虚拟角色进行实时视频通话。Slice Live 采用先进的 Transformer 模型,以每秒25帧的速度渲染每个像素,确保画面流畅且真实。该产品在娱乐和教育领域都展示了巨大的潜力,未来还将扩展到 AR、VR 和元宇宙应用,同时重视用户隐私和数据安全。

【AiBase提要:】

📸 用户只需上传一张照片,即可与虚拟角色进行实时视频通话。

🎭 Slice Live 在娱乐和教育领域提供沉浸式互动体验,带来生动的学习内容。

🔒 LemonAI 承诺持续探索隐私保护,确保用户数据安全。

11、智谱与生数科技达成战略合作 专注大模型联合创新

4月27日,清华大学旗下的智谱与生数科技宣布达成重大战略合作,旨在通过双方在大语言模型和多模态生成模型的技术积累,共同推进国产大模型的技术创新与产业落地。此次合作涵盖联合研发、产品联动、解决方案整合等多个方面,双方将聚焦多个行业,推动AI技术的应用与发展,展示了国产大模型在技术创新和产业应用方面的巨大潜力。

image.png

【AiBase提要:】

🤖 智谱与生数科技将联合研发大语言模型和多模态生成模型,推动技术创新。

📈 双方的合作将整合各自的技术特长,打造更具竞争力的行业解决方案。

🌐 合作将聚焦政企服务、文化旅游等领域,共同推动AI技术的规模化应用。

12、宝马中国宣布新车型接入DeepSeek 含5系、全新X3

宝马中国在第三季度将推出搭载DeepSeek技术的新车型,标志着其在智能车载系统方面的重要进步。此技术将应用于第九代操作系统的多款新车,增强车主与车辆的互动体验。用户可通过BMW智能个人助理以自然语言进行交流,系统能够理解并响应口语化指令,提供便捷的驾驶体验。

【AiBase提要:】

🚗 宝马将在第三季度推出搭载DeepSeek技术的新车型,提升车载智能交互体验。

🗣️ 用户可通过BMW智能个人助理以自然语言进行交流,系统能理解口语化指令。

🌟 DeepSeek技术旨在增强用户与车辆的互动,提供更便捷的驾驶体验。

举报

  • 相关推荐
  • AI日报:OpenAI发布三款实时语音模型;苹果首款AI硬件曝光;美团入局AI社交赛道

    今日AI热点:OpenAI发布三款实时语音模型,覆盖推理对话、翻译和转录场景;苹果首款AI硬件AirPods进入DVT阶段,内置摄像头;宇树科技UniStore平台开放,开启人形机器人应用商店时代;阶跃星辰完成25亿美元融资,冲刺香港IPO;美团推出首个数字生命共生社区“鲸游”公测;OpenAI推出GPT-5.5-Cyber预览版,专攻网络安全;Mozilla借助AI发现Firefox 271个安全漏洞;OpenAI发布Codex Chrome扩展,优化浏览器工作流。

  • 小米自动驾驶模型Xiaomi OneVL开源:业内率先统一VLA、世界模型路线

    今日,小米正式发布并开源Xiaomi OneVL自动驾驶模型。 该模型在业内率先实现VLA、世界模型、潜空间推理等多个技术路线的统一,在具备XLA模型强悍推理能力的基础上,大幅提升了推理的速度和精度,是行业内具备开创性的方案。 其在精度上超越显式CoT、在速度上对齐仅答案”预测的潜空间CoT方案。过去,VLA和世界模型是自动驾驶领域两条相对独立的技术路线:VLA专注于理解�

  • AI日报:腾讯发布设计智能体Ardot;千问5月20日将发布重大模型;OpenAI推出ChatGPT个人理财工具

    本期AI日报聚焦八大热点:腾讯发布AI设计平台Ardot,一句话生成可编辑设计稿并一键转代码;通义千问“重量级”大模型将于5月20日阿里云峰会亮相,实现全面升级;AI大模型在基层警务中落地,豆包助力破获柴油盗窃案;Google I/O大会将推出Gemini 4.0等创新产品;索尼澄清Xperia 1XIII的AI相机助手仅提供拍摄建议;OpenAI推出ChatGPT个人理财工具,结合GPT-5.5支持连接银行账户;中国大模型周调用量连续三周超越美国,腾讯Hy3 preview以2.66万亿Token领先;红果短剧回应取消AI仿真人剧本保底传闻,称部分剧本仍保留保底政策。

  • AI日报:千问PC端上线AI语音输入;字节发布全模态大模型Doubao-Seed-2.0-lite;谷歌更新AI搜索功能

    本期AI日报涵盖多项重要进展:千问PC端上线AI语音输入,提升办公效率;字节跳动发布全模态大模型Doubao-Seed-2.0-lite,实现视频、图像、音频与文本统一理解;腾讯联合多所高校推出开源多模态深度搜索智能体方案OpenSearch-VL;月之暗面申请“KimiClaw”商标,或涉硬件领域;Mininglamp开源Cider和Mano-P,打造本地AI工作站;OpenAI携手硬件巨头发布MRC协议,解决GPU闲置浪费;谷歌升级AI搜索功能,整合Reddit等社交观点;xAI推出Grok Imagine API质量模式,提升图像生成写实度。

  • 改写语音交互行规,豆包大模型更稳了

    豆包大模型,又上新了。 2026年4月9日,原生全双工语音大模型Seeduplex正式发布,相比上一代半双工豆包端到端语音模型,新模型基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升,目前已在豆包App全量上线。 这意味着,前沿的全双工语音技术,第一次实现商业规模化落地。 而依托全双工语音技术,豆包的语音交互不再是机械式的一问一答,而是收放�

  • AI日报:快手拟分拆可灵AI独立融资;360升级“安全龙虾”平台;网信办要求AI生成视频必须标注

    快手拟分拆可灵AI独立融资,估值200亿美元剑指明年IPO,其年化营收已破3亿美元,覆盖C端订阅与B端API调用,全球创作者超6000万。网信办发布短视频标注新规,要求平台为AI生成及虚构内容提供六类必选标签,强化存量视频追溯补标,推动产业合规。小米自研大模型MiMo获国际认可,百度发布Ernie5.1预训练成本骤降94%,性能挺进全球Search排行前四。360升级“安全龙虾”平台,10分钟可自建专家智能体;Claude Code推出Agent View统管后台AI任务。宇树科技发布全球首款量产载人变形机甲GD01,起售价390万元。谷歌地图深度集成Gemini,CarPlay导航将进入对话时代。

  • AI日报:豆包披露付费订阅方案;OpenAI发布GPT-5.5Instant;苹果手机支持第三方AI模型

    今日AI领域动态:豆包推出月费68-500元三档付费订阅,推进商业化;OpenAI发布GPT-5.5 Instant,取代5.3成为ChatGPT默认模型;苹果iOS 27或支持第三方AI模型,打破封闭生态;淘宝“答题免单”上线,首次加入AI试穿玩法;魔形智能完成数亿元Pre-A轮融资,布局Token基础设施;谷歌神秘项目“Remy”曝光,打造24小时AI助教;谷歌推出Gemini Ultra Lite新订阅服务,填补中高端市场空白;ChatGPT上线广告主平台,AI商业化迎来分水岭。

  • 模型即审美:生图模型们正建起自己的“视觉方言”

    ​最近在测试各种AI生图模型的时候,我们发现了一个现象:同样一个提示词,丢给不同的模型,出来的图片风格差异大到像是出自不同摄影流派。 Image-2生成的图就像我昨天随手拍的,但Nano Banana生成的图感觉像某个家居品牌的广告大片。有些模型执着于捕捉现实的每一丝瑕疵,有些则痴迷于把日常场景变成精致的艺术品。这背后反映的不是能力差别,而是每个模型对"什么

  • 华为HMS for Car北京车展实车体验,海外AI大模型上线

    在2026年北京车展上,华为HMS for Car推出全新升级的一站式座舱生态解决方案,以AI为核心,整合AI Box、Map Box、Service Box和Net Box四大模块,解决海外市场地图更新滞后、多语言适配成本高、生态适配难和跨国网络接入管理等痛点。AI Box搭载大模型,支持多语言语音交互,Map Box提供实时导航,Service Box聚合全球生态,Net Box确保稳定连接,助力中国车企降低研发成本,加速全球化布局。

  • AI日报:微信读书接入AI Skill;三大运营商上线Token套餐;Qwen3.7预览版全球首发亮相

    本期AI日报涵盖8大热点:1. 微信读书接入AI Skill,智能管理书架、推荐书籍;2. 三大运营商推出Token套餐,将AI算力以流量包形式出售;3. 阿里通义千问发布Qwen3.7预览版,逻辑与视觉能力领先;4. 搜狐明确“理性应用”AI战略,专注业务落地而非大模型竞赛;5. Alexa+上线按需播客功能,用户可定制生成专属内容;6. Anthropic升级Claude Design和Code,提升创作与开发效率;7. 智元WITA大模型完成备案,成为首款合规具身智能交互大模型,并发布“358宏图计划”;8. Cursor发布Composer2.5编码模型,性能媲美GPT-5.5但成本极低。

今日大家都在搜的词: