首页 > 业界 > 关键词  > 音频模型最新资讯  > 正文

同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能

2025-04-27 09:09 · 稿源: 机器之心公众号

今天,kimi 又发布了新的开源项目 —— 一个全新的通用音频基础模型 Kimi-Audio,支持语音识别、音频理解、音频转文本、语音对话等多种任务,在十多个音频基准测试中实现了最先进的 (SOTA) 性能。结果显示,Kimi-Audio 总体性能排名第一,几乎没有明显短板。例如在 LibriSpeech

......

本文由站长之家合作伙伴自媒体作者“机器之心公众号”授权发布于站长之家平台,本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为了保证文章信息的及时性,内容观点的准确性,平台将不提供完全的内容展现,本页面内容仅为平台搜索索引使用。需阅读完整内容的用户,请查看原文,获取内容详情。

举报

  • 相关推荐
  • 说实话,Kimi这次的东西挺难描述的

    ​工作群里有真人,也有插科打诨的 AI。这并不罕见。 工作群里干活的全是AI,真人只需要作为甲方下达任务,一个包工头AI就会指挥一群各有所长的AI开始干活,检查进度,协调工作…… 这不是科幻小说的设定,而是随着 K2.6发布,Kimi 开始内测的一个功能,Claw Group。 你可以建一个群,把自己的 AI 龙虾拉进来,再邀请朋友和他们的龙虾一起加入。 真人和 AI 在同一个群里�

  • 杨植麟现身后,Kimi又融资140亿

    投资界获悉,月之暗面(Kimi)即将完成新一轮20亿美元(约合人民币140亿元)融资,投后估值破200亿美元(约合人民币1400亿元),本轮融资由美团龙珠领投,中国移动、CPE源峰等参投,另有多家老股东加注。 至此,Kimi累计融资额已超376亿元人民币,成为中国大模型创业公司中累计融资最多的公司;全年ARR收入也从3月初突破1亿美元,到4月超过2亿美元,付费用户订阅和API调用成为主�

  • 小米自动驾驶模型Xiaomi OneVL开源:业内率先统一VLA、世界模型路线

    今日,小米正式发布并开源Xiaomi OneVL自动驾驶模型。 该模型在业内率先实现VLA、世界模型、潜空间推理等多个技术路线的统一,在具备XLA模型强悍推理能力的基础上,大幅提升了推理的速度和精度,是行业内具备开创性的方案。 其在精度上超越显式CoT、在速度上对齐仅答案”预测的潜空间CoT方案。过去,VLA和世界模型是自动驾驶领域两条相对独立的技术路线:VLA专注于理解�

  • 月之暗面Kimi再融资20亿美元:半年四轮融资 估值冲破200亿美元

    月之暗面Kimi即将完成新一轮约20亿美元融资,投后估值突破200亿美元。 本轮由美团龙珠领投,中国移动、CPE(中信产业基金)等机构参投,其中仅龙珠出资即超过2亿美元。 今年1至2月,月之暗面已密集完成三轮融资,累计金额约19亿美元。 加上本轮,公司在不到半年内累计融资超39亿美元,折合人民币逾376亿元,超越MiniMax与智谱,位列国内大模型创业公司首位。 美团龙珠�

  • AI日报:Kimi K3将于第三季度推出;英伟达发布多模态“全能模型”;Claude深度集成Adobe、Blender

    本期AI日报聚焦八大热点:月之暗面将推2.5万亿参数Kimi K3大模型,长文本处理能力突破;英伟达发布多模态模型Nemotron-3 Nano Omni,推理效率提升9倍;蚂蚁集团开源百灵Ling-2.6-flash模型;商汤推出原生多模态统一模型SenseNova U1;Claude深度集成Adobe等八大软件;字节TRAE SOLO上线语音输入;科大讯飞发布星火X2-Flash模型;ima上线知识Agent copilot,内置记忆系统。

  • 改写语音交互行规,豆包大模型更稳了

    豆包大模型,又上新了。 2026年4月9日,原生全双工语音大模型Seeduplex正式发布,相比上一代半双工豆包端到端语音模型,新模型基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升,目前已在豆包App全量上线。 这意味着,前沿的全双工语音技术,第一次实现商业规模化落地。 而依托全双工语音技术,豆包的语音交互不再是机械式的一问一答,而是收放�

  • 普渡机器人正式发布具身智能大模型PuduFM 1.0

    2026年5月11日,普渡机器人发布具身智能大模型PuduFM1.0,构建三维空间深度感知、物理状态预测和持续进化学习三大技术维度,实现从“简单执行”向“物理认知”的跨越。该模型通过分层架构和虚实双数据闭环,解决行业在协作、操作和异构数据复用上的困境,支持超长程任务和异构机器统一运行,推动具身智能规模化落地。

  • 能看懂、听懂!豆包Seed 2.0 Lite升级:首款全模态理解模型

    火山引擎宣布Doubao-Seed-2.0-lite升级,成为豆包大模型家族首款全模态理解模型。新版支持视频、图像、音频、文本原生统一理解,并同步升级Agent、Coding与GUI能力,增强多模态推理。在视觉理解上,该模型在物理HiPhO、医疗MedXpertQA等高阶学科推理任务中大幅超越2月发布的Doubao-Seed-2.0-pro,并在BabyVision、WorldVQA等领域达SOTA水平。升级重点融入语音理解,可同时处理多种输入模态并完成跨模态联合推理,支持19语种语音转写及中英等互译,捕捉情绪、环境声等细节。该模型还深度适配OpenClaw等框架,强化深度搜索与Skill动态调用,实现越用越聪明。

  • 小米自研AI大模型!Xiaomi MiMo再次登顶全球第一

    小米官方今天发文宣布,小米技术官方宣布,在OpenRouter平台最新数据中,Hermes Agent登顶全球调用量榜首,日Token调用量达2910亿,周调用量超1.75万亿。 小米自研MiMo模型成为第一大贡献模型,近一个月累计贡献1.45万亿Token调用量。

  • INDEMIND:家庭机器人的范式革命,从机械执行到理解空间

    家庭机器人历经扫地机、陪伴机器人等产品形态,始终停留在“自动化工具”阶段,缺乏对家庭环境的真正理解。传统SLAM技术虽能精准建图,却无法赋予机器人区分沙发与餐桌的“生活常识”。大模型技术爆发后,行业竞争维度从硬件参数转向空间认知深度。未来,机器人需具备“感知-理解-决策-执行”的完整智能闭环,从“执行指令”升级为“理解空间”,重构家庭服务商业逻辑,实现从硬件销售到全场景服务运营的范式革命。

今日大家都在搜的词: