首页 > AI头条  > 正文

Hume AI重磅发布EVI 3:懂你情绪的语音AI,比GPT-4o还快!

2025-06-03 09:51 · 来源: AIbase基地

近日,Hume AI正式发布了其第三代语音交互模型EVI3,这一全新语音AI以其卓越的情感理解能力和个性化交互体验引发业界广泛关注。EVI3不仅能精准识别用户语音中的情绪,还能根据用户喜好生成特定风格的声音和个性,标志着语音AI在情感交互和自然沟通领域的重大突破。以下,AIbase为您带来关于EVI3的最新资讯和深度解析。

image.png

体验地址:https://demo.hume.ai/

EVI3:情感智能与语音交互的完美融合

EVI3是Hume AI基于多模态数据集研发的第三代语音语言模型,集语音转录、推理和语音合成于一体。相较于前代模型,EVI3在情感理解、语音表达的自然度和个性化定制方面实现了质的飞跃。据官方介绍,该模型能够通过用户输入的简单文本提示,在不到一秒的时间内生成全新的声音和人格设定,支持超过30种复杂的语音风格,赋予AI独特的“性格”或“情绪”。

例如,用户可以通过描述生成“老派喜剧演员”或“睿智巫师”等多样化角色声音,EVI3不仅能精准模仿指定风格,还能根据对话情境动态调整语气和表达方式。这种高度个性化的交互体验,让EVI3在客户服务、虚拟助手、内容创作等场景中展现出巨大潜力。

超低延迟与智能响应:技术性能全面领先

EVI3的推理延迟低至300毫秒,响应速度显著优于OpenAI的GPT-4o,接近新兴技术Sesame,并远超Google的Gemini。在包含1,720名参与者的盲测中,EVI3在情感表达、自然度、语音质量、响应速度、打断处理等七个维度上均超越了GPT-4o,展现出无与伦比的性能优势。

更令人瞩目的是,EVI3能够在对话中实时进行搜索、推理和智能回答。例如,用户在与AI交谈时,EVI3可以一边“倾听”用户语音,一边调用外部工具获取信息,并在对话中无缝融入答案,极大提升了交互的流畅性和实用性。这种端到端的语音处理能力,使得EVI3成为当前语音AI领域的标杆。

情感识别:让AI更懂人类

EVI3的另一大亮点是其强大的情感识别能力。通过分析用户语音的音调、节奏和音色,EVI3能够精准捕捉用户的情绪状态,并据此调整自身的回应语气,营造出更自然、共情的人机交互体验。相比传统语音助手,EVI3在情感表达上的细腻程度更胜一筹,能够模拟人类对话中的停顿、语气变化甚至“umm”等自然口语习惯。

Hume AI表示,EVI3通过强化学习技术对音高、语速和情感风格进行了优化,训练数据涵盖了超过10万个语音样本。这种独特的多模态训练方法,使得EVI3能够从海量数据中提取人类语音的细微特征,从而生成更真实、更具感染力的语音表达。

多场景应用:从客服到内容创作的无限可能

EVI3现已通过Hume AI的iOS应用和在线演示平台向用户开放体验,API接口也将在未来几周内推出,供开发者集成到各类应用中。无论是用于客户服务、健康教练、沉浸式故事叙述,还是虚拟伴侣,EVI3都能提供高度个性化和情感化的交互体验。

例如,在客户服务场景中,EVI3能够根据用户的情绪状态调整语气,提供更贴心的回应;在内容创作领域,创作者可以利用EVI3生成定制化的有声书或游戏角色配音,极大地丰富了创作可能性。Hume AI还计划进一步优化EVI3的多语言能力,未来将更熟练地支持法语、德语、意大利语和西班牙语等语言,拓展全球市场。

Hume AI的愿景:以情感驱动AI未来

Hume AI由前DeepMind研究员Alan Cowen于2021年创立,致力于打造以人类情感和福祉为核心的AI技术。EVI3的发布是Hume AI实现其愿景的重要一步。官方表示,到2025年底,Hume AI的目标是打造一个完全个性化的语音AI体验,让语音交互成为人与AI沟通的主要方式。

相较于OpenAI和Anthropic等巨头专注于提升模型的通用智能,Hume AI更注重语音AI的真实感和情感共鸣。EVI3通过自然语言定制工具,让用户无需复杂的技术操作即可创建专属AI声音,这种用户友好的设计有望推动语音AI的普及和应用。

EVI3的发布无疑为语音AI领域注入了新的活力。其在情感识别、低延迟响应和个性化定制方面的突破,不仅挑战了现有语音AI模型的性能极限,也为未来的AI交互方式指明了方向。AIbase认为,EVI3的出现标志着语音AI从机械化的语音助手向真正“懂你”的智能伙伴迈出了关键一步。

  • 相关推荐
  • AI日报:阿里开源长文本深度思考模型QwenLong-L1;GPT-4o语音模式上线唱歌功能;秘塔AI搜索推出全新“极速”模型

    本文汇总了AI领域最新动态:1)中国信通院发布智能体开发标准,推动AI商业化进程;2)阿里推出QwenLong-L1-32B长文本推理模型,性能媲美Claude-3;3)GPT-4o语音模式升级,新增唱歌功能;4)秘塔AI搜索推出极速模型,响应速度达400tokens/秒;5)谷歌发布LMEval评估框架,统一大模型评测标准;6)Chrome浏览器集成Gemini AI助手;7)阿联酋全民免费使用ChatGPT Plus;8)苏州成立60亿元AI产业基金;9)法国Kyutai实验室推出10秒定制语音的Unmute系统;10)UAV-Flow项目实现无人机语音精准控制;11)Claude将升级支持百万字上下文和记忆功能;12)百度心响iOS版上线;13)夸克推出高考深度搜索功能;14)Chrome v137开发者工具升级;15)美团AI业务接近GPT-4o水平;16)Direct3D-S2实现3D生成速度提升10倍;17)OpenAI计划2026年推出首款AI硬件。

  • ChatGPT重磅升级GPT-4.1:编程专家模型登场

    OpenAI于5月15日正式推出GPT-4.1模型,采用差异化推送策略:付费用户可体验完整版,普通用户使用轻量级GPT-4.1 mini。新版模型在编程任务表现突出,能精准遵循指令,避免冗长输出。测试显示其响应速度提升30%,输出稳定性提高40%,部分性能超越GPT-4o。同时OpenAI宣布将斥资30亿美元收购编程工具Windsurf,强化开发者生态,与Google同日发布的Gemini-GitHub形成直接竞争。两大巨头的动作标志着AI编程助手进入生态竞争新阶段。

  • AI日报:阿里通义千问Qwen3问鼎全球开源模型;Kimi长思考模型API发布;OpenAI发布新一代GPT-4.1模型

    【AI日报】汇总了近期AI领域重要动态:1)阿里通义千问3开源模型上线7天即登顶全球开源模型榜首,在指令遵循和推理能力上超越闭源模型;2)月之暗面推出Kimi长思考模型API,可解决复杂代码和数学问题;3)OpenAI发布GPT-4.1模型,性能提升显著;4)Google推出Gemini2.5Pro模型,提升开发者编码能力;5)联想发布"天禧超级智能体",具备多模态感知能力;6)腾讯元宝上线"对话分

  • 谷歌 I/O大会智能眼镜或引爆技术焦点,Meta/微美全息竞逐AI/AR生态新赛道!

    谷歌将于5月20-21日举办I/O开发者大会,重点展示Android系统、AI和Web技术新进展,包括Gemini Live等新功能。Meta正研发新一代智能眼镜Live AI,预计2026年推出,将支持面部识别功能,并计划发布代号Hypernova的AR眼镜。苹果CEO库克聚焦AI/AR眼镜研发,产品或于2027年面世。微美全息(WIMI.US)作为行业领军者,通过技术创新在AR眼镜、头显等核心产品持续布局,推出动态渲染引擎和MicroLED光机模块等技术。2025年AI/AR行业将进入技术沉淀期,硬件迭代、生态开放与AI融合成为竞争核心,推动智能眼镜在文旅、教育等场景的创新应用。

  • AI日报:DeepSeek开源新版R1-0528;字节发布图像Agent小云雀AI;可灵2.1重磅上线

    本期AI日报聚焦多项AI领域突破:1)DeepSeek发布R1-0528模型,支持128K上下文且性能媲美GPT-4;2)字节推出"小云雀AI"图像创作工具;3)可画2.1版本价格降65%性能提升;4)Opera发布全球首款AI浏览器Neon;5)Meta推出多模态空间理解模型;6)北大团队研发ZeroSearch框架降低大模型训练成本88%;7)字节推出AI视频剪辑应用"剪小映";8)MotionPro实现40ms/帧精准视频控制;9)xAI与Telegram达成3亿美元合作部署Grok聊天机器人;10)OpenAI重组架构为IPO铺路;11)像素蛋糕"方糖大模型"获国内首个影像行业备案;12)Paper2Poster实现论文自动转海报;13)Resemble AI开源TTS模型性能比肩ElevenLabs;14)蚂蚁集团开源对标GPT-4o的多模态模型Ming-lite-omni。

  • AI日报:谷歌推最强AI全家桶Google AI Ultra;腾讯混元宣布模型矩阵全面升级;豆包·语音播客模型发布

    本文汇总了近期AI领域的重要动态:1)谷歌推出249.99美元/月的AI Ultra订阅计划,提供最强AI模型和高级功能;2)腾讯混元模型升级,新增视觉推理T1-Vision和语音对话模型;3)美图获阿里2.5亿美元投资,将在电商和AI领域合作;4)豆包推出语音播客模型,实现文本快速转音频;5)百度文心X1 Turbo获信通院最高评级;6)谷歌发布Flow AI剪辑工具,集成Veo3等三大模型;7)谷歌Veo3支持4K视频生成;8)Imagen4图像模型发布;9)Gemini2.5 Pro新增并行推理功能;10)谷歌推出虚拟试衣工具;11)公测AI编程助手Jules;12)苹果计划在iOS19开放AI模型;13)京东云推五大免费AI营销工具;14)字节开源多模态模型BAGEL;15)英伟达发布物理推理模型Cosmos-Reason1。

  • AI日报:GPT-4.1正式上线ChatGPT;阿里通义万相Wan2.1-VACE开源;可灵大模型视频生成量约占30%份额

    本文报道了AI领域最新动态:1)阿里通义万相开源视频编辑统一模型VACE;2)OpenAI发布GPT-4.1增强编码能力;3)Stability AI推出超轻量341M文字转语音模型;4)快手可灵视频生成模型占据30%市场份额;5)微软WizardLM团队整体加入腾讯混元大模型研发体系;6)腾讯宣布混元图像2.0将于5月16日发布;7)上海成立人工智能标识生态联盟;8)Lightricks发布13B参数视频生成模型LTX-Video;9)谷歌DeepMind推出AlphaEvolve优化AI训练速度;10)腾讯元宝浏览器插件上线Chrome平台。这些进展展示了AI技术在视频处理、大模型、语音合成等领域的快速发展。

  • 发布AI Agent开发平台,做强AI生态… 网易数智接下来这么干

    AI时代正从AIGC转向AI Agent发展。微软CEO纳德拉预测AI Agent将成为新应用,Gartner预计到2028年超1/3企业软件将集成AI Agent功能。网易数智发布CoreAgent智能体开发平台及多款行业智能体,助力企业快速落地AI应用。文章指出当前AI Agent面临技术门槛高、场景适配难等挑战,网易提出"技术共生、市场共拓、利润共享"的生态协同理念,强调AI需要与行业know-how结合才能创造真实价值。网易数智宣布品牌升级,从"科技蓝"变为"网易红",展现拥抱AI时代的决心。

  • Anthropic 发布 Claude 4 系列 AI 模型,有啥重大突破?

    Anthropic 表示,这两款 AI 模型在多个行业基准测试中表现出色,是目前业内最强的模型之一……

  • 比眨眼还快!机器人0.103秒还原魔方破世界纪录

    美国普渡大学学生团队研发的机器人系统Purdubiks Cube以0.103秒打破魔方还原世界纪录,比此前日本三菱电机0.305秒的纪录快近3倍。该系统整合了机器视觉、定制算法和工业级运动控制硬件,每个动作都经过轨迹优化实现亚毫秒级同步控制。该团队在2024年12月校园设计比赛中首次亮相并获得第一名后持续改进,突破了自动化与高速计算的极限。魔方机器人纪录自2009年的1分4秒不断刷新,2016年首次突破1秒大关。

今日大家都在搜的词:

热文

  • 3 天
  • 7天