11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,性能稳定,让您的云端之旅更加畅享。快来腾讯云选购吧!
腾讯云
12-20
豆包大模型,又上新了。 2026年4月9日,原生全双工语音大模型Seeduplex正式发布,相比上一代半双工豆包端到端语音模型,新模型基于“边听边说”的全新框架设计,交互体验的自然感、顺畅度大幅提升,目前已在豆包App全量上线。 这意味着,前沿的全双工语音技术,第一次实现商业规模化落地。 而依托全双工语音技术,豆包的语音交互不再是机械式的一问一答,而是收放�
3D数字人行业陷入“颜值内卷”怪圈,过度追求视觉拟真却忽视自然交互能力。文章指出,行业瓶颈在于缺乏高质量中文多模态数据、动作与语义脱节、音画节奏错位三大难题。SentiAvatar框架通过构建高质量数据集、引入动作基础模型及创新双通道架构,实现贴合语境的实时自然交互,性能指标达国际最优水平,为打造有“灵魂”的数字人提供开源解决方案。
OpenAI正研发新型双向语音模型BiDi,旨在让用户与ChatGPT的对话更自然流畅。其核心突破在于,当用户在AI发言过程中打断时,AI能实时调整回应,而非突然停止。目前ChatGPT的高级语音模式采用回合制对话机制,用户需先说完话,AI才会处理语音并生成回答。BiDi模型能持续处理说话者的语音输入,因此在被打断时可以立即调整响应。相比之下,现有的语音模型一旦开始生成回答,输出内容就基本固定,无法再根据新的输入进行变化。这项技术目前仍处于开发阶段,原计划今年第一季度发布,但最新发布时间可能推迟到第二季度或更晚。
AI社交应用Elys近期强势出圈,其核心是“AI赛博分身”技术。用户可创建专属分身,通过记忆飞轮系统学习用户习惯,实现个性化呈现。分身24小时在线,主动浏览内容、互动点赞,为用户筛选有价值的社交连接,用户只需专注自我表达。平台还支持高维内容匹配,快速找到同好。背后声网对话式AI引擎以超低延迟(650ms)和强打断能力(340ms响应),结合选择性注意力锁定技术,确保语音交互流畅自然,打破传统AI社交壁垒,实现“真人表达、分身助力”的新模式。
本文探讨了AI时代语音交互技术的发展与应用。文章指出,AI正深刻改变生产生活方式,语音输入需求快速增长,尤其在需要双手作业的场景中,语音交互能提供无缝高效的工作流程。文章以活字格低代码开发平台为例,详细介绍了如何在浏览器端实现实时语音交互,包括通过麦克风权限获取、语音识别模型实时转写文本、并与AI大模型进行智能对话的完整方案。该方案不仅提升了交互效率和准确性,还保障了用户隐私安全。最后,文章展望了语音交互在智能家居、医疗健康、教育等领域的广泛应用前景,同时也指出了隐私保护、准确性提升和无障碍访问等面临的挑战。
本期AI日报聚焦多项AI领域新进展:字节跳动发布Seed Prover 1.5,在形式化数学推理领域取得突破;阿里通义开源语音交互模型Fun-Audio-Chat-8B,具备超低延迟和情感感知能力;MiniMax开源M2.1编码模型,性能超越闭源巨头;知乎发布2025年度AI产品榜单,豆包位居榜首;Anthropic推出开源Agent Skills知识库,助力Claude模型技能拓展;Lima v2.0发布,从容器工具进化为安全AI工作流平台;讯飞星�
Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。
标贝科技发布"十万音色·自然语音数据集",覆盖中英双语,包含10万种音色样本(中文5万、英文5万),基于近百万小时原始数据经智能生产线精细打磨。该数据集在规模、真实性和准确性三大核心指标实现突破,支持多情感表达和跨场景应用,涵盖基础情绪到特定风格,话题涉及多个领域。通过音频质量筛选、文本转写校正、说话人分离等技术,从海量数据中甄选出高质量样本,为语音识别、合成等AI模型训练提供坚实基础,助力实现更自然、真实的语音交互体验。
在当前产品开发阶段,小米将重心放在打磨最核心的语音交互与AI能力上,力求让用户能够以最自然、高效的方式获取信息、完成指令。小米强调,这种设计选择有助于提升产品的核心性能,确保用户在拍摄和语音交互过程中获得流畅、便捷的体验。 针对用户关心的视频防抖效果问题,小米透露,新一代增强防抖算法已在紧锣密鼓的开发和测试中。该算法将显著优化视频在后�
社交平台Soul App近日升级端到端全双工语音通话大模型,重新定义"全双工"交互模式。新模型突破传统语音交互依赖VAD机制与延迟控制逻辑的局限,赋予AI自主决策对话节奏的能力,实现主动打破沉默、适时打断用户、边听边说、时间语义感知等类人交互体验。同时具备多维度感知、口语化表达、音色复刻等功能,让AI更具"真人感"。该技术将应用于虚拟人实时通话、AI匹配1V1互动等场景,并探索多人互动场景应用。Soul CTO陶明表示,社交是情绪价值和信息价值的双向关系,平台将持续通过技术创新为用户提供更智能、沉浸的社交体验。数据显示,71.1%年轻人愿意和AI做朋友建立情感连接,AI社交正成为重要趋势。