首页 > 传媒 > 关键词  > 人工智能最新资讯  > 正文

Soul App全双工语音大模型升级,让AI在交互中拥有“主动性”

2025-07-04 15:05 · 稿源: 站长之家用户

当AI深刻介入人类生活、重构链接方式,社交场景究竟需要怎样的底层能力创新带来交互体验的提升?

近日,社交平台Soul App自研端到端全双工语音通话大模型全面升级。此次升级重新定义“全双工”交互范式,新模型摒弃了传统语音交互中依赖的 VAD(话音活性检测)机制与延迟控制逻辑,打破行业中普遍存在的“轮次对话”模式,赋予 AI 自主决策对话节奏的能力。AI可实现主动打破沉默、适时打断用户、边听边说、时间语义感知、并行发言讨论等。同时,模型具备多维度感知(包括时间感知、环境感知、事件感知等),口语化表达(如语气词、结巴、明显情绪起伏)、音色复刻等能力,让AI更具“真人感”,支持打造更沉浸、类现实交互的语音互动新体验。

Soul新升级的端到端全双工通话大模型即将开启站内内测,后续将陆续落地于虚拟人实时通话、AI匹配等1V1互动场景。同时,Soul AI团队正探索将该能力应用于多人互动场景,让AI能在多人对话中,精准把握说话时机,适时加入交流、延展话题,推动多元关系网络的构建。

Soul App CTO陶明表示,社交是情绪价值和信息价值交换的双向关系,Soul始终致力于以创新的技术和产品方案为用户提供更智能、更沉浸、更优质的交互体验,让天下没有孤独的人。

全双工语音实时通话,重新定义AI社交陪伴场景的语音交互

此次Soul技术升级重点聚焦在全双工实时语音通话能力在陪伴场景的交互突破。自新一轮人工智能浪潮兴起,AI对话、AI陪伴类产品率先迎来爆发,也成为了大众接触AI的首选应用品类。但此前受限于技术发展,人机对话普遍存在“一问一答”的机械式互动现象,即“用户提问——AI输出”依次进行,过程中,延迟、打断等均将影响交互的沉浸感。

2024年,Soul推出自研端到端全双工语音通话大模型,具备超低交互延迟、快速自动打断、超真实声音表达和情绪感知理解能力等特点,能够直接理解丰富的声音世界,支持超拟人化的多风格语言。为进一步实现更接近生活日常的交互对话和“类真人”的情感陪伴体验,近日,Soul再次升级模型,具体来看,升级后AI能力特点包括:

一、全双工语音交互,AI具备自主决策反应能力

新模型支持响应(Response)、倾听(Listen)与打断(Interrupt)流式预测,AI自主决定发言时机,实现完全端到端的全双工交互——AI 与用户可以同时说话(如辩论、吵架、合唱)、适宜打断用户/被用户打断、AI主动打破沉默发起话题。

当AI拥有自主决策反应能力,在边听边说中,掌握互动时机、互动内容的“主动性”,将极大提升人机对话的自然度,并且在较长时间、多轮对话的交互中,实现沉浸的类真实交互体验。

二、日常表达口语化和情感化,情绪更鲜明的人机交互

让AI更具“真人感”,这包括在情绪表达、发音特点、对话内容等多维度的综合指标提升,更加接近现实日常表达。例如,情绪表达方面,除了具备笑、哭、生气等情绪特色外,新模型的声音情绪起伏更加明显,并能结合对话推进实现同步变化。在发音特点上,具备语气词、结巴、常用口头禅、咳嗽等日常语音元素。此外,AI对话的内容更加口语化、社交化,而非书面语言。

三、时间、事件、环境感知能力,互动更具沉浸感

Soul的新模型基于纯自回归模型架构,统一文本和音频生成(Unified Model),充分利用大语言模型强大的学习能力,让AI发言深度整合人设、时间、环境及上下文对话等信息。这意味着,具备感知、理解能力的AI能够更好塑造“数字人格”,形成丰富的AI故事线,让人机交互真正成为“情感与信息的双向交流”。

值得一提的是,目前,Soul AI团队正探索全双工语音通话模型在多人场景的扩展,例如在多人语音对话中,AI凭借自主决策能力,判断说话时机,有效组织话题讨论与延伸,融入真实关系生态。

让AI融入社交关系网络,提供情绪价值和信息价值

2025年,伴随着AI在大众层面的渗透率进一步提升以及技术能力的持续跃进,“AI应用爆发”成为行业共识。在众多垂类应用场景,“社交”因具备极高流量价值、网络效应和交互入口等特点,被视为诞生AI时代“Killer App”重要领域之一。

作为较早思考将AI应用于社交的互联网平台,Soul App自2016年上线后便积极拥抱AI,重塑关系的发现、建立、沉淀环节,帮助用户在无压力的社交环境中,自在表达,基于兴趣构建多元社交关系网络。

2020年,Soul启动系统的AIGC技术研发工作,并在智能对话、语音、3D虚拟人等方面拥有前沿积累。自2023年推出自研语言大模型Soul X后,Soul还陆续上线了语音生成大模型、语音通话大模型、音乐生成大模型等大模型能力。2024年,Soul AI大模型能力已整体升级为多模态端到端大模型,支持文字对话、语音通话、多语种、多模态理解、真实拟人等特性。

在扎实的AI底层能力长期积累基础上,Soul团队基于深耕社交领域的深刻洞察,快速推动技术在应用层的落地,并围绕用户实际体验反馈总结优化方向。在发展过程中,Soul快速明确自身AI布局路线,即“AI帮助用户交朋友”(AI辅助社交)和“AI与用户交朋友”(人机互动),在不同方向,已分别推出了AI虚拟人情感化陪伴体系“AI伴侣”、AI聊天辅助体系等功能,并受到了用户的热烈欢迎与积极反馈。

其中,人机互动的迭代方向便是让AI实现类真人能力,在交互中为用户带来情绪价值和信息价值。

根据Soul旗下Just So Soul研究院在今年3月发布的《2025Z世代AI使用报告》(样本数3680份),近四成年轻人每天使用AI产品获得情感陪伴,此外,71.1%的年轻人表示愿意和AI做朋友,建立情感链接,对比该研究院在去年发布《2024Z世代AIGC态度报告》(样本数3457份),当时选择愿意和AI做朋友的年轻人比例为32.8%。

从数据的增长中可以看到,AI的技术发展与应用普及正在重新塑造年轻一代对社交关系的认知,在这个变化过程中,也对AI能力提出了新要求。根据Soul面向“AI伴侣”活跃使用用户的专项调研显示,关于人机互动体验提升需求方向,约六成受访者表示“希望AI表现更接近真人”。

此次,全双工语音通话大模型的升级,极大提升了AI的互动能力,让人机交互具备在场感和情感温度,将推动AI社交进入全新阶段。

作为以真实的人与人社交为底色的平台,通过持续对新技术的探索和坚定投入,Soul致力于构建AI Being和Human Being共存的社交社区,让AI作为社交关系网络的重要组成,丰富用户的情感支撑体系,增强多元情感体验,最终提升个体的幸福感和归属感。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 跨境支付的未来:人工智能、嵌入式金融和即时结算

    本文系统分析了人工智能、嵌入式金融与即时结算三大技术趋势如何重构跨境支付体系。人工智能通过智能填单、动态风控和预测性维护显著提升支付效率与安全性;嵌入式金融将支付功能无缝融入电商平台与供应链,实现“无跳转支付”;即时结算技术将跨境支付时间从数日缩短至秒级,并优化现金流。三大技术深度融合形成协同效应,推动跨境支付向更智能、高效、无缝�

  • 人工智能落地“最后一公里”,戴尔工作站助力AI应用提速

    AI应用落地面临“最后一公里”部署难题:传统流程繁琐耗时,从模型开发到上线需数周。英特尔携手戴尔与零克云打造“工作站-AI PC-云端”协同生态,通过本地工作站进行小规模测试验证,降低试错成本与数据泄露风险,再通过“一键部署”快速扩展至云端规模化落地。这种“先本地验证、后云端放大”的路径显著提升开发效率,释放团队创造力,让有价值的AI想法快速照进现实。

  • 简知科技“简智AI大模型”通过国家生成式人工智能服务备案,助力兴趣教育迈向智能化新阶段

    广州简知科技自主研发的“简智AI大模型”通过国家生成式人工智能服务备案,标志着该模型在安全性、合规性与可靠性方面达到国家级标准。作为兴趣教育领域AI应用的重要里程碑,该模型围绕用户兴趣成长周期设计,提供个性化学习支持:可为未明确兴趣方向的用户智能推荐内容,为入门用户规划学习路径,为基础扎实用户提供进阶训练与智能反馈。其技术能力在旗下“简小知”等品牌中已实现“学—练—评—测”全流程覆盖,并通过社群互动增强学习动力。公司未来将持续优化模型能力,联合行业伙伴构建完整培养体系,推动兴趣教育向个性化、高质量方向发展。

  • Soul App开源播客语音合成模型SoulX-Podcast,支持流畅自然多轮语音对话

    Soul App近日开源其播客语音合成模型SoulX-Podcast,专为多人多轮对话场景设计。该模型支持中、英、川、粤等多语言及方言,可生成超60分钟流畅自然、角色切换准确、韵律丰富的语音对话。除播客场景外,在通用语音合成及克隆任务中表现优异,能灵活调节节奏与副语言元素(如笑声),提升语音真实感与表现力。此次开源旨在携手开发者探索AI语音在内容创作与社交生态中的更多可能。

  • 海量音色AI赋能,逗哥配音重塑语音创作新体验

    逗哥配音作为领先AI配音平台,以“海量音色+AI赋能”为核心,拥有上千款声音类型,覆盖多语言及商业场景。通过自研大模型韵律技术,实现情感饱满的语音生成,支持影音解说、小说推文等多种需求。平台内置场景化音色模板,新手也能快速制作专业配音,免费功能已满足日常短视频创作。其AI分角功能优化多人角色管理,提升对话内容制作效率。逗哥配音正重塑语音创作边界,成为短视频解说领域首选工具。

  • Sora App的AI视频社交,给了百度们新希望

    Sora2发布两周后,百度的蒸汽机AI视频模型,和谷歌Veo3.1撞了档期。 两家公司选择同期发布并非有多默契,而是Sora2带来的压迫感促使它们不得不加快脚步。 奥尔特曼将形容Sora2为“创意领域的ChatGPT3.5时刻”,不仅在物理逻辑、画面连贯性、真实感和音画同步等方面实现了质的飞跃,还把Sora从一个“文本到视频”的工具进化成一个“创意到生态”的平台。 这无疑是扔在AI视�

  • Soul App开源模型SoulX-Podcast登顶Hugging Face TTS趋势榜,AI语音对话再升级

    SoulX-Podcast语音生成模型在开源社区Hugging Face发布次日登顶TTS趋势榜。该模型由Soul AI Lab联合高校团队开发,专为多轮对话场景设计,支持中英川粤等多语言/方言与副语言风格,能生成超60分钟流畅自然、角色切换准确、韵律丰富的语音。它解决了传统语音系统在多轮对话中上下文衔接不自然、缺乏副语言控制能力等痛点,在播客、语音合成等场景表现突出,获开发者广泛关注。Hugging Face CEO也转发相关内容,团队未来将持续优化语音对话、拟人化表达等核心交互能力,深化开源生态建设。

  • Creators’ App迎来重大更新

    索尼与分秒帧联合推出云端影像创作平台ICE-Cloud,集成索尼先进影像技术与高效云端协作能力,为创作者提供从拍摄到后期全流程赋能。平台支持移动端、PC端及网页应用,实现素材自动上传、云端管理、在线审片和项目协同,打破时空限制,提升创作效率。通过Creators’ App连接相机与云端,实现即拍即传、异地实时协作,致力于打造新一代创意工作流。

  • 人工智能巨头OpenAI拟上市 估值或高达1万亿美元

    OpenAI正积极推进上市计划,据知情人士透露,该公司可能最早于2026年下半年向证券监管机构提交上市申请,目标在2027年正式上市。 此次IPO的估值有望达到约1万亿美元,或将跻身全球规模最大的IPO之列。 在初步讨论中,OpenAI曾考虑通过上市筹集至少600亿美元资金,实际融资规模可能进一步扩大。

  • Soul App联合上海市青少年研究中心发布《2025 Z世代双十一消费行为报告》:大促参与度再提升,超9成年轻人快乐买买买

    《2025Z世代双十一消费行为报告》显示,双十一已从购物节演变为融合消费、文化与社交的年度盛事。超九成Z世代参与大促,消费信心增强,约四成年轻人增加预算。AI技术重塑购物体验,七成认可AI+电商应用。消费热点转向情绪价值,旅行类消费占比最高(36.9%),文化消费显著(21.4%)。线下渠道受关注,超七成年轻人参与实体活动。国货品牌持续受青睐,消费选择更理性,呈现“热情参与、理性决策”特征。

今日大家都在搜的词: