首页 > 传媒 > 关键词  > Soul最新资讯  > 正文

自研端到端语音通话大模型上线,Soul App语音大模型再升级

2024-09-03 17:00 · 稿源: 站长之家用户

近日,社交平台Soul App(以下简称“Soul”)语音大模型再次升级,上线自研端到端全双工语音通话大模型,具备超低交互延迟、快速自动打断、超真实声音表达和情绪感知理解能力等特点,能够直接理解丰富的声音世界,支持超拟人化的多风格语言,实现更接近生活日常的交互对话和“类真人”的情感陪伴体验。目前,Soul自研的端到端语音通话大模型能力已上线旗下“异世界回响”实时通话场景(内测中),并将在后续拓展至AI苟蛋等多个AI陪伴、AI互动场景。

自 2016 年上线,Soul一直致力于以创新的技术方案和产品设计,实现社交体验的拓展。 2020 年,Soul启动对AIGC的技术研发工作,系统推进在智能对话、语音技术、虚拟人等AIGC关键技术能力研发工作,并推动AI能力在社交场景的深度落地。

以AI升级社交的过程中,Soul的技术重点之一是致力于实现拟人化、自然化情感陪伴体验。其中,声音是重要环节之一。作为传递信息和情感的重要媒介,声音最能在沟通中赋予“情绪温度”和“陪伴感”。特别是在社交场景中,情感化、低延迟、多风格、类真实的声音能力,可以打破“次元壁”,让线上社交尤其是人机互动中,也能实现真实生活场景聊天的自然流畅感和沉浸现场感,真正完成类现实生活化互动场景中的交互体验。

因此,为给用户带来更好的情绪反馈和陪伴感,情绪理解、延迟问题一直是Soul技术团队关注的焦点。

此前,Soul团队推出了自研的语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等语音大模型能力,支持真实音色生成、语音DIY、多语言切换、多情感拟真人实时对话等,目前已应用于Soul “AI苟蛋”、站内狼人游戏“狼人魅影”AI语音实时互动、独立新产品“异世界回响”等场景。

与国际最前沿的技术发展保持同频,Soul持续完善自身语音技术能力积累,创新AI社交应用体验。今年 7 月,在人工智能领域顶 级的国际学术会议——国际人工智能联合会议(International Joint Conference on Artificial Intelligence,IJCAI)举办的第二届多模态情感识别挑战赛(MER24)上,Soul 语音技术团队于SEMI(半监督学习)赛道获得第 一名,在国际赛事舞台上展现了Soul的前沿洞察和技术能力。

如今,自研端到端语音通话大模型的率先上线,再次证明了Soul在行业中扎实的技术能力积累。

区别于传统的级联方案,语音到语音的端到端建模,意味着语音交互体系的颠覆式升级,即不再需要从“语音识别、自然语言理解、语音生成”等多个环节流转,直接语音输入—语音输出的端到端模型能够最 大程度实现信息无损传递,降低响应延迟时间。

此次Soul自研的端到端语音通话大模型便具备超低交互延迟、快速自动打断、超真实声音表达和丰富情绪感知理解能力的特点,支持更自然的人机交互体验。

在延迟方面,于实际应用过程中,用户体验与“异世界回响”中虚拟人实时语音通话效果时,延迟时间少于行业平均水平,真正实现即时的AI交流和陪伴。

值得一提的是,端到端的语音语义理解和响应以及更自然的语音指令控制,让Soul语音通话大模型不仅能够给予情感关怀、理解人声情绪情感并给出有温度的回应,还能够理解物理世界的声音场景,模拟物理世界动物声音、理解多人聊天内容,实现多风格语言切换、文艺内容创作和即兴演唱,接近现实交流互动场景需要。

接下来,Soul将持续推进多模态端到端大模型能力建设和应用落地,以AI辅助社交、提升关系建立的质量和效率的同时,构建人机交互新场景,让用户可以与AI进行更加有温度、沉浸、趣味的互动交流,不断创新社交体验。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 警企联动创新“群聊反诈”新范式,Soul App 筑牢 Z 世代数字安全“防火墙”

    Soul App联合上海浦东警方发起反诈主题群聊派对,通过真实案例与心理分析,向年轻人揭示刷单、杀猪盘等新型诈骗手法及其心理陷阱,累计触达超1.1万人。活动有效提升了青年群体的防骗能力,实现了反诈宣传与社交场景的有机融合。同时,Soul持续升级AI风控体系,在反诈、未成年人保护等方面取得进展,致力于构建清朗社交生态。

  • 微信输入法iOS版3.0发布:语音输入大模型全面升级

    微信输入法iOS版迎来3.0.0大版本更新,聚焦语音功能优化。升级后语音识别准确率与速度显著提升,并新增15种方言语音输入,覆盖粤语、四川话等。新版支持不限时长的语音输入,方便记录会议等内容,同时具备离线语音输入功能,保障网络不佳时顺畅使用。官方强调严格遵循隐私政策,仅收集必要信息,保障用户数据安全。

  • AI日报:蚂蚁发布“阿福”App;OpenAI Sora 安卓版开发揭秘;Figma AI图像编辑功能上新

    本期AI日报聚焦多项AI领域新动态:OpenAI利用GPT-5.1-Codex高效开发Sora安卓版,85%代码由AI生成;蚂蚁集团升级AI健康应用“蚂蚁阿福”,新增健康陪伴等功能;Figma推出AI图像编辑工具,提升设计效率;深圳地铁上线全球首款AI导盲犬“小蒜”,服务视障人士;Adobe将Photoshop等工具集成至ChatGPT界面,方便用户编辑;OpenAI十周年推出Sora收藏卡等周边产品;谷歌Gemini新增NotebookLM功能,聊天可直接附加笔记;OpenAI计划推出ChatGPT“成人模式”,预计2026年前上线。

  • Testin云测深度方案:AI驱动的“测试方案”助力香港政府APP降低30%研发成本

    香港特区政府推行《智慧城市蓝图2.0》,数字化服务已深入市民生活。政府APP面临设备碎片化、高并发压力及跨部门技术整合等挑战。通过引入“AI智能化+云端协同”测试模式,有望降低研发成本30%、提升测试效率50%。AI技术实现自然语言脚本生成、智能OCR识别及数据驱动精准排障。混合云资源池兼顾数据安全与灵活部署,本地化方案支持跨境网络模拟与多语种报告。结合专家管理与AI执行,构建“人+AI+流程”的质量闭环,提升公共服务质量,践行“善用公帑、以人为本”的承诺。

  • AI日报:OpenAI推图片模型GPT Image 1.5;腾讯发布混元世界模型1.5;小米开源MiMo-V2-Flash大模型

    本期AI日报聚焦多领域AI新进展:OpenAI推出图像生成模型GPT Image 1.5,性能显著提升;腾讯发布混元世界模型1.5,开启实时交互虚拟世界;小米开源3090亿参数大模型MiMo-V2-Flash,推理速度领先;字节跳动发布Seedance 1.5 Pro,实现视听同步创作;Apple Music将与ChatGPT集成,简化歌单创建;Gemini预测市场全美上线,支持事件预测交易;Adobe Firefly视频功能升级,支持精准提示编辑;谷歌实验室推出AI助手CC,集成Gemini技术管理日程。

  • 饿了么官宣改名 APP已更新为淘宝闪购

    饿了么APP更新后正式更名为“淘宝闪购”,标志着该外卖平台开启品牌升级与业务转型。此次更名不仅涉及品牌名称变更,相关场景也将全面升级,为用户带来更丰富的购物体验。为庆祝品牌升级,饿了么同步推出“更新更好,橙意满满”主题活动,用户可领取价值288元起的券包,并有机会赢取100万份免单福利。官方透露,“淘宝闪购”名称自今年夏天以来逐渐被用户熟知,从最初的奶茶咖啡自由到如今的天天抽免单等活动,引发了广泛关注。此外,茅台、vivo、名创优品等3500家品牌及盒马、天猫超市等知名商家也已快速上线“淘宝闪购”,为用户提供随时随地的“闪购”新体验。这一转型将进一步提升饿了么在即时零售领域的竞争力,为用户带来更丰富的购物选择。

  • 荣耀工程师谈豆包手机:AI时代新的交互模式探索

    字节跳动AI模型豆包发布手机助手技术预览版,内置与中兴合作的工程样机努比亚M153上小范围发售。豆包手机被视为AI时代交互模式新探索,尝试将AI能力深度整合进硬件闭环。但不少应用已对其限制,互联网厂商想借鸡下蛋建护城河挑战不小。未来AI手机需更多体验闭环,需战略耐心。豆包助手团队称将限制部分使用场景,包括刷分、刷奖励等,部分游戏类场景,暂时下线操作银行、互联网支付等金融类应用能力。同时正积极寻求与各应用厂商深度沟通,希望推动形成更清晰、可预期的规则。

  • TapTap×MuMu模拟器合作上线,为TapTapPC版提供模拟器技术支持

    近日,MuMu模拟器与游戏平台TapTap的合作正式上线,为了给玩家们带来更好的游戏体验,MuMu模拟器将为TapTapPC版提供模拟器内核技术支持;本次合作将融合双方优势,为玩家带来更加便捷、更加优质的“电脑玩手游”的体验。(TapTapPC版)通过本次TapTap和MuMu模拟器的技术合作,玩家可以在TapTapPC版的模拟器专题和个人游戏库中,使用MuMu模拟器技术去运行各类手游。其中包含了如《

  • 可灵2.6模型上线!语音、音效与画面一键直出 重构AI视频创作工作流

    可灵视频生成2.6模型推出“音画同出”功能,彻底改变了传统AI视频“先无声画面、后人工配音”的工作流程。它能在单次生成中,输出包含自然语言、动作音效及环境氛围的完整视频,重构了AI视频创作工作流,极大提升创作效率。该模型在中文语音生成效果上保持全球领先,支持生成最长10秒的视频,可广泛应用于广告营销、自媒体、电商等内容创作场景。

  • 告别繁琐操作 Galaxy AI以高效交互打造人性化智能体验

    当前智能手机使用中,用户期望正发生微妙而深刻的转变:从过去需主动操作完成任务,转向希望手机能自动理解、提前响应,以更轻松方式处理复杂事务。三星Galaxy手机借助持续演进的Galaxy AI,为人机交互注入新可能:操作简化、信息更贴合需求,创作与记录更具专业品质。AI并非点缀式升级,而是融入底层体验逻辑,让手机从执行工具转变为能与用户共同完成任务的智能伙伴。通过主动理解需求、自动整合流程,并赋予影像与创作更多专业能力,Galaxy AI带来的改变正成为用户感知最明显的体验进化之一。

今日大家都在搜的词: