首页 > 传媒 > 关键词  > 生成式人工智能最新资讯  > 正文

声网对话式AI解决方案上新 构建实时多模态AI交互

2024-09-09 11:47 · 稿源: 站长之家用户

生成式人工智能领域,大模型多模态交互能力的升级正掀起一股新的 AI 浪潮,在 RTC 能力的加持下,人与 AI 的交互不再局限于文字,也可以通过语音通话进行生动、流畅的低延时交互,这也成为当下国内外大模型厂商新的发力点。

今年5月,GPT-4o 的发布开创了AI 实时语音交互的先河。在此之前,一些传统的大模型已经具备语音交互的能力,但一般采用 WebSocket 方案,这一方案虽然应用广泛,但其传输架构是基于 TCP 协议来构建,延迟较高,在 STT-LLM-TTS 的三步骤中,一个来回的延迟就要2-3秒,在弱网等非理想网络环境下,整体语音交互的延时更达到4秒+。在 GPT-4o 采用 RTC 方案后,展现出了自然、流畅的低延时语音交互体验,也让更多企业与开发者看到了在 AI 语音交互中 RTC 方案的更优性,并积极与 RTC 厂商合作,升级 AI 语音交互的体验。

声网对话式AI解决方案 构建实时多模态AI语音交互

声网作为全球实时互动云行业的开创者,在音视频领域积累了深厚的技术优势与场景实践,通过与客户在 AIGC 场景的深度合作,探索出了一套实时多模态对话式 AI 解决方案,该方案以语音为核心,支持视频扩展,实现文本/音频/图像/视频的组合输入&输出,通过丰富的功能构建真实、自然的 AI 语音交互体验。

例如对交互延迟进行优化,延迟可做到1s以内;支持 AI 降噪、背景人声过滤,让语音对话更纯静;支持随时打断与超拟人化人声合成,让对话更智能与逼真;同时还支持灵活可扩展的 AI Agent 架构等一系列功能,帮助开发者与企业快速构建适配自己业务场景的 AI 实时语音对话服务。

图:声网实时多模态对话式AI解决方案架构图

1、延迟低于1s,极速响应:声网实时多模态对话式AI解决方案可做到语音对话延迟低于1s。通过在客户端进行低延迟的音频采集和播放、借助声网自研的 SD-RTN™ 实时传输网络实现全球范围的低延时 RTC 传输,并进一步通过更准确低延迟的AI VAD、更快速的 LLM 推理首字耗时、低延迟流式 TTS、同机部署等一系列技术手段,保证对话的实时性与流畅性。

2、智能打断,贴近真实会话:在人类真实的语音对话中,打断对方并提出新的疑问是非常常见的现象,而在 AIGC 场景,能否支持随时打断也成为衡量大模型智能化的重要指标。声网的方案也支持先进的 AI 语音活动检测(AI VAD)技术,可实现灵敏的自然语音打断,模拟人类对话的自然流动,让对话更加真实、自然。

3、嘈杂环境下也能清晰对话:即使在嘈杂的环境中,声网的解决方案也能保证清晰的语音交流。通过AI噪声抑制、背景人声过滤、音乐检测/过滤等算法,确保人与 AI 的对话不受环境干扰,始终保持顺畅。

4、灵活可扩展的AI Agent架构:AI Agent 作为大模型的应用框架,其重要性不言而喻。对于开发者而言,往往会根据自身的喜好或者业务场景选择不同的组件搭配 AI Agent。对此,声网的解决方案采用了灵活可扩展的 AI Agent架构,兼容市场主流的 ASR、LLM 和 TTS 技术,并具备工作流编排能力,帮助开发者与企业根据特定需求定制和扩展 AI 驱动的实时互动体验。

5、超拟人化人声合成:在一些传统的AI语音对话中,AI角色机械式的声音大大降低了对话的真实感。针对这一痛点,声网的解决方案超可实现超拟人真实音色,合成的声音几乎与真人无异,且支持私人定制音色,模拟喜怒哀乐等多种情绪表达,提升用户体验,使互动更加自然,还原真实体验感。

6、支持 RTC 与 SIP 网关互通:AI电话客服是当下 AIGC 应用最广泛的场景之一,具备呼叫中心坐席的特性,对此,声网的解决方案也支持 RTC 与 SIP 网关互通,用户可直接通过声网的RTCSDK 直接呼叫企业客服中心坐席,有效的降低客服成本,提升客服效率。

RTC能力加持下  AIGC应用场景迎来爆发

声网在与客户的合作中发现,在RTC 的加持下,AIGC应用场景迎来进一步爆发,AI智能助手、AI情感陪伴、AI口语老师、AI客服的 AI 交互体验进一步升级,学生的学习效率更高,社交陪聊场景的娱乐性与沉浸感也进一步增强。

来自量子位智库推出的 AI智能助手用户数据报告显示,截止8月国内市场的 AI智能助手 App 已超过64款。在 AI情感陪伴领域也涌现了 Soul、星野、Wow等一系列人气社交APP。

以 AI情感陪伴为例,随着多模态交互能力的升级,当下 AI情感陪伴类产品正呈现出三个特征:

1、语音/视觉交互:除了传统的文本交互外,越来越多的 AI情感陪伴类 APP 也在加入语音通话的功能,让 AI陪伴更具有真实感。同时在视觉交互方面,部分产品也支持了视频通话功能,通过3D建模、拟真渲染等技术构建逼真的数字人,让人与 AI 的情感交互更加拟人化。

2、情感计算:人与 AI 的一个核心区别就是人具备情感,为了让 AI 的回答更加智能与真实,许多 AI 陪伴产品开始加入情感计算的能力。通过语义识别、面部表情等信号检测用户的喜怒哀乐等情绪状态,并做出对应的情感回应,实现更加人性化的交互体验。

3、私人定制:标准化的人机交互千篇一律,个性化的定制才更有新意。具备个性化定制能力,提供自主创作和个性化选项已经成为 AI陪伴类产品的新趋势,例如定制原生IP角色、定制IP专属画风和语音体系、定制专属互动话题等一系列功能。

图:电影《Her》里的AI助理被视为AI情感陪伴的启蒙

在 AI口语老师场景,声网观察发现,1v1教学场景非常适用 AI口语老师,从真人教学变成自学模式,例如正价课1v1与 Demo 课1v1教学,AI数字人老师将代替真人,1v1AI 口语老师将成为未来语言学习机构必备的应用,AI 数字人老师可能用于大龄学生与成人,卡通 IP 可用于低幼龄的课程。同时在职业教育赛道,已经有不少教育机构在大班课场景利用 AI数字人老师教学。

同时,在游戏社交、AI分身、实时语音翻译等场景,实时AI语音也大有可为。例如,在狼人杀、谁是卧底等场景,AI NPC 角色虽然已经在应用,但是 AI 的痕迹还是较为明显。在大模型具备实时语音交互能力后,谁是卧底中的 AI 角色可以做到快速的推理并发言,再搭配语音仿真技术,有望做到 AI 角色的以假乱真。

声网的实时多模态对话式AI解决方案目前已经上线,如您想进一步体验我们的 Demo或者接入该方案,可在声网公众号找到这篇文章,扫描文章底部的二维码联系我们。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 主流AI多模态大模型有哪些?超全的多模态大模型指南分享

    2024年多模态大模型成为AI领域最具前景的技术方向之一。文章全面分析了主流多模态大模型的特点、应用场景和发展趋势。多模态大模型能同时处理文本、图像、音频、视频等多种数据,实现更智能的人机交互。重点介绍了GPT-4V、Claude3.5、Gemini、通义千问等代表性模型,对比了它们在视觉理解、编程能力、中文处理等方面的优势。应用场景涵盖智能客服、内容创作、教育医疗等领域。未来发展趋势包括模型规模扩大、支持更多模态、实时交互能力提升等。选择模型需考虑应用需求、语言支持、性能成本等因素。

  • AI重构社交生态 Soul以多模态技术赋能社交

    社交平台Soul正通过AI技术重塑社交生态:1)2016年推出智能推荐系统"灵犀引擎",2020年启动AIGC算法研发,2023年推出自研大模型Soul+X,开发AI虚拟人、智能聊天等应用;2)升级多模态大模型,支持文字对话、语音通话、多语言理解等功能,提供拟人化情感陪伴;3)围绕Z世代需求,促成超10万对情侣步入婚姻,并联合开展心理健康公益活动;4)以"技术+人文"双轮驱动,致力于打造更智能舒适的社交环境,重新定义人机关系。

  • 阳光新能源iSolarSim 2.0仿真软件:搭载AI智能体,开启对话式仿真!

    阳光新能源在2025SNEC展会上发布iSolarSim光伏发电仿真软件2.0版本,该软件搭载AI技术实现三大突破:1)首创"实景仿真双引擎",通过"精准实景+深度实景"双模式,将仿真精度提升2.5%;2)集成行业首个AI智能体,支持对话式仿真操作,计算效率提升90%;3)实现万级方案秒级寻优,3分钟完成万组设计方案仿真,效率提升千倍。软件覆盖地面电站、工商业及家庭光伏�

  • 三星推出面向未来的移动安全解决方案,赋能个性化AI体验

    三星推出Knox增强加密保护(KEEP)和抗量子加密Wi-Fi等多项安全创新功能,为新一代Galaxy设备提供更强大的隐私保护。KEEP通过独立加密存储空间隔离应用数据,结合Knox Vault硬件级防护,确保AI功能数据安全。安全Wi-Fi引入抗量子加密技术,抵御未来网络威胁,并在公共网络自动激活防护。这些升级将隐私保护从可选功能提升为系统级设计原则,通过多层防护机制为用户数据安全提供可靠保障。

  • AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2

    本文介绍了AI领域多项重要进展:1)腾讯推出首个美术3D生成大模型Hunyuan3D-PolyGen,显著提升建模效率;2)阿里发布多模态大模型HumanOmniV2,准确率达69.33%;3)钉钉AI表格实现1小时处理千项任务;4)百度PaddleOCR3.1版本在多语种识别和文档翻译方面升级;5)微软推出Deep Research智能体,自动化研究流程;6)香港理工与OPPO联合开源视频超清框架DLoRAL;7)谷歌开源MCP工具箱简化AI与数据库集成;8)Win11将推出AI动态壁纸功能。这些创新展示了AI在3D生成、多模态理解、办公效率、视觉处理等领域的突破性进展。

  • 小米回应AI眼镜没有屏显功能:专注拍摄、AI语音交互

    在当前产品开发阶段,小米将重心放在打磨最核心的语音交互与AI能力上,力求让用户能够以最自然、高效的方式获取信息、完成指令。小米强调,这种设计选择有助于提升产品的核心性能,确保用户在拍摄和语音交互过程中获得流畅、便捷的体验。 针对用户关心的视频防抖效果问题,小米透露,新一代增强防抖算法已在紧锣密鼓的开发和测试中。该算法将显著优化视频在后�

  • 三星AI神系列洗护产品:一站式解决洗衣难题 解锁夏日运动穿搭自由

    三星推出AI神+黑钻热泵洗烘旗舰与衣物护理机,解决运动爱好者夏季洗衣难题。洗烘一体机98分钟完成全流程,配备AI智能感知衣物重量和面料,自动调节水位和洗涤剂用量,避免混洗染色问题。衣物护理机采用双气流+双蒸汽系统,能除菌除味、抚平褶皱,内置香氛盒让运动衣物清新如新。两款产品通过创新科技简化家务流程,让用户轻松保持运动装备洁净,随时享受清爽穿搭体验,实现运动热情与精致生活的完美结合。

  • 高新投三江交通枢纽消防解决方案,守护城市“大动脉”

    文章探讨了地铁隧道、高铁站点、机场等交通枢纽的消防安全挑战。这些密闭空间机电设备密集、人员疏散困难,火灾风险极高。解决方案需具备三大优势:1)多维度探测技术,实现早期精准预警;2)高防护性能,抗电磁干扰、耐腐蚀;3)云端整合的智慧消防平台,联动通风排烟、应急疏散等系统。典型案例包括深圳宝安机场、广州白云站等,通过智能感知、可靠防护和高效联动,构建立体化安全屏障。未来将持续深耕消防技术前沿,为现代化综合交通运输体系提供坚实安全保障。

  • 「6月30日AI日报」百度开源文心大模型4.5系列;通义千问发布多模态生成模型Qwen VLo

    AI日报精选:1)百度开源文心大模型4.5系列,含10款新模型,性能优异;2)通义千问发布多模态模型Qwen-VL,支持图文交互;3)阿里开源3亿参数多模态模型Ovis-U1;4)华为开源盘古7B稠密和72B混合专家模型;5)美图MOKI推出AI创意广告功能,一键生成专业视频;6)谷歌Gemini 2.5 Pro API重新免费开放;7)豆瓣上线"深入研究"AI功能;8)小米"AI百宝箱"结束内测;9)北京智研院开源多模态系统OmniGen2;10)知乎升级"直答"知识库功能。

  • 三星旗舰机型上新!现在就能用上的AI手机

    三星7月9日发布全新Galaxy Z系列折叠屏手机,包括Z Fold7、Z Flip7和Z Flip7 FE三款机型。Z Fold7融合精密工艺与专业影像系统,搭载Galaxy AI实现多模态智能交互;Z Flip7通过超窄边框设计整合AI外屏功能。新品引入火山引擎的豆包大模型,在搜索、音乐生成、图像创作等场景拓展AI应用边界。升级版Bixby语音助手接入豆包模型,提升对话质量并新增音乐创作功能。"即圈即搜"支持AI解题,AI头像功能可生成宠物卡通形象。目前全球Top10手机厂商中已有9家与火山引擎达成合作,豆包大模型覆盖4亿终端设备。