首页 > 传媒 > 关键词  > 正文

海外语聊房通话时长提升5%的背后,声网AI降噪送出助攻

2023-07-17 14:11 · 稿源: 站长之家用户

在社交出海的大潮中,语聊房一直是最热门的社交场景之一,尽管社交玩法一直在迭代创新,但经典的语聊房场景凭借互动性强、聊天话题广、陌生人社交等属性备受国内外用户的喜爱。在海外市场,Yalla、Clubhouse、Uplive、Mico等都已是人们熟知的语聊房平台。

但在海外市场开疆拓域,其实并没有想的那么简单。相比国内成熟的网络条件、设备性能,海外地区普遍存在网络条件差、设备参差不齐等情况,严重影响语聊房中的用户互动体验,也对APP厂商出海带来了严峻的技术挑战。

海外语聊房音频质量面临痛点:开播环境差、网络条件差、设备参差不齐

1、语聊房场景需要频繁的开麦互动,但海外地区用户的开播环境普遍不好,例如东南亚、南美等地区,环境噪声较大,通过传统降噪技术往往无法有效消除复杂的噪音,特别是在唱歌互动的场景,降噪算法可能会抑制唱歌的尾音,严重影响演唱效果,影响用户体验。

2、海外运营商数量多且类型复杂,各地区网络条件参差不齐,例如东南亚诸多岛国尤为明显、OpenSignal的一份报告就发现,新加坡的移动数据下载速度最快,为47.5 Mbps,而速度第二的越南连新加坡一半都不到,才到20.6 Mbps,马来西亚、印度尼西亚、泰国、菲律宾则更低。 在印尼,市场上就有 6 个主流的运营商,而当地还有大量3G、4G的用户,网络环境更加复杂,几乎很难顺畅地进行跨国跨地区群聊。

3、海外用户设备和国内差别较大,尤其是第三世界国家设备类型复杂且低端机覆盖很大,来自声网《实时万象》的数据显示,印度、中东、南美地区使用 RTC 应用的低端机占比高,均超过30%,南美为45.8%,接近中国大陆(23.9%)的 2 倍。想要把用户体验做到较好,就需要兼顾到产品在不同机型上的运行状况,因此设备适配是每个出海产品都要投入大量资源来解决的问题。

针对以上海外音频场景中的用户体验痛点,声网通过凤鸣AI引擎、全球化服务部署以及弱网对抗策略、复杂机型适配等技术能力,可以对音频质量的提升实现多重优化,带来较好的的高音质音频体验。据悉,某东南亚头部语音社交应用在线上虚拟社交场景中使用声网凤鸣·AI降噪后,通话时长增加了5%。

凤鸣AI引擎支持100+非稳态噪声消除 兼顾语音高保真

相比传统的降噪算法,声网凤鸣AI引擎的 AI 降噪算法在降噪效果上有巨大提升,传统降噪算法在处理稳态噪声时效果较好,在处理非稳态噪声时,降噪效果会有明显回退,稳态噪声一般指噪声声压级的变化较小,且不随时间有大幅度的变化,如电机声、固定转速的摩擦、转动等噪声。非稳态噪声指噪声强度随时间而有起伏波动,有的呈周期性噪声,如锤击,有的呈无规律的起伏噪声,如交通噪声、小孩哭叫等。声网自研的 AI 降噪算法可以支持实时互动中100+非稳态噪声消除,降噪效果实现了巨大提升。

同时,针对语聊房、直播等场景下用户会外放唱歌的情况,声网也进一步优化了唱歌场景下的AI降噪模型,并提供 48khz 的高音质降噪算法,一方面可有效避免降噪算法抑制唱歌的尾音,保障演唱效果,另一方面还可以消除插拔耳机等操作引入的电流音噪声。我们可以通过声网微信公众号找到这篇文章,在文章中的对比音频可以更直观的体验电流音噪声的消除效果。

降噪会导致声音失真,是大家常常会担心的问题。声网 AI 降噪在强降噪的同时还能兼顾高保真,即使在语聊房多人同时说话的场景下,也可以做到在抑制噪声的同时不对说话人语音产生损伤,使每个人的声音都听得清晰。同时,还实现了在不增加额外运算量的前提下,对远场语音具有明显的混响抑制能力。当一位用户在房间里离麦克风比较远的时候,也依然可以使对端听到清晰的声音,而不是模糊的声音。

声网 AI 降噪算法相比传统降噪算法,计算复杂度都要高很多,对此一些选择在东南亚、南美等低端机覆盖率高地区的出海企业也会担心,既要享受 AI 算法带来的良好效果体验,又要有媲美传统算法的性能,真的能做到两全其美么?答案就是声网自研的 AI 推理引擎,

通过计算图优化等一系列优化加速技术,在保障降噪算法精度的同时,可以使得 AI 降噪算法在 Android、iOS、Mac、Windows、Web 等主流平台以低精度损伤、高性能、低功耗方式运行,使海外很多地区用户的低端机设备不卡不烫,帮助出海企业解决后顾之忧。

全球化部署与弱网对抗 保障流畅的互动体验

海外复杂的网络环境会造成实时互动中的卡顿、延时高等糟糕体验,这也是困扰很多出海企业的重要因素。声网凭借在出海市场的多年沉淀与打磨,具备全球化服务部署的能力。在海外底层网络优化方面,声网一方面使用网络覆盖质量评价标准来指导建设全球边缘基础资源、提高网络覆盖,调整接入策略,优化关键性指标,提升用户体验。另一方面,声网还拥有完善的全球供应商管理体系,采用公有云、私有云等多种资源,覆盖200+国家和地区,特别针对东南亚、中东、北美和国内中小城市、小运营商做网络优化。

以印度地区为例,印度地域辽阔,有 28 个邦,数字消费人口规模世界第二,仅次于中国。但印度的通信基础设施短板却较为明显,印度拥有数百家网络运营商,网络关系错综复杂,具有基站数量不足、频带有限、数据容量不足等问题,导致用户的网络体验不佳。为了保证用户接入能够做到低延迟、低抖动、降低端到端延迟,声网在各个邦采用不同的网络运营商资源进行测试,得出用于覆盖不同邦特出的接入网络运营商资源,通过理想覆盖点和理想网络运营商组合的模式在当地建立了多个覆盖节点,提升了印度地区的用户体验。

面对海外地区普遍存在的弱网环境,很多出海企业往往束手无策,对此,声网拥有一套抗弱网传输与抗丢包算法,结合网络探测(如延时估计、带宽估计等)、抗丢包技术、自适应jitter buffer、网络拥塞控制策略等,可以实现80%丢包情况下,依然能保障音视频通话流畅,为用户在各种网络环境下提供流畅的互动体验。

对于欠发达地区参差不齐的设备状况,在与众多出海客户的多年实践与打磨中,声网已经可以支持适配30000+终端机型,例如One Plus 3T、Samsung Galaxy A10s、Redmi Note7 Pro 等在某地区还依然流行的特殊老旧机型,为每位用户带来流畅丝滑的体验。

凤鸣·空间音频带来沉浸式音频体验

伴随元宇宙、AIGC 等技术的发展,在语聊房等社交场景加入沉浸式的音频效果也成为一种趋势,海外市场亦是如此。声网凤鸣AI引擎同样具备空间音频的技术能力,通过纯软件算法方案,模拟头部球面区域立体声场,利用范围音频、人声模糊、空气衰减模拟等能力,美好模拟现实听觉感受。当用户操作相应角色在虚拟场景里移动,可以实现根据虚拟人物的面部朝向、音源朝向、远近距离与上下高度,呈现不同声音效果。

以范围音频为例,在空间听觉的研究和实现中,头部相关联的传递函数(HRTF)(Head Related Transfer Functions)与头部相关联的冲激响应(HRIR)占有十分重要的地位。而声网基于 HRTF 头相关传递函数、心理感知声学、声源指向模拟等算法自研了一整套 3D 声场渲染引擎。可以动态模拟空间中任意角度、朝向的声音在传递到左右耳时声音发生的变化从而实现了高精度的声音方位渲染。并且为了追求较好的的听感与较好的的可用性,渲染引擎以极小的算力要求,支持 48kHz全频带、多路音频渲染,让你在移动端不多费流量、不用担心算力也能畅享多人高清音质互动。

音源的朝向对我们的听觉也会有直接的影响,例如一个人背对着你说话相比正对着你说话声音会显得比较“闷”,因为背对着你说话时声音需要绕过身体这个障碍,不同频率的声波绕过障碍物时的能量衰减程度不同。声网 3D 空间音效还提供音源朝向功能,通过声学建模的方式可以模拟任意角度的音源方向带来的音色差异,最终通过模拟不同音源的位置与朝向,实现音量、音色的差异,从而美好模拟现实听觉的感受。

此外,人在真实环境中对上下、前后这两个方向的感知是比较模糊。这是因为人的耳朵基本上是对称的,相比水平方向,在垂直方向上左右耳声音的音量、延迟基本相同就不足以用来区分方向了。所以在虚拟空间中,声网还对这些方向的听感区分做了增强,让用户在“虚拟空间”中可以拥有超越现实的听音辨位能力。

推广

特别声明:以上内容(如有图片或视频亦包括在内)均为站长传媒平台用户上传并发布,本平台仅提供信息存储服务,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任,相关信息仅供参考。站长之家将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。任何单位或个人认为本页面内容可能涉嫌侵犯其知识产权或存在不实内容时,可及时向站长之家提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明(点击查看反馈联系地址)。本网站在收到上述法律文件后,将会依法依规核实信息,沟通删除相关内容或断开相关链接。

  • 相关推荐
  • 大家在看
  • 分成最高87%,单公会40万现金奖励!B站语聊房政策重磅升级

    语音直播赛道的风越吹越猛。近日,新播场了解到,B站上线了最新的语音聊天室政策,向语音公会释放了众多利好信号:给分成激励,保底分成70%,最高分成87%;给现金奖励,公会单月最高能拿到40多万;给流量扶持,聊天室成为一级分区入口......据了解,B站2023年Q2的日均活跃用户达9650万,且同比增长15%,用户的社交属性浓厚,对各类内容需求大。同时,“耳朵经济”早前已经在

  • 原来每一个风靡全AI配音 背后都有真人原型

    一位抖音博主“堂堂一个小飞”向他的妻子揭示了一个令人惊讶的事实:emo圈视频中经常听到的AI人声其实是由他创造的。他引用了一句经典的emo圈语录:“我说怎么走散了,原来是起风了,可惜那天没控制住情绪,说了不中听的话,你也没再迁就我,我们也就分道扬镳了。就像“注意看,这个男人叫小帅”的声源来自于声优kinsen,最初以“云希”的名字应用于微软MicrosoftAzure的�

  • 首个 AI增强社交络来了!BeFake让「虚假性」发挥到极致

    一款名为“BeFake”的新应用推出,它被称为真人社交应用“BeReal”的“反面教材”。BeReal去年风靡AppStore,它要求用户在随机时间拍摄自拍和环境照,展示真实生活中的平凡一刻。但它的诞生确实反映出,社交平台上的“比阔气、比萌照”已经成为许多用户的默认选项。

  • 易丁磊:AI或将成为音乐行业标配 提升音乐生产效率

    网易公司CEO丁磊在2023中国数字音乐产业大会上分享了他对中国数字音乐产业未来发展的思考和建议。在下一个十年,中国数字音乐产业要建立更公平、合理的分配规则,让版权的价值回归音乐本身,让红利交还给音乐人。丁磊介绍了网易云音乐在AI音乐领域的前沿布局,并表示网易云音乐将推动这些技术工具的发展,来激发产业灵感,服务产业创作需要。

  • 5G再升级!网速提升10倍

    我国已建成全球最大5G网络,5G用户数及基站数量都远超全球其他国家之和。预计2024年开始会进入5.5G阶段,这是5G技术的演进版。同时在时延、定位、可靠性方面也有了十倍的提升,并且能实现毫秒级时延和低成本千亿物联。

  • 无门把手搭配车外语音 8倍算力的8295座舱能力解析

    9月19日,极越01首批量产下线,并正式面向用户开启预订,预售价25.99万起。根据官方信息,用户下订成功可获得10倍定金膨胀,邀请好友更可享受价值5000元的限时邀请奖励。相信实车体验也很快能约起来了,期待智能体验的“头号玩家”们可以重点关注一下。

  • 华为发布新一代GigaGreen Radio,助力打造极致性能的绿色5G精品

    [阿联酋,迪拜,2023年10月11日]在MBBF2023期间,华为携手产业伙伴成功举办“5G精品网”峰会并发布了新一代GigaGreenRadio系列产品与解决方案。华为全球运营商Marketing与解决方案销售部总裁刘康出席并表示,“5G商用四年,从已经兑现商业价值的运营商实践可以看出,持续商业成功的底层逻辑依旧是用户体验,体验的基础是具备多维能力和多元化场景支撑的网络。GigaGreen在大幅提升性能和覆盖的基础上,进一步实现新频部署不增能耗,不改站点配套,提升网络投资效率,加速运营商全频段向5G/5G-A演进,打造多维能力具优的5G精品网。

  • 全球流量Top50的“AI站”出炉:C端用户都愿意用AI干什么?

    AI这一波热潮,我们接触到更多的其实是面向B端的应用,例如废料处理、例如医疗、甚至养殖产业,都有创业者做效率的提升。面向C端的应用落地,却始终局限在几个方向上。未来还有没有新的玩家入局,又会用怎样的方式在什么领域切入市场呢?我们会持续关注。

  • 亚运总导演生活号独家剧透:“数字火炬人”明晚返场并送出礼物

    明晚8点,杭州第19届亚运会闭幕式即将举行。10月7日上午9点,亚运闭幕式总导演沙晓岚通过支付宝生活号独家剧透闭幕式亮点,并迅速登上热门榜单。由杭州亚组委首创、官方合作伙伴支付宝提供技术支持的“数字火炬手”活动,因参与总人数突破1亿人,在9月15日创造了新的吉尼斯世界纪录,成为史上参与人数最多的线上大型体育推广活动。

  • 声网RTE2023教育分论坛报名开启:如何寻找教育行业下一个“确定性”?

    在政策、经济、产业周期等因素的共同催化下,教育行业的资本市场投融资降温。据Crunchbase统计,截至8月,今年全球还没有一家教育科技公司的风险投资融资额达到或超过1亿美元。随着实时音视频渗透各个行业,以RTC技术为支撑的实时互联网场景、产品在全球各地万象涌现,在这样的背景下,2020年RTC大会更名为RTE大会。

今日大家都在搜的词: